Small ERP

vLLM-MLX trên Apple Silicon GPU

Nội dung

Xây dựng vLLM-MLX – một framework sử dụng MLX của Apple để tăng tốc GPU native.

Chức năng:

API tương thích OpenAI (thay thế trực tiếp cho mã hiện có của bạn)
Hỗ trợ đa phương thức: Văn bản, Hình ảnh, Video, Âm thanh – tất cả trong một máy chủ
Lô liên tục cho người dùng đồng thời (tăng tốc 3.4 lần)
TTS trong hơn 10 ngôn ngữ (mô hình Kokoro, Chatterbox)
Hỗ trợ gọi công cụ MCP

Hiệu suất trên M4 Max:

Llama-3.2-1B-4bit → 464 tok/s
Qwen3-0.6B → 402 tok/s
Whisper STT → 197x thời gian thực

Làm việc với OpenAI Python SDK tiêu chuẩn – chỉ cần trỏ đến localhost.

GitHub: //github.com/waybarrios/vllm-mlx

Các tính năng:

Đa phương thức – Văn bản, Hình ảnh, Video & Âm thanh trong một nền tảng
Tăng tốc GPU native trên Apple Silicon (M1, M2, M3, M4)
Giọng TTS native – Tiếng Tây Ban Nha, Pháp, Trung Quốc, Nhật Bản + 5 ngôn ngữ khác
Tương thích API OpenAI – thay thế trực tiếp cho khách hàng OpenAI
API Tin nhắn Anthropic – endpoint /v1/messages native cho Claude Code và OpenCode
Nhúng – endpoint /v1/embeddings tương thích OpenAI với mlx-embeddings
Mô hình suy nghĩ – trích xuất quá trình suy nghĩ từ Qwen3, DeepSeek-R1
Hỗ trợ gọi công cụ MCP – tích hợp công cụ bên ngoài qua Giao thức ngữ cảnh mô hình
Bộ nhớ đệm Paged KV – bộ nhớ đệm hiệu quả với chia sẻ tiền tố
Lô liên tục – thông lượng cao cho nhiều người dùng đồng thời.

Bài viết liên quan:

Để lại một bình luận Hủy