Nội dung
Xây dựng vLLM-MLX – một framework sử dụng MLX của Apple để tăng tốc GPU native.
Chức năng:
- API tương thích OpenAI (thay thế trực tiếp cho mã hiện có của bạn)
- Hỗ trợ đa phương thức: Văn bản, Hình ảnh, Video, Âm thanh – tất cả trong một máy chủ
- Lô liên tục cho người dùng đồng thời (tăng tốc 3.4 lần)
- TTS trong hơn 10 ngôn ngữ (mô hình Kokoro, Chatterbox)
- Hỗ trợ gọi công cụ MCP
Hiệu suất trên M4 Max:
- Llama-3.2-1B-4bit → 464 tok/s
- Qwen3-0.6B → 402 tok/s
- Whisper STT → 197x thời gian thực
Làm việc với OpenAI Python SDK tiêu chuẩn – chỉ cần trỏ đến localhost.
GitHub: //github.com/waybarrios/vllm-mlx
Các tính năng:
- Đa phương thức – Văn bản, Hình ảnh, Video & Âm thanh trong một nền tảng
- Tăng tốc GPU native trên Apple Silicon (M1, M2, M3, M4)
- Giọng TTS native – Tiếng Tây Ban Nha, Pháp, Trung Quốc, Nhật Bản + 5 ngôn ngữ khác
- Tương thích API OpenAI – thay thế trực tiếp cho khách hàng OpenAI
- API Tin nhắn Anthropic – endpoint /v1/messages native cho Claude Code và OpenCode
- Nhúng – endpoint /v1/embeddings tương thích OpenAI với mlx-embeddings
- Mô hình suy nghĩ – trích xuất quá trình suy nghĩ từ Qwen3, DeepSeek-R1
- Hỗ trợ gọi công cụ MCP – tích hợp công cụ bên ngoài qua Giao thức ngữ cảnh mô hình
- Bộ nhớ đệm Paged KV – bộ nhớ đệm hiệu quả với chia sẻ tiền tố
- Lô liên tục – thông lượng cao cho nhiều người dùng đồng thời.

Bài viết liên quan: