vLLM-MLX trên Apple Silicon GPU

Nội dung

    Xây dựng vLLM-MLX – một framework sử dụng MLX của Apple để tăng tốc GPU native.

    Chức năng:

    • API tương thích OpenAI (thay thế trực tiếp cho mã hiện có của bạn)
    • Hỗ trợ đa phương thức: Văn bản, Hình ảnh, Video, Âm thanh – tất cả trong một máy chủ
    • Lô liên tục cho người dùng đồng thời (tăng tốc 3.4 lần)
    • TTS trong hơn 10 ngôn ngữ (mô hình Kokoro, Chatterbox)
    • Hỗ trợ gọi công cụ MCP

    Hiệu suất trên M4 Max:

    • Llama-3.2-1B-4bit → 464 tok/s
    • Qwen3-0.6B → 402 tok/s
    • Whisper STT → 197x thời gian thực

    Làm việc với OpenAI Python SDK tiêu chuẩn – chỉ cần trỏ đến localhost.

    GitHub: //github.com/waybarrios/vllm-mlx

    Các tính năng:

    • Đa phương thức – Văn bản, Hình ảnh, Video & Âm thanh trong một nền tảng
    • Tăng tốc GPU native trên Apple Silicon (M1, M2, M3, M4)
    • Giọng TTS native – Tiếng Tây Ban Nha, Pháp, Trung Quốc, Nhật Bản + 5 ngôn ngữ khác
    • Tương thích API OpenAI – thay thế trực tiếp cho khách hàng OpenAI
    • API Tin nhắn Anthropic – endpoint /v1/messages native cho Claude Code và OpenCode
    • Nhúng – endpoint /v1/embeddings tương thích OpenAI với mlx-embeddings
    • Mô hình suy nghĩ – trích xuất quá trình suy nghĩ từ Qwen3, DeepSeek-R1
    • Hỗ trợ gọi công cụ MCP – tích hợp công cụ bên ngoài qua Giao thức ngữ cảnh mô hình
    • Bộ nhớ đệm Paged KV – bộ nhớ đệm hiệu quả với chia sẻ tiền tố
    • Lô liên tục – thông lượng cao cho nhiều người dùng đồng thời.

    Để lại một bình luận

    Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

    Chat with us
    Hello! How can I help you today?