Danh Sách API LLM Miễn Phí

Nội dung

    Trong thế giới số phát triển nhanh chóng, trí tuệ nhân tạo (AI) là yếu tố sống còn. Các doanh nghiệp có thể cải thiện quan hệ khách hàng, tối ưu hóa quy trình và thúc đẩy đổi mới nhờ mô hình ngôn ngữ lớn (LLM). API LLM là chìa khóa để tích hợp khả năng AI tiên tiến vào ứng dụng mà không cần nhiều tiền bạc hoặc kinh nghiệm.

    Bạn có thể sử dụng Xử lý Ngôn ngữ Tự nhiên (NLP) và khả năng hiểu mà không cần tạo mô hình phức tạp từ đầu. API đóng vai trò trung gian giữa phần mềm của bạn và lĩnh vực AI đầy thách thức.

    Danh sách miễn phí hoặc tín dụng cho việc sử dụng LLM dựa trên API.

    API cung cấp tài nguyên cần thiết để thành công trong phát triển AI, dù bạn muốn tạo trợ lý mã hóa thông minh hay cải thiện chatbot dịch vụ khách hàng.

    Hiểu về API LLM

    API LLM hoạt động theo mô hình yêu cầu-phản hồi đơn giản:

    1. Gửi yêu cầu: Ứng dụng của bạn gửi yêu cầu đến API, định dạng JSON, chứa biến thể mô hình, lời nhắc và tham số.
    2. Xử lý: API chuyển tiếp yêu cầu này đến LLM, xử lý bằng khả năng NLP của nó.
    3. Phản hồi: LLM tạo phản hồi, API gửi lại cho ứng dụng của bạn.

    Giá cả và Mã thông báo (Tokens)

    • Mã thông báo: Trong LLM, mã thông báo là đơn vị văn bản nhỏ nhất mà mô hình xử lý.
    • Giá thường dựa trên số lượng mã thông báo đã sử dụng, với các khoản phí riêng cho mã thông báo đầu vào và đầu ra.
    • Quản lý chi phí: Hầu hết các nhà cung cấp đều cung cấp giá trả tiền theo mức sử dụng, cho phép doanh nghiệp quản lý chi phí hiệu quả dựa trên mô hình sử dụng của họ.

    Sử dụng các mô hình tiên tiến — cơ sở hạ tầng đã được dân chủ hóa đến mức có thể nhận được 3-4 triệu token miễn phí mỗi ngày bằng cách kết hợp các gói miễn phí.

    Những khuyến nghị thực tiễn ban đầu:

    • Phát triển địa phương→ Ollama vớiqwen3:4bhoặcgemma4:e4b
    • Suy luận đám mây miễn phí→ OpenRouter (đa dạng) hoặc Groq (tốc độ)
    • Dung lượng trống tối đa→ Kết hợp Cerebras + Groq + Google AI Studio
    • Chuyên gia lĩnh vực→ NVIDIA NIM (91 mô hình miễn phí, sinh học/hóa học/an toàn)
    • Sản xuất→ Đánh giá cùng nhau AI hoặc nhà cung cấp chuyên dụng dựa trên yêu cầu về độ trễ và chi phí

    Điểm mấu chốt kết nối tất cả những điều này lại với nhau: mọi nền tảng trong danh sách này đều cung cấp API tương thích với OpenAI. Viết mã một lần, trỏ nó đến Ollama trong quá trình phát triển và chuyển sang bất kỳ nhà cung cấp dịch vụ đám mây nào trong môi trường sản xuất bằng cách thay đổi hai biến môi trường.

    API miễn phí cho tài nguyên LLM

    Dưới đây là danh sách toàn diện các nhà cung cấp API LLM miễn phí, cùng với mô tả, ưu điểm, giá cả và giới hạn mã thông báo của họ:

    Cloudflare Workers AI — Suy luận tại biên

    developers.cloudflare.com/workers-ai| Gói miễn phí: 10.000 “nơron”/ngày

    Cloudflare thực hiện suy luận trên mạng biên của họ — hơn 300 địa điểm trên toàn cầu. Quá trình suy luận diễn ra trên máy chủ gần người dùng nhất. Không bao giờ có khởi động nguội.

    Điểm mạnh:

    • Không có độ trễ khởi động nguội — các mô hình luôn sẵn sàng.
    • Độ trễ thực sự thấp ở rìa mạng
    • Tích hợp nguyên bản với Cloudflare Workers, Pages, R2
    • Hỗ trợ tạo văn bản, dịch thuật, chuyển giọng nói thành văn bản.

    Phù hợp nhất cho:Các ứng dụng mà độ trễ trải nghiệm người dùng là yếu tố quan trọng, các nhóm đã sử dụng hệ sinh thái Cloudflare, các trường hợp sử dụng AI tại biên như dịch thuật và phân loại.

    API huggingface — Hệ sinh thái mô hình

    huggingface.co| Gói miễn phí + Gói Pro với giá 9 đô la/tháng

    Hugging Face giống như GitHub dành cho các mô hình AI — với hơn 500.000 mô hình có sẵn. API suy luận cho phép bạn gọi bất kỳ mô hình nào trong số đó thông qua HTTP.

    Điểm mạnh:

    • Tiếp cận các mô hình được tinh chỉnh cho các nhiệm vụ chuyên biệt cao mà không tồn tại ở bất kỳ nơi nào khác.
    • Suy luận phi máy chủ với khả năng tự động mở rộng quy mô
    • Các điểm cuối chuyên dụng để triển khai sản xuất với SLA
    • Lựa chọn tốt nhất khi bạn cần thứ gì đó không có trong danh mục sản phẩm thông thường.

    Phù hợp nhất cho:Nghiên cứu, các mô hình chuyên biệt được tinh chỉnh, triển khai các mô hình không có sẵn trên các nền tảng khác.

    OpenRouter

    openrouter.ai| Gói miễn phí (hơn 30 mẫu miễn phí) + trả phí theo mức sử dụng

    OpenRouter là cổng AI phổ biến nhất — chỉ với một khóa API duy nhất, bạn có thể truy cập hơn 300 mô hình từ hơn 50 nhà cung cấp. GPT-4o, Claude Sonnet, Llama 4, DeepSeek R1, Qwen3, Gemma 4 — tất cả đều có thể truy cập từ cùng một điểm cuối. Việc chuyển đổi giữa các mô hình chỉ cần thay đổi một chuỗi ký tự.

    Các mô hình miễn phí trên OpenRouter (tháng 4 năm 2026):

      • DeepSeek R1 — lập luận chặt chẽ, chuỗi suy luận logic
      • Llama 3.3 70B — Meta, vật liệu rắn đa dụng
      • Qwen3 235B — Mẫu điện thoại lớn nhất của Alibaba, miễn phí
      • Gemma 4 27B — Google DeepMind, đa phương thức
      • Mistral Small — Lựa chọn thay thế của châu Âu
      • Hơn 25 mẫu miễn phí bổ sung

    Giới hạn tốc độ: ~20 vòng/phút cho mỗi mô hình miễn phí. Đủ cho quy trình phát triển.

    Điểm mạnh:

    • Một khóa API duy nhất cho tất cả mọi thứ — GPT-4o, Claude, Llama, tất cả đều vậy.
    • Gói miễn phí bao gồm các mẫu máy thực sự mạnh mẽ (không chỉ là những mẫu nhỏ gọn).
    • Định tuyến dự phòng tự động khi nhà cung cấp gặp sự cố.
    • Ghi nhật ký chi phí theo từng yêu cầu theo thời gian thực
    • Đa dạng mô hình để đánh giá và thử nghiệm A/B

    Hạn chế:

    • Độ tin cậy của gói miễn phí không ổn định — thường xuyên xảy ra lỗi hết thời gian chờ.
    • Phí nền tảng 5% trên gói trả phí, cộng thêm phí của nhà cung cấp.
    • Định tuyến của nhà cung cấp không phải lúc nào cũng minh bạch.
    • Cùng một mẫu sản phẩm có thể có giá cao hơn từ 3 đến 7 lần tùy thuộc vào nhà cung cấp mà OpenRouter định tuyến đến.

    Google AI Studio

    Google AI Studio là một nền tảng mạnh mẽ để thử nghiệm mô hình AI, cung cấp giới hạn lớn cho các nhà phát triển. Nó cho phép tối đa 1.000.000 mã thông báo mỗi phút và 1.500 yêu cầu mỗi ngày.Một số mô hình có sẵn bao gồm:

    • Gemini 2.0 Flash
    • Gemini 1.5 Flash

    Tất cả các mô hình có sẵn: Link

    Tài liệu: Link

    Ưu điểm

    • Truy cập vào các mô hình mạnh mẽ.
    • Giới hạn mã thông báo cao.

    Giá cả: Có gói miễn phí.

    Ví dụ mã

    from google import genai
    client = genai.Client(api_key="YOUR_API_KEY")
    response = client.models.generate_content(
    model="gemini-2.0-flash",
    contents="Explain how AI works",
    )
    print(response.text)

    Mistral (La Plateforme)

    Mistral cung cấp nhiều mô hình cho các ứng dụng khác nhau, tập trung vào hiệu suất cao. Nền tảng cho phép 1 yêu cầu mỗi giây và 500.000 mã thông báo mỗi phút.Một số mô hình có sẵn bao gồm:

    • mistral-large-2402
    • mistral-8b-latest

    Tất cả các mô hình có sẵn: Link

    Tài liệu: Link

    Ưu điểm

    • Giới hạn yêu cầu cao.
    • Tập trung vào thử nghiệm.

    Giá cả: Có gói miễn phí.

    Ví dụ mã

    import os
    from mistralai import Mistral
    api_key = os.environ["MISTRAL_API_KEY"] model = "mistral-large-latest"
    client = Mistral(api_key=api_key)
    chat_response = client.chat.complete(
    model= model,
    messages = [
    {
    "role": "user",
    "Content": "What is the best French cheese?",
    },
    ] )
    print(chat_response.choices[0].message.content)

    HuggingFace Serverless Inference

    HuggingFace cung cấp một nền tảng để triển khai và sử dụng các mô hình mở khác nhau. Nó bị giới hạn ở các mô hình nhỏ hơn 10GB và cung cấp các khoản tín dụng khác nhau mỗi tháng.Một số mô hình có sẵn bao gồm:

    • GPT-3
    • DistilBERT

    Tất cả các mô hình có sẵn: Link

    Tài liệu: Link

    Ưu điểm

    • Phạm vi mô hình rộng.
    • Dễ dàng tích hợp.

    Giá cả: Các khoản tín dụng khác nhau mỗi tháng.

    Ví dụ mã

    from huggingface_hub import InferenceClient
    client = InferenceClient(
    provider="hf-inference",
    api_key="hf_xxxxxxxxxxxxxxxxxxxxxxxx"

    )
    messages = [
    {
    “role”: “user”,
    “content”: “What is the capital of Germany?”
    }
    ] completion = client.chat.completions.create(
    model=”meta-llama/Meta-Llama-3-8B-Instruct”,
    messages=messages,
    max_tokens=500,
    )
    print(completion.choices[0].message)

    Cerebras

    inference.cerebras.ai | Miễn phí 1 triệu token/ngày

    Cerebras sử dụng Wafer-Scale Engine (WSE) — một chip duy nhất lớn hơn một tấm bán dẫn tiêu chuẩn. Kết quả là đạt được thông lượng xử lý hàng loạt cao nhất so với bất kỳ nền tảng nào khác.

    Miễn phí 1 triệu token mỗi ngày — dung lượng thô hào phóng nhất trong tất cả các gói miễn phí.
    Thông lượng khoảng 60.000 token/phút
    Truy cập vào Qwen3 235B (một trong những mô hình lớn nhất hiện có miễn phí).
    Phù hợp nhất cho: xử lý hàng loạt, đường dẫn dữ liệu, tạo dữ liệu tổng hợp

    Tất cả các mô hình có sẵn: Link

    Tài liệu: Link

    Ưu điểm

    • Giới hạn yêu cầu cao.
    • Các mô hình mạnh mẽ.

    Giá cả: Có gói miễn phí, hãy tham gia danh sách chờ

    Ví dụ mã

    import os
    from cerebras.cloud.sdk import Cerebras
    client = Cerebras(
    api_key=os.environ.get("CEREBRAS_API_KEY"),
    )
    chat_completion = client.chat.completions.create(
    messages=[
    {"role": "user", "content": "Why is fast inference important?",}
    ],
    model="llama3.1-8b",
    )

    SambaNova

    sambanova.ai | Có gói miễn phí

    Tốc độ suy luận gần bằng Groq (294 so với 315 token/giây)
    Quyền truy cập vào DeepSeek R1, tính năng mà Groq không cung cấp miễn phí.
    Phù hợp nhất cho: các tác vụ đòi hỏi nhiều suy luận logic, các nhà phát triển cần DeepSeek R1 mà không cần trả phí.

    Cerebras: 1 triệu token/ngày — xử lý theo lô, Qwen3 235 tỷ
    Groq: ~1 triệu token/ngày — thời gian thực, Llama 3.3 70 tỷ
    Google AI Studio: 1.500 yêu cầu/ngày — đa phương thức, Gemini Flash
    NVIDIA NIM: 91 mô hình miễn phí — chuyên gia lĩnh vực, nhúng
    ────────────────────────────────────────────────────────────
    Tổng cộng: 3–4 triệu token miễn phí mỗi ngày

    Hệ thống xoay vòng nhà cung cấp với tính năng dự phòng tự động.

    Groq

    Groq cung cấp nhiều mô hình cho các ứng dụng khác nhau, cho phép 1.000 yêu cầu mỗi ngày và 6.000 mã thông báo mỗi phút.Một số mô hình có sẵn bao gồm:

    • Llama 3.1 8B:840 token/giây
    • Llama 4 Scout:594 token/giây
    • Llama 3.3 70B:315 token/giây

    Tất cả các mô hình có sẵn: Link

    Tài liệu: Link

    Ưu điểm

    • Giới hạn yêu cầu cao.
    • Các tùy chọn mô hình đa dạng.

    Giá cả: Có gói miễn phí.

    Ví dụ mã

    import os
    from groq import Groq
    client = Groq(
    api_key=os.environ.get("GROQ_API_KEY"),
    )
    chat_completion = client.chat.completions.create(
    messages=[
    {
    "role": "user",
    "content": "Explain the importance of fast language models",
    }
    ],
    model="llama-3.3-70b-versatile",
    )
    print(chat_completion.choices[0].message.content)

    NVIDIA NIM

    build.nvidia.com/models | Gói miễn phí (91 mẫu) + Gói doanh nghiệp

    NVIDIA NIM (NVIDIA Inference Microservices) là nền tảng nổi bật nhất trong danh sách này. Ngoài các mô hình LLM đa năng, NIM còn cung cấp các mô hình chuyên biệt cho các lĩnh vực khoa học và kỹ thuật cụ thể mà không có ở bất kỳ nơi nào khác.

    Các danh mục mô hình trên NVIDIA NIM:

    Các mô hình ngôn ngữ — Llama 4, Nemotron (của NVIDIA), Mistral, Qwen3
    Mô hình thị giác — hiểu biết về hình ảnh và video
    Sinh học & Hóa học — phát hiện thuốc, dự đoán cấu trúc protein
    Mô hình an toàn — Rào chắn NeMo cho sự an toàn và sự phù hợp của AI
    Mô hình nhúng — NV-EmbedQA, mô hình tối ưu hóa truy xuất
    Giọng nói — chuyển văn bản thành giọng nói và nhận dạng giọng nói
    Tất cả 91 mẫu thiết bị đầu cuối miễn phí đều chạy trên phần cứng NVIDIA A100/H100 — khả năng suy luận cấp doanh nghiệp mà không cần trả giá cao như doanh nghiệp.

    Điểm mạnh:

    Phạm vi bao phủ danh mục mô hình rộng nhất so với bất kỳ nền tảng nào khác.
    Các mô hình chuyên biệt theo lĩnh vực không có sẵn ở nơi khác
    Các mô hình nhúng chất lượng cao, miễn phí
    Các mô hình Nemotron riêng của NVIDIA (dung lượng mở, Giấy phép mở NVIDIA)
    API tương thích với OpenAI
    Hạn chế:

    Gói miễn phí có giới hạn số lượt truy cập nghiêm ngặt hơn so với Groq hoặc Cerebras.
    Một số mô hình yêu cầu sự chấp thuận của doanh nghiệp.
    Giao diện người dùng phức tạp hơn đối với các nhà phát triển cá nhân.
    Được tối ưu hóa rõ ràng cho quy trình làm việc của doanh nghiệp.

    Scaleway Generative

    Scaleway cung cấp nhiều mô hình tạo miễn phí, với 100 yêu cầu mỗi phút và 200.000 mã thông báo mỗi phút.Một số mô hình có sẵn bao gồm:

    • BGE-Multilingual-Gemma2
    • Llama 3.1 70B Instruct

    Tất cả các mô hình có sẵn: Link

    Tài liệu: Link

    Ưu điểm

    • Giới hạn yêu cầu lớn.
    • Đa dạng các mô hình.

    Giá cả: Bản beta miễn phí đến tháng 3 năm 2025.

    Ví dụ mã

    from openai import OpenAI

    # Initialize the client with your base URL and API key
    client = OpenAI(
    base_url=”//api.scaleway.ai/v1″,
    api_key=”<SCW_API_KEY>”
    )
    # Create a chat completion for Llama 3.1 8b instruct
    completion = client.chat.completions.create(
    model=”llama-3.1-8b-instruct”,
    messages=[{“role”: “user”, “content”: “Describe a futuristic city with advanced technology and green energy solutions.”}],
    temperature=0.7,
    max_tokens=100
    )
    # Output the result
    print(completion.choices[0].message.content)

    OVH AI Endpoints

    OVH cung cấp quyền truy cập miễn phí vào các mô hình AI khác nhau, cho phép 12 yêu cầu mỗi phút.Một số mô hình có sẵn bao gồm:

    • CodeLlama 13B Instruct
    • Llama 3.1 70B Instruct

    Tài liệu và tất cả các mô hình có sẵn://endpoints.ai.cloud.ovh.net/

    Ưu điểm

    • Dễ sử dụng.
    • Đa dạng các mô hình.

    Giá cả: Có bản beta miễn phí.

    Ví dụ mã

    import os
    from openai import OpenAI
    client = OpenAI(
    base_url='//llama-2-13b-chat-hf.endpoints.kepler.ai.cloud.ovh.net/api/openai_compat/v1',
    api_key=os.getenv("OVH_AI_ENDPOINTS_ACCESS_TOKEN")
    )
    def chat_completion(new_message: str) -> str:
    history_openai_format = [{"role": "user", "content": new_message}] return client.chat.completions.create(
    model="Llama-2-13b-chat-hf",
    messages=history_openai_format,
    temperature=0,
    max_tokens=1024
    ).choices.pop().message.content
    if __name__ == '__main__':
    print(chat_completion("Write a story in the style of James Joyce. The story should be about a trip to the Irish countryside in 2083, to see the beautiful scenery and robots.d"))

    Together

    Together là một nền tảng cộng tác để truy cập các LLM khác nhau, không có giới hạn cụ thể nào được đề cập.Một số mô hình có sẵn bao gồm:

    • Llama 3.2 11B Vision Instruct
    • DeepSeek R1 Distil Llama 70B

    Tất cả các mô hình có sẵn: Link

    Tài liệu: Link

    Ưu điểm

    • Truy cập vào một loạt các mô hình.
    • Môi trường cộng tác.

    Giá cả: Có gói miễn phí.

    Ví dụ mã

    from together import Together
    client = Together()
    stream = client.chat.completions.create(
    model="meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo",
    messages=[{"role": "user", "content": "What are the top 3 things to do in New York?"}],
    stream=True,
    )
    for chunk in stream:
    print(chunk.choices[0].delta.content or "", end="", flush=True)

    Cohere

    Cohere cung cấp quyền truy cập vào các mô hình ngôn ngữ mạnh mẽ cho các ứng dụng khác nhau, cho phép 20 yêu cầu mỗi phút và 1.000 yêu cầu mỗi tháng.Một số mô hình có sẵn bao gồm:

    • Command-R
    • Command-R+

    Tất cả các mô hình có sẵn: Link

    Tài liệu: Link

    Ưu điểm

    • Dễ sử dụng.
    • Tập trung vào các tác vụ NLP.

    Giá cả: Có gói miễn phí.

    Ví dụ mã

    import cohere
    co = cohere.ClientV2("<<apiKey>>")
    response = co.chat(
    model="command-r-plus",
    messages=[{"role": "user", "content": "hello world!"}] )
    print(response)

    GitHub Models

    GitHub cung cấp một bộ sưu tập các mô hình AI khác nhau, với giới hạn tốc độ phụ thuộc vào cấp đăng ký.Một số mô hình có sẵn bao gồm:

    • AI21 Jamba 1.5 Large
    • Cohere Command R

    Tài liệu và tất cả các mô hình có sẵn: Link

    Ưu điểm

    • Truy cập vào nhiều mẫu mã khác nhau.
    • Tích hợp với GitHub.

    Giá cả: Miễn phí khi có tài khoản GitHub.

    Ví dụ mã

    import os
    from openai import OpenAI
    token = os.environ["GITHUB_TOKEN"] endpoint = "//models.inference.ai.azure.com"
    model_name = "gpt-4o"
    client = OpenAI(
    base_url=endpoint,
    api_key=token,
    )
    response = client.chat.completions.create(
    messages=[
    {
    "role": "system",
    "content": "You are a helpful assistant.",
    },
    {
    "role": "user",
    "content": "What is the capital of France?",
    }
    ],
    temperature=1.0,
    top_p=1.0,
    max_tokens=1000,
    model=model_name
    )
    print(response.choices[0].message.content)

    Fireworks AI

    Fireworks cung cấp nhiều mô hình AI mạnh mẽ khác nhau, với khả năng suy luận không cần máy chủ lên tới 6.000 vòng/phút, 2,5 tỷ mã thông báo/ngàyMột số mẫu có sẵn bao gồm:

    • Llama-v3p1-405b-hướng dẫn.
    • deepseek-r1

    Tất cả các mô hình có sẵn: Link

    Tài liệu: Link

    Thuận lợi

    • Tùy chỉnh tiết kiệm chi phí
    • Suy luận nhanh.

    Giá cả: Tín dụng miễn phí có giá 1 đô la.

    Mã ví dụ

    from fireworks.client import Fireworks
    client = Fireworks(api_key="<FIREWORKS_API_KEY>")
    response = client.chat.completions.create(
    model="accounts/fireworks/models/llama-v3p1-8b-instruct",
    messages=[{
    "role": "user",
    "content": "Say this is a test",
    }],
    )
    print(response.choices[0].message.content)

    Lợi ích của việc sử dụng API miễn phí

    Sau đây là một số lợi ích khi sử dụng API miễn phí:

    1. Khả năng tiếp cận: Không cần chuyên môn sâu về AI hoặc đầu tư vào cơ sở hạ tầng.
    2. Tùy chỉnh: Tinh chỉnh các mô hình cho các nhiệm vụ hoặc miền cụ thể.
    3. Khả năng mở rộng: Xử lý khối lượng lớn yêu cầu khi doanh nghiệp của bạn phát triển.

    Mẹo sử dụng hiệu quả API miễn phí

    Sau đây là một số mẹo để sử dụng hiệu quả các API miễn phí, giải quyết những thiếu sót và hạn chế của chúng:

    1. Chọn mô hình phù hợp: Bắt đầu với các mô hình đơn giản hơn cho các tác vụ cơ bản và mở rộng khi cần thiết.
    2. Theo dõi mức sử dụng: Sử dụng bảng thông tin để theo dõi mức tiêu thụ mã thông báo và đặt giới hạn chi tiêu.
    3. Tối ưu hóa mã thông báo: Tạo lời nhắc ngắn gọn để giảm thiểu việc sử dụng mã thông báo nhưng vẫn đạt được kết quả mong muốn.

    Phần kết luận

    Với sự sẵn có của các API miễn phí này, các nhà phát triển và doanh nghiệp có thể dễ dàng tích hợp các khả năng AI tiên tiến vào ứng dụng của họ mà không cần chi phí trả trước đáng kể. Bằng cách tận dụng các tài nguyên này, bạn có thể nâng cao trải nghiệm người dùng, tự động hóa tác vụ và thúc đẩy đổi mới trong các dự án của mình. Hãy bắt đầu khám phá các API này ngay hôm nay và khai phá tiềm năng của AI trong ứng dụng của bạn.

    Để lại một bình luận

    Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

    Chat with us
    Hello! How can I help you today?