Danh Sách API LLM Miễn Phí

Nội dung

    Trong thế giới số phát triển nhanh chóng, trí tuệ nhân tạo (AI) là yếu tố sống còn. Các doanh nghiệp có thể cải thiện quan hệ khách hàng, tối ưu hóa quy trình và thúc đẩy đổi mới nhờ mô hình ngôn ngữ lớn (LLM). API LLM là chìa khóa để tích hợp khả năng AI tiên tiến vào ứng dụng mà không cần nhiều tiền bạc hoặc kinh nghiệm.

    Bạn có thể sử dụng Xử lý Ngôn ngữ Tự nhiên (NLP) và khả năng hiểu mà không cần tạo mô hình phức tạp từ đầu. API đóng vai trò trung gian giữa phần mềm của bạn và lĩnh vực AI đầy thách thức.

    API cung cấp tài nguyên cần thiết để thành công trong phát triển AI, dù bạn muốn tạo trợ lý mã hóa thông minh hay cải thiện chatbot dịch vụ khách hàng.

    Hiểu về API LLM

    API LLM hoạt động theo mô hình yêu cầu-phản hồi đơn giản:

    1. Gửi yêu cầu: Ứng dụng của bạn gửi yêu cầu đến API, định dạng JSON, chứa biến thể mô hình, lời nhắc và tham số.
    2. Xử lý: API chuyển tiếp yêu cầu này đến LLM, xử lý bằng khả năng NLP của nó.
    3. Phản hồi: LLM tạo phản hồi, API gửi lại cho ứng dụng của bạn.

    Giá cả và Mã thông báo (Tokens)

    • Mã thông báo: Trong LLM, mã thông báo là đơn vị văn bản nhỏ nhất mà mô hình xử lý.
    • Giá thường dựa trên số lượng mã thông báo đã sử dụng, với các khoản phí riêng cho mã thông báo đầu vào và đầu ra.
    • Quản lý chi phí: Hầu hết các nhà cung cấp đều cung cấp giá trả tiền theo mức sử dụng, cho phép doanh nghiệp quản lý chi phí hiệu quả dựa trên mô hình sử dụng của họ.

    API miễn phí cho tài nguyên LLM

    Dưới đây là danh sách toàn diện các nhà cung cấp API LLM miễn phí, cùng với mô tả, ưu điểm, giá cả và giới hạn mã thông báo của họ:

    OpenRouter

    OpenRouter cung cấp nhiều LLM cho các tác vụ khác nhau, là một lựa chọn linh hoạt cho các nhà phát triển. Nền tảng cho phép tối đa 20 yêu cầu mỗi phút và 200 yêu cầu mỗi ngày.Một số mô hình đáng chú ý có sẵn bao gồm:

    • DeepSeek R1
    • Llama 3.3 70B Instruct
    • Mistral 7B Instruct

    Tất cả các mô hình free có sẵn: Link

    Tài liệu:Link

    Ưu điểm

    • Giới hạn yêu cầu cao.
    • Một loạt các mô hình đa dạng.

    Giá cả: Có gói miễn phí.

    Model Name & IDInput ($/1M tokens)Output ($/1M tokens)Context (tokens)
    Tongyi DeepResearch 30B A3B (free)alibaba/tongyi-deepresearch-30b-a3b:free
    $0
    $0
    131,072
    Meituan: LongCat Flash Chat (free)meituan/longcat-flash-chat:free
    $0
    $0
    131,072
    NVIDIA: Nemotron Nano 9B V2 (free)nvidia/nemotron-nano-9b-v2:free
    $0
    $0
    128,000
    DeepSeek: DeepSeek V3.1 (free)deepseek/deepseek-chat-v3.1:free
    $0
    $0
    163,800
    OpenAI: gpt-oss-20b (free)openai/gpt-oss-20b:free
    $0
    $0
    131,072
    Z.AI: GLM 4.5 Air (free)z-ai/glm-4.5-air:free
    $0
    $0
    131,072
    Qwen: Qwen3 Coder 480B A35B (free)qwen/qwen3-coder:free
    $0
    $0
    262,144
    MoonshotAI: Kimi K2 0711 (free)moonshotai/kimi-k2:free
    $0
    $0
    32,768
    Venice: Uncensored (free)cognitivecomputations/dolphin-mistral-24b-venice-edition:free
    $0
    $0
    32,768
    Google: Gemma 3n 2B (free)google/gemma-3n-e2b-it:free
    $0
    $0
    8,192
    Tencent: Hunyuan A13B Instruct (free)tencent/hunyuan-a13b-instruct:free
    $0
    $0
    32,768
    TNG: DeepSeek R1T2 Chimera (free)tngtech/deepseek-r1t2-chimera:free
    $0
    $0
    163,840
    Mistral: Mistral Small 3.2 24B (free)mistralai/mistral-small-3.2-24b-instruct:free
    $0
    $0
    131,072
    MoonshotAI: Kimi Dev 72B (free)moonshotai/kimi-dev-72b:free
    $0
    $0
    131,072
    DeepSeek: Deepseek R1 0528 Qwen3 8B (free)deepseek/deepseek-r1-0528-qwen3-8b:free
    $0
    $0
    131,072
    DeepSeek: R1 0528 (free)deepseek/deepseek-r1-0528:free
    $0
    $0
    163,840
    Mistral: Devstral Small 2505 (free)mistralai/devstral-small-2505:free
    $0
    $0
    32,768
    Google: Gemma 3n 4B (free)google/gemma-3n-e4b-it:free
    $0
    $0
    8,192
    Meta: Llama 3.3 8B Instruct (free)meta-llama/llama-3.3-8b-instruct:free
    $0
    $0
    128,000
    Qwen: Qwen3 4B (free)qwen/qwen3-4b:free
    $0
    $0
    40,960
    Qwen: Qwen3 30B A3B (free)qwen/qwen3-30b-a3b:free
    $0
    $0
    40,960
    Qwen: Qwen3 8B (free)qwen/qwen3-8b:free
    $0
    $0
    40,960
    Qwen: Qwen3 14B (free)qwen/qwen3-14b:free
    $0
    $0
    40,960
    Qwen: Qwen3 235B A22B (free)qwen/qwen3-235b-a22b:free
    $0
    $0
    131,072
    TNG: DeepSeek R1T Chimera (free)tngtech/deepseek-r1t-chimera:free
    $0
    $0
    163,840
    Microsoft: MAI DS R1 (free)microsoft/mai-ds-r1:free
    $0
    $0
    163,840
    Shisa AI: Shisa V2 Llama 3.3 70B (free)shisa-ai/shisa-v2-llama3.3-70b:free
    $0
    $0
    32,768
    ArliAI: QwQ 32B RpR v1 (free)arliai/qwq-32b-arliai-rpr-v1:free
    $0
    $0
    32,768
    Agentica: Deepcoder 14B Preview (free)agentica-org/deepcoder-14b-preview:free
    $0
    $0
    96,000
    Meta: Llama 4 Maverick (free)meta-llama/llama-4-maverick:free
    $0
    $0
    128,000
    Meta: Llama 4 Scout (free)meta-llama/llama-4-scout:free
    $0
    $0
    128,000
    Qwen: Qwen2.5 VL 32B Instruct (free)qwen/qwen2.5-vl-32b-instruct:free
    $0
    $0
    16,384
    DeepSeek: DeepSeek V3 0324 (free)deepseek/deepseek-chat-v3-0324:free
    $0
    $0
    163,840
    Mistral: Mistral Small 3.1 24B (free)mistralai/mistral-small-3.1-24b-instruct:free
    $0
    $0
    128,000
    Google: Gemma 3 4B (free)google/gemma-3-4b-it:free
    $0
    $0
    32,768
    Google: Gemma 3 12B (free)google/gemma-3-12b-it:free
    $0
    $0
    32,768
    Google: Gemma 3 27B (free)google/gemma-3-27b-it:free
    $0
    $0
    96,000
    Nous: DeepHermes 3 Llama 3 8B Preview (free)nousresearch/deephermes-3-llama-3-8b-preview:free
    $0
    $0
    131,072
    Dolphin3.0 Mistral 24B (free)cognitivecomputations/dolphin3.0-mistral-24b:free
    $0
    $0
    32,768
    Qwen: Qwen2.5 VL 72B Instruct (free)qwen/qwen2.5-vl-72b-instruct:free

    $0

    100% off

    $0

    100% off
    131,072
    Mistral: Mistral Small 3 (free)mistralai/mistral-small-24b-instruct-2501:free
    $0
    $0
    32,768
    DeepSeek: R1 Distill Llama 70B (free)deepseek/deepseek-r1-distill-llama-70b:free

    $0

    100% off

    $0

    100% off
    8,192
    DeepSeek: R1 (free)deepseek/deepseek-r1:free
    $0
    $0
    163,840
    Google: Gemini 2.0 Flash Experimental (free)google/gemini-2.0-flash-exp:free
    $0
    $0
    1,048,576
    Meta: Llama 3.3 70B Instruct (free)meta-llama/llama-3.3-70b-instruct:free
    $0
    $0
    65,536
    Qwen2.5 Coder 32B Instruct (free)qwen/qwen-2.5-coder-32b-instruct:free
    $0
    $0
    32,768
    Meta: Llama 3.2 3B Instruct (free)meta-llama/llama-3.2-3b-instruct:free
    $0
    $0
    131,072
    Qwen2.5 72B Instruct (free)qwen/qwen-2.5-72b-instruct:free
    $0
    $0
    32,768
    Mistral: Mistral Nemo (free)mistralai/mistral-nemo:free
    $0
    $0
    131,072
    Google: Gemma 2 9B (free)google/gemma-2-9b-it:free
    $0
    $0
    8,192
    Mistral: Mistral 7B Instruct (free)mistralai/mistral-7b-instruct:free

    $0

    100% off

    $0

    100% off
    32,768

    Ví dụ mã

    from openai import OpenAI
    client = OpenAI(
    base_url="//openrouter.ai/api/v1",
    api_key="<OPENROUTER_API_KEY>",
    )
    completion = client.chat.completions.create(
    model="cognitivecomputations/dolphin3.0-r1-mistral-24b:free",
    messages=[
    {
    "role": "user",
    "content": "What is the meaning of life?"
    }
    ] )
    print(completion.choices[0].message.content)

    Google AI Studio

    Google AI Studio là một nền tảng mạnh mẽ để thử nghiệm mô hình AI, cung cấp giới hạn lớn cho các nhà phát triển. Nó cho phép tối đa 1.000.000 mã thông báo mỗi phút và 1.500 yêu cầu mỗi ngày.Một số mô hình có sẵn bao gồm:

    • Gemini 2.0 Flash
    • Gemini 1.5 Flash

    Tất cả các mô hình có sẵn: Link

    Tài liệu: Link

    Ưu điểm

    • Truy cập vào các mô hình mạnh mẽ.
    • Giới hạn mã thông báo cao.

    Giá cả: Có gói miễn phí.

    Ví dụ mã

    from google import genai
    client = genai.Client(api_key="YOUR_API_KEY")
    response = client.models.generate_content(
    model="gemini-2.0-flash",
    contents="Explain how AI works",
    )
    print(response.text)

    Mistral (La Plateforme)

    Mistral cung cấp nhiều mô hình cho các ứng dụng khác nhau, tập trung vào hiệu suất cao. Nền tảng cho phép 1 yêu cầu mỗi giây và 500.000 mã thông báo mỗi phút.Một số mô hình có sẵn bao gồm:

    • mistral-large-2402
    • mistral-8b-latest

    Tất cả các mô hình có sẵn: Link

    Tài liệu: Link

    Ưu điểm

    • Giới hạn yêu cầu cao.
    • Tập trung vào thử nghiệm.

    Giá cả: Có gói miễn phí.

    Ví dụ mã

    import os
    from mistralai import Mistral
    api_key = os.environ["MISTRAL_API_KEY"] model = "mistral-large-latest"
    client = Mistral(api_key=api_key)
    chat_response = client.chat.complete(
    model= model,
    messages = [
    {
    "role": "user",
    "Content": "What is the best French cheese?",
    },
    ] )
    print(chat_response.choices[0].message.content)

    HuggingFace Serverless Inference

    HuggingFace cung cấp một nền tảng để triển khai và sử dụng các mô hình mở khác nhau. Nó bị giới hạn ở các mô hình nhỏ hơn 10GB và cung cấp các khoản tín dụng khác nhau mỗi tháng.Một số mô hình có sẵn bao gồm:

    • GPT-3
    • DistilBERT

    Tất cả các mô hình có sẵn: Link

    Tài liệu: Link

    Ưu điểm

    • Phạm vi mô hình rộng.
    • Dễ dàng tích hợp.

    Giá cả: Các khoản tín dụng khác nhau mỗi tháng.

    Ví dụ mã

    from huggingface_hub import InferenceClient
    client = InferenceClient(
    provider="hf-inference",
    api_key="hf_xxxxxxxxxxxxxxxxxxxxxxxx"

    )
    messages = [
    {
    “role”: “user”,
    “content”: “What is the capital of Germany?”
    }
    ] completion = client.chat.completions.create(
    model=”meta-llama/Meta-Llama-3-8B-Instruct”,
    messages=messages,
    max_tokens=500,
    )
    print(completion.choices[0].message)

    Cerebras

    Cerebras cung cấp quyền truy cập vào các mô hình Llama với trọng tâm là hiệu suất cao. Nền tảng cho phép 30 yêu cầu mỗi phút và 60.000 mã thông báo mỗi phút.Một số mô hình có sẵn bao gồm:

    • Llama 3.1 8B
    • Llama 3.3 70B

    Tất cả các mô hình có sẵn: Link

    Tài liệu: Link

    Ưu điểm

    • Giới hạn yêu cầu cao.
    • Các mô hình mạnh mẽ.

    Giá cả: Có gói miễn phí, hãy tham gia danh sách chờ

    Ví dụ mã

    import os
    from cerebras.cloud.sdk import Cerebras
    client = Cerebras(
    api_key=os.environ.get("CEREBRAS_API_KEY"),
    )
    chat_completion = client.chat.completions.create(
    messages=[
    {"role": "user", "content": "Why is fast inference important?",}
    ],
    model="llama3.1-8b",
    )

    Groq

    Groq cung cấp nhiều mô hình cho các ứng dụng khác nhau, cho phép 1.000 yêu cầu mỗi ngày và 6.000 mã thông báo mỗi phút.Một số mô hình có sẵn bao gồm:

    • DeepSeek R1 Distill Llama 70B
    • Gemma 2 9B Instruct

    Tất cả các mô hình có sẵn: Link

    Tài liệu: Link

    Ưu điểm

    • Giới hạn yêu cầu cao.
    • Các tùy chọn mô hình đa dạng.

    Giá cả: Có gói miễn phí.

    Ví dụ mã

    import os
    from groq import Groq
    client = Groq(
    api_key=os.environ.get("GROQ_API_KEY"),
    )
    chat_completion = client.chat.completions.create(
    messages=[
    {
    "role": "user",
    "content": "Explain the importance of fast language models",
    }
    ],
    model="llama-3.3-70b-versatile",
    )
    print(chat_completion.choices[0].message.content)

    Scaleway Generative

    Scaleway cung cấp nhiều mô hình tạo miễn phí, với 100 yêu cầu mỗi phút và 200.000 mã thông báo mỗi phút.Một số mô hình có sẵn bao gồm:

    • BGE-Multilingual-Gemma2
    • Llama 3.1 70B Instruct

    Tất cả các mô hình có sẵn: Link

    Tài liệu: Link

    Ưu điểm

    • Giới hạn yêu cầu lớn.
    • Đa dạng các mô hình.

    Giá cả: Bản beta miễn phí đến tháng 3 năm 2025.

    Ví dụ mã

    from openai import OpenAI

    # Initialize the client with your base URL and API key
    client = OpenAI(
    base_url=”//api.scaleway.ai/v1″,
    api_key=”<SCW_API_KEY>”
    )
    # Create a chat completion for Llama 3.1 8b instruct
    completion = client.chat.completions.create(
    model=”llama-3.1-8b-instruct”,
    messages=[{“role”: “user”, “content”: “Describe a futuristic city with advanced technology and green energy solutions.”}],
    temperature=0.7,
    max_tokens=100
    )
    # Output the result
    print(completion.choices[0].message.content)

    OVH AI Endpoints

    OVH cung cấp quyền truy cập miễn phí vào các mô hình AI khác nhau, cho phép 12 yêu cầu mỗi phút.Một số mô hình có sẵn bao gồm:

    • CodeLlama 13B Instruct
    • Llama 3.1 70B Instruct

    Tài liệu và tất cả các mô hình có sẵn://endpoints.ai.cloud.ovh.net/

    Ưu điểm

    • Dễ sử dụng.
    • Đa dạng các mô hình.

    Giá cả: Có bản beta miễn phí.

    Ví dụ mã

    import os
    from openai import OpenAI
    client = OpenAI(
    base_url='//llama-2-13b-chat-hf.endpoints.kepler.ai.cloud.ovh.net/api/openai_compat/v1',
    api_key=os.getenv("OVH_AI_ENDPOINTS_ACCESS_TOKEN")
    )
    def chat_completion(new_message: str) -> str:
    history_openai_format = [{"role": "user", "content": new_message}] return client.chat.completions.create(
    model="Llama-2-13b-chat-hf",
    messages=history_openai_format,
    temperature=0,
    max_tokens=1024
    ).choices.pop().message.content
    if __name__ == '__main__':
    print(chat_completion("Write a story in the style of James Joyce. The story should be about a trip to the Irish countryside in 2083, to see the beautiful scenery and robots.d"))

    Together

    Together là một nền tảng cộng tác để truy cập các LLM khác nhau, không có giới hạn cụ thể nào được đề cập.Một số mô hình có sẵn bao gồm:

    • Llama 3.2 11B Vision Instruct
    • DeepSeek R1 Distil Llama 70B

    Tất cả các mô hình có sẵn: Link

    Tài liệu: Link

    Ưu điểm

    • Truy cập vào một loạt các mô hình.
    • Môi trường cộng tác.

    Giá cả: Có gói miễn phí.

    Ví dụ mã

    from together import Together
    client = Together()
    stream = client.chat.completions.create(
    model="meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo",
    messages=[{"role": "user", "content": "What are the top 3 things to do in New York?"}],
    stream=True,
    )
    for chunk in stream:
    print(chunk.choices[0].delta.content or "", end="", flush=True)

    Cohere

    Cohere cung cấp quyền truy cập vào các mô hình ngôn ngữ mạnh mẽ cho các ứng dụng khác nhau, cho phép 20 yêu cầu mỗi phút và 1.000 yêu cầu mỗi tháng.Một số mô hình có sẵn bao gồm:

    • Command-R
    • Command-R+

    Tất cả các mô hình có sẵn: Link

    Tài liệu: Link

    Ưu điểm

    • Dễ sử dụng.
    • Tập trung vào các tác vụ NLP.

    Giá cả: Có gói miễn phí.

    Ví dụ mã

    import cohere
    co = cohere.ClientV2("<<apiKey>>")
    response = co.chat(
    model="command-r-plus",
    messages=[{"role": "user", "content": "hello world!"}] )
    print(response)

    GitHub Models

    GitHub cung cấp một bộ sưu tập các mô hình AI khác nhau, với giới hạn tốc độ phụ thuộc vào cấp đăng ký.Một số mô hình có sẵn bao gồm:

    • AI21 Jamba 1.5 Large
    • Cohere Command R

    Tài liệu và tất cả các mô hình có sẵn: Link

    Ưu điểm

    • Truy cập vào nhiều mẫu mã khác nhau.
    • Tích hợp với GitHub.

    Giá cả: Miễn phí khi có tài khoản GitHub.

    Ví dụ mã

    import os
    from openai import OpenAI
    token = os.environ["GITHUB_TOKEN"] endpoint = "//models.inference.ai.azure.com"
    model_name = "gpt-4o"
    client = OpenAI(
    base_url=endpoint,
    api_key=token,
    )
    response = client.chat.completions.create(
    messages=[
    {
    "role": "system",
    "content": "You are a helpful assistant.",
    },
    {
    "role": "user",
    "content": "What is the capital of France?",
    }
    ],
    temperature=1.0,
    top_p=1.0,
    max_tokens=1000,
    model=model_name
    )
    print(response.choices[0].message.content)

    Fireworks AI

    Fireworks cung cấp nhiều mô hình AI mạnh mẽ khác nhau, với khả năng suy luận không cần máy chủ lên tới 6.000 vòng/phút, 2,5 tỷ mã thông báo/ngàyMột số mẫu có sẵn bao gồm:

    • Llama-v3p1-405b-hướng dẫn.
    • deepseek-r1

    Tất cả các mô hình có sẵn: Link

    Tài liệu: Link

    Thuận lợi

    • Tùy chỉnh tiết kiệm chi phí
    • Suy luận nhanh.

    Giá cả: Tín dụng miễn phí có giá 1 đô la.

    Mã ví dụ

    from fireworks.client import Fireworks
    client = Fireworks(api_key="<FIREWORKS_API_KEY>")
    response = client.chat.completions.create(
    model="accounts/fireworks/models/llama-v3p1-8b-instruct",
    messages=[{
    "role": "user",
    "content": "Say this is a test",
    }],
    )
    print(response.choices[0].message.content)

    Lợi ích của việc sử dụng API miễn phí

    Sau đây là một số lợi ích khi sử dụng API miễn phí:

    1. Khả năng tiếp cận: Không cần chuyên môn sâu về AI hoặc đầu tư vào cơ sở hạ tầng.
    2. Tùy chỉnh: Tinh chỉnh các mô hình cho các nhiệm vụ hoặc miền cụ thể.
    3. Khả năng mở rộng: Xử lý khối lượng lớn yêu cầu khi doanh nghiệp của bạn phát triển.

    Mẹo sử dụng hiệu quả API miễn phí

    Sau đây là một số mẹo để sử dụng hiệu quả các API miễn phí, giải quyết những thiếu sót và hạn chế của chúng:

    1. Chọn mô hình phù hợp: Bắt đầu với các mô hình đơn giản hơn cho các tác vụ cơ bản và mở rộng khi cần thiết.
    2. Theo dõi mức sử dụng: Sử dụng bảng thông tin để theo dõi mức tiêu thụ mã thông báo và đặt giới hạn chi tiêu.
    3. Tối ưu hóa mã thông báo: Tạo lời nhắc ngắn gọn để giảm thiểu việc sử dụng mã thông báo nhưng vẫn đạt được kết quả mong muốn.

    Phần kết luận

    Với sự sẵn có của các API miễn phí này, các nhà phát triển và doanh nghiệp có thể dễ dàng tích hợp các khả năng AI tiên tiến vào ứng dụng của họ mà không cần chi phí trả trước đáng kể. Bằng cách tận dụng các tài nguyên này, bạn có thể nâng cao trải nghiệm người dùng, tự động hóa tác vụ và thúc đẩy đổi mới trong các dự án của mình. Hãy bắt đầu khám phá các API này ngay hôm nay và khai phá tiềm năng của AI trong ứng dụng của bạn.

    Để lại một bình luận

    Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

    Chat with us
    Hello! How can I help you today?