Danh Sách API LLM Miễn Phí

Nội dung

Trong thế giới số phát triển nhanh chóng, trí tuệ nhân tạo (AI) là yếu tố sống còn. Các doanh nghiệp có thể cải thiện quan hệ khách hàng, tối ưu hóa quy trình và thúc đẩy đổi mới nhờ mô hình ngôn ngữ lớn (LLM). API LLM là chìa khóa để tích hợp khả năng AI tiên tiến vào ứng dụng mà không cần nhiều tiền bạc hoặc kinh nghiệm.

Bạn có thể sử dụng Xử lý Ngôn ngữ Tự nhiên (NLP) và khả năng hiểu mà không cần tạo mô hình phức tạp từ đầu. API đóng vai trò trung gian giữa phần mềm của bạn và lĩnh vực AI đầy thách thức.

Danh sách miễn phí hoặc tín dụng cho việc sử dụng LLM dựa trên API.

API cung cấp tài nguyên cần thiết để thành công trong phát triển AI, dù bạn muốn tạo trợ lý mã hóa thông minh hay cải thiện chatbot dịch vụ khách hàng.

Hiểu về API LLM

API LLM hoạt động theo mô hình yêu cầu-phản hồi đơn giản:

Gửi yêu cầu: Ứng dụng của bạn gửi yêu cầu đến API, định dạng JSON, chứa biến thể mô hình, lời nhắc và tham số.
Xử lý: API chuyển tiếp yêu cầu này đến LLM, xử lý bằng khả năng NLP của nó.
Phản hồi: LLM tạo phản hồi, API gửi lại cho ứng dụng của bạn.

Giá cả và Mã thông báo (Tokens)

Mã thông báo: Trong LLM, mã thông báo là đơn vị văn bản nhỏ nhất mà mô hình xử lý.
Giá thường dựa trên số lượng mã thông báo đã sử dụng, với các khoản phí riêng cho mã thông báo đầu vào và đầu ra.
Quản lý chi phí: Hầu hết các nhà cung cấp đều cung cấp giá trả tiền theo mức sử dụng, cho phép doanh nghiệp quản lý chi phí hiệu quả dựa trên mô hình sử dụng của họ.

Sử dụng các mô hình tiên tiến — cơ sở hạ tầng đã được dân chủ hóa đến mức có thể nhận được 3-4 triệu token miễn phí mỗi ngày bằng cách kết hợp các gói miễn phí.

Những khuyến nghị thực tiễn ban đầu:

Phát triển địa phương→ Ollama vớiqwen3:4bhoặcgemma4:e4b
Suy luận đám mây miễn phí→ OpenRouter (đa dạng) hoặc Groq (tốc độ)
Dung lượng trống tối đa→ Kết hợp Cerebras + Groq + Google AI Studio
Chuyên gia lĩnh vực→ NVIDIA NIM (91 mô hình miễn phí, sinh học/hóa học/an toàn)
Sản xuất→ Đánh giá cùng nhau AI hoặc nhà cung cấp chuyên dụng dựa trên yêu cầu về độ trễ và chi phí

Điểm mấu chốt kết nối tất cả những điều này lại với nhau: mọi nền tảng trong danh sách này đều cung cấp API tương thích với OpenAI. Viết mã một lần, trỏ nó đến Ollama trong quá trình phát triển và chuyển sang bất kỳ nhà cung cấp dịch vụ đám mây nào trong môi trường sản xuất bằng cách thay đổi hai biến môi trường.

API miễn phí cho tài nguyên LLM

Dưới đây là danh sách toàn diện các nhà cung cấp API LLM miễn phí, cùng với mô tả, ưu điểm, giá cả và giới hạn mã thông báo của họ:

Cloudflare Workers AI — Suy luận tại biên

developers.cloudflare.com/workers-ai| Gói miễn phí: 10.000 “nơron”/ngày

Cloudflare thực hiện suy luận trên mạng biên của họ — hơn 300 địa điểm trên toàn cầu. Quá trình suy luận diễn ra trên máy chủ gần người dùng nhất. Không bao giờ có khởi động nguội.

Điểm mạnh:

Không có độ trễ khởi động nguội — các mô hình luôn sẵn sàng.
Độ trễ thực sự thấp ở rìa mạng
Tích hợp nguyên bản với Cloudflare Workers, Pages, R2
Hỗ trợ tạo văn bản, dịch thuật, chuyển giọng nói thành văn bản.

Phù hợp nhất cho:Các ứng dụng mà độ trễ trải nghiệm người dùng là yếu tố quan trọng, các nhóm đã sử dụng hệ sinh thái Cloudflare, các trường hợp sử dụng AI tại biên như dịch thuật và phân loại.

API huggingface — Hệ sinh thái mô hình

huggingface.co| Gói miễn phí + Gói Pro với giá 9 đô la/tháng

Hugging Face giống như GitHub dành cho các mô hình AI — với hơn 500.000 mô hình có sẵn. API suy luận cho phép bạn gọi bất kỳ mô hình nào trong số đó thông qua HTTP.

Điểm mạnh:

Tiếp cận các mô hình được tinh chỉnh cho các nhiệm vụ chuyên biệt cao mà không tồn tại ở bất kỳ nơi nào khác.
Suy luận phi máy chủ với khả năng tự động mở rộng quy mô
Các điểm cuối chuyên dụng để triển khai sản xuất với SLA
Lựa chọn tốt nhất khi bạn cần thứ gì đó không có trong danh mục sản phẩm thông thường.

Phù hợp nhất cho:Nghiên cứu, các mô hình chuyên biệt được tinh chỉnh, triển khai các mô hình không có sẵn trên các nền tảng khác.

OpenRouter

openrouter.ai| Gói miễn phí (hơn 30 mẫu miễn phí) + trả phí theo mức sử dụng

OpenRouter là cổng AI phổ biến nhất — chỉ với một khóa API duy nhất, bạn có thể truy cập hơn 300 mô hình từ hơn 50 nhà cung cấp. GPT-4o, Claude Sonnet, Llama 4, DeepSeek R1, Qwen3, Gemma 4 — tất cả đều có thể truy cập từ cùng một điểm cuối. Việc chuyển đổi giữa các mô hình chỉ cần thay đổi một chuỗi ký tự.

Các mô hình miễn phí trên OpenRouter (tháng 4 năm 2026):

- DeepSeek R1 — lập luận chặt chẽ, chuỗi suy luận logic
- Llama 3.3 70B — Meta, vật liệu rắn đa dụng
- Qwen3 235B — Mẫu điện thoại lớn nhất của Alibaba, miễn phí
- Gemma 4 27B — Google DeepMind, đa phương thức
- Mistral Small — Lựa chọn thay thế của châu Âu
- Hơn 25 mẫu miễn phí bổ sung

Giới hạn tốc độ: ~20 vòng/phút cho mỗi mô hình miễn phí. Đủ cho quy trình phát triển.

Điểm mạnh:

Một khóa API duy nhất cho tất cả mọi thứ — GPT-4o, Claude, Llama, tất cả đều vậy.
Gói miễn phí bao gồm các mẫu máy thực sự mạnh mẽ (không chỉ là những mẫu nhỏ gọn).
Định tuyến dự phòng tự động khi nhà cung cấp gặp sự cố.
Ghi nhật ký chi phí theo từng yêu cầu theo thời gian thực
Đa dạng mô hình để đánh giá và thử nghiệm A/B

Hạn chế:

Độ tin cậy của gói miễn phí không ổn định — thường xuyên xảy ra lỗi hết thời gian chờ.
Phí nền tảng 5% trên gói trả phí, cộng thêm phí của nhà cung cấp.
Định tuyến của nhà cung cấp không phải lúc nào cũng minh bạch.
Cùng một mẫu sản phẩm có thể có giá cao hơn từ 3 đến 7 lần tùy thuộc vào nhà cung cấp mà OpenRouter định tuyến đến.

Google AI Studio

Google AI Studio là một nền tảng mạnh mẽ để thử nghiệm mô hình AI, cung cấp giới hạn lớn cho các nhà phát triển. Nó cho phép tối đa 1.000.000 mã thông báo mỗi phút và 1.500 yêu cầu mỗi ngày.Một số mô hình có sẵn bao gồm:

Gemini 2.0 Flash
Gemini 1.5 Flash

Tất cả các mô hình có sẵn: Link

Tài liệu: Link

Ưu điểm

Truy cập vào các mô hình mạnh mẽ.
Giới hạn mã thông báo cao.

Giá cả: Có gói miễn phí.

Ví dụ mã

from google import genai client = genai.Client(api_key="YOUR_API_KEY") response = client.models.generate_content( model="gemini-2.0-flash", contents="Explain how AI works", ) print(response.text)

Mistral (La Plateforme)

Mistral cung cấp nhiều mô hình cho các ứng dụng khác nhau, tập trung vào hiệu suất cao. Nền tảng cho phép 1 yêu cầu mỗi giây và 500.000 mã thông báo mỗi phút.Một số mô hình có sẵn bao gồm:

mistral-large-2402
mistral-8b-latest

Tất cả các mô hình có sẵn: Link

Tài liệu: Link

Ưu điểm

Giới hạn yêu cầu cao.
Tập trung vào thử nghiệm.

Giá cả: Có gói miễn phí.

Ví dụ mã

import os from mistralai import Mistral api_key = os.environ["MISTRAL_API_KEY"] model = "mistral-large-latest" client = Mistral(api_key=api_key) chat_response = client.chat.complete( model= model, messages = [ { "role": "user", "Content": "What is the best French cheese?", }, ] ) print(chat_response.choices[0].message.content)

HuggingFace Serverless Inference

HuggingFace cung cấp một nền tảng để triển khai và sử dụng các mô hình mở khác nhau. Nó bị giới hạn ở các mô hình nhỏ hơn 10GB và cung cấp các khoản tín dụng khác nhau mỗi tháng.Một số mô hình có sẵn bao gồm:

GPT-3
DistilBERT

Tất cả các mô hình có sẵn: Link

Tài liệu: Link

Ưu điểm

Phạm vi mô hình rộng.
Dễ dàng tích hợp.

Giá cả: Các khoản tín dụng khác nhau mỗi tháng.

Ví dụ mã

from huggingface_hub import InferenceClient client = InferenceClient( provider="hf-inference", api_key="hf_xxxxxxxxxxxxxxxxxxxxxxxx"

)
messages = [
{
“role”: “user”,
“content”: “What is the capital of Germany?”
}
] completion = client.chat.completions.create(
model=”meta-llama/Meta-Llama-3-8B-Instruct”,
messages=messages,
max_tokens=500,
)
print(completion.choices[0].message)

Cerebras

inference.cerebras.ai | Miễn phí 1 triệu token/ngày

Cerebras sử dụng Wafer-Scale Engine (WSE) — một chip duy nhất lớn hơn một tấm bán dẫn tiêu chuẩn. Kết quả là đạt được thông lượng xử lý hàng loạt cao nhất so với bất kỳ nền tảng nào khác.

Miễn phí 1 triệu token mỗi ngày — dung lượng thô hào phóng nhất trong tất cả các gói miễn phí.
Thông lượng khoảng 60.000 token/phút
Truy cập vào Qwen3 235B (một trong những mô hình lớn nhất hiện có miễn phí).
Phù hợp nhất cho: xử lý hàng loạt, đường dẫn dữ liệu, tạo dữ liệu tổng hợp

Tất cả các mô hình có sẵn: Link

Tài liệu: Link

Ưu điểm

Giới hạn yêu cầu cao.
Các mô hình mạnh mẽ.

Giá cả: Có gói miễn phí, hãy tham gia danh sách chờ

Ví dụ mã

import os from cerebras.cloud.sdk import Cerebras client = Cerebras( api_key=os.environ.get("CEREBRAS_API_KEY"), ) chat_completion = client.chat.completions.create( messages=[ {"role": "user", "content": "Why is fast inference important?",} ], model="llama3.1-8b", )

SambaNova

sambanova.ai | Có gói miễn phí

Tốc độ suy luận gần bằng Groq (294 so với 315 token/giây)
Quyền truy cập vào DeepSeek R1, tính năng mà Groq không cung cấp miễn phí.
Phù hợp nhất cho: các tác vụ đòi hỏi nhiều suy luận logic, các nhà phát triển cần DeepSeek R1 mà không cần trả phí.

Cerebras: 1 triệu token/ngày — xử lý theo lô, Qwen3 235 tỷ
Groq: ~1 triệu token/ngày — thời gian thực, Llama 3.3 70 tỷ
Google AI Studio: 1.500 yêu cầu/ngày — đa phương thức, Gemini Flash
NVIDIA NIM: 91 mô hình miễn phí — chuyên gia lĩnh vực, nhúng
────────────────────────────────────────────────────────────
Tổng cộng: 3–4 triệu token miễn phí mỗi ngày

Hệ thống xoay vòng nhà cung cấp với tính năng dự phòng tự động.

Groq

Groq cung cấp nhiều mô hình cho các ứng dụng khác nhau, cho phép 1.000 yêu cầu mỗi ngày và 6.000 mã thông báo mỗi phút.Một số mô hình có sẵn bao gồm:

Llama 3.1 8B:840 token/giây
Llama 4 Scout:594 token/giây
Llama 3.3 70B:315 token/giây

Tất cả các mô hình có sẵn: Link

Tài liệu: Link

Ưu điểm

Giới hạn yêu cầu cao.
Các tùy chọn mô hình đa dạng.

Giá cả: Có gói miễn phí.

Ví dụ mã

import os from groq import Groq client = Groq( api_key=os.environ.get("GROQ_API_KEY"), ) chat_completion = client.chat.completions.create( messages=[ { "role": "user", "content": "Explain the importance of fast language models", } ], model="llama-3.3-70b-versatile", ) print(chat_completion.choices[0].message.content)

NVIDIA NIM

build.nvidia.com/models | Gói miễn phí (91 mẫu) + Gói doanh nghiệp

NVIDIA NIM (NVIDIA Inference Microservices) là nền tảng nổi bật nhất trong danh sách này. Ngoài các mô hình LLM đa năng, NIM còn cung cấp các mô hình chuyên biệt cho các lĩnh vực khoa học và kỹ thuật cụ thể mà không có ở bất kỳ nơi nào khác.

Các danh mục mô hình trên NVIDIA NIM:

Các mô hình ngôn ngữ — Llama 4, Nemotron (của NVIDIA), Mistral, Qwen3
Mô hình thị giác — hiểu biết về hình ảnh và video
Sinh học & Hóa học — phát hiện thuốc, dự đoán cấu trúc protein
Mô hình an toàn — Rào chắn NeMo cho sự an toàn và sự phù hợp của AI
Mô hình nhúng — NV-EmbedQA, mô hình tối ưu hóa truy xuất
Giọng nói — chuyển văn bản thành giọng nói và nhận dạng giọng nói
Tất cả 91 mẫu thiết bị đầu cuối miễn phí đều chạy trên phần cứng NVIDIA A100/H100 — khả năng suy luận cấp doanh nghiệp mà không cần trả giá cao như doanh nghiệp.

Điểm mạnh:

Phạm vi bao phủ danh mục mô hình rộng nhất so với bất kỳ nền tảng nào khác.
Các mô hình chuyên biệt theo lĩnh vực không có sẵn ở nơi khác
Các mô hình nhúng chất lượng cao, miễn phí
Các mô hình Nemotron riêng của NVIDIA (dung lượng mở, Giấy phép mở NVIDIA)
API tương thích với OpenAI
Hạn chế:

Gói miễn phí có giới hạn số lượt truy cập nghiêm ngặt hơn so với Groq hoặc Cerebras.
Một số mô hình yêu cầu sự chấp thuận của doanh nghiệp.
Giao diện người dùng phức tạp hơn đối với các nhà phát triển cá nhân.
Được tối ưu hóa rõ ràng cho quy trình làm việc của doanh nghiệp.

Scaleway Generative

Scaleway cung cấp nhiều mô hình tạo miễn phí, với 100 yêu cầu mỗi phút và 200.000 mã thông báo mỗi phút.Một số mô hình có sẵn bao gồm:

BGE-Multilingual-Gemma2
Llama 3.1 70B Instruct

Tất cả các mô hình có sẵn: Link

Tài liệu: Link

Ưu điểm

Giới hạn yêu cầu lớn.
Đa dạng các mô hình.

Giá cả: Bản beta miễn phí đến tháng 3 năm 2025.

Ví dụ mã

from openai import OpenAI

# Initialize the client with your base URL and API key
client = OpenAI(
base_url=”//api.scaleway.ai/v1″,
api_key=”<SCW_API_KEY>”
)
# Create a chat completion for Llama 3.1 8b instruct
completion = client.chat.completions.create(
model=”llama-3.1-8b-instruct”,
messages=[{“role”: “user”, “content”: “Describe a futuristic city with advanced technology and green energy solutions.”}],
temperature=0.7,
max_tokens=100
)
# Output the result
print(completion.choices[0].message.content)

OVH AI Endpoints

OVH cung cấp quyền truy cập miễn phí vào các mô hình AI khác nhau, cho phép 12 yêu cầu mỗi phút.Một số mô hình có sẵn bao gồm:

CodeLlama 13B Instruct
Llama 3.1 70B Instruct

Tài liệu và tất cả các mô hình có sẵn://endpoints.ai.cloud.ovh.net/

Ưu điểm

Dễ sử dụng.
Đa dạng các mô hình.

Giá cả: Có bản beta miễn phí.

Ví dụ mã

import os from openai import OpenAI client = OpenAI( base_url='//llama-2-13b-chat-hf.endpoints.kepler.ai.cloud.ovh.net/api/openai_compat/v1', api_key=os.getenv("OVH_AI_ENDPOINTS_ACCESS_TOKEN") ) def chat_completion(new_message: str) -> str: history_openai_format = [{"role": "user", "content": new_message}] return client.chat.completions.create( model="Llama-2-13b-chat-hf", messages=history_openai_format, temperature=0, max_tokens=1024 ).choices.pop().message.content if __name__ == '__main__': print(chat_completion("Write a story in the style of James Joyce. The story should be about a trip to the Irish countryside in 2083, to see the beautiful scenery and robots.d"))

Together

Together là một nền tảng cộng tác để truy cập các LLM khác nhau, không có giới hạn cụ thể nào được đề cập.Một số mô hình có sẵn bao gồm:

Llama 3.2 11B Vision Instruct
DeepSeek R1 Distil Llama 70B

Tất cả các mô hình có sẵn: Link

Tài liệu: Link

Ưu điểm

Truy cập vào một loạt các mô hình.
Môi trường cộng tác.

Giá cả: Có gói miễn phí.

Ví dụ mã

from together import Together client = Together() stream = client.chat.completions.create( model="meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo", messages=[{"role": "user", "content": "What are the top 3 things to do in New York?"}], stream=True, ) for chunk in stream: print(chunk.choices[0].delta.content or "", end="", flush=True)

Cohere

Cohere cung cấp quyền truy cập vào các mô hình ngôn ngữ mạnh mẽ cho các ứng dụng khác nhau, cho phép 20 yêu cầu mỗi phút và 1.000 yêu cầu mỗi tháng.Một số mô hình có sẵn bao gồm:

Command-R
Command-R+

Tất cả các mô hình có sẵn: Link

Tài liệu: Link

Ưu điểm

Dễ sử dụng.
Tập trung vào các tác vụ NLP.

Giá cả: Có gói miễn phí.

Ví dụ mã

import cohere co = cohere.ClientV2("<<apiKey>>") response = co.chat( model="command-r-plus", messages=[{"role": "user", "content": "hello world!"}] ) print(response)

GitHub Models

GitHub cung cấp một bộ sưu tập các mô hình AI khác nhau, với giới hạn tốc độ phụ thuộc vào cấp đăng ký.Một số mô hình có sẵn bao gồm:

AI21 Jamba 1.5 Large
Cohere Command R

Tài liệu và tất cả các mô hình có sẵn: Link

Ưu điểm

Truy cập vào nhiều mẫu mã khác nhau.
Tích hợp với GitHub.

Giá cả: Miễn phí khi có tài khoản GitHub.

Ví dụ mã

import os from openai import OpenAI token = os.environ["GITHUB_TOKEN"] endpoint = "//models.inference.ai.azure.com" model_name = "gpt-4o" client = OpenAI( base_url=endpoint, api_key=token, ) response = client.chat.completions.create( messages=[ { "role": "system", "content": "You are a helpful assistant.", }, { "role": "user", "content": "What is the capital of France?", } ], temperature=1.0, top_p=1.0, max_tokens=1000, model=model_name ) print(response.choices[0].message.content)

Fireworks AI

Fireworks cung cấp nhiều mô hình AI mạnh mẽ khác nhau, với khả năng suy luận không cần máy chủ lên tới 6.000 vòng/phút, 2,5 tỷ mã thông báo/ngàyMột số mẫu có sẵn bao gồm:

Llama-v3p1-405b-hướng dẫn.
deepseek-r1

Tất cả các mô hình có sẵn: Link

Tài liệu: Link

Thuận lợi

Tùy chỉnh tiết kiệm chi phí
Suy luận nhanh.

Giá cả: Tín dụng miễn phí có giá 1 đô la.

Mã ví dụ

from fireworks.client import Fireworks client = Fireworks(api_key="<FIREWORKS_API_KEY>") response = client.chat.completions.create( model="accounts/fireworks/models/llama-v3p1-8b-instruct", messages=[{ "role": "user", "content": "Say this is a test", }], ) print(response.choices[0].message.content)

Lợi ích của việc sử dụng API miễn phí

Sau đây là một số lợi ích khi sử dụng API miễn phí:

Khả năng tiếp cận: Không cần chuyên môn sâu về AI hoặc đầu tư vào cơ sở hạ tầng.
Tùy chỉnh: Tinh chỉnh các mô hình cho các nhiệm vụ hoặc miền cụ thể.
Khả năng mở rộng: Xử lý khối lượng lớn yêu cầu khi doanh nghiệp của bạn phát triển.

Mẹo sử dụng hiệu quả API miễn phí

Sau đây là một số mẹo để sử dụng hiệu quả các API miễn phí, giải quyết những thiếu sót và hạn chế của chúng:

Chọn mô hình phù hợp: Bắt đầu với các mô hình đơn giản hơn cho các tác vụ cơ bản và mở rộng khi cần thiết.
Theo dõi mức sử dụng: Sử dụng bảng thông tin để theo dõi mức tiêu thụ mã thông báo và đặt giới hạn chi tiêu.
Tối ưu hóa mã thông báo: Tạo lời nhắc ngắn gọn để giảm thiểu việc sử dụng mã thông báo nhưng vẫn đạt được kết quả mong muốn.

Phần kết luận

Với sự sẵn có của các API miễn phí này, các nhà phát triển và doanh nghiệp có thể dễ dàng tích hợp các khả năng AI tiên tiến vào ứng dụng của họ mà không cần chi phí trả trước đáng kể. Bằng cách tận dụng các tài nguyên này, bạn có thể nâng cao trải nghiệm người dùng, tự động hóa tác vụ và thúc đẩy đổi mới trong các dự án của mình. Hãy bắt đầu khám phá các API này ngay hôm nay và khai phá tiềm năng của AI trong ứng dụng của bạn.

Small ERP

Cloudflare Workers AI — Suy luận tại biên

API huggingface — Hệ sinh thái mô hình

OpenRouter

Google AI Studio

Mistral (La Plateforme)

HuggingFace Serverless Inference

Cerebras

SambaNova

Groq

NVIDIA NIM

Scaleway Generative

OVH AI Endpoints

Together

Cohere

GitHub Models

Fireworks AI

Để lại một bình luận Hủy

CMS cho máy pi4

vLLM-MLX trên Apple Silicon GPU

7 tham số cần tối ưu âm thầm gửi AI

Cài odoo 14 trên docker| hạ tầng k8s

10 Công cụ gỡ lỗi hiệu quả mọi nhà phát triển cần

So sánh Web Scraping và API thu thập dữ liệu

Thêm lược đồ câu hỏi thường gặp FAQ Schema

TikTok cho Doanh nghiệp: Hashtags

Liên hệ nhanh

Cloudflare Workers AI — Suy luận tại biên

API huggingface — Hệ sinh thái mô hình

OpenRouter

Google AI Studio

Mistral (La Plateforme)

HuggingFace Serverless Inference

Cerebras

SambaNova

Groq

NVIDIA NIM

Scaleway Generative

OVH AI Endpoints

Together

Cohere

GitHub Models

Fireworks AI

Để lại một bình luận Hủy