Danh Sách API LLM Miễn Phí

Nội dung

Trong thế giới số phát triển nhanh chóng, trí tuệ nhân tạo (AI) là yếu tố sống còn. Các doanh nghiệp có thể cải thiện quan hệ khách hàng, tối ưu hóa quy trình và thúc đẩy đổi mới nhờ mô hình ngôn ngữ lớn (LLM). API LLM là chìa khóa để tích hợp khả năng AI tiên tiến vào ứng dụng mà không cần nhiều tiền bạc hoặc kinh nghiệm.

Bạn có thể sử dụng Xử lý Ngôn ngữ Tự nhiên (NLP) và khả năng hiểu mà không cần tạo mô hình phức tạp từ đầu. API đóng vai trò trung gian giữa phần mềm của bạn và lĩnh vực AI đầy thách thức.

Danh sách miễn phí hoặc tín dụng cho việc sử dụng LLM dựa trên API.

API cung cấp tài nguyên cần thiết để thành công trong phát triển AI, dù bạn muốn tạo trợ lý mã hóa thông minh hay cải thiện chatbot dịch vụ khách hàng.

Hiểu về API LLM

API LLM hoạt động theo mô hình yêu cầu-phản hồi đơn giản:

Gửi yêu cầu: Ứng dụng của bạn gửi yêu cầu đến API, định dạng JSON, chứa biến thể mô hình, lời nhắc và tham số.
Xử lý: API chuyển tiếp yêu cầu này đến LLM, xử lý bằng khả năng NLP của nó.
Phản hồi: LLM tạo phản hồi, API gửi lại cho ứng dụng của bạn.

Giá cả và Mã thông báo (Tokens)

Mã thông báo: Trong LLM, mã thông báo là đơn vị văn bản nhỏ nhất mà mô hình xử lý.
Giá thường dựa trên số lượng mã thông báo đã sử dụng, với các khoản phí riêng cho mã thông báo đầu vào và đầu ra.
Quản lý chi phí: Hầu hết các nhà cung cấp đều cung cấp giá trả tiền theo mức sử dụng, cho phép doanh nghiệp quản lý chi phí hiệu quả dựa trên mô hình sử dụng của họ.

API miễn phí cho tài nguyên LLM

Dưới đây là danh sách toàn diện các nhà cung cấp API LLM miễn phí, cùng với mô tả, ưu điểm, giá cả và giới hạn mã thông báo của họ:

OpenRouter

OpenRouter cung cấp nhiều LLM cho các tác vụ khác nhau, là một lựa chọn linh hoạt cho các nhà phát triển. Nền tảng cho phép tối đa 20 yêu cầu mỗi phút và 200 yêu cầu mỗi ngày.Một số mô hình đáng chú ý có sẵn bao gồm:

DeepSeek R1
Llama 3.3 70B Instruct
Mistral 7B Instruct

//openrouter.ai/openrouter/polaris-alpha

Tất cả các mô hình free có sẵn: Link

Tài liệu:Link

Ưu điểm

Giới hạn yêu cầu cao.
Một loạt các mô hình đa dạng.

Giá cả: Có gói miễn phí.

Model Name & ID	Input ($/1M tokens)	Output ($/1M tokens)	Context (tokens)
Tongyi DeepResearch 30B A3B (free)`alibaba/tongyi-deepresearch-30b-a3b:free`	$0	$0	131,072
Meituan: LongCat Flash Chat (free)`meituan/longcat-flash-chat:free`	$0	$0	131,072
NVIDIA: Nemotron Nano 9B V2 (free)`nvidia/nemotron-nano-9b-v2:free`	$0	$0	128,000
DeepSeek: DeepSeek V3.1 (free)`deepseek/deepseek-chat-v3.1:free`	$0	$0	163,800
OpenAI: gpt-oss-20b (free)`openai/gpt-oss-20b:free`	$0	$0	131,072
Z.AI: GLM 4.5 Air (free)`z-ai/glm-4.5-air:free`	$0	$0	131,072
Qwen: Qwen3 Coder 480B A35B (free)`qwen/qwen3-coder:free`	$0	$0	262,144
MoonshotAI: Kimi K2 0711 (free)`moonshotai/kimi-k2:free`	$0	$0	32,768
Venice: Uncensored (free)`cognitivecomputations/dolphin-mistral-24b-venice-edition:free`	$0	$0	32,768
Google: Gemma 3n 2B (free)`google/gemma-3n-e2b-it:free`	$0	$0	8,192
Tencent: Hunyuan A13B Instruct (free)`tencent/hunyuan-a13b-instruct:free`	$0	$0	32,768
TNG: DeepSeek R1T2 Chimera (free)`tngtech/deepseek-r1t2-chimera:free`	$0	$0	163,840
Mistral: Mistral Small 3.2 24B (free)`mistralai/mistral-small-3.2-24b-instruct:free`	$0	$0	131,072
MoonshotAI: Kimi Dev 72B (free)`moonshotai/kimi-dev-72b:free`	$0	$0	131,072
DeepSeek: Deepseek R1 0528 Qwen3 8B (free)`deepseek/deepseek-r1-0528-qwen3-8b:free`	$0	$0	131,072
DeepSeek: R1 0528 (free)`deepseek/deepseek-r1-0528:free`	$0	$0	163,840
Mistral: Devstral Small 2505 (free)`mistralai/devstral-small-2505:free`	$0	$0	32,768
Google: Gemma 3n 4B (free)`google/gemma-3n-e4b-it:free`	$0	$0	8,192
Meta: Llama 3.3 8B Instruct (free)`meta-llama/llama-3.3-8b-instruct:free`	$0	$0	128,000
Qwen: Qwen3 4B (free)`qwen/qwen3-4b:free`	$0	$0	40,960
Qwen: Qwen3 30B A3B (free)`qwen/qwen3-30b-a3b:free`	$0	$0	40,960
Qwen: Qwen3 8B (free)`qwen/qwen3-8b:free`	$0	$0	40,960
Qwen: Qwen3 14B (free)`qwen/qwen3-14b:free`	$0	$0	40,960
Qwen: Qwen3 235B A22B (free)`qwen/qwen3-235b-a22b:free`	$0	$0	131,072
TNG: DeepSeek R1T Chimera (free)`tngtech/deepseek-r1t-chimera:free`	$0	$0	163,840
Microsoft: MAI DS R1 (free)`microsoft/mai-ds-r1:free`	$0	$0	163,840
Shisa AI: Shisa V2 Llama 3.3 70B (free)`shisa-ai/shisa-v2-llama3.3-70b:free`	$0	$0	32,768
ArliAI: QwQ 32B RpR v1 (free)`arliai/qwq-32b-arliai-rpr-v1:free`	$0	$0	32,768
Agentica: Deepcoder 14B Preview (free)`agentica-org/deepcoder-14b-preview:free`	$0	$0	96,000
Meta: Llama 4 Maverick (free)`meta-llama/llama-4-maverick:free`	$0	$0	128,000
Meta: Llama 4 Scout (free)`meta-llama/llama-4-scout:free`	$0	$0	128,000
Qwen: Qwen2.5 VL 32B Instruct (free)`qwen/qwen2.5-vl-32b-instruct:free`	$0	$0	16,384
DeepSeek: DeepSeek V3 0324 (free)`deepseek/deepseek-chat-v3-0324:free`	$0	$0	163,840
Mistral: Mistral Small 3.1 24B (free)`mistralai/mistral-small-3.1-24b-instruct:free`	$0	$0	128,000
Google: Gemma 3 4B (free)`google/gemma-3-4b-it:free`	$0	$0	32,768
Google: Gemma 3 12B (free)`google/gemma-3-12b-it:free`	$0	$0	32,768
Google: Gemma 3 27B (free)`google/gemma-3-27b-it:free`	$0	$0	96,000
Nous: DeepHermes 3 Llama 3 8B Preview (free)`nousresearch/deephermes-3-llama-3-8b-preview:free`	$0	$0	131,072
Dolphin3.0 Mistral 24B (free)`cognitivecomputations/dolphin3.0-mistral-24b:free`	$0	$0	32,768
Qwen: Qwen2.5 VL 72B Instruct (free)`qwen/qwen2.5-vl-72b-instruct:free`	$0 100% off	$0 100% off	131,072
Mistral: Mistral Small 3 (free)`mistralai/mistral-small-24b-instruct-2501:free`	$0	$0	32,768
DeepSeek: R1 Distill Llama 70B (free)`deepseek/deepseek-r1-distill-llama-70b:free`	$0 100% off	$0 100% off	8,192
DeepSeek: R1 (free)`deepseek/deepseek-r1:free`	$0	$0	163,840
Google: Gemini 2.0 Flash Experimental (free)`google/gemini-2.0-flash-exp:free`	$0	$0	1,048,576
Meta: Llama 3.3 70B Instruct (free)`meta-llama/llama-3.3-70b-instruct:free`	$0	$0	65,536
Qwen2.5 Coder 32B Instruct (free)`qwen/qwen-2.5-coder-32b-instruct:free`	$0	$0	32,768
Meta: Llama 3.2 3B Instruct (free)`meta-llama/llama-3.2-3b-instruct:free`	$0	$0	131,072
Qwen2.5 72B Instruct (free)`qwen/qwen-2.5-72b-instruct:free`	$0	$0	32,768
Mistral: Mistral Nemo (free)`mistralai/mistral-nemo:free`	$0	$0	131,072
Google: Gemma 2 9B (free)`google/gemma-2-9b-it:free`	$0	$0	8,192
Mistral: Mistral 7B Instruct (free)`mistralai/mistral-7b-instruct:free`	$0 100% off	$0 100% off	32,768

Ví dụ mã

from openai import OpenAI client = OpenAI( base_url="//openrouter.ai/api/v1", api_key="<OPENROUTER_API_KEY>", ) completion = client.chat.completions.create( model="cognitivecomputations/dolphin3.0-r1-mistral-24b:free", messages=[ { "role": "user", "content": "What is the meaning of life?" } ] ) print(completion.choices[0].message.content)

Google AI Studio

Google AI Studio là một nền tảng mạnh mẽ để thử nghiệm mô hình AI, cung cấp giới hạn lớn cho các nhà phát triển. Nó cho phép tối đa 1.000.000 mã thông báo mỗi phút và 1.500 yêu cầu mỗi ngày.Một số mô hình có sẵn bao gồm:

Gemini 2.0 Flash
Gemini 1.5 Flash

Tất cả các mô hình có sẵn: Link

Tài liệu: Link

Ưu điểm

Truy cập vào các mô hình mạnh mẽ.
Giới hạn mã thông báo cao.

Giá cả: Có gói miễn phí.

Ví dụ mã

from google import genai client = genai.Client(api_key="YOUR_API_KEY") response = client.models.generate_content( model="gemini-2.0-flash", contents="Explain how AI works", ) print(response.text)

Mistral (La Plateforme)

Mistral cung cấp nhiều mô hình cho các ứng dụng khác nhau, tập trung vào hiệu suất cao. Nền tảng cho phép 1 yêu cầu mỗi giây và 500.000 mã thông báo mỗi phút.Một số mô hình có sẵn bao gồm:

mistral-large-2402
mistral-8b-latest

Tất cả các mô hình có sẵn: Link

Tài liệu: Link

Ưu điểm

Giới hạn yêu cầu cao.
Tập trung vào thử nghiệm.

Giá cả: Có gói miễn phí.

Ví dụ mã

import os from mistralai import Mistral api_key = os.environ["MISTRAL_API_KEY"] model = "mistral-large-latest" client = Mistral(api_key=api_key) chat_response = client.chat.complete( model= model, messages = [ { "role": "user", "Content": "What is the best French cheese?", }, ] ) print(chat_response.choices[0].message.content)

HuggingFace Serverless Inference

HuggingFace cung cấp một nền tảng để triển khai và sử dụng các mô hình mở khác nhau. Nó bị giới hạn ở các mô hình nhỏ hơn 10GB và cung cấp các khoản tín dụng khác nhau mỗi tháng.Một số mô hình có sẵn bao gồm:

GPT-3
DistilBERT

Tất cả các mô hình có sẵn: Link

Tài liệu: Link

Ưu điểm

Phạm vi mô hình rộng.
Dễ dàng tích hợp.

Giá cả: Các khoản tín dụng khác nhau mỗi tháng.

Ví dụ mã

from huggingface_hub import InferenceClient client = InferenceClient( provider="hf-inference", api_key="hf_xxxxxxxxxxxxxxxxxxxxxxxx"

)
messages = [
{
“role”: “user”,
“content”: “What is the capital of Germany?”
}
] completion = client.chat.completions.create(
model=”meta-llama/Meta-Llama-3-8B-Instruct”,
messages=messages,
max_tokens=500,
)
print(completion.choices[0].message)

Cerebras

Cerebras cung cấp quyền truy cập vào các mô hình Llama với trọng tâm là hiệu suất cao. Nền tảng cho phép 30 yêu cầu mỗi phút và 60.000 mã thông báo mỗi phút.Một số mô hình có sẵn bao gồm:

Llama 3.1 8B
Llama 3.3 70B

Tất cả các mô hình có sẵn: Link

Tài liệu: Link

Ưu điểm

Giới hạn yêu cầu cao.
Các mô hình mạnh mẽ.

Giá cả: Có gói miễn phí, hãy tham gia danh sách chờ

Ví dụ mã

import os from cerebras.cloud.sdk import Cerebras client = Cerebras( api_key=os.environ.get("CEREBRAS_API_KEY"), ) chat_completion = client.chat.completions.create( messages=[ {"role": "user", "content": "Why is fast inference important?",} ], model="llama3.1-8b", )

Groq

Groq cung cấp nhiều mô hình cho các ứng dụng khác nhau, cho phép 1.000 yêu cầu mỗi ngày và 6.000 mã thông báo mỗi phút.Một số mô hình có sẵn bao gồm:

DeepSeek R1 Distill Llama 70B
Gemma 2 9B Instruct

Tất cả các mô hình có sẵn: Link

Tài liệu: Link

Ưu điểm

Giới hạn yêu cầu cao.
Các tùy chọn mô hình đa dạng.

Giá cả: Có gói miễn phí.

Ví dụ mã

import os from groq import Groq client = Groq( api_key=os.environ.get("GROQ_API_KEY"), ) chat_completion = client.chat.completions.create( messages=[ { "role": "user", "content": "Explain the importance of fast language models", } ], model="llama-3.3-70b-versatile", ) print(chat_completion.choices[0].message.content)

Scaleway Generative

Scaleway cung cấp nhiều mô hình tạo miễn phí, với 100 yêu cầu mỗi phút và 200.000 mã thông báo mỗi phút.Một số mô hình có sẵn bao gồm:

BGE-Multilingual-Gemma2
Llama 3.1 70B Instruct

Tất cả các mô hình có sẵn: Link

Tài liệu: Link

Ưu điểm

Giới hạn yêu cầu lớn.
Đa dạng các mô hình.

Giá cả: Bản beta miễn phí đến tháng 3 năm 2025.

Ví dụ mã

from openai import OpenAI

# Initialize the client with your base URL and API key
client = OpenAI(
base_url=”//api.scaleway.ai/v1″,
api_key=”<SCW_API_KEY>”
)
# Create a chat completion for Llama 3.1 8b instruct
completion = client.chat.completions.create(
model=”llama-3.1-8b-instruct”,
messages=[{“role”: “user”, “content”: “Describe a futuristic city with advanced technology and green energy solutions.”}],
temperature=0.7,
max_tokens=100
)
# Output the result
print(completion.choices[0].message.content)

OVH AI Endpoints

OVH cung cấp quyền truy cập miễn phí vào các mô hình AI khác nhau, cho phép 12 yêu cầu mỗi phút.Một số mô hình có sẵn bao gồm:

CodeLlama 13B Instruct
Llama 3.1 70B Instruct

Tài liệu và tất cả các mô hình có sẵn://endpoints.ai.cloud.ovh.net/

Ưu điểm

Dễ sử dụng.
Đa dạng các mô hình.

Giá cả: Có bản beta miễn phí.

Ví dụ mã

import os from openai import OpenAI client = OpenAI( base_url='//llama-2-13b-chat-hf.endpoints.kepler.ai.cloud.ovh.net/api/openai_compat/v1', api_key=os.getenv("OVH_AI_ENDPOINTS_ACCESS_TOKEN") ) def chat_completion(new_message: str) -> str: history_openai_format = [{"role": "user", "content": new_message}] return client.chat.completions.create( model="Llama-2-13b-chat-hf", messages=history_openai_format, temperature=0, max_tokens=1024 ).choices.pop().message.content if __name__ == '__main__': print(chat_completion("Write a story in the style of James Joyce. The story should be about a trip to the Irish countryside in 2083, to see the beautiful scenery and robots.d"))

Together

Together là một nền tảng cộng tác để truy cập các LLM khác nhau, không có giới hạn cụ thể nào được đề cập.Một số mô hình có sẵn bao gồm:

Llama 3.2 11B Vision Instruct
DeepSeek R1 Distil Llama 70B

Tất cả các mô hình có sẵn: Link

Tài liệu: Link

Ưu điểm

Truy cập vào một loạt các mô hình.
Môi trường cộng tác.

Giá cả: Có gói miễn phí.

Ví dụ mã

from together import Together client = Together() stream = client.chat.completions.create( model="meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo", messages=[{"role": "user", "content": "What are the top 3 things to do in New York?"}], stream=True, ) for chunk in stream: print(chunk.choices[0].delta.content or "", end="", flush=True)

Cohere

Cohere cung cấp quyền truy cập vào các mô hình ngôn ngữ mạnh mẽ cho các ứng dụng khác nhau, cho phép 20 yêu cầu mỗi phút và 1.000 yêu cầu mỗi tháng.Một số mô hình có sẵn bao gồm:

Command-R
Command-R+

Tất cả các mô hình có sẵn: Link

Tài liệu: Link

Ưu điểm

Dễ sử dụng.
Tập trung vào các tác vụ NLP.

Giá cả: Có gói miễn phí.

Ví dụ mã

import cohere co = cohere.ClientV2("<<apiKey>>") response = co.chat( model="command-r-plus", messages=[{"role": "user", "content": "hello world!"}] ) print(response)

GitHub Models

GitHub cung cấp một bộ sưu tập các mô hình AI khác nhau, với giới hạn tốc độ phụ thuộc vào cấp đăng ký.Một số mô hình có sẵn bao gồm:

AI21 Jamba 1.5 Large
Cohere Command R

Tài liệu và tất cả các mô hình có sẵn: Link

Ưu điểm

Truy cập vào nhiều mẫu mã khác nhau.
Tích hợp với GitHub.

Giá cả: Miễn phí khi có tài khoản GitHub.

Ví dụ mã

import os from openai import OpenAI token = os.environ["GITHUB_TOKEN"] endpoint = "//models.inference.ai.azure.com" model_name = "gpt-4o" client = OpenAI( base_url=endpoint, api_key=token, ) response = client.chat.completions.create( messages=[ { "role": "system", "content": "You are a helpful assistant.", }, { "role": "user", "content": "What is the capital of France?", } ], temperature=1.0, top_p=1.0, max_tokens=1000, model=model_name ) print(response.choices[0].message.content)

Fireworks AI

Fireworks cung cấp nhiều mô hình AI mạnh mẽ khác nhau, với khả năng suy luận không cần máy chủ lên tới 6.000 vòng/phút, 2,5 tỷ mã thông báo/ngàyMột số mẫu có sẵn bao gồm:

Llama-v3p1-405b-hướng dẫn.
deepseek-r1

Tất cả các mô hình có sẵn: Link

Tài liệu: Link

Thuận lợi

Tùy chỉnh tiết kiệm chi phí
Suy luận nhanh.

Giá cả: Tín dụng miễn phí có giá 1 đô la.

Mã ví dụ

from fireworks.client import Fireworks client = Fireworks(api_key="<FIREWORKS_API_KEY>") response = client.chat.completions.create( model="accounts/fireworks/models/llama-v3p1-8b-instruct", messages=[{ "role": "user", "content": "Say this is a test", }], ) print(response.choices[0].message.content)

Lợi ích của việc sử dụng API miễn phí

Sau đây là một số lợi ích khi sử dụng API miễn phí:

Khả năng tiếp cận: Không cần chuyên môn sâu về AI hoặc đầu tư vào cơ sở hạ tầng.
Tùy chỉnh: Tinh chỉnh các mô hình cho các nhiệm vụ hoặc miền cụ thể.
Khả năng mở rộng: Xử lý khối lượng lớn yêu cầu khi doanh nghiệp của bạn phát triển.

Mẹo sử dụng hiệu quả API miễn phí

Sau đây là một số mẹo để sử dụng hiệu quả các API miễn phí, giải quyết những thiếu sót và hạn chế của chúng:

Chọn mô hình phù hợp: Bắt đầu với các mô hình đơn giản hơn cho các tác vụ cơ bản và mở rộng khi cần thiết.
Theo dõi mức sử dụng: Sử dụng bảng thông tin để theo dõi mức tiêu thụ mã thông báo và đặt giới hạn chi tiêu.
Tối ưu hóa mã thông báo: Tạo lời nhắc ngắn gọn để giảm thiểu việc sử dụng mã thông báo nhưng vẫn đạt được kết quả mong muốn.

Phần kết luận

Với sự sẵn có của các API miễn phí này, các nhà phát triển và doanh nghiệp có thể dễ dàng tích hợp các khả năng AI tiên tiến vào ứng dụng của họ mà không cần chi phí trả trước đáng kể. Bằng cách tận dụng các tài nguyên này, bạn có thể nâng cao trải nghiệm người dùng, tự động hóa tác vụ và thúc đẩy đổi mới trong các dự án của mình. Hãy bắt đầu khám phá các API này ngay hôm nay và khai phá tiềm năng của AI trong ứng dụng của bạn.

Small ERP

OpenRouter

Google AI Studio

Mistral (La Plateforme)

HuggingFace Serverless Inference

Cerebras

Groq

Scaleway Generative

OVH AI Endpoints

Together

Cohere

GitHub Models

Fireworks AI

Để lại một bình luận Hủy

8 Khái Niệm CSS Nền Tảng Giúp Bạn Viết Code Dễ Dàng

Dịch vụ thiết kế WEBSITE theo hướng cải tiến

Zapier vs Make vs n8n vs Agentkit vs …

Mở port ra internet hay một trung tâm kết nối vật lý ảo

Theo dõi KPI cho mạng xã hội

Từ SEO đến RAO: Tối ưu hóa cho bằng chứng trong kỷ nguyên AI

HTML có 30 thuộc tính nên sử dụng

Tạo một kế hoạch tiếp thị online

Liên hệ nhanh

OpenRouter

Google AI Studio

Mistral (La Plateforme)

HuggingFace Serverless Inference

Cerebras

Groq

Scaleway Generative

OVH AI Endpoints

Together

Cohere

GitHub Models

Fireworks AI

Để lại một bình luận Hủy