Trong thế giới số phát triển nhanh chóng, trí tuệ nhân tạo (AI) là yếu tố sống còn. Các doanh nghiệp có thể cải thiện quan hệ khách hàng, tối ưu hóa quy trình và thúc đẩy đổi mới nhờ mô hình ngôn ngữ lớn (LLM). API LLM là chìa khóa để tích hợp khả năng AI tiên tiến vào ứng dụng mà không cần nhiều tiền bạc hoặc kinh nghiệm.
Bạn có thể sử dụng Xử lý Ngôn ngữ Tự nhiên (NLP) và khả năng hiểu mà không cần tạo mô hình phức tạp từ đầu. API đóng vai trò trung gian giữa phần mềm của bạn và lĩnh vực AI đầy thách thức.
API cung cấp tài nguyên cần thiết để thành công trong phát triển AI, dù bạn muốn tạo trợ lý mã hóa thông minh hay cải thiện chatbot dịch vụ khách hàng.
Hiểu về API LLM
API LLM hoạt động theo mô hình yêu cầu-phản hồi đơn giản:
- Gửi yêu cầu: Ứng dụng của bạn gửi yêu cầu đến API, định dạng JSON, chứa biến thể mô hình, lời nhắc và tham số.
- Xử lý: API chuyển tiếp yêu cầu này đến LLM, xử lý bằng khả năng NLP của nó.
- Phản hồi: LLM tạo phản hồi, API gửi lại cho ứng dụng của bạn.
Giá cả và Mã thông báo (Tokens)
- Mã thông báo: Trong LLM, mã thông báo là đơn vị văn bản nhỏ nhất mà mô hình xử lý.
- Giá thường dựa trên số lượng mã thông báo đã sử dụng, với các khoản phí riêng cho mã thông báo đầu vào và đầu ra.
- Quản lý chi phí: Hầu hết các nhà cung cấp đều cung cấp giá trả tiền theo mức sử dụng, cho phép doanh nghiệp quản lý chi phí hiệu quả dựa trên mô hình sử dụng của họ.
API miễn phí cho tài nguyên LLM
Dưới đây là danh sách toàn diện các nhà cung cấp API LLM miễn phí, cùng với mô tả, ưu điểm, giá cả và giới hạn mã thông báo của họ:
OpenRouter
OpenRouter cung cấp nhiều LLM cho các tác vụ khác nhau, là một lựa chọn linh hoạt cho các nhà phát triển. Nền tảng cho phép tối đa 20 yêu cầu mỗi phút và 200 yêu cầu mỗi ngày.Một số mô hình đáng chú ý có sẵn bao gồm:
- DeepSeek R1
- Llama 3.3 70B Instruct
- Mistral 7B Instruct
Tất cả các mô hình free có sẵn: Link
Tài liệu:Link
Ưu điểm
- Giới hạn yêu cầu cao.
- Một loạt các mô hình đa dạng.
Giá cả: Có gói miễn phí.
Model Name & ID | Input ($/1M tokens) | Output ($/1M tokens) | Context (tokens) |
---|---|---|---|
Tongyi DeepResearch 30B A3B (free)alibaba/tongyi-deepresearch-30b-a3b:free | $0 | $0 | 131,072 |
Meituan: LongCat Flash Chat (free)meituan/longcat-flash-chat:free | $0 | $0 | 131,072 |
NVIDIA: Nemotron Nano 9B V2 (free)nvidia/nemotron-nano-9b-v2:free | $0 | $0 | 128,000 |
DeepSeek: DeepSeek V3.1 (free)deepseek/deepseek-chat-v3.1:free | $0 | $0 | 163,800 |
OpenAI: gpt-oss-20b (free)openai/gpt-oss-20b:free | $0 | $0 | 131,072 |
Z.AI: GLM 4.5 Air (free)z-ai/glm-4.5-air:free | $0 | $0 | 131,072 |
Qwen: Qwen3 Coder 480B A35B (free)qwen/qwen3-coder:free | $0 | $0 | 262,144 |
MoonshotAI: Kimi K2 0711 (free)moonshotai/kimi-k2:free | $0 | $0 | 32,768 |
Venice: Uncensored (free)cognitivecomputations/dolphin-mistral-24b-venice-edition:free | $0 | $0 | 32,768 |
Google: Gemma 3n 2B (free)google/gemma-3n-e2b-it:free | $0 | $0 | 8,192 |
Tencent: Hunyuan A13B Instruct (free)tencent/hunyuan-a13b-instruct:free | $0 | $0 | 32,768 |
TNG: DeepSeek R1T2 Chimera (free)tngtech/deepseek-r1t2-chimera:free | $0 | $0 | 163,840 |
Mistral: Mistral Small 3.2 24B (free)mistralai/mistral-small-3.2-24b-instruct:free | $0 | $0 | 131,072 |
MoonshotAI: Kimi Dev 72B (free)moonshotai/kimi-dev-72b:free | $0 | $0 | 131,072 |
DeepSeek: Deepseek R1 0528 Qwen3 8B (free)deepseek/deepseek-r1-0528-qwen3-8b:free | $0 | $0 | 131,072 |
DeepSeek: R1 0528 (free)deepseek/deepseek-r1-0528:free | $0 | $0 | 163,840 |
Mistral: Devstral Small 2505 (free)mistralai/devstral-small-2505:free | $0 | $0 | 32,768 |
Google: Gemma 3n 4B (free)google/gemma-3n-e4b-it:free | $0 | $0 | 8,192 |
Meta: Llama 3.3 8B Instruct (free)meta-llama/llama-3.3-8b-instruct:free | $0 | $0 | 128,000 |
Qwen: Qwen3 4B (free)qwen/qwen3-4b:free | $0 | $0 | 40,960 |
Qwen: Qwen3 30B A3B (free)qwen/qwen3-30b-a3b:free | $0 | $0 | 40,960 |
Qwen: Qwen3 8B (free)qwen/qwen3-8b:free | $0 | $0 | 40,960 |
Qwen: Qwen3 14B (free)qwen/qwen3-14b:free | $0 | $0 | 40,960 |
Qwen: Qwen3 235B A22B (free)qwen/qwen3-235b-a22b:free | $0 | $0 | 131,072 |
TNG: DeepSeek R1T Chimera (free)tngtech/deepseek-r1t-chimera:free | $0 | $0 | 163,840 |
Microsoft: MAI DS R1 (free)microsoft/mai-ds-r1:free | $0 | $0 | 163,840 |
Shisa AI: Shisa V2 Llama 3.3 70B (free)shisa-ai/shisa-v2-llama3.3-70b:free | $0 | $0 | 32,768 |
ArliAI: QwQ 32B RpR v1 (free)arliai/qwq-32b-arliai-rpr-v1:free | $0 | $0 | 32,768 |
Agentica: Deepcoder 14B Preview (free)agentica-org/deepcoder-14b-preview:free | $0 | $0 | 96,000 |
Meta: Llama 4 Maverick (free)meta-llama/llama-4-maverick:free | $0 | $0 | 128,000 |
Meta: Llama 4 Scout (free)meta-llama/llama-4-scout:free | $0 | $0 | 128,000 |
Qwen: Qwen2.5 VL 32B Instruct (free)qwen/qwen2.5-vl-32b-instruct:free | $0 | $0 | 16,384 |
DeepSeek: DeepSeek V3 0324 (free)deepseek/deepseek-chat-v3-0324:free | $0 | $0 | 163,840 |
Mistral: Mistral Small 3.1 24B (free)mistralai/mistral-small-3.1-24b-instruct:free | $0 | $0 | 128,000 |
Google: Gemma 3 4B (free)google/gemma-3-4b-it:free | $0 | $0 | 32,768 |
Google: Gemma 3 12B (free)google/gemma-3-12b-it:free | $0 | $0 | 32,768 |
Google: Gemma 3 27B (free)google/gemma-3-27b-it:free | $0 | $0 | 96,000 |
Nous: DeepHermes 3 Llama 3 8B Preview (free)nousresearch/deephermes-3-llama-3-8b-preview:free | $0 | $0 | 131,072 |
Dolphin3.0 Mistral 24B (free)cognitivecomputations/dolphin3.0-mistral-24b:free | $0 | $0 | 32,768 |
Qwen: Qwen2.5 VL 72B Instruct (free)qwen/qwen2.5-vl-72b-instruct:free | $0 100% off | $0 100% off | 131,072 |
Mistral: Mistral Small 3 (free)mistralai/mistral-small-24b-instruct-2501:free | $0 | $0 | 32,768 |
DeepSeek: R1 Distill Llama 70B (free)deepseek/deepseek-r1-distill-llama-70b:free | $0 100% off | $0 100% off | 8,192 |
DeepSeek: R1 (free)deepseek/deepseek-r1:free | $0 | $0 | 163,840 |
Google: Gemini 2.0 Flash Experimental (free)google/gemini-2.0-flash-exp:free | $0 | $0 | 1,048,576 |
Meta: Llama 3.3 70B Instruct (free)meta-llama/llama-3.3-70b-instruct:free | $0 | $0 | 65,536 |
Qwen2.5 Coder 32B Instruct (free)qwen/qwen-2.5-coder-32b-instruct:free | $0 | $0 | 32,768 |
Meta: Llama 3.2 3B Instruct (free)meta-llama/llama-3.2-3b-instruct:free | $0 | $0 | 131,072 |
Qwen2.5 72B Instruct (free)qwen/qwen-2.5-72b-instruct:free | $0 | $0 | 32,768 |
Mistral: Mistral Nemo (free)mistralai/mistral-nemo:free | $0 | $0 | 131,072 |
Google: Gemma 2 9B (free)google/gemma-2-9b-it:free | $0 | $0 | 8,192 |
Mistral: Mistral 7B Instruct (free)mistralai/mistral-7b-instruct:free | $0 100% off | $0 100% off | 32,768 |
Ví dụ mã
from openai import OpenAI
client = OpenAI(
base_url="//openrouter.ai/api/v1",
api_key="<OPENROUTER_API_KEY>",
)
completion = client.chat.completions.create(
model="cognitivecomputations/dolphin3.0-r1-mistral-24b:free",
messages=[
{
"role": "user",
"content": "What is the meaning of life?"
}
]
)
print(completion.choices[0].message.content)
Google AI Studio
Google AI Studio là một nền tảng mạnh mẽ để thử nghiệm mô hình AI, cung cấp giới hạn lớn cho các nhà phát triển. Nó cho phép tối đa 1.000.000 mã thông báo mỗi phút và 1.500 yêu cầu mỗi ngày.Một số mô hình có sẵn bao gồm:
- Gemini 2.0 Flash
- Gemini 1.5 Flash
Tất cả các mô hình có sẵn: Link
Tài liệu: Link
Ưu điểm
- Truy cập vào các mô hình mạnh mẽ.
- Giới hạn mã thông báo cao.
Giá cả: Có gói miễn phí.
Ví dụ mã
from google import genai
client = genai.Client(api_key="YOUR_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash",
contents="Explain how AI works",
)
print(response.text)
Mistral (La Plateforme)
Mistral cung cấp nhiều mô hình cho các ứng dụng khác nhau, tập trung vào hiệu suất cao. Nền tảng cho phép 1 yêu cầu mỗi giây và 500.000 mã thông báo mỗi phút.Một số mô hình có sẵn bao gồm:
- mistral-large-2402
- mistral-8b-latest
Tất cả các mô hình có sẵn: Link
Tài liệu: Link
Ưu điểm
- Giới hạn yêu cầu cao.
- Tập trung vào thử nghiệm.
Giá cả: Có gói miễn phí.
Ví dụ mã
import os
from mistralai import Mistral
api_key = os.environ["MISTRAL_API_KEY"]
model = "mistral-large-latest"
client = Mistral(api_key=api_key)
chat_response = client.chat.complete(
model= model,
messages = [
{
"role": "user",
"Content": "What is the best French cheese?",
},
]
)
print(chat_response.choices[0].message.content)
HuggingFace Serverless Inference
HuggingFace cung cấp một nền tảng để triển khai và sử dụng các mô hình mở khác nhau. Nó bị giới hạn ở các mô hình nhỏ hơn 10GB và cung cấp các khoản tín dụng khác nhau mỗi tháng.Một số mô hình có sẵn bao gồm:
- GPT-3
- DistilBERT
Tất cả các mô hình có sẵn: Link
Tài liệu: Link
Ưu điểm
- Phạm vi mô hình rộng.
- Dễ dàng tích hợp.
Giá cả: Các khoản tín dụng khác nhau mỗi tháng.
Ví dụ mã
from huggingface_hub import InferenceClient
client = InferenceClient(
provider="hf-inference",
api_key="hf_xxxxxxxxxxxxxxxxxxxxxxxx"
)
messages = [
{
“role”: “user”,
“content”: “What is the capital of Germany?”
}
]
completion = client.chat.completions.create(
model=”meta-llama/Meta-Llama-3-8B-Instruct”,
messages=messages,
max_tokens=500,
)
print(completion.choices[0].message)
Cerebras
Cerebras cung cấp quyền truy cập vào các mô hình Llama với trọng tâm là hiệu suất cao. Nền tảng cho phép 30 yêu cầu mỗi phút và 60.000 mã thông báo mỗi phút.Một số mô hình có sẵn bao gồm:
- Llama 3.1 8B
- Llama 3.3 70B
Tất cả các mô hình có sẵn: Link
Tài liệu: Link
Ưu điểm
- Giới hạn yêu cầu cao.
- Các mô hình mạnh mẽ.
Giá cả: Có gói miễn phí, hãy tham gia danh sách chờ
Ví dụ mã
import os
from cerebras.cloud.sdk import Cerebras
client = Cerebras(
api_key=os.environ.get("CEREBRAS_API_KEY"),
)
chat_completion = client.chat.completions.create(
messages=[
{"role": "user", "content": "Why is fast inference important?",}
],
model="llama3.1-8b",
)
Groq
Groq cung cấp nhiều mô hình cho các ứng dụng khác nhau, cho phép 1.000 yêu cầu mỗi ngày và 6.000 mã thông báo mỗi phút.Một số mô hình có sẵn bao gồm:
- DeepSeek R1 Distill Llama 70B
- Gemma 2 9B Instruct
Tất cả các mô hình có sẵn: Link
Tài liệu: Link
Ưu điểm
- Giới hạn yêu cầu cao.
- Các tùy chọn mô hình đa dạng.
Giá cả: Có gói miễn phí.
Ví dụ mã
import os
from groq import Groq
client = Groq(
api_key=os.environ.get("GROQ_API_KEY"),
)
chat_completion = client.chat.completions.create(
messages=[
{
"role": "user",
"content": "Explain the importance of fast language models",
}
],
model="llama-3.3-70b-versatile",
)
print(chat_completion.choices[0].message.content)
Scaleway Generative
Scaleway cung cấp nhiều mô hình tạo miễn phí, với 100 yêu cầu mỗi phút và 200.000 mã thông báo mỗi phút.Một số mô hình có sẵn bao gồm:
- BGE-Multilingual-Gemma2
- Llama 3.1 70B Instruct
Tất cả các mô hình có sẵn: Link
Tài liệu: Link
Ưu điểm
- Giới hạn yêu cầu lớn.
- Đa dạng các mô hình.
Giá cả: Bản beta miễn phí đến tháng 3 năm 2025.
Ví dụ mã
from openai import OpenAI
# Initialize the client with your base URL and API key
client = OpenAI(
base_url=”//api.scaleway.ai/v1″,
api_key=”<SCW_API_KEY>”
)
# Create a chat completion for Llama 3.1 8b instruct
completion = client.chat.completions.create(
model=”llama-3.1-8b-instruct”,
messages=[{“role”: “user”, “content”: “Describe a futuristic city with advanced technology and green energy solutions.”}],
temperature=0.7,
max_tokens=100
)
# Output the result
print(completion.choices[0].message.content)
OVH AI Endpoints
OVH cung cấp quyền truy cập miễn phí vào các mô hình AI khác nhau, cho phép 12 yêu cầu mỗi phút.Một số mô hình có sẵn bao gồm:
- CodeLlama 13B Instruct
- Llama 3.1 70B Instruct
Tài liệu và tất cả các mô hình có sẵn://endpoints.ai.cloud.ovh.net/
Ưu điểm
- Dễ sử dụng.
- Đa dạng các mô hình.
Giá cả: Có bản beta miễn phí.
Ví dụ mã
import os
from openai import OpenAI
client = OpenAI(
base_url='//llama-2-13b-chat-hf.endpoints.kepler.ai.cloud.ovh.net/api/openai_compat/v1',
api_key=os.getenv("OVH_AI_ENDPOINTS_ACCESS_TOKEN")
)
def chat_completion(new_message: str) -> str:
history_openai_format = [{"role": "user", "content": new_message}]
return client.chat.completions.create(
model="Llama-2-13b-chat-hf",
messages=history_openai_format,
temperature=0,
max_tokens=1024
).choices.pop().message.content
if __name__ == '__main__':
print(chat_completion("Write a story in the style of James Joyce. The story should be about a trip to the Irish countryside in 2083, to see the beautiful scenery and robots.d"))
Together
Together là một nền tảng cộng tác để truy cập các LLM khác nhau, không có giới hạn cụ thể nào được đề cập.Một số mô hình có sẵn bao gồm:
- Llama 3.2 11B Vision Instruct
- DeepSeek R1 Distil Llama 70B
Tất cả các mô hình có sẵn: Link
Tài liệu: Link
Ưu điểm
- Truy cập vào một loạt các mô hình.
- Môi trường cộng tác.
Giá cả: Có gói miễn phí.
Ví dụ mã
from together import Together
client = Together()
stream = client.chat.completions.create(
model="meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo",
messages=[{"role": "user", "content": "What are the top 3 things to do in New York?"}],
stream=True,
)
for chunk in stream:
print(chunk.choices[0].delta.content or "", end="", flush=True)
Cohere
Cohere cung cấp quyền truy cập vào các mô hình ngôn ngữ mạnh mẽ cho các ứng dụng khác nhau, cho phép 20 yêu cầu mỗi phút và 1.000 yêu cầu mỗi tháng.Một số mô hình có sẵn bao gồm:
- Command-R
- Command-R+
Tất cả các mô hình có sẵn: Link
Tài liệu: Link
Ưu điểm
- Dễ sử dụng.
- Tập trung vào các tác vụ NLP.
Giá cả: Có gói miễn phí.
Ví dụ mã
import cohere
co = cohere.ClientV2("<<apiKey>>")
response = co.chat(
model="command-r-plus",
messages=[{"role": "user", "content": "hello world!"}]
)
print(response)
GitHub Models
GitHub cung cấp một bộ sưu tập các mô hình AI khác nhau, với giới hạn tốc độ phụ thuộc vào cấp đăng ký.Một số mô hình có sẵn bao gồm:
- AI21 Jamba 1.5 Large
- Cohere Command R
Tài liệu và tất cả các mô hình có sẵn: Link
Ưu điểm
- Truy cập vào nhiều mẫu mã khác nhau.
- Tích hợp với GitHub.
Giá cả: Miễn phí khi có tài khoản GitHub.
Ví dụ mã
import os
from openai import OpenAI
token = os.environ["GITHUB_TOKEN"]
endpoint = "//models.inference.ai.azure.com"
model_name = "gpt-4o"
client = OpenAI(
base_url=endpoint,
api_key=token,
)
response = client.chat.completions.create(
messages=[
{
"role": "system",
"content": "You are a helpful assistant.",
},
{
"role": "user",
"content": "What is the capital of France?",
}
],
temperature=1.0,
top_p=1.0,
max_tokens=1000,
model=model_name
)
print(response.choices[0].message.content)
Fireworks AI
Fireworks cung cấp nhiều mô hình AI mạnh mẽ khác nhau, với khả năng suy luận không cần máy chủ lên tới 6.000 vòng/phút, 2,5 tỷ mã thông báo/ngàyMột số mẫu có sẵn bao gồm:
- Llama-v3p1-405b-hướng dẫn.
- deepseek-r1
Tất cả các mô hình có sẵn: Link
Tài liệu: Link
Thuận lợi
- Tùy chỉnh tiết kiệm chi phí
- Suy luận nhanh.
Giá cả: Tín dụng miễn phí có giá 1 đô la.
Mã ví dụ
from fireworks.client import Fireworks
client = Fireworks(api_key="<FIREWORKS_API_KEY>")
response = client.chat.completions.create(
model="accounts/fireworks/models/llama-v3p1-8b-instruct",
messages=[{
"role": "user",
"content": "Say this is a test",
}],
)
print(response.choices[0].message.content)
Lợi ích của việc sử dụng API miễn phí
Sau đây là một số lợi ích khi sử dụng API miễn phí:
- Khả năng tiếp cận: Không cần chuyên môn sâu về AI hoặc đầu tư vào cơ sở hạ tầng.
- Tùy chỉnh: Tinh chỉnh các mô hình cho các nhiệm vụ hoặc miền cụ thể.
- Khả năng mở rộng: Xử lý khối lượng lớn yêu cầu khi doanh nghiệp của bạn phát triển.
Mẹo sử dụng hiệu quả API miễn phí
Sau đây là một số mẹo để sử dụng hiệu quả các API miễn phí, giải quyết những thiếu sót và hạn chế của chúng:
- Chọn mô hình phù hợp: Bắt đầu với các mô hình đơn giản hơn cho các tác vụ cơ bản và mở rộng khi cần thiết.
- Theo dõi mức sử dụng: Sử dụng bảng thông tin để theo dõi mức tiêu thụ mã thông báo và đặt giới hạn chi tiêu.
- Tối ưu hóa mã thông báo: Tạo lời nhắc ngắn gọn để giảm thiểu việc sử dụng mã thông báo nhưng vẫn đạt được kết quả mong muốn.
Phần kết luận
Với sự sẵn có của các API miễn phí này, các nhà phát triển và doanh nghiệp có thể dễ dàng tích hợp các khả năng AI tiên tiến vào ứng dụng của họ mà không cần chi phí trả trước đáng kể. Bằng cách tận dụng các tài nguyên này, bạn có thể nâng cao trải nghiệm người dùng, tự động hóa tác vụ và thúc đẩy đổi mới trong các dự án của mình. Hãy bắt đầu khám phá các API này ngay hôm nay và khai phá tiềm năng của AI trong ứng dụng của bạn.
Bài viết liên quan: