Việc tái sử dụng điện thoại Android cũ thành trạm điều khiển hoặc máy chủ mini là giải pháp thông minh. Phương pháp này giúp tiết kiệm chi phí. Nó cũng góp phần bảo vệ môi trường. Hướng dẫn này chi tiết hóa quá trình “hồi sinh” thiết bị. Mục tiêu là biến điện thoại thành máy chủ Linux bỏ túi. Hệ thống này sẽ chạy PicoClaw thông qua Termux và SSH.
1. Chuẩn bị môi trường: Termux
Termux là một trình giả lập terminal mạnh mẽ. Nó mang môi trường Linux lên Android. Việc này không yêu cầu root thiết bị.
- Tải về: Không sử dụng phiên bản từ Play Store. Phiên bản này đã cũ và có lỗi. Hãy tải bản mới nhất từ F-Droid hoặc GitHub.
- Cập nhật hệ thống: Mở Termux. Chạy lệnh sau để đảm bảo hoạt động trơn tru:
pkg update && pkg upgrade - Cấp quyền bộ nhớ: Thực hiện lệnh này để quản lý tệp dễ dàng hơn:
termux-setup-storage
2. Thiết lập SSH: Điều khiển từ xa
Để điều khiển điện thoại từ máy tính, sử dụng SSH. Điều này tiện lợi hơn việc gõ trên màn hình điện thoại nhỏ.
- Cài đặt OpenSSH: Chạy lệnh sau trong Termux:
pkg install openssh - Thiết lập mật khẩu: Đặt mật khẩu đăng nhập từ máy tính. Gõ lệnh:
passwd - Kiểm tra Username và IP:
- Để biết tên người dùng, gõ
whoami. Tên thường có dạng u0_a123. - Để xem địa chỉ IP của điện thoại, gõ
ifconfig. Ví dụ: 192.168.1.15.
- Để biết tên người dùng, gõ
- Khởi động Server: Gõ lệnh
sshd. - Kết nối từ máy tính: Mở Terminal trên PC hoặc Laptop. Gõ lệnh sau:
ssh [username]@[IP_điện_thoại] -p 8022Giữ kết nối: Để tránh máy chủ SSH tự ngắt khi đóng Termux, chạy termux-wake-lock để giữ máy hoạt động trong nền. Dừng server: Sử dụng pkill sshd để dừng máy chủ SSH khi không sử dụng. Bảo mật: Chỉ sử dụng SSH trên mạng Wi-Fi đáng tin cậy. Để kết nối từ xa, cân nhắc sử dụng Tailscale. Kết nối qua ADB: Nếu không có Wi-Fi, bạn có thể dùng adb forward tcp:8022 tcp:8022 để kết nối qua cáp USB.
3. Cài đặt PicoClaw (Hệ thống Claw Machine Mini)
PicoClaw là các dự án mã nguồn mở. Chúng hỗ trợ điều khiển máy gắp gấu. Chúng cũng điều khiển các thiết bị IoT nhỏ dựa trên vi điều khiển. Ví dụ là Raspberry Pi Pico. Việc quản lý các thiết bị này có thể thông qua một máy chủ.

Để chạy PicoClaw trên Termux, tôi đã làm cho nó hoạt động hoàn hảo mà không cần proot hay chỉnh sửa go.mod nữa.
termux-change-repoĐể thay đổi máy chủ phản chiếu kho lưu trữ Termux,sử dụng lệnhtermux-change-repo Để khắc phục tốc độ tải xuống chậm hoặc lỗi kết nối, hãy chạy lệnh, chọn kho lưu trữ mong muốn (sử dụng phím cách để chọn, Enter để xác nhận) và chọn một máy chủ phản chiếu mới (ví dụ: Máy chủ phản chiếu ở Trung Quốc, hoặc các máy chủ khác). Cuối cùng, chạy lệnhpkg updateđể áp dụng các thay đổi.- đã chọn phương án thứ hai
- Chọn tùy chọn “North America” (bao gồm packages-cf.termux.dev)
pkg update
pkg upgrade -y
pkg install -y git make golang clang nano curl
pkg upgrade -y
git clone //github.com/sipeed/picoclaw.git
cd picoclaw
export GOTOOLCHAIN=local
make deps
make build
Tệp nhị phân có sẵn trong thư mục build/
Thay vì một hướng dẫn hoặc tập lệnh cài đặt, có lẽ sẽ tốt hơn nếu chỉ cần cung cấp một bản dựng Termux gốc được xây dựng bằng cách sử dụng tệp nhị phân Termux Golang, hoặc thậm chí là một gói Termux. Tuy nhiên, hiện tại tôi không biết cách thực hiện cả hai và thêm chúng vào goreleaser.
Build tạo ngay trong thư mục picoclaw
make deps
90% trường hợp PicoClaw không cần CGO.
Bạn chỉ cần: CGO_ENABLED=0 make build
# Build (không cần cài đặt)
make build
# Build cho nhiều nền tảng
make build-all
# Build và cài đặt
make install
Tạo file cấu hình như ví dụ //github.com/sipeed/picoclaw/blob/main/README.vi.md
Nếu dùng Ollama thử list curl //192.168.1.5:11434/api/tags
lưu ý “agents”: {
“defaults”: {
“model”: “gpt4” phải đúng “model_name”: “gpt4”,
}
Nhưng shell của bạn không thấy binary trong PATH.
echo $PATH Bạn sẽ không thấy. Thêm vào PATH
echo ‘export PATH=$HOME/.local/bin:$PATH’ >> ~/.bashrc
source ~/.bashrc
Báo lỗi dùng use Zsh:
echo ‘export PATH=”$HOME/.local/bin:$PATH”‘ >> ~/.zshrc
source ~/.zshrc
Kiểm tra lại
which picoclaw
Nếu ra:
/data/data/com.termux/files/home/.local/bin/picoclaw
→ OK.
Khởi tạo: ./picoclaw onboard
để lấy path chứ file cấu hình, sao đó chép
cp config.json /data/data/com.termux/files/home/.picoclaw/
Giờ Trò chuyện
./picoclaw agent -m “Xin chào, bạn là ai?”
Gateway started on 0.0.0.0:18790 không có web UI mặc định. Gateway chỉ mở:
/health
/ready
API nội bộ cho channel (Telegram, CLI, webhook…)
Nó không phải web app. //IP_ĐIỆN_THOẠI:18790/health Nếu thấy → gateway chạy bình thường.Nếu trả lời được → config đúng.Sau đó mới chạy gateway
./picoclaw gateway
4. Tối ưu hóa: Biến điện thoại thành Server thực thụ
Để điện thoại cũ hoạt động ổn định 24/7 như một máy chủ, cần thực hiện các tối ưu hóa sau:
- Giữ CPU luôn thức: Vuốt thanh thông báo Termux xuống. Chọn “Acquire wake lock“. Hành động này ngăn Android đưa CPU vào chế độ ngủ sâu. Nó giúp tránh gián đoạn kết nối SSH. Gõ lệnh: termux-wake-lock giúp Android không kill process khi tắt màn hình.
- Chế độ tiết kiệm pin: Tắt tính năng tối ưu hóa pin (Battery Optimization) cho ứng dụng Termux. Thực hiện trong cài đặt Android của điện thoại.
- Tự động chạy khi khởi động: Cài đặt plugin Termux:Boot. Plugin này giúp script PicoClaw tự động chạy. Nó sẽ hoạt động ngay khi điện thoại khởi động.
Tại sao phương pháp này hiệu quả?
Việc sử dụng điện thoại cũ làm máy chủ mang lại nhiều lợi ích kinh tế và kỹ thuật.
- Hiệu năng: Chip xử lý của điện thoại cũ có sức mạnh đáng kể. Ví dụ, dòng Snapdragon 600-series. Chúng thường mạnh hơn nhiều so với các bo mạch nhúng giá rẻ.
- Tích hợp sẵn: Điện thoại có sẵn nhiều tính năng quan trọng. Bao gồm màn hình (dùng để gỡ lỗi). Pin dự phòng hoạt động như một UPS tự nhiên khi mất điện. Kết nối Wi-Fi và 4G cũng có sẵn.
- Tiết kiệm: Không cần chi phí mua thêm phần cứng mới. Điều này giúp giảm đáng kể tổng chi phí dự án.
Bạn đã nạp mã PicoClaw vào thiết bị chưa? Kiểm tra đúng command có gì ./picoclaw –help hoặc ./picoclaw -h Nó sẽ liệt kê command thực tế.
Cách chạy đúng: ./picoclaw run –config config.json hoặc ./picoclaw –config config.json
Kiểm tra binary có build đúng không: file picoclaw Nếu là ARM aarch64 → OK.
Khởi động máy là PicoClaw tự chạy
Cài Termux:Boot Nên cài từ F-Droid.
Tắt tối ưu pin (QUAN TRỌNG)
Vào: Settings → Battery → App optimization
Tắt tối ưu pin cho:
Termux
Termux:Boot
Nếu không tắt → Android sẽ kill process sau vài phút.
Lệnh pkg install tmux Công cụ này được sử dụng để cài đặt trình đa nhiệm thiết bị đầu cuối tmux trên các hệ thống sử dụng pkg.
Trong Termux, tạo thư mục boot: mkdir -p ~/.termux/boot
Kiểm tra thư mục cài:find ~ -name start.sh
Tạo file script:
nano ~/.termux/boot/start-picoclaw.sh
Dán nội dung ví dụ:
#!/data/data/com.termux/files/usr/bin/bash
termux-wake-lock
cd /data/data/com.termux/files/home/picoclaw
./picoclaw gateway
Thay đường dẫn đúng với thư mục bạn cài picoclaw
Lưu lại.
Cấp quyền thực thi: chmod +x ~/.termux/boot/start-picoclaw.sh
Test ngay (không reboot): bash ~/.termux/boot/start-picoclaw.sh
Thêm sleep 20 thay cho termux-wake-lock → chờ 20 giây sau khi boot (tránh crash vì hệ thống chưa sẵn sàng)
Sau ~30 giây, mở Termux xem PicoClaw đã chạy chưa. ps aux | grep picoclaw
dùng tmux hoặc nohup:
Ví dụ sửa script thành:
#!/data/data/com.termux/files/usr/bin/bash
sleep 20
cd /data/data/com.termux/files/home/picoclaw
nohup ./picoclaw gateway > gateway.log 2>&1 &
Kiểm tra hoạt động
Reboot máy.
Đợi 30–60 giây.
Vào Termux: tmux ls
Sau khi khởi động lại, mở Termux và chạy: ps -ef | grep picoclaw
thấy tiến trình Picoclaw đang chạy. Nếu không, mở logcat:adb logcat | grep Termux
để xem lỗi khi script chạy.
Nếu thấy session picoclaw → OK.
Các mô hình cục bộ của Ollama
Việc sử dụng PicoClaw với các mô hình Ollama cục bộ (qwen3:8b,qwen3:4b) luôn bị lỗi hết thời gian chờcontext deadline exceeded, trong khi các mô hình tương tự lại phản hồi bình thường thông qua API Ollama trực tiếp (/v1/chat/completions) trên cùng một máy.
cấu hình với Ollama cục bộ:
{
“agents”: {
“defaults”: {
“model”: “ollama/qwen3:8b”,
“workspace”: “~/.picoclaw/workspace”,
“restrict_to_workspace”: true,
“max_tokens”: 4096,
“max_tool_iterations”: 20
}
},
“providers”: {
“ollama”: {
“api_key”: “local”,
“api_base”: “//127.0.0.1:11434/v1”
}
}
}
Chạy PicoClaw: picoclaw agent -m “What is 2+2? Reply with one number.”
Sau đó thất bại sau khi hết thời gian chờ:
- cảnh báo lặp đi lặp lại:
failed to send request: Post "//127.0.0.1:11434/v1/chat/completions": context deadline exceeded (Client.Timeout exceeded while awaiting headers) - lỗi cuối cùng:
LLM call failed after retries... context deadline exceeded
Thời gian chờ thực tế ước tính khoảng ~6 phút (nhiều chu kỳ thử lại). Thời gian chờ được mã hóa cứng 120 giây chínhpkg/providers/openai_compat/provider.golà nguyên nhân gốc rễ. Phi4-mini trên CPU có thể dễ dàng vượt quá thời gian đó đối với các lời nhắc tác nhân với ngữ cảnh hệ thống đầy đủ. Các tùy chọn của bạn là:
- Biên dịch từ mã nguồnvới thời gian chờ được tăng lên — thay đổi
120 * time.Secondthành600 * time.Secondtrongprovider.go:34 - Sử dụng GPU — ngay cả một GPU cấp thấp cũng giúp giảm đáng kể thời gian suy luận (Lưu ý, card đồ họa RX 570 đã rút ngắn thời gian truy vấn từ 6 phút xuống còn dưới 30 giây).
- Hãy thử một mô hình nhỏ hơn— phi4-mini có 3,8 tỷ tham số, nhưng ngay cả ở kích thước đó, quá trình suy luận CPU với lời nhắc hệ thống của PicoClaw vẫn có thể chậm.
- Thử lfm2.5-thinking phản hồi trong vòng chưa đầy 2 phút.
{
“max_tokens”: 1536,
“max_tool_iterations”: 8,
“temperature”: 0.45
}
ollama pull gpt-oss:20b-q4_K_M Hoặc ollama pull gpt-oss:20b-q4_0 Mạnh hơn nhiều, chậm hơn rõ so lfm2.5
{
“max_tokens”: 1024,
“max_tool_iterations”: 6,
“temperature”: 0.4
}
Cập nhật PicoClaw
Nếu bạn đã clone PicoClaw trước đó và chỉ muốn cập nhật code mới nhất (pull updates từ GitHub), không cần clone lại từ đầu:
Di chuyển vào thư mục hiện có: cd picoclaw
Kéo code mới về (pull):
git pull origin main # hoặc master nếu branch default là master
Sau đó build/update binary nếu cần (theo README PicoClaw):
make deps
make build
Cách này giữ nguyên .picoclaw/workspace (memory, sessions, config) ở ~/ – rất quan trọng vì chứa dữ liệu AI của bạn.
Các kiểu **prompt hiệu quả nhất** khi dùng **PicoClaw**
(dựa trên cách nó xây dựng system prompt từ các file markdown như IDENTITY.md, SOUL.md, AGENTS.md, USER.md + cách agent xử lý tool và memory nhẹ).
PicoClaw rất nhạy cảm với prompt rõ ràng, ngắn gọn, có cấu trúc → vì nó chạy resource thấp, model thường dùng là các API rẻ (deepseek, qwen, minimax, gemini flash…) nên càng tránh vòng lặp/hallucinate càng tốt.
### 1. Các file markdown cơ bản (đặt trong workspace picoclaw hoặc tương đương)
Những file này được tự động ghép vào system prompt mỗi lần chat → ảnh hưởng lớn nhất.
– **IDENTITY.md** (vai trò chính, personality – ngắn gọn 200–400 từ):
“`
Bạn là PicoClaw – trợ lý AI siêu nhanh, chính xác, tiết kiệm token.
– Luôn trả lời ngắn gọn, dùng bullet nếu có thể.
– Không chào hỏi thừa, không kết luận dài dòng.
– Ưu tiên hành động thực tế (tool, script) hơn giải thích lý thuyết.
– Nếu task phức tạp: suy nghĩ step-by-step rõ ràng.
– Ngôn ngữ: tiếng Việt nếu user hỏi tiếng Việt, tiếng Anh nếu code/tech.
“`
– **SOUL.md** (giá trị cốt lõi, giới hạn đạo đức – giúp tránh dangerous action):
“`
Core values:
– An toàn trước hết: Không chạy rm -rf, sudo nguy hiểm, code phá hoại.
– Trung thực: Nếu không biết → nói thẳng “Tôi cần thêm info” hoặc “Không đủ tool”.
– Tiết kiệm: Trả lời ngắn, tránh lặp lại.
– Proactive: Nếu phát hiện vấn đề lặp lại (lỗi cũ), tự đề xuất fix lâu dài.
“`
– **AGENTS.md** (nếu dùng multi-agent hoặc tool custom):
“`
Agent chính: Executor – thực thi tool, script, curl.
Agent phụ (nếu cần): Researcher – chỉ search/browse, không execute.
Khi task cần research + execute: Researcher trước → Executor sau.
“`
– **USER.md** (info cá nhân, sở thích – tự động inject):
“`
Tên: MINH
Location: TP.HCM, VN
Sở thích: automation, ERP, n8n, Termux, tiết kiệm chi phí API.
Không thích: prompt dài dòng, model chậm (tránh claude nếu có thể).
“`
### 2. Kiểu prompt chat hàng ngày (copy-paste khi nói chuyện trực tiếp)
| Kiểu prompt | Ví dụ prompt copy-paste | Khi nào dùng / Lợi ích |
|——————————|—————————————————————————————–|—————————————————————————————-|
| **Thực thi ngay, không hỏi** | “Thực hiện ngay: [task]. Không hỏi lại, báo kết quả cuối cùng dưới dạng bullet.” | Task đơn giản, muốn nhanh, tiết kiệm token. |
| **Chain of Thought bắt buộc**| “Suy nghĩ từng bước (Thought → Action → Observation → Thought → Final Answer). Task: [mô tả]” | Task phức tạp (code, debug, plan nhiều bước) – giống ReAct, tăng accuracy cao. |
| **Giới hạn tool an toàn** | “Chỉ dùng tool: ls, cat, grep, curl, git pull. Không rm, sudo, install gì cả. Task: …” | Tránh agent tự phá Termux hoặc VPS. |
| **Viết + chạy code tự fix** | “Viết script Python hoàn chỉnh để [task]. Sau đó tự chạy bằng tool. Nếu lỗi: tự fix tối đa 3 lần. Báo code + output.” | Automate script, data process – rất mạnh trên Termux. |
| **Tích hợp n8n / external** | “Nếu cần workflow phức tạp (multi-app, schedule): gọi webhook n8n tại [url]. Payload: {action: ‘…’, data: {…}}. Task: …” | Kết nối n8n như bạn đang làm với Shopee tracking. |
| **Tiết kiệm token max** | “Trả lời cực ngắn: chỉ bullet points, không giải thích thừa, không emoji.” | Dùng API trả phí (deepseek/stepfun), hoặc chat dài. |
| **Proactive rule** | “Từ giờ: mỗi 4h tự check Shopee orders qua n8n webhook → nếu thay đổi status thì báo ngay. Không cần hỏi.” | Tận dụng tính năng background/proactive của PicoClaw. |
| **Multi-agent style** | “Phân vai: Agent A research info từ web, Agent B viết code, Agent C review & tối ưu. Bắt đầu task: [mô tả].” | Nếu config swarm/multi-instance (từ discussion GitHub PicoClaw). |
| **Debug & phân tích log** | “Phân tích log lỗi sau: [dán log]. Đề xuất fix → tự chạy thử lệnh → báo trước-sau.” | Debug script, API call thất bại. |
| **Tóm tắt & extract** | “Tóm tắt nội dung sau thành 5 bullet chính + action items nếu có: [dán text/email/web].” | Xử lý email dài, log, bài báo. |
### Mẹo nâng cao (từ cộng đồng & thực tế 2026)
– Temperature config trong config.toml: 0.3–0.5 → ít “sáng tạo” thừa, phù hợp agent.
– Dùng prefix chat: “Agent mode:” hoặc “Tool only:” để ép agent ưu tiên tool hơn chat.
– Nếu PicoClaw hay quên context → thêm vào prompt: “Dùng memory từ USER.md và lịch sử gần nhất.”
– Test prompt dài → dùng “Short response mode ON” ở đầu chat để ép ngắn gọn.
– Với Shopee/n8n: prompt kiểu “Check status đơn hàng qua n8n force_check. Order IDs: [danh sách]. Báo thay đổi nếu có.”
Ứng dụng AI miễn phí chạy trên điện thoại ngay cả ở Chế độ máy bay
Các nhà phát triển đã cho chạy thử nghiệm trên các điện thoại Android tầm trung chỉ vài giờ sau khi phát hành. Trên iPhone, nó hoạt động thông qua các ứng dụng như PocketPal AI và Off Grid. Trên Android, Off Grid hỗ trợ nó trên các điện thoại có RAM 6GB, nằm trong tầm giá 200-300 đô la. Sau khi mô hình được tải xuống, bạn bật chế độ máy bay và nó vẫn phản hồi. Không có gì được gửi đi đâu cả vì không có nơi nào để gửi đến.
Yêu cầu tối thiểu đối với Android là 6GB RAM, điều này loại trừ rất nhiều điện thoại từ năm 2020 trở về trước.
Dành cho iPhone
Các lựa chọn chính là PocketPal AI (miễn phí, mã nguồn mở, có sẵn trên App Store) và Off Grid (cũng miễn phí, có trên App Store và Play Store). Cả hai đều cho phép bạn duyệt và tải xuống các mô hình từ Hugging Face. Bạn chỉ cần tải xuống một lần qua Wi-Fi — mô hình 2B có dung lượng khoảng 4GB — và sau đó, không cần kết nối nữa. Trên iPhone 17 Pro sử dụng khung MLX của Apple, người dùng báo cáo tốc độ khoảng 30-50 token mỗi giây, đủ nhanh để tạo cảm giác như một cuộc trò chuyện bình thường.
Dành cho Android
Ứng dụng Off Grid hỗ trợ Qwen 3.5 trên điện thoại có RAM 6GB. Tốc độ xử lý gần 8 token mỗi giây trên model 2B, chậm hơn đáng kể nhưng vẫn có thể sử dụng được.
Cách dễ nhất để kiểm tra xem nó có thực sự ngoại tuyến hay không: bật chế độ máy bay, sau đó hỏi nó một câu hỏi. Nó sẽ trả lời. Đó chính là bài kiểm tra.
Những điều bạn thực sự có thể làm với nó
Mô hình 2B hữu ích cho:
- Soạn thảo và chỉnh sửa văn bản
- Tóm tắt các tài liệu bạn tải trực tiếp vào ứng dụng.
- Giải đáp những câu hỏi mà bạn thường tìm kiếm trên Google.
- Hỗ trợ dịch thuật cơ bản trên 201 ngôn ngữ.
- Quan sát một hình ảnh và đặt câu hỏi về nó.
Những điểm yếu của nó: suy luận phức tạp, các bài toán lập trình nhiều bước, bất cứ thứ gì yêu cầu thông tin hiện tại. Bài viết của Neowin đã nêu rõ ràng — mô hình 2B phù hợp nhất cho các tác vụ có độ phức tạp thấp, chứ không phải để thay thế một mô hình đám mây quy mô lớn. Điều đó chính xác. Khoảng cách với một mô hình 70B được lưu trữ là có thật, và bất cứ ai mong đợi điều ngược lại sẽ thất vọng.
Mẫu 4B xử lý được nhiều tác vụ hơn — bao gồm cả các tác vụ của trợ lý ảo — nhưng nó cần nhiều RAM hơn hầu hết các điện thoại hiện có. Trên thực tế, 2B là mẫu dành cho điện thoại. 4B và 9B phù hợp hơn với máy tính xách tay.
Đây là một hạn chế thực sự mà không ai nên bỏ qua. Việc chạy suy luận AI liên tục trên điện thoại sẽ tiêu hao pin nhiều hơn so với việc xem video trực tuyến. Thử nghiệm của cộng đồng trên iPhone 17 Pro cho thấy việc sử dụng liên tục trong vài giờ sẽ làm hao pin đáng kể. Đối với việc sử dụng không liên tục trong ngày, mức hao pin tăng thêm khoảng 15-20% so với mức cơ bản. Điều đó không phải là thảm họa, nhưng nó không hề miễn phí.
Vấn đề bảo mật
Hầu hết các ứng dụng AI đều gửi văn bản của bạn đến máy chủ. Bạn gõ gì đó, nó rời khỏi điện thoại của bạn, được xử lý ở đâu đó và một phản hồi được gửi lại. Điều đó ổn đối với hầu hết các trường hợp. Nhưng sẽ không ổn nếu thứ bạn đang gõ là thông tin riêng tư — thông tin sức khỏe, câu hỏi pháp lý, hoặc thông tin liên quan đến công việc mà không nên rời khỏi sự kiểm soát của tổ chức bạn.
Khi một mô hình hoạt động hoàn toàn trên thiết bị của bạn, tất cả những điều đó sẽ không xảy ra. Không có cuộc gọi API, không có ghi nhật ký, không có dữ liệu nào được gửi đến bên thứ ba. Không phải vì công ty hứa hẹn điều đó sẽ không xảy ra — mà vì kiến trúc hệ thống khiến điều đó là bất khả thi.
Mô hình 9B, vẫn chạy trên một GPU dành cho người tiêu dùng duy nhất, đạt điểm 70,1 trên bài kiểm tra khả năng xử lý hình ảnh MMMU-Pro. GPT-5-Nano đạt 57,4 điểm trên cùng bài kiểm tra đó. Một mô hình mã nguồn mở 9B vượt trội hơn một sản phẩm dựa trên điện toán đám mây trong các tác vụ cụ thể là điều chưa từng xảy ra cách đây hai năm.
Mẫu 2B kích thước bằng điện thoại sẽ không thay thế hoàn toàn những gì bạn đang sử dụng AI đám mây hiện nay. Nhưng nó bao quát một phần đáng kể các tác vụ hàng ngày — và nó làm được điều đó mà không cần đăng ký, không giữ dữ liệu của bạn và không cần tín hiệu.
Đó thực sự là một tính năng hữu ích trên điện thoại. Không phải để gây ấn tượng, mà chỉ đơn giản là hữu ích.
Gemma 4.
Google tung ra 4 phiên bản với 3 công nghệ “não bộ” khác nhau. Anh em cùng mình “giải ngố” vài thuật ngữ hay ho nhé:
1. DÒNG SIÊU NHẸ CHO DI ĐỘNG (E2B & E4B)
Chữ “E” là Effective parameters (Tham số hiệu quả).
E2B: 2.3 tỷ tham số hiệu quả (tổng ~5.1 tỷ)
E4B: 4.5 tỷ tham số hiệu quả (tổng ~8 tỷ)
Bí mật công nghệ PLE (Per-Layer Embeddings): Thay vì vác một “cuốn từ điển” khổng lồ chung làm tốn RAM, Google cắt nhỏ và đặt riêng cho từng lớp (layer). Khi chạy chỉ tra cứu phần cần thiết. Kết quả: model siêu tiết kiệm bộ nhớ, chạy mượt trên điện thoại và máy tính mỏng mà vẫn cực kỳ thông minh!
2. DÒNG CÂN BẰNG TỐC ĐỘ & SỨC MẠNH: BẢN 26B A4B (MoE)
MoE (Mixture-of-Experts) = Hỗn hợp chuyên gia.
Hãy tưởng tượng AI là một tập đoàn 26 tỷ nhân viên, chia thành nhiều phòng ban chuyên môn. Khi bạn hỏi về Code, nó chỉ “đánh thức” đúng 4 tỷ nhân viên chuyên Code (A4B = Active 4B), còn lại tiếp tục ngủ.
Kết quả: Tốc độ xử lý cực nhanh, tiết kiệm tài nguyên nhưng vẫn giữ được sự thông thái của một tập đoàn lớn!
3. DÒNG THÔNG MINH NHẤT: BẢN 31B (DENSE)
Dense = Cấu trúc Đặc.
Toàn bộ 31 tỷ tham số đều thức dậy và tham gia tính toán cho mọi câu hỏi của bạn. Dòng này ngốn GPU và RAM hơn, nhưng đổi lại chất lượng câu trả lời, sự logic và khả năng suy luận phức tạp là đỉnh cao nhất.
NHỮNG “VŨ KHÍ” NỔI BẬT CỦA GEMMA 4 ĐỢT NÀY:
Đa phương thức thực thụ: Tất cả các bản đều xử lý được cả Chữ + Ảnh + Video. Riêng bản E2B & E4B còn NGHE AUDIO trực tiếp (nhận diện giọng nói siêu chuẩn).
Trí nhớ siêu phàm: Từ 128.000 token (bản nhỏ) lên đến 256.000 token (bản lớn). Dư sức “nuốt” trọn một cuốn sách hoặc đoạn video dài chỉ trong 1 lần bạn ra lệnh.
AI tự hành (Agentic AI): Suy luận nhiều bước, tự lập kế hoạch, tự gọi tool/code để xử lý công việc phức tạp.
Hỗ trợ hơn 140 ngôn ngữ: Được huấn luyện trực tiếp (native) từ đầu trên >140 ngôn ngữ. Tiếng Việt vô cùng mượt mà, tự nhiên – hoàn hảo để anh em làm trợ lý AI, dịch thuật, đọc tài liệu cho người Việt.
Tóm lại: Gemma 4 là cơ hội vàng cho anh em dev Việt Nam tự tay build ứng dụng AI riêng tư, bảo mật, chạy thẳng trên máy nhà mà không phụ thuộc API trả phí.
Anh em tải về vọc vạch ngay tại đây nhé:

Bài viết liên quan: