Biến Android cũ thành máy chủ Linux, PicoClaw qua Termux

Nội dung

    Việc tái sử dụng điện thoại Android cũ thành trạm điều khiển hoặc máy chủ mini là giải pháp thông minh. Phương pháp này giúp tiết kiệm chi phí. Nó cũng góp phần bảo vệ môi trường. Hướng dẫn này chi tiết hóa quá trình “hồi sinh” thiết bị. Mục tiêu là biến điện thoại thành máy chủ Linux bỏ túi. Hệ thống này sẽ chạy PicoClaw thông qua TermuxSSH.

    1. Chuẩn bị môi trường: Termux

    Termux là một trình giả lập terminal mạnh mẽ. Nó mang môi trường Linux lên Android. Việc này không yêu cầu root thiết bị.

    • Tải về: Không sử dụng phiên bản từ Play Store. Phiên bản này đã cũ và có lỗi. Hãy tải bản mới nhất từ F-Droid hoặc GitHub.
    • Cập nhật hệ thống: Mở Termux. Chạy lệnh sau để đảm bảo hoạt động trơn tru:
      pkg update && pkg upgrade
    • Cấp quyền bộ nhớ: Thực hiện lệnh này để quản lý tệp dễ dàng hơn:
      termux-setup-storage

    2. Thiết lập SSH: Điều khiển từ xa

    Để điều khiển điện thoại từ máy tính, sử dụng SSH. Điều này tiện lợi hơn việc gõ trên màn hình điện thoại nhỏ.

    1. Cài đặt OpenSSH: Chạy lệnh sau trong Termux:
      pkg install openssh
    2. Thiết lập mật khẩu: Đặt mật khẩu đăng nhập từ máy tính. Gõ lệnh:
      passwd
    3. Kiểm tra Username và IP:
      • Để biết tên người dùng, gõ whoami. Tên thường có dạng u0_a123.
      • Để xem địa chỉ IP của điện thoại, gõ ifconfig. Ví dụ: 192.168.1.15.
    4. Khởi động Server: Gõ lệnh sshd.
    5. Kết nối từ máy tính: Mở Terminal trên PC hoặc Laptop. Gõ lệnh sau:
      ssh [username]@[IP_điện_thoại] -p 8022 Giữ kết nối: Để tránh máy chủ SSH tự ngắt khi đóng Termux, chạy termux-wake-lock để giữ máy hoạt động trong nền. Dừng server: Sử dụng pkill sshd để dừng máy chủ SSH khi không sử dụng. Bảo mật: Chỉ sử dụng SSH trên mạng Wi-Fi đáng tin cậy. Để kết nối từ xa, cân nhắc sử dụng Tailscale. Kết nối qua ADB: Nếu không có Wi-Fi, bạn có thể dùng adb forward tcp:8022 tcp:8022 để kết nối qua cáp USB.

    3. Cài đặt PicoClaw (Hệ thống Claw Machine Mini)

    PicoClaw là các dự án mã nguồn mở. Chúng hỗ trợ điều khiển máy gắp gấu. Chúng cũng điều khiển các thiết bị IoT nhỏ dựa trên vi điều khiển. Ví dụ là Raspberry Pi Pico. Việc quản lý các thiết bị này có thể thông qua một máy chủ.

    Biến Android cũ thành máy chủ Linux, PicoClaw qua Termux

    Để chạy PicoClaw trên Termux, tôi đã làm cho nó hoạt động hoàn hảo mà không cần proot hay chỉnh sửa go.mod nữa.

      1. termux-change-repo Để thay đổi máy chủ phản chiếu kho lưu trữ Termux,sử dụng lệnhtermux-change-repo Để khắc phục tốc độ tải xuống chậm hoặc lỗi kết nối, hãy chạy lệnh, chọn kho lưu trữ mong muốn (sử dụng phím cách để chọn, Enter để xác nhận) và chọn một máy chủ phản chiếu mới (ví dụ: Máy chủ phản chiếu ở Trung Quốc, hoặc các máy chủ khác). Cuối cùng, chạy lệnhpkg updateđể áp dụng các thay đổi.
      2. đã chọn phương án thứ hai
      3. Chọn tùy chọn “North America” (bao gồm packages-cf.termux.dev)

    pkg update
    pkg upgrade -y
    pkg install -y git make golang clang nano curl
    pkg upgrade -y
    git clone //github.com/sipeed/picoclaw.git
    cd picoclaw
    export GOTOOLCHAIN=local
    make deps
    make build

    Tệp nhị phân có sẵn trong thư mục build/
    Thay vì một hướng dẫn hoặc tập lệnh cài đặt, có lẽ sẽ tốt hơn nếu chỉ cần cung cấp một bản dựng Termux gốc được xây dựng bằng cách sử dụng tệp nhị phân Termux Golang, hoặc thậm chí là một gói Termux. Tuy nhiên, hiện tại tôi không biết cách thực hiện cả hai và thêm chúng vào goreleaser.

    Build tạo ngay trong thư mục picoclaw

    make deps

    90% trường hợp PicoClaw không cần CGO.
    Bạn chỉ cần: CGO_ENABLED=0 make build

    # Build (không cần cài đặt)
    make build

    # Build cho nhiều nền tảng
    make build-all

    # Build và cài đặt
    make install

    Tạo file cấu hình như ví dụ //github.com/sipeed/picoclaw/blob/main/README.vi.md

    Nếu dùng Ollama thử list curl //192.168.1.5:11434/api/tags

    lưu ý “agents”: {
    “defaults”: {
    “model”: “gpt4” phải đúng “model_name”: “gpt4”,
    }

    Nhưng shell của bạn không thấy binary trong PATH.

    echo $PATH Bạn sẽ không thấy. Thêm vào PATH

    echo ‘export PATH=$HOME/.local/bin:$PATH’ >> ~/.bashrc
    source ~/.bashrc

    Báo lỗi dùng use Zsh:

    echo ‘export PATH=”$HOME/.local/bin:$PATH”‘ >> ~/.zshrc
    source ~/.zshrc

    Kiểm tra lại
    which picoclaw

    Nếu ra:

    /data/data/com.termux/files/home/.local/bin/picoclaw

    → OK.

    Khởi tạo: ./picoclaw onboard

    để lấy path chứ file cấu hình, sao đó chép

    cp config.json /data/data/com.termux/files/home/.picoclaw/

    Giờ Trò chuyện

    ./picoclaw agent -m “Xin chào, bạn là ai?”

    Gateway started on 0.0.0.0:18790 không có web UI mặc định. Gateway chỉ mở:

    /health

    /ready

    API nội bộ cho channel (Telegram, CLI, webhook…)

    Nó không phải web app. //IP_ĐIỆN_THOẠI:18790/health Nếu thấy → gateway chạy bình thường.Nếu trả lời được → config đúng.Sau đó mới chạy gateway

    ./picoclaw gateway

    4. Tối ưu hóa: Biến điện thoại thành Server thực thụ

    Để điện thoại cũ hoạt động ổn định 24/7 như một máy chủ, cần thực hiện các tối ưu hóa sau:

    • Giữ CPU luôn thức: Vuốt thanh thông báo Termux xuống. Chọn “Acquire wake lock“. Hành động này ngăn Android đưa CPU vào chế độ ngủ sâu. Nó giúp tránh gián đoạn kết nối SSH. Gõ lệnh: termux-wake-lock giúp Android không kill process khi tắt màn hình.
    • Chế độ tiết kiệm pin: Tắt tính năng tối ưu hóa pin (Battery Optimization) cho ứng dụng Termux. Thực hiện trong cài đặt Android của điện thoại.
    • Tự động chạy khi khởi động: Cài đặt plugin Termux:Boot. Plugin này giúp script PicoClaw tự động chạy. Nó sẽ hoạt động ngay khi điện thoại khởi động.

    Tại sao phương pháp này hiệu quả?

    Việc sử dụng điện thoại cũ làm máy chủ mang lại nhiều lợi ích kinh tế và kỹ thuật.

    1. Hiệu năng: Chip xử lý của điện thoại cũ có sức mạnh đáng kể. Ví dụ, dòng Snapdragon 600-series. Chúng thường mạnh hơn nhiều so với các bo mạch nhúng giá rẻ.
    2. Tích hợp sẵn: Điện thoại có sẵn nhiều tính năng quan trọng. Bao gồm màn hình (dùng để gỡ lỗi). Pin dự phòng hoạt động như một UPS tự nhiên khi mất điện. Kết nối Wi-Fi và 4G cũng có sẵn.
    3. Tiết kiệm: Không cần chi phí mua thêm phần cứng mới. Điều này giúp giảm đáng kể tổng chi phí dự án.

    Bạn đã nạp mã PicoClaw vào thiết bị chưa? Kiểm tra đúng command có gì ./picoclaw –help hoặc ./picoclaw -h Nó sẽ liệt kê command thực tế.

    Cách chạy đúng: ./picoclaw run –config config.json hoặc ./picoclaw –config config.json

    Kiểm tra binary có build đúng không: file picoclaw Nếu là ARM aarch64 → OK.

    Khởi động máy là PicoClaw tự chạy

    Cài Termux:Boot Nên cài từ F-Droid.

    Tắt tối ưu pin (QUAN TRỌNG)

    Vào: Settings → Battery → App optimization

    Tắt tối ưu pin cho:

    Termux

    Termux:Boot

    Nếu không tắt → Android sẽ kill process sau vài phút.

    Lệnh pkg install tmux Công cụ này được sử dụng để cài đặt trình đa nhiệm thiết bị đầu cuối tmux trên các hệ thống sử dụng pkg.

    Trong Termux, tạo thư mục boot: mkdir -p ~/.termux/boot

    Kiểm tra thư mục cài:find ~ -name start.sh

    Tạo file script:

    nano ~/.termux/boot/start-picoclaw.sh

    Dán nội dung ví dụ:

    #!/data/data/com.termux/files/usr/bin/bash

    termux-wake-lock
    cd /data/data/com.termux/files/home/picoclaw
    ./picoclaw gateway

    Thay đường dẫn đúng với thư mục bạn cài picoclaw

    Lưu lại.

    Cấp quyền thực thi: chmod +x ~/.termux/boot/start-picoclaw.sh

    Test ngay (không reboot): bash ~/.termux/boot/start-picoclaw.sh

    Thêm sleep 20 thay cho termux-wake-lock → chờ 20 giây sau khi boot (tránh crash vì hệ thống chưa sẵn sàng)

    Sau ~30 giây, mở Termux xem PicoClaw đã chạy chưa. ps aux | grep picoclaw

    dùng tmux hoặc nohup:

    Ví dụ sửa script thành:

    #!/data/data/com.termux/files/usr/bin/bash

    sleep 20
    cd /data/data/com.termux/files/home/picoclaw
    nohup ./picoclaw gateway > gateway.log 2>&1 &

    Kiểm tra hoạt động

    Reboot máy.
    Đợi 30–60 giây.
    Vào Termux: tmux ls

    Sau khi khởi động lại, mở Termux và chạy: ps -ef | grep picoclaw

    thấy tiến trình Picoclaw đang chạy. Nếu không, mở logcat:adb logcat | grep Termux

    để xem lỗi khi script chạy.

    Nếu thấy session picoclaw → OK.

    Các mô hình cục bộ của Ollama

    Việc sử dụng PicoClaw với các mô hình Ollama cục bộ (qwen3:8b,qwen3:4b) luôn bị lỗi hết thời gian chờcontext deadline exceeded, trong khi các mô hình tương tự lại phản hồi bình thường thông qua API Ollama trực tiếp (/v1/chat/completions) trên cùng một máy.

    cấu hình với Ollama cục bộ:

    {
    “agents”: {
    “defaults”: {
    “model”: “ollama/qwen3:8b”,
    “workspace”: “~/.picoclaw/workspace”,
    “restrict_to_workspace”: true,
    “max_tokens”: 4096,
    “max_tool_iterations”: 20
    }
    },
    “providers”: {
    “ollama”: {
    “api_key”: “local”,
    “api_base”: “//127.0.0.1:11434/v1”
    }
    }
    }

    Chạy PicoClaw: picoclaw agent -m “What is 2+2? Reply with one number.”

    Sau đó thất bại sau khi hết thời gian chờ:

    • cảnh báo lặp đi lặp lại:
      failed to send request: Post "//127.0.0.1:11434/v1/chat/completions": context deadline exceeded (Client.Timeout exceeded while awaiting headers)
    • lỗi cuối cùng:
      LLM call failed after retries... context deadline exceeded

    Thời gian chờ thực tế ước tính khoảng ~6 phút (nhiều chu kỳ thử lại). Thời gian chờ được mã hóa cứng 120 giây chínhpkg/providers/openai_compat/provider.golà nguyên nhân gốc rễ. Phi4-mini trên CPU có thể dễ dàng vượt quá thời gian đó đối với các lời nhắc tác nhân với ngữ cảnh hệ thống đầy đủ. Các tùy chọn của bạn là:

    1. Biên dịch từ mã nguồnvới thời gian chờ được tăng lên — thay đổi120 * time.Secondthành600 * time.Secondtrongprovider.go:34
    2. Sử dụng GPU — ngay cả một GPU cấp thấp cũng giúp giảm đáng kể thời gian suy luận (Lưu ý, card đồ họa RX 570 đã rút ngắn thời gian truy vấn từ 6 phút xuống còn dưới 30 giây).
    3. Hãy thử một mô hình nhỏ hơn— phi4-mini có 3,8 tỷ tham số, nhưng ngay cả ở kích thước đó, quá trình suy luận CPU với lời nhắc hệ thống của PicoClaw vẫn có thể chậm.
    4. Thử lfm2.5-thinking phản hồi trong vòng chưa đầy 2 phút.

    {
    “max_tokens”: 1536,
    “max_tool_iterations”: 8,
    “temperature”: 0.45
    }

    ollama pull gpt-oss:20b-q4_K_M Hoặc ollama pull gpt-oss:20b-q4_0 Mạnh hơn nhiều, chậm hơn rõ so lfm2.5

    {
    “max_tokens”: 1024,
    “max_tool_iterations”: 6,
    “temperature”: 0.4
    }

    Cập nhật PicoClaw

    Nếu bạn đã clone PicoClaw trước đó và chỉ muốn cập nhật code mới nhất (pull updates từ GitHub), không cần clone lại từ đầu:

    Di chuyển vào thư mục hiện có: cd picoclaw

    Kéo code mới về (pull):

    git pull origin main # hoặc master nếu branch default là master

    Sau đó build/update binary nếu cần (theo README PicoClaw):

    make deps

    make build

    Cách này giữ nguyên .picoclaw/workspace (memory, sessions, config) ở ~/ – rất quan trọng vì chứa dữ liệu AI của bạn.

    Các kiểu **prompt hiệu quả nhất** khi dùng **PicoClaw**

    (dựa trên cách nó xây dựng system prompt từ các file markdown như IDENTITY.md, SOUL.md, AGENTS.md, USER.md + cách agent xử lý tool và memory nhẹ).

    PicoClaw rất nhạy cảm với prompt rõ ràng, ngắn gọn, có cấu trúc → vì nó chạy resource thấp, model thường dùng là các API rẻ (deepseek, qwen, minimax, gemini flash…) nên càng tránh vòng lặp/hallucinate càng tốt.

    ### 1. Các file markdown cơ bản (đặt trong workspace picoclaw hoặc tương đương)
    Những file này được tự động ghép vào system prompt mỗi lần chat → ảnh hưởng lớn nhất.

    – **IDENTITY.md** (vai trò chính, personality – ngắn gọn 200–400 từ):
    “`
    Bạn là PicoClaw – trợ lý AI siêu nhanh, chính xác, tiết kiệm token.
    – Luôn trả lời ngắn gọn, dùng bullet nếu có thể.
    – Không chào hỏi thừa, không kết luận dài dòng.
    – Ưu tiên hành động thực tế (tool, script) hơn giải thích lý thuyết.
    – Nếu task phức tạp: suy nghĩ step-by-step rõ ràng.
    – Ngôn ngữ: tiếng Việt nếu user hỏi tiếng Việt, tiếng Anh nếu code/tech.
    “`

    – **SOUL.md** (giá trị cốt lõi, giới hạn đạo đức – giúp tránh dangerous action):
    “`
    Core values:
    – An toàn trước hết: Không chạy rm -rf, sudo nguy hiểm, code phá hoại.
    – Trung thực: Nếu không biết → nói thẳng “Tôi cần thêm info” hoặc “Không đủ tool”.
    – Tiết kiệm: Trả lời ngắn, tránh lặp lại.
    – Proactive: Nếu phát hiện vấn đề lặp lại (lỗi cũ), tự đề xuất fix lâu dài.
    “`

    – **AGENTS.md** (nếu dùng multi-agent hoặc tool custom):
    “`
    Agent chính: Executor – thực thi tool, script, curl.
    Agent phụ (nếu cần): Researcher – chỉ search/browse, không execute.
    Khi task cần research + execute: Researcher trước → Executor sau.
    “`

    – **USER.md** (info cá nhân, sở thích – tự động inject):
    “`
    Tên: MINH
    Location: TP.HCM, VN
    Sở thích: automation, ERP, n8n, Termux, tiết kiệm chi phí API.
    Không thích: prompt dài dòng, model chậm (tránh claude nếu có thể).
    “`

    ### 2. Kiểu prompt chat hàng ngày (copy-paste khi nói chuyện trực tiếp)

    | Kiểu prompt | Ví dụ prompt copy-paste | Khi nào dùng / Lợi ích |
    |——————————|—————————————————————————————–|—————————————————————————————-|
    | **Thực thi ngay, không hỏi** | “Thực hiện ngay: [task]. Không hỏi lại, báo kết quả cuối cùng dưới dạng bullet.” | Task đơn giản, muốn nhanh, tiết kiệm token. |
    | **Chain of Thought bắt buộc**| “Suy nghĩ từng bước (Thought → Action → Observation → Thought → Final Answer). Task: [mô tả]” | Task phức tạp (code, debug, plan nhiều bước) – giống ReAct, tăng accuracy cao. |
    | **Giới hạn tool an toàn** | “Chỉ dùng tool: ls, cat, grep, curl, git pull. Không rm, sudo, install gì cả. Task: …” | Tránh agent tự phá Termux hoặc VPS. |
    | **Viết + chạy code tự fix** | “Viết script Python hoàn chỉnh để [task]. Sau đó tự chạy bằng tool. Nếu lỗi: tự fix tối đa 3 lần. Báo code + output.” | Automate script, data process – rất mạnh trên Termux. |
    | **Tích hợp n8n / external** | “Nếu cần workflow phức tạp (multi-app, schedule): gọi webhook n8n tại [url]. Payload: {action: ‘…’, data: {…}}. Task: …” | Kết nối n8n như bạn đang làm với Shopee tracking. |
    | **Tiết kiệm token max** | “Trả lời cực ngắn: chỉ bullet points, không giải thích thừa, không emoji.” | Dùng API trả phí (deepseek/stepfun), hoặc chat dài. |
    | **Proactive rule** | “Từ giờ: mỗi 4h tự check Shopee orders qua n8n webhook → nếu thay đổi status thì báo ngay. Không cần hỏi.” | Tận dụng tính năng background/proactive của PicoClaw. |
    | **Multi-agent style** | “Phân vai: Agent A research info từ web, Agent B viết code, Agent C review & tối ưu. Bắt đầu task: [mô tả].” | Nếu config swarm/multi-instance (từ discussion GitHub PicoClaw). |
    | **Debug & phân tích log** | “Phân tích log lỗi sau: [dán log]. Đề xuất fix → tự chạy thử lệnh → báo trước-sau.” | Debug script, API call thất bại. |
    | **Tóm tắt & extract** | “Tóm tắt nội dung sau thành 5 bullet chính + action items nếu có: [dán text/email/web].” | Xử lý email dài, log, bài báo. |

    ### Mẹo nâng cao (từ cộng đồng & thực tế 2026)

    – Temperature config trong config.toml: 0.3–0.5 → ít “sáng tạo” thừa, phù hợp agent.
    – Dùng prefix chat: “Agent mode:” hoặc “Tool only:” để ép agent ưu tiên tool hơn chat.
    – Nếu PicoClaw hay quên context → thêm vào prompt: “Dùng memory từ USER.md và lịch sử gần nhất.”
    – Test prompt dài → dùng “Short response mode ON” ở đầu chat để ép ngắn gọn.
    – Với Shopee/n8n: prompt kiểu “Check status đơn hàng qua n8n force_check. Order IDs: [danh sách]. Báo thay đổi nếu có.”

    Ứng dụng AI miễn phí chạy trên điện thoại ngay cả ở Chế độ máy bay

    Các nhà phát triển đã cho chạy thử nghiệm trên các điện thoại Android tầm trung chỉ vài giờ sau khi phát hành. Trên iPhone, nó hoạt động thông qua các ứng dụng như PocketPal AI và Off Grid. Trên Android, Off Grid hỗ trợ nó trên các điện thoại có RAM 6GB, nằm trong tầm giá 200-300 đô la. Sau khi mô hình được tải xuống, bạn bật chế độ máy bay và nó vẫn phản hồi. Không có gì được gửi đi đâu cả vì không có nơi nào để gửi đến.

    Yêu cầu tối thiểu đối với Android là 6GB RAM, điều này loại trừ rất nhiều điện thoại từ năm 2020 trở về trước.

    Dành cho iPhone

    Các lựa chọn chính là PocketPal AI (miễn phí, mã nguồn mở, có sẵn trên App Store) và Off Grid (cũng miễn phí, có trên App Store và Play Store). Cả hai đều cho phép bạn duyệt và tải xuống các mô hình từ Hugging Face. Bạn chỉ cần tải xuống một lần qua Wi-Fi — mô hình 2B có dung lượng khoảng 4GB — và sau đó, không cần kết nối nữa. Trên iPhone 17 Pro sử dụng khung MLX của Apple, người dùng báo cáo tốc độ khoảng 30-50 token mỗi giây, đủ nhanh để tạo cảm giác như một cuộc trò chuyện bình thường.

    Dành cho Android

    Ứng dụng Off Grid hỗ trợ Qwen 3.5 trên điện thoại có RAM 6GB. Tốc độ xử lý gần 8 token mỗi giây trên model 2B, chậm hơn đáng kể nhưng vẫn có thể sử dụng được.

    Cách dễ nhất để kiểm tra xem nó có thực sự ngoại tuyến hay không: bật chế độ máy bay, sau đó hỏi nó một câu hỏi. Nó sẽ trả lời. Đó chính là bài kiểm tra.

    Mô hình 2B hữu ích cho:

    • Soạn thảo và chỉnh sửa văn bản
    • Tóm tắt các tài liệu bạn tải trực tiếp vào ứng dụng.
    • Giải đáp những câu hỏi mà bạn thường tìm kiếm trên Google.
    • Hỗ trợ dịch thuật cơ bản trên 201 ngôn ngữ.
    • Quan sát một hình ảnh và đặt câu hỏi về nó.

    Những điểm yếu của nó: suy luận phức tạp, các bài toán lập trình nhiều bước, bất cứ thứ gì yêu cầu thông tin hiện tại. Bài viết của Neowin đã nêu rõ ràng — mô hình 2B phù hợp nhất cho các tác vụ có độ phức tạp thấp, chứ không phải để thay thế một mô hình đám mây quy mô lớn. Điều đó chính xác. Khoảng cách với một mô hình 70B được lưu trữ là có thật, và bất cứ ai mong đợi điều ngược lại sẽ thất vọng.

    Mẫu 4B xử lý được nhiều tác vụ hơn — bao gồm cả các tác vụ của trợ lý ảo — nhưng nó cần nhiều RAM hơn hầu hết các điện thoại hiện có. Trên thực tế, 2B là mẫu dành cho điện thoại. 4B và 9B phù hợp hơn với máy tính xách tay.

    Đây là một hạn chế thực sự mà không ai nên bỏ qua. Việc chạy suy luận AI liên tục trên điện thoại sẽ tiêu hao pin nhiều hơn so với việc xem video trực tuyến. Thử nghiệm của cộng đồng trên iPhone 17 Pro cho thấy việc sử dụng liên tục trong vài giờ sẽ làm hao pin đáng kể. Đối với việc sử dụng không liên tục trong ngày, mức hao pin tăng thêm khoảng 15-20% so với mức cơ bản. Điều đó không phải là thảm họa, nhưng nó không hề miễn phí.

    Vấn đề bảo mật

    Hầu hết các ứng dụng AI đều gửi văn bản của bạn đến máy chủ. Bạn gõ gì đó, nó rời khỏi điện thoại của bạn, được xử lý ở đâu đó và một phản hồi được gửi lại. Điều đó ổn đối với hầu hết các trường hợp. Nhưng sẽ không ổn nếu thứ bạn đang gõ là thông tin riêng tư — thông tin sức khỏe, câu hỏi pháp lý, hoặc thông tin liên quan đến công việc mà không nên rời khỏi sự kiểm soát của tổ chức bạn.

    Khi một mô hình hoạt động hoàn toàn trên thiết bị của bạn, tất cả những điều đó sẽ không xảy ra. Không có cuộc gọi API, không có ghi nhật ký, không có dữ liệu nào được gửi đến bên thứ ba. Không phải vì công ty hứa hẹn điều đó sẽ không xảy ra — mà vì kiến ​​trúc hệ thống khiến điều đó là bất khả thi.

    Mô hình 9B, vẫn chạy trên một GPU dành cho người tiêu dùng duy nhất, đạt điểm 70,1 trên bài kiểm tra khả năng xử lý hình ảnh MMMU-Pro. GPT-5-Nano đạt 57,4 điểm trên cùng bài kiểm tra đó. Một mô hình mã nguồn mở 9B vượt trội hơn một sản phẩm dựa trên điện toán đám mây trong các tác vụ cụ thể là điều chưa từng xảy ra cách đây hai năm.

    Mẫu 2B kích thước bằng điện thoại sẽ không thay thế hoàn toàn những gì bạn đang sử dụng AI đám mây hiện nay. Nhưng nó bao quát một phần đáng kể các tác vụ hàng ngày — và nó làm được điều đó mà không cần đăng ký, không giữ dữ liệu của bạn và không cần tín hiệu.

    Đó thực sự là một tính năng hữu ích trên điện thoại. Không phải để gây ấn tượng, mà chỉ đơn giản là hữu ích.

    Gemma 4.

    Mình vừa đọc tài liệu chính thức từ Google DeepMind và phải công nhận đợt này Google chơi lớn thật sự. Thay vì đua nhau làm AI “đám mây” khổng lồ bắt người dùng trả phí, Gemma 4 mang trí tuệ cực cao cấp xuống laptop, máy tính cá nhân và cả điện thoại – CHẠY OFFLINE 100%, hoàn toàn miễn phí (giấy phép mở Apache 2.0).
    Google tung ra 4 phiên bản với 3 công nghệ “não bộ” khác nhau. Anh em cùng mình “giải ngố” vài thuật ngữ hay ho nhé:
    1. DÒNG SIÊU NHẸ CHO DI ĐỘNG (E2B & E4B)
    Chữ “E” là Effective parameters (Tham số hiệu quả).
    E2B: 2.3 tỷ tham số hiệu quả (tổng ~5.1 tỷ)
    E4B: 4.5 tỷ tham số hiệu quả (tổng ~8 tỷ)
    Bí mật công nghệ PLE (Per-Layer Embeddings): Thay vì vác một “cuốn từ điển” khổng lồ chung làm tốn RAM, Google cắt nhỏ và đặt riêng cho từng lớp (layer). Khi chạy chỉ tra cứu phần cần thiết. Kết quả: model siêu tiết kiệm bộ nhớ, chạy mượt trên điện thoại và máy tính mỏng mà vẫn cực kỳ thông minh!
    2. DÒNG CÂN BẰNG TỐC ĐỘ & SỨC MẠNH: BẢN 26B A4B (MoE)
    MoE (Mixture-of-Experts) = Hỗn hợp chuyên gia.
    Hãy tưởng tượng AI là một tập đoàn 26 tỷ nhân viên, chia thành nhiều phòng ban chuyên môn. Khi bạn hỏi về Code, nó chỉ “đánh thức” đúng 4 tỷ nhân viên chuyên Code (A4B = Active 4B), còn lại tiếp tục ngủ.
    Kết quả: Tốc độ xử lý cực nhanh, tiết kiệm tài nguyên nhưng vẫn giữ được sự thông thái của một tập đoàn lớn!
    3. DÒNG THÔNG MINH NHẤT: BẢN 31B (DENSE)
    Dense = Cấu trúc Đặc.
    Toàn bộ 31 tỷ tham số đều thức dậy và tham gia tính toán cho mọi câu hỏi của bạn. Dòng này ngốn GPU và RAM hơn, nhưng đổi lại chất lượng câu trả lời, sự logic và khả năng suy luận phức tạp là đỉnh cao nhất.
    NHỮNG “VŨ KHÍ” NỔI BẬT CỦA GEMMA 4 ĐỢT NÀY:
    Đa phương thức thực thụ: Tất cả các bản đều xử lý được cả Chữ + Ảnh + Video. Riêng bản E2B & E4B còn NGHE AUDIO trực tiếp (nhận diện giọng nói siêu chuẩn).
    Trí nhớ siêu phàm: Từ 128.000 token (bản nhỏ) lên đến 256.000 token (bản lớn). Dư sức “nuốt” trọn một cuốn sách hoặc đoạn video dài chỉ trong 1 lần bạn ra lệnh.
    AI tự hành (Agentic AI): Suy luận nhiều bước, tự lập kế hoạch, tự gọi tool/code để xử lý công việc phức tạp.
    Hỗ trợ hơn 140 ngôn ngữ: Được huấn luyện trực tiếp (native) từ đầu trên >140 ngôn ngữ. Tiếng Việt vô cùng mượt mà, tự nhiên – hoàn hảo để anh em làm trợ lý AI, dịch thuật, đọc tài liệu cho người Việt.
    Tóm lại: Gemma 4 là cơ hội vàng cho anh em dev Việt Nam tự tay build ứng dụng AI riêng tư, bảo mật, chạy thẳng trên máy nhà mà không phụ thuộc API trả phí.
    Anh em tải về vọc vạch ngay tại đây nhé:
    Được xem là phiên bản mạnh và linh hoạt nhất của Gemma. Link truy cập://ai.google.dev/gemma
    Trước đây, để chạy các mô hình có năng lực như vậy, bạn thường cần phần cứng rất mạnh. Gemma 4 có thể chạy trực tiếp trên laptop, thậm chí hoạt động offline trên điện thoại, miễn phí sử dụng và hiệu năng có thể cạnh tranh với các mô hình lớn hơn nhiều lần.
    Điều này giúp bạn không còn phụ thuộc vào các gói đăng ký đắt đỏ hàng tháng.
    Gemma 4 có thể thay thế nhiều dịch vụ trả phí như ChatGPT Plus (20 USD/tháng) hoặc Claude Pro trong nhiều trường hợp.
    Nếu bạn đang phát triển phần mềm, nó còn giúp giảm chi phí API – vốn thường tăng theo mức độ sử dụng và ảnh hưởng trực tiếp đến lợi nhuận sản phẩm.
    2. Một số điểm nổi bật của Gemma 4:
    – Có 4 phiên bản kích thước, phù hợp từ thiết bị di động đến hệ thống hiệu năng cao
    – Cửa sổ ngữ cảnh 256K token
    – Hỗ trợ đa phương thức: văn bản, hình ảnh, âm thanh
    – Có khả năng gọi hàm, phù hợp xây dựng agent tự động
    – Tạo code chất lượng cao, kể cả khi offline
    – Hỗ trợ hơn 140 ngôn ngữ
    – Điểm số Arena Elo cạnh tranh với nhiều mô hình lớn
    Ngoài ra, nó có thể tích hợp vào các công cụ như Claude Code, Cursor, Hermes hoặc OpenClaw.
    3. Điểm đáng chú ý nhất:
    Gemma 4 được phát hành theo giấy phép Apache 2.0, cho phép sử dụng thương mại tự do. Có thể thử trực tiếp trên Google AI Studio hoặc tải về chạy local qua Hugging Face, Kaggle, Ollama.
    Đây là một bước tiến quan trọng cho hệ sinh thái AI mở, giúp developer chủ động xây dựng ứng dụng mà không phụ thuộc vào cloud.
    Điều này đồng nghĩa bạn có thể dùng Gemma 4 để xây dựng ứng dụng AI riêng, công cụ viết hoặc các hệ thống agent, sau đó cung cấp hoặc bán cho khách hàng.
    Bạn toàn quyền khai thác và giữ toàn bộ doanh thu, không phải chia sẻ chi phí hay trả phí sử dụng cho Google.
    4. Hướng dẫn trải nghiệm trên điện thoại:
    Bước 1: Cài ứng dụng Google AI Edge Gallery trên App Store hoặc CH Play:
    Bước 2: Trong app, chọn tải model phù hợp với thiết bị. Khuyến nghị bản nhẹ Gemma-4-E2B-it (~2.5GB)
    Bước 3: Mở và bắt đầu trải nghiệm
    Model hỗ trợ xử lý hình ảnh, âm thanh, agent và nhiều tính năng khác.
    Prompt dành cho người mới sử dụng Gemma 4:
    Bạn không cần có nền tảng kỹ thuật để bắt đầu. Chỉ cần sao chép và dán đoạn prompt dưới đây vào Claude hoặc ChatGPT:
    “Tôi không có kinh nghiệm lập trình nhưng muốn chạy mô hình Google Gemma 4 mới trên máy tính cá nhân.
    Hãy cung cấp hướng dẫn từng bước để tải xuống và sử dụng một công cụ miễn phí có giao diện trực quan như LM Studio hoặc Ollama để chạy AI này trên laptop của tôi trong vòng 10 phút tới.”
    Chúc bạn thành công! Đừng quên tặng mình 1 LIKE nếu hữu ích nha

    Để lại một bình luận

    Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

    Chat with us
    Hello! How can I help you today?