Tạo Hình Ảnh AI local Miễn Phí, Không API bởi OLLAMA

Nội dung

Trước đây, việc tạo hình ảnh thường gắn liền với các API đám mây. Điều này đồng nghĩa với giới hạn tần suất, bảng điều khiển thanh toán và nhiều lo lắng. Sau đó, tôi đã chạy một lệnh duy nhất:

ollama run <model> "a cat holding a sign that says Hello"

Và một hình ảnh đã xuất hiện ngay trên máy tính cục bộ của tôi.

Không cần khóa API.
Không cần internet.
Không cần thẻ tín dụng.

Khi đó, tôi nhận ra một điều quan trọng:

AI cục bộ không còn là “tương lai” nữa. Nó đã có thể sử dụng được và các nhà phát triển đang ở vị trí hoàn hảo để xây dựng dựa trên nền tảng này.

Trong bài viết này, tôi sẽ chia sẻ cách sử dụng tính năng tạo hình ảnh thử nghiệm của Ollama. Mục đích là để xây dựng các quy trình làm việc được hỗ trợ bởi AI thực sự, bắt đầu từ các thử nghiệm nhanh trên terminal.

Ollama Image Generation là gì?

Ollama gần đây đã giới thiệu tính năng tạo hình ảnh cục bộ thử nghiệm. Tính năng này cho phép bạn chạy các mô hình chuyển văn bản thành hình ảnh mạnh mẽ hoàn toàn trên máy của riêng bạn.

Điều này quan trọng đối với các nhà phát triển web vì các lý do sau:

Không bị ràng buộc bởi nhà cung cấp.
Không có giá dựa trên mức sử dụng.
Hoàn hảo cho các công cụ nội bộ, nguyên mẫu và ứng dụng ưu tiên quyền riêng tư.

Tạo Hình Ảnh AI local Miễn Phí, Không API bởi OLLAMA

Nếu bạn từng nghĩ:

“AI rất thú vị, nhưng tôi không muốn ứng dụng của mình phụ thuộc vào hóa đơn đám mây.”

Đây chính là thời điểm của bạn.

Ollama hiện có 2 mô hình mã nguồn mở để tạo hình ảnh trên máy cục bộ của bạn. Tại thời điểm tôi viết bài này, nó chỉ hỗ trợ tạo hình ảnh trên macOS. Hỗ trợ cho Windows và Linux sẽ sớm ra mắt.

Xem danh sách model đang có: ollama list

Xoá model cụ thể: ollama rm <tên-model>

Để xoá toàn bộ model cache của Ollama và giải phóng dung lượng tối đa: rm -rf ~/.ollama

Giới thiệu các mô hình (Chọn đúng mô hình cho công việc)

Ollama hiện hỗ trợ hai mô hình hình ảnh. Chúng phục vụ các mục đích khác nhau. Việc biết khi nào nên sử dụng mô hình nào là rất quan trọng.

Z-Image Turbo: Ưu tiên ảnh chân thực

Tốt nhất cho:
- Chân dung thực tế.
- Cảnh quan theo phong cách nhiếp ảnh.
- Ánh sáng tự nhiên và độ sâu.
Tại sao nó ấn tượng:
- Mô hình 6B tham số.
- Xử lý kết xuất văn bản song ngữ (tiếng Anh + tiếng Trung).
- Được cấp phép Apache 2.0, an toàn cho mục đích thương mại.
Ví dụ về lời nhắc:Young woman in a cozy coffee shop, natural window lighting, wearing a cream knit sweater, soft bokeh background, shot on 35mm film
Mô hình này phát huy tác dụng tốt nhất khi lời nhắc của bạn giống như ghi chú nhiếp ảnh, không phải từ khóa.

FLUX.2 Klein: Hình ảnh thân thiện với văn bản & UI

Tốt nhất cho:
- Bản nháp UI (giao diện người dùng).
- Áp phích và các thiết kế nặng về kiểu chữ.
- Ảnh chụp theo phong cách sản phẩm.
Tại sao các nhà phát triển yêu thích nó:
- Cực kỳ tốt trong việc tạo văn bản dễ đọc bên trong hình ảnh.
- Có sẵn các biến thể 4B và 9B.
- Được thiết kế cho tốc độ và sự rõ ràng.
Ví dụ:ollama run x/flux2-klein "A neon sign reading OPEN 24 HOURS in a rainy city alley"
Nếu bạn đang xây dựng bảng điều khiển, trang đích hoặc bản xem trước thiết kế, mô hình này là lựa chọn hàng đầu của bạn.

Nó hoạt động như thế nào?

Bạn chạy một lệnh với lời nhắc như sau:

ollama run x/z-image-turbo "your prompt"

Các hình ảnh sẽ được lưu vào thư mục hiện hành của bạn. Để xem hình ảnh trực tiếp trong terminal, bạn có thể sử dụng các terminal hỗ trợ hiển thị hình ảnh (như Ghostty, iTerm2). Chúng có thể xem trước hình ảnh trực tiếp ngay trong dòng lệnh.

⚙️ Bước 1: Cài đặt Ollama

Tải xuống và cài đặt Ollama từ trang web chính thức của nó.

Cách dùng:
  ollama [flags]
  ollama [command]

Các lệnh có sẵn:
  serve       Khởi động ollama
  create      Tạo model từ Modelfile
  show        Hiển thị thông tin của model
  run         Chạy model
  pull        Tải model từ registry
  push        Đẩy model lên registry
  list        Liệt kê các model
  cp          Sao chép model
  rm          Xóa model
  help        Trợ giúp về bất kỳ lệnh nào

Flags:
  -h, --help      trợ giúp cho ollama
  -v, --version   Hiển thị thông tin phiên bản

Sử dụng "ollama [command] --help" để biết thêm thông tin về một lệnh.

Bước 2: Tải mô hình hình ảnh

Tôi đã thử mô hình x/z-image-turbo:fp8 trên máy cục bộ của mình. Nó hoạt động tốt hơn. Vì các mô hình hình ảnh này đang ở giai đoạn ban đầu, bạn có thể chưa hài lòng với các hình ảnh đã tạo. Tuy nhiên, trong tương lai, chúng ta có thể thấy các kết quả tốt hơn.

Chạy lệnh dưới đây để tải mô hình x/z-image-turbo:

ollama pull x/z-image-turbo

Bước 3: Chạy mô hình để tạo hình ảnh

Sau khi Ollama được cài đặt và mô hình hình ảnh đã được tải, việc tạo hình ảnh chỉ cần một lệnh duy nhất.

Hãy thử các lời nhắc ví dụ sau:

Lời nhắc 1:

ollama run x/z-image-turbo "Surreal double exposure portrait, robot silhouette filled with blooming cherry blossom trees, soft pink and white petals floating, dreamy ethereal atmosphere, fine art photography"

Điều gì xảy ra tiếp theo:

Mô hình chạy cục bộ trên máy của bạn.
Hình ảnh được tạo ra.
Tệp hình ảnh được lưu vào thư mục hiện hành của bạn.
Nếu terminal của bạn hỗ trợ (như iTerm2, Ghostty), bạn thậm chí sẽ thấy bản xem trước ngay trong dòng lệnh.

Đây là một trong những khoảnh khắc “chờ đã… chỉ vậy thôi sao?”.

Lời nhắc 2:

ollama run x/z-image-turbo "Whiteboard-style technical diagram explaining local AI image generation workflow, hand-drawn arrows connecting terminal → AI model → generated image, simple icons, black marker strokes on white background, minimal and clean whiteboard illustration, instructional diagram style, flat and readable, no shading, 16:9 aspect ratio"

Kiểm soát đầu ra (Đây là lúc mọi thứ trở nên thú vị)

Khi mô hình đang chạy, bạn không bị mắc kẹt với các cài đặt mặc định. Ollama cung cấp các lệnh tương tác trực tiếp trong phiên:

/set width 1024
/set height 1024
/set steps 30
/set seed 42
/set negative "blurry, distorted, low quality"

Hãy cùng phân tích các lệnh này:

Width / Height: Kiểm soát độ phân giải của hình ảnh được tạo.
Steps: Số bước xử lý. Càng nhiều bước, hình ảnh càng chi tiết (nhưng quá trình tạo sẽ chậm hơn).
Seed: Đảm bảo kết quả có thể tái tạo được. Điều này cực kỳ quan trọng cho việc lặp lại và tinh chỉnh thiết kế.
Negative prompts: Cho mô hình biết những gì không nên đưa vào hình ảnh, ví dụ như “mờ, méo mó, chất lượng thấp”.

Điều này ít giống như việc đưa ra lời nhắc và giống như việc chỉ đạo một công cụ sáng tạo hơn.

Trường hợp sử dụng

Đây là một kịch bản mà tôi thực sự đã thấy các nhóm sử dụng:

Công cụ thiết kế nội bộ cho nhà phát triển

Ollama tạo hình ảnh cục bộ.
Các hình ảnh này được sử dụng cho:
- Tài sản giữ chỗ (placeholder assets).
- Nguyên mẫu giao diện người dùng (UI prototypes).
- Môi trường demo.

Tại sao việc chạy cục bộ lại quan trọng ở đây:

Hoạt động ngoại tuyến.
Không có dữ liệu nào rời khỏi máy.
Không tốn chi phí cho mỗi hình ảnh được tạo.

Đây là loại công cụ AI phù hợp một cách tự nhiên vào quy trình làm việc của nhà phát triển UI.

Nơi hình ảnh được lưu

Theo mặc định:

Hình ảnh được lưu trong thư mục làm việc hiện tại của bạn.
Tên tệp được tự động tạo dựa trên lời nhắc.

Điều này giúp dễ dàng thực hiện các tác vụ sau:

Viết script để xử lý kết quả.
Xử lý hậu kỳ bằng Node.js.
Chuyển đầu ra vào các công cụ khác.

Nếu bạn đã từng xây dựng công cụ, lựa chọn thiết kế này có vẻ có chủ đích và thông minh.

Hạn chế

Tính năng này vẫn đang trong giai đoạn thử nghiệm:

Hỗ trợ Windows & Linux sẽ sớm ra mắt.
Các tính năng chỉnh sửa hình ảnh chưa có sẵn.
Lựa chọn mô hình vẫn còn hạn chế.

Nhưng đây là điều quan trọng:

Mọi nền tảng AI nghiêm túc đều bắt đầu chính xác như thế này: đơn giản, cục bộ và ưu tiên nhà phát triển.

Tại sao điều này quan trọng hơn bạn nghĩ

Tạo hình ảnh cục bộ thay đổi cuộc chơi cho các nhà phát triển:

Bạn có thể triển khai các tính năng AI mà không cần cơ sở hạ tầng backend.
Bạn có thể tạo nguyên mẫu ý tưởng nhanh hơn bao giờ hết.
Bạn có thể xây dựng các công cụ tôn trọng quyền riêng tư của người dùng theo mặc định.

Và quan trọng nhất:

Bạn ngừng coi AI là một API hộp đen. Thay vào đó, bạn bắt đầu coi nó như một phụ thuộc cục bộ.

Sự thay đổi tư duy này là rất lớn.

Tiếp theo là gì?

Theo lộ trình phát triển:

Hỗ trợ Windows & Linux.
Hỗ trợ tạo giao diện người dùng cho Ollama Web App.
Thêm nhiều mô hình hình ảnh hơn.
Khả năng chỉnh sửa hình ảnh.

Điều này cho tôi biết một điều:

Đây là một nền tảng, không phải là một bản demo.

Nếu bạn là nhà phát triển web, kỹ sư JavaScript hoặc người xây dựng ứng dụng AI, bây giờ là thời điểm tốt nhất để làm quen với AI cục bộ.

Bởi vì một khi điều này trở nên phổ biến, những người xây dựng sớm sẽ đi trước rất xa.

Hãy thử các lời nhắc sáng tạo của bạn với các mô hình này. Sau đó, đăng lời nhắc và hình ảnh vào phần bình luận để mọi người có thể thấy điều kỳ diệu.

Qwen của Alibaba

Phát hành bốn mô hình mới: Qwen3.5–0.8B, Qwen3.5–2B, Qwen3.5–4B và Qwen3.5–9B.

Mô hình 9B, sản phẩm chủ lực của loạt sản phẩm nhỏ này, đạt 81,7 điểm trên GPQA Diamond, một tiêu chuẩn đánh giá khả năng suy luận ở cấp độ sau đại học. Mô hình gpt-oss-120B của OpenAI đạt điểm từ 71,5 đến 80,9 trên cùng tiêu chuẩn này tùy thuộc vào cấp độ suy luận và liệu các công cụ có được kích hoạt hay không [4][6]. Ngay cả khi lấy điểm số hào phóng nhất cho GPT-oss, mô hình 9B vẫn vượt trội hơn.

Bốn mô hình được bố trí cách đều nhau trên các cấp độ triển khai khác nhau:

Qwen3.5–0.8B và 2B: Được thiết kế cho các thiết bị biên. Hãy nghĩ đến chip điện thoại thông minh, phần cứng IoT, suy luận ngoại tuyến. Các đánh giá hiệu năng từ cộng đồng r/LocalLLaMA cho thấy mô hình 2B hoạt động mượt mà trên iPhone với tối ưu hóa MLX, tạo ra từ 30 đến 50 token mỗi giây.

Qwen3.5–4B: Được định vị là nền tảng đa phương thức cho các tác nhân nhẹ. Hỗ trợ đa phương thức gốc thông qua huấn luyện kết hợp sớm, trong đó văn bản và hình ảnh chia sẻ cùng một không gian tiềm ẩn ngay từ đầu. Điều này khác với các phương pháp dựa trên bộ chuyển đổi cũ hơn, vốn gắn thêm bộ mã hóa hình ảnh vào mô hình ngôn ngữ. Theo báo cáo, phiên bản 4B có hiệu suất tương đương với thế hệ trước Qwen3-VL-30B-A3B trong các bài kiểm tra đánh giá tác nhân như ScreenSpot Pro, mặc dù kích thước nhỏ hơn gần tám lần.

Qwen3.5–9B: Mẫu flagship của dòng sản phẩm nhỏ gọn. Đây là mẫu đã thu hút được sự chú ý của mọi người.

Qwen3.5–4B xử lý văn bản, hình ảnh và video với cửa sổ ngữ cảnh 262K.

Mô hình 9B ở độ chính xác BF16 cần khoảng 18GB VRAM, điều này có nghĩa là nó phù hợp với GPU 24GB dành cho người tiêu dùng như RTX 3090 hoặc RTX 4090 mà không cần lượng tử hóa. Với lượng tử hóa 4-bit, dung lượng cần thiết giảm xuống còn khoảng 5GB, giúp nó khả thi trên nhiều loại phần cứng hơn, bao gồm cả máy Mac sử dụng chip Apple Silicon. Các báo cáo từ cộng đồng cho thấy tốc độ xử lý đạt từ 30 đến 50 token mỗi giây trên phần cứng dành cho người tiêu dùng, mặc dù thông lượng có thể thay đổi đáng kể tùy thuộc vào cấu hình.

Đối với bất kỳ ai đang xây dựng các công cụ AI chăm sóc sức khỏe, các quy trình tự động hóa hoặc các ứng dụng cục bộ xử lý dữ liệu nhạy cảm, đây là một thay đổi có ý nghĩa. Không cần gọi API. Không có dữ liệu rời khỏi thiết bị. Không có độ trễ do việc truyền dữ liệu khứ hồi đến điểm cuối đám mây.

ollama run qwen3.50,5
Thao tác này sẽ tự động chọn kích thước 9B và đưa bạn vào một phiên trò chuyện. Nếu bạn muốn kích thước cụ thể:

ollama run qwen3.5:4b # nhẹ hơn, vẫn đa chế độ
ollama run qwen3.5:2b # dành cho phần cứng cũ hơn
ollama run qwen3.5:0.8b # chạy trên hầu hết mọi thứ, kể cả CPU
Ollama tự động xử lý tăng tốc GPU trên cả NVIDIA và Apple Silicon. Không cần cấu hình.

Hãy chọn dung lượng phù hợp dựa trên cấu hình máy tính bạn đang có. Phiên bản 0.8B cần khoảng 1GB RAM và có thể chạy trên CPU nếu cần. Phiên bản 2B cần khoảng 3GB VRAM. Phiên bản 4B cần khoảng 4 đến 5GB. Phiên bản 9B với độ phân giải 4-bit cần khoảng 5GB. Ở độ phân giải đầy đủ của BF16, bạn cần GPU 24GB.

Nếu bạn muốn sử dụng nó trong mã lập trình, Ollama cung cấp API tương thích với OpenAI tại địa localhost:11434chỉ:

from ollama import chat

response = chat(
model=’qwen3.5:9b’,
messages=[{‘role’: ‘user’, ‘content’: ‘Hello!’}],
)
print(response.message.content)

Dùng node n8n

Http request

Post: //local:11434/v1/images/generations

Header: Content-Type: application/json

Body: model: x/z-image-turbo, prompt:{{ $json.prompt }}, size:{{ $json.size }}

Function code

Mode: Run Oncee for Each Item

JavaScript:

const raw = typeof $json.data === ‘string’ ? JSON.parse($json.data) : $json;

const base64 = raw.data[0].b64_json;

return {
json: {
created: raw.created,
},
binary: {
image: {
data: base64,
mimeType: ‘image/png’,
fileName: ‘ollama.png’,
}
}
};

Tham khảo: medium.com

Small ERP