một trợ lý ảo như Hermes Agent, openclaw, openhuman cùng dùng Ollama localhost

Nội dung

    Bạn có một máy chủ riêng, muốn tận dụng sức mạnh của AI nhưng lo ngại về chi phí API “ngốn” tiền mỗi tháng. Giải pháp Ollama localhost giúp bạn chạy các mô hình ngôn ngữ lớn (LLM) miễn phí ngay trên chính phần cứng của mình đã trở thành lựa chọn hàng đầu. Nhưng vấn đề đặt ra là: Làm sao để “gắn” một bộ não AI vào các tác vụ tự động hóa của công ty?

    Hai cái tên đang làm mưa làm gió hiện nay là Hermes Agent và OpenClaw (biệt danh “Tôm hùm”). Cả hai đều hỗ trợ Ollama localhost cực tốt, nhưng triết lý vận hành hoàn toàn trái ngược. Doanh nghiệp của bạn nên “cưỡi ngựa” Hermes hay “nuôi tôm” OpenClaw? Bài viết này sẽ phân tích chuyên sâu giúp bạn có quyết định sáng suốt nhất.

    Tiêu chíHermes AgentOpenClaw
    Triết lýNhân viên tự học, làm một việc càng ngày càng giỏiTổng đài kết nối, làm được nhiều việc cùng lúc
    Bộ nhớTự động, xuyên suốt và “siêu trí nhớ”Thủ công, cần “nhắc nhở” thì mới nhớ
    Kỹ năngTự viết và nâng cấp kỹ năng mới khi xử lý công việcCần lập trình viên hoặc cộng đồng viết sẵn kỹ năng cho
    Chi phí TokenTiết kiệm, chỉ bằng 1/4 so với OpenClawTốn kém, hay gọi đi gọi lại nhiều lần
    Bảo mật & An toàn“Khóa cửa” có sẵn an toàn tuyệt đối (Sandbox, Cron)“Nhà trống”, bảo mật thủ công, rủi ro cao (lộ key, nhiễm malware)
    Yếu tố nhân sựTự vận hành, không cần thuê lập trình viênCần đội ngũ kỹ thuật bảo trì và cài đặt
    Số lượng sao GitHub~113k sao~340k+ sao

    Hermes Agent giống như một nhân viên mới vào nghề nhưng có năng lực “học siêu tốc”. Mỗi lần làm việc, nó tự động ghi nhớ quy trình, cách thức và tối ưu hóa dần dần.

    • Lợi ích cho chủ doanh nghiệp:

      • Tự hành và phát triển mà không cần giám sát:Khi bạn giao việc tạo báo cáo doanh số hàng tuần, lần đầu có thể hơi chậm, nhưng lần thứ hai nó đã tự động viết ra một kịch bản kỹ năng (Skill) và tái sử dụng, giúp bạn tiết kiệm hàng giờ đồng hồ về sau.

      • Tiết kiệm chi phí vận hành:Hermes không lãng phí tài nguyên. Nó chỉ gọi công cụ khi thực sự cần, giúp chi phí Token chỉ bằng 1/4 so với những tác vụ tương tự chạy trên OpenClaw.

      • An toàn tuyệt đối cho dữ liệu nội bộ:Dữ liệu doanh nghiệp là tài sản vô giá. Hermes có sẵn cơ chế “sandbox” (hộp cát) ngay khi cài đặt, đảm bảo AI không thể truy cập vào những khu vực nhạy cảm nếu không được phép.

    • Hạn chế: Hermes cần thời gian “học việc”. Bạn sẽ không thấy phép màu ngay trong tuần đầu tiên mà phải chờ khoảng 2-3 tháng để nó ngấm dần quy trình và style làm việc của công ty bạn.

    OpenClaw giống như một “bảng điều khiển trung tâm” bằng TypeScript. Nó không chuyên sâu một việc, nhưng nó kết nối được với hầu hết mọi thứ: từ WhatsApp, Slack, Email, đến lịch Google và cả máy tính của bạn.

    • Lợi ích cho chủ doanh nghiệp:

      • Làm chủ đa kênh cực nhanh:Bạn muốn một AI vừa lắng nghe khiếu nại trên Facebook, vừa gửi báo giá qua Email, vừa cập nhật đơn hàng trên Telegram? OpenClaw làm điều đó ngay lập tức. Nó là ông vua của sự kết nối đa nền tảng.

      • Tận dụng kho kỹ năng cộng đồng khổng lồ:Với lượng người dùng đông đảo, OpenClaw có một thư viện kỹ năng (Skill) và tích hợp sẵn cực kỳ phong phú. Bạn có thể tải về và dùng ngay các kịch bản quản lý bán hàng, chăm sóc khách hàng mà gần như không cần code.

    • Hạn chế (Cẩn trọng!):

      • Rủi ro bảo mật tiềm ẩn:Nghiêm túc mà nói, OpenClaw rất mạnh nhưng cũng rất nguy hiểm nếu không được bảo vệ. Hàng loạt báo cáo chỉ ra rằng có tới 36,8% plugin của OpenClaw chứa lỗ hổng hoặc mã độc, có thể đánh cắp dữ liệu, khóa API và key thanh toán của doanh nghiệp bạn.

      • Ngốn tài nguyên và chi phí ẩn:Vì được thiết kế để kết nối và gọi đi gọi lại nhiều lần, OpenClaw tiêu tốn Token rất lãng phí. Có trường hợp một tác vụ đơn giản bị “chặt” thành hàng chục lệnh nhỏ. Hóa đơn mỗi tháng của bạn có thể đội nóc nếu không quản lý chặt chẽ.

      • Yêu cầu kỹ thuật cao:Để OpenClaw chạy ổn định và an toàn, bạn cần một đội ngũ CNTT thực sự giỏi để quản lý, vá lỗi và giám sát nó hàng ngày.

    Việc lựa chọn phụ thuộc hoàn toàn vào bản chất công việc của bạn chứ không chỉ đơn thuần là so sánh tính năng.

    => Hãy chọn Hermes Agent nếu…

    • Bạn muốn một giải pháp an toàn, tiết kiệm và ổn định lâu dài.
    • Bạn có những quy trình nghiệp vụ lặp đi lặp lại như xử lý hóa đơn, phân tích dữ liệu bán hàng, hoặc trả lời những câu hỏi kỹ thuật.
    • Bạn không có hoặc không muốn thuê một đội ngũ kỹ thuật để bảo trì AI hàng ngày.
    • Bạn coi AI là một tài sản trí tuệ của công ty, càng ngày càng “thấm” và am hiểu văn hóa doanh nghiệp hơn.

    => Hãy chọn OpenClaw nếu…

    • Bạn cần một “tổng đài viên” có mặt ở mọi ngóc ngách: kết nối CRM, ERP, Email, và các nhắn tin nội bộ.
    • Bạn có một đội ngũ IT mạnh sẵn sàng chịu trách nhiệm về bảo mật, giám sát và xử lý sự cố.
    • Bạn cần kết quả “nóng hổi” ngay trong tuần đầu tiên mà không cần chờ AI học hỏi.
    • Bạn muốn tận dụng một hệ sinh thái plugin và tích hợp có sẵn để tăng tốc độ triển khai các tác vụ đa dạng.

    “agent” là gì?

    Từ “agent” đã bị lạm dụng quá mức trong lĩnh vực marketing năm nay, vì vậy, trước khi đi sâu hơn, cần phải nói rõ nghĩa thực sự của nó. Chatbot là thứ bạn nói chuyện cùng: bạn đặt câu hỏi, nó trả lời, cửa sổ đóng lại, và nó quên bạn. Đó là ChatGPT trong một tab trình duyệt, đó là Claude trong cuộc trò chuyện này. Nó hữu ích, nhưng nó chỉ là một cuộc trò chuyện, chứ không phải một đồng nghiệp. Agent thì có cùng bộ não đó, nhưng thêm cả khả năng hành động. Nó có thể chạy mã, mở tệp, duyệt web, gửi tin nhắn, kết nối SSH vào máy chủ, chờ một tiếng đồng hồ, thực hiện một việc gì đó, và quay lại với bạn khi hoàn thành. Mô hình vẫn là mô hình, nhưng giờ đây nó có thể hoạt động trong thế giới thực thay vì chỉ gõ chữ cho bạn. Phiên bản mà hầu hết mọi người đã sử dụng là những công cụ như Claude Code hoặc Codex của OpenAI. Đây là những tác nhân lập trình chạy trong cửa sổ dòng lệnh của bạn, và chúng thực sự rất xuất sắc trong công việc của mình. Nhưng có hai điều đáng chú ý về chúng: chúng chủ yếu dùng để lập trình, và chúng chạy trên máy tính xách tay của bạn. Khi bạn đóng nắp máy, chúng sẽ tắt. Khi bạn chuyển sang máy khác, bạn phải bắt đầu lại từ đầu. Hermes Agent có ý tưởng cơ bản tương tự như những công cụ đó, ngoại trừ việc nó không chỉ dùng để lập trình, và nó không chạy trên máy tính xách tay của bạn.

    Hướng dẫn sử dụng Hermes Agent

    Từ đây, chúng ta sẽ giải thích các bước để thiết lập tác nhân Hermes và chạy tác nhân AI. Hermes cung cấp WSL cho Linux, macOS hoặc Windows, giống như OpenClaw. Cách tốt nhất là thiết lập nó trên VPS hoặc máy tính dự phòng. Nhưng trong bản demo này, chúng ta sẽ chạy nó cục bộ trên máy Mac và nó hoạt động rất tốt. Dùng ollama có sẳn trong command.

    Trang web: hermes-agent.nousresearch.com. Kho lưu trữ: github.com/NousResearch/hermes-agent.

    Cách khác, bạn có thể cài đặt tác nhân Hermes chỉ bằng một lệnh duy nhất: curl -fsSL //raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash
    Nó sẽ tạo một môi trường ảo cho bạn, chứa tất cả các thư viện Python và Node.js cần thiết.

    Đây là màn hình đầu tiên bạn thấy — trình hướng dẫn thiết lập, hiển thị lộ trình năm bước đơn giản. Đầu tiên, bạn chọn Mô hình và Nhà cung cấp, sau đó thiết lập Hệ thống phụ trợ thiết bị đầu cuối, điều chỉnh Cài đặt đại lý và kết nối các Nền tảng nhắn tin như Telegram hoặc Discord để bạn có thể trò chuyện với đại lý của mình từ điện thoại. Cuối cùng, bạn thêm các Công cụ như tìm kiếm trên web hoặc tạo hình ảnh, và khi đã sẵn sàng, chỉ cần nhấn Enter và thực hiện từng bước.

    Ngay lập tức, nó phát hiện ra rằng chúng ta đã cài đặt OpenClaw trên máy này — công cụ agent thế hệ trước của Nous Research mà Hermes xây dựng dựa trên đó ở phiên bản tiếp theo.

    Nó tìm thấy tất cả dữ liệu ~/.openclawvà đề nghị chuyển đổi mọi thứ — cài đặt, bộ nhớ, kỹ năng và khóa API của bạn — chỉ trong một lần, giúp tiết kiệm rất nhiều thời gian nếu bạn đang sử dụng OpenClaw.

    Trong trường hợp của chúng tôi, chúng tôi bắt đầu lại từ đầu và gõ n để bỏ qua, nhưng nếu bạn là người dùng hiện tại, chỉ cần nhấn Y , và ngay cả khi bạn bỏ qua bây giờ, bạn luôn có thể chạy quá trình di chuyển sau này bằng cách sử dụng openclaw-migrationkỹ năng đó.

    Giờ chúng ta sẽ chọn nhà cung cấp suy luận – đây là mô hình AI cung cấp sức mạnh cho mọi thứ. Bạn có rất nhiều lựa chọn, nhưng vì chúng ta đang sử dụng hoàn toàn cục bộ, không cần khóa API hay chi phí đám mây, nên chúng ta sẽ cuộn xuống và chọn Điểm cuối tương thích với OpenAI tùy chỉnh , hoạt động với bất kỳ thứ gì tuân theo định dạng API của OpenAI – và Ollama hoàn toàn phù hợp, vì vậy đó là lựa chọn của chúng ta. Vậy là ở đây chúng ta đang cấu hình điểm cuối Ollama. URL cơ sở là //localhost:11434/v1, đây là máy chủ cục bộ mà Ollama chạy trên máy của bạn bằng cổng 11434, và /v1là đường dẫn API theo kiểu OpenAI.

    Chúng tôi để trống trường khóa API vì mọi thứ đang chạy cục bộ mà không cần xác thực, sau đó đặt mô hình thành gpt-oss:20b— mô hình tham số 20B của Microsoft mà chúng tôi đã tích hợp vào Ollama — và để trống trường độ dài ngữ cảnh để Hermes có thể tự động phát hiện.

    Sau đó, trong Cài đặt Agent, chúng ta đặt số lần lặp tối đa là 60 để agent có thể thực hiện tối đa 60 lệnh gọi công cụ cho mỗi tác vụ (bạn có thể tăng số này cho các tác vụ dài hơn), bật Hiển thị Tiến trình Công cụ thành “tất cả” để bạn có thể xem mọi thứ nó đang làm trong thời gian thực và giữ nguyên Nén Ngữ cảnh ở mức 0.5 để nó tóm tắt các thông báo cũ hơn khi bạn đạt đến một nửa giới hạn bộ nhớ.

    Cuối cùng, đối với Chính sách Đặt lại Phiên trong Hermes, nó có thể tự động đặt lại các cuộc hội thoại khi chúng quá dài hoặc không hoạt động, nhưng nó sẽ lưu thông tin quan trọng trước — và bạn luôn có thể tự gõ lại /resetbất cứ lúc nào.

    Đối với việc thiết lập lại phiên, chúng tôi sử dụng thiết lập được khuyến nghị — không hoạt động cộng với thiết lập lại hàng ngày, tùy điều kiện nào đến trước. Chúng tôi giữ nguyên các thiết lập mặc định: 1440 phút (24 giờ) không hoạt động và thiết lập lại lúc 4 giờ sáng, giúp mọi thứ được giữ sạch sẽ mà bạn không cần phải bận tâm đến.

    Đối với các nền tảng nhắn tin, chúng ta tạm thời bỏ qua tất cả — Telegram, Discord, Slack, Matrix, WhatsApp — đều được thiết lập là không, vì chúng ta luôn có thể quay lại sau và kết nối chúng thông qua Hermes khi muốn trò chuyện từ điện thoại của mình. Tiếp theo là phần cấu hình công cụ, nơi mà tác nhân thực sự trở nên sống động — tìm kiếm web, điều khiển trình duyệt, truy cập thiết bị đầu cuối, xử lý tệp, thực thi mã, thị giác máy tính, bộ nhớ, và nhiều hơn nữa đã được bật mặc định; chúng ta chỉ để trống phần Hỗn hợp các tác nhân, huấn luyện RL và Trợ lý gia đình vì chúng cần thiết lập thêm, còn mọi thứ khác vẫn được bật để chúng ta sẵn sàng sử dụng.

    Đối với tự động hóa trình duyệt, chúng tôi chọn Local Browser — một trình duyệt Chromium miễn phí, không cần giao diện người dùng, chạy trên máy tính của bạn mà không cần cài đặt. Đối với chuyển văn bản thành giọng nói, chúng tôi giữ nguyên trình chuyển văn bản thành giọng nói mặc định của Microsoft Edge vì nó miễn phí và đã hoạt động tốt. Và đối với tìm kiếm trên web, chúng tôi bỏ qua các tùy chọn trả phí vì Hermes đã có sẵn chức năng tìm kiếm DuckDuckGo.

    Và thế là xong — quá trình cài đặt hoàn tất. Tôi gõhermes để khởi chạy nó, và bảng điều khiển hiển thị tất cả các công cụ và kỹ năng của chúng ta đã sẵn sàng, nhưng thanh trạng thái lại hiển thị Claude thay vì mô hình cục bộ của chúng ta. Đó là vì Hermes mặc định sử dụng Claude, ngay cả khi chúng ta đã thiết lập Ollama trong quá trình cài đặt. Không vấn đề gì — chúng tôi sẽ khắc phục nhanh chóng. Chúng tôi thoát ra và chạymô hình hermes, sau đó chọn điểm cuối cục bộ đã lưu, đặt mô hình thànhgpt-oss:20bvà xác nhận cùng một URL mà không cần khóa API. Giờ đây, khi chúng ta khởi chạy Hermes một lần nữa, thanh trạng thái sẽ hiển thịgpt-oss:20b, điều này có nghĩa là mọi thứ đang chạy cục bộ trên máy của chúng ta — không cần điện toán đám mây và không phát sinh chi phí API.

    Giờ chúng ta đã thiết lập xong Ollama, hãy cùng thử nghiệm nào. Chúng ta gõ một tin nhắn đơn giản như “Chào, hôm nay bạn thế nào?” và nhân viên hỗ trợ sẽ trả lời ngay lập tức bằng một lời chào bình thường.

    Thanh trạng thái hiển thịgpt-oss:20b, xác nhận rằng mô hình cục bộ của chúng tôi đang phản hồi, chứ không phải dịch vụ đám mây, và nó hiển thị 9,23K trong số 131K mã thông báo đã được sử dụng — vì vậy chúng ta có một cửa sổ ngữ cảnh rất lớn — và phản hồi đến chỉ trong khoảng 2 giây, tất cả đều chạy trên phần cứng của chính chúng tôi.

    Thành thật mà nói, vì đây là phiên bản v0.2.0 nên vẫn còn một số lỗi chưa hoàn thiện. Độ chính xác của bộ nhớ chưa hoàn hảo, và việc tạo kỹ năng đôi khi đi theo những hướng không mong muốn.

    Nhưng chính phương pháp này lại vô cùng giá trị.

    Nhiều sự thất vọng mà chúng ta cảm thấy với các công cụ AI hiện nay bắt nguồn từ “sự thiếu kết nối ngữ cảnh”. Mỗi khi bắt đầu một cuộc trò chuyện mới, chúng ta phải giải thích mọi thứ từ đầu: bối cảnh dự án, sở thích của chúng ta và các quy tắc của nhóm. Chúng ta phải giải thích tất cả mọi thứ mỗi lần.

    Hermes Agent giải quyết trực tiếp vấn đề này. Hơn nữa, nó là mã nguồn mở và dữ liệu nằm trong tay bạn. Từ góc độ bảo mật, nó mang lại sự an tâm.

    Cách thức hoạt động Bên trong Hermes Agent

    Hermes là một tác nhân duy nhất, càng hoạt động lâu càng trở nên mạnh mẽ hơn, không phải thông qua cập nhật cấu hình, mà thông qua việc sử dụng thực tế, nó trích xuất những gì đã hiệu quả, ghi lại thành một kỹ năng có thể tái sử dụng và tải nó vào lần tiếp theo khi một vấn đề tương tự xảy ra. Vòng lặp học tập diễn ra tự động, và vì kiến ​​trúc bộ nhớ có khả năng nhận biết bộ nhớ đệm, nên nó không làm tăng chi phí token của bạn khi tác nhân học hỏi thêm.

    Các tác nhân như OpenClaw duy trì ngữ cảnh xuyên suốt các phiên và định tuyến nó thông qua một trung tâm điều khiển tập trung, điều này hoạt động tốt đối với các trường hợp sử dụng đơn giản, nhưng vẫn còn một khoảng trống giữa việc lưu trữ những gì đã xảy ra và lưu trữ những gì đã hoạt động. Hermes được thiết kế để giải quyết khoảng trống đó, nơi các quy trình làm việc đã hoàn thành được chuyển đổi thành các thủ tục có thể tái sử dụng mà tác nhân có thể làm theo vào lần sau mà không cần phải thực hiện lại các bước tương tự.

    Đó chính là chức năng của vòng lặp học tập: một chu kỳ phản hồi khép kín diễn ra ngầm trong mỗi buổi học, nơi trí nhớ, kỹ năng và quá trình tìm kiếm thông tin trong buổi học đều là kết quả của cùng một quá trình liên tục.

    một trợ lý ảo như Hermes Agent, openclaw, openhuman cùng dùng Ollama localhost

    Vòng lặp có bốn bộ phận chuyển động, và mỗi bộ phận kích hoạt tại một thời điểm khác nhau trong chu kỳ. Hãy xem chúng kết nối với nhau như thế nào.

    Bộ nhớ được quản lý bởi tác nhân với những lời nhắc nhở định kỳ

    Hầu hết các tác nhân (agent) hoặc ghi lại mọi thứ nhưng không thu thập được gì hữu ích, hoặc không ghi lại gì cả và bắt đầu lại từ đầu mỗi phiên. Hermes tránh cả hai bằng cách giao cho chính tác nhân trách nhiệm quyết định những gì đáng giữ lại, và nó thực hiện điều này thông qua một cơ chế gọi là “thúc đẩy định kỳ” (periodic nudge).

    Trong một khoảng thời gian nhất định trong suốt phiên làm việc, tác nhân sẽ nhận được một lời nhắc nội bộ ở cấp hệ thống yêu cầu nó xem lại những gì đã xảy ra và đánh giá xem có thông tin nào đáng để lưu trữ vào bộ nhớ hay không. Lời nhắc này được kích hoạt mà không cần sự can thiệp của người dùng, và tác nhân sẽ quét hoạt động gần đây và ghi nó vào các tệp bộ nhớ nếu bất kỳ thông tin nào vượt qua ngưỡng hữu ích trong một phiên làm việc sau này.

    Kết quả là, ký ức được chọn lọc kỹ càng thay vì trở thành một mớ hỗn độn ghi lại mọi tương tác.

    Tạo kỹ năng tự chủ

    Khi tác nhân hoàn thành một nhiệm vụ, nó sẽ kiểm tra xem đường dẫn mà nó đã thực hiện có đáng để ghi lại hay không. Các điều kiện kích hoạt rất cụ thể: năm hoặc nhiều hơn năm lệnh gọi công cụ, khắc phục lỗi, người dùng sửa lỗi hoặc một quy trình làm việc không rõ ràng nhưng đã hoạt động.

    Nếu quá trình kiểm tra thành công, nó sẽ tạo ra một tập tin kỹ năng trong thư mục ~/.hermes/skills/, không phải là một mục nhật ký mà là một bộ hướng dẫn có thể tái sử dụng mà tác nhân có thể làm theo trong các phiên sau mà không cần phải thực hiện lại các bước ban đầu.


    tên: my-skill
    mô tả: Mô tả ngắn gọn về chức năng của kỹ năng này phiên bản: 1.0.0 nền tảng: [ macos , linux ] # Tùy chọn — giới hạn ở các nền tảng hệ điều hành cụ thể siêu dữ liệu : hermes: thẻ: [ python , automation ] danh mục: devops fallback_for_toolsets: [ web ] # Tùy chọn — kích hoạt có điều kiện (xem bên dưới) requires_toolsets: [ terminal ] # Tùy chọn — kích hoạt có điều kiện (xem bên dưới) —

    Mỗi tệp kỹ năng chứa tên, mô tả ngắn gọn, các bước thực hiện và bất kỳ lệnh gọi công cụ hoặc tham chiếu tệp nào là một phần của quy trình làm việc, và cấu trúc tuân theo tiêu chuẩn mở agentskills.io , giúp các kỹ năng có thể được sử dụng linh hoạt trên các tác nhân tương thích.

    Tự hoàn thiện kỹ năng

    Các kỹ năng không bị đóng băng sau khi được viết ra, và tác nhân tiếp tục sử dụng chúng, cập nhật chúng khi tìm thấy một đường dẫn tốt hơn trong quá trình thực thi.

    Công cụ này cung cấp sáu thao tác kỹ năng skill_manage:

    create, patch, edit, delete, write_file, Và remove_file.

    Mặc định, tác nhân sẽ patchthực hiện hầu hết các bản cập nhật bằng cách chỉ truyền vào chuỗi cũ và chuỗi thay thế, điều này có nghĩa là chỉ văn bản đã thay đổi xuất hiện trong lệnh gọi công cụ chứ không phải toàn bộ nội dung kỹ năng.

    Việc ưu tiên sử dụng patchphương pháp này editlà quyết định vừa đảm bảo tính chính xác vừa đảm bảo hiệu quả, bởi vì việc viết lại toàn bộ có nguy cơ làm hỏng những gì đã hoạt động tốt, trong khi bản vá chỉ sửa những gì đã thay đổi và tiết kiệm token hơn khi thực thi.

    Tìm kiếm phiên FTS5 với tóm tắt LLM

    Mỗi phiên làm việc được ghi vào kho lưu trữ SQLite và được lập chỉ mục bằng FTS5 , do đó tác nhân sẽ tìm kiếm ngữ cảnh trong quá khứ thay vì tải toàn bộ các phiên cũ vào cửa sổ. Kết quả truy xuất được xử lý bằng thuật toán tóm tắt LLM trước khi được đưa vào, vì vậy chỉ những gì liên quan đến tác vụ hiện tại mới được hiển thị.

    Lớp này xử lý bộ nhớ theo từng sự kiện, những gì đã xảy ra và khi nào, và nó được tách biệt một cách có chủ ý khỏi lớp kỹ năng, lớp này xử lý bộ nhớ theo quy trình, cách thực hiện mọi việc. Hai lớp hoạt động cùng nhau nhưng trả lời các câu hỏi khác nhau, và việc giữ chúng trong các kho lưu trữ riêng biệt thay vì trộn lẫn mọi thứ vào một là một quyết định thiết kế ảnh hưởng đến cấu trúc của toàn bộ hệ thống bộ nhớ, điều mà phần tiếp theo sẽ đề cập đến.

    Hệ thống bộ nhớ đa cấp

    Việc trộn lẫn mọi thứ vào một kho lưu trữ bộ nhớ duy nhất là lý do tại sao hầu hết các hệ thống bộ nhớ của tác nhân trở nên không đáng tin cậy theo thời gian, vì vậy Hermes tách nó thành bốn lớp riêng biệt, mỗi lớp có một nhiệm vụ cụ thể, một vị trí cụ thể trên đĩa và một thời điểm cụ thể khi nó được đọc.

    Bộ nhớ nhắc nhở MEMORY.mdvàUSER.md
    Đây là lớp luôn hoạt động, ngữ cảnh được tải khi bắt đầu mỗi phiên mà không cần tác nhân phải yêu cầu. Cả hai tệp đều nằm trong ~/.hermes/memories/và được chèn trực tiếp vào lời nhắc hệ thống trước khi tin nhắn đầu tiên được xử lý.

    Tổng giới hạn ký tự trên cả hai đều là 3.575, được cố ý giới hạn ở mức này để thúc đẩy việc chọn lọc thay vì tích lũy. Hệ thống quản lý chúng thông qua công cụ bộ nhớ với ba thao tác: thêm, thay thế hoặc xóa.

    Một chi tiết quan trọng: các chỉnh sửa được MEMORY.mdthực USER.mdhiện trong một phiên làm việc chỉ có hiệu lực ở phiên tiếp theo, chứ không phải giữa chừng cuộc trò chuyện.

    Tìm kiếm phiên SQLite + FTS5

    Điểm khác biệt cần hiểu ở đây là khi nào tác nhân thực hiện tìm kiếm phiên so với khi nào tác nhân sử dụng bộ nhớ nhắc lệnh.

    Bộ nhớ nhắc nhở luôn được bật, nghĩa là nó được tải mà không cần tác nhân quyết định tải nó.
    Tìm kiếm phiên là một bước truy xuất có chủ đích; tác nhân sẽ chạy một truy vấn trên kho lưu trữ SQLite khi nó xác định rằng ngữ cảnh trong quá khứ có liên quan đến nhiệm vụ hiện tại.
    Ranh giới thực tế là tính lâu dài. Nếu một điều gì đó đủ quan trọng để xuất hiện trong mọi cuộc trò chuyện tương lai, nó thuộc về lớp MEMORY.mdhoặc USER.md. Nếu nó chỉ hữu ích khi một chủ đề cụ thể được đề cập lại, nó sẽ vẫn nằm trong kho lưu trữ phiên và có thể được truy xuất khi cần. Tác nhân đưa ra phán đoán đó trong quá trình nhắc nhở định kỳ, quyết định xem một mẩu thông tin thuộc về lớp nào thay vì mặc định mọi thứ vào một nơi.

    Kỹ năng Trí nhớ thủ tục

    Chúng ta đã xem phần tạo kỹ năng ở Mục 1, vì vậy trọng tâm ở đây là cách chúng được lưu trữ và cách tác nhân tải chúng mà không vượt quá ngân sách token.

    Tất cả các kỹ năng đều được lưu trữ dưới ~/.hermes/skills/dạng các tệp markdown riêng lẻ. Khi cài đặt mới, các kỹ năng được đóng gói từ kho lưu trữ sẽ được sao chép vào thư mục này, và bất kỳ kỹ năng nào do tác nhân tạo ra hoặc được cài đặt từ Skills Hub cũng sẽ được thêm vào cùng với chúng. Chiến lược tải tuân theo mô hình hiển thị dần dần: theo mặc định, các lời nhắc của hệ thống chỉ bao gồm tên kỹ năng và tóm tắt ngắn gọn, và nội dung đầy đủ của một kỹ năng chỉ được tải khi tác nhân xác định rằng nó có liên quan đến nhiệm vụ hiện tại.

    Điều này giúp duy trì mức sử dụng token không đổi bất kể số lượng kỹ năng hiện có. Một tác nhân có 200 kỹ năng trả chi phí ngữ cảnh gần như tương đương với một tác nhân có 40 kỹ năng, bởi vì nội dung chi tiết chỉ được đưa vào ngữ cảnh khi thực sự cần thiết.

    Mô hình người dùng lớp Honcho
    Ba lớp hiện tại đều yêu cầu người dùng chủ động ghi chép lại thông tin. Lớp thứ tư hoạt động khác biệt, thay vì chờ đợi thao tác ghi chép rõ ràng, nó xây dựng hình ảnh về bạn một cách thụ động qua các phiên giao tiếp, theo dõi sở thích, phong cách giao tiếp và kiến ​​thức chuyên môn khi chúng thay đổi theo thời gian. Đây là Honcho, một lớp mô hình hóa người dùng tùy chọn nằm trên các lớp còn lại.

    Nó sử dụng phương pháp mô hình hóa biện chứng, mô phỏng cả bạn và tác nhân trong mối quan hệ với nhau trên 12 lớp nhận dạng.

    Tính năng này là tùy chọn, và đối với hầu hết các thiết lập tự động hóa hoặc chuyên biệt cho từng tác vụ, ba lớp còn lại là đủ. Điểm mạnh của nó nằm ở chỗ khi bạn sử dụng Hermes như một trợ lý cá nhân hàng ngày và muốn nhận được phản hồi phù hợp với cách bạn thực sự làm việc.

    Cổng kết nối, sẽ được đề cập tiếp theo, là yếu tố giúp truy cập cả bốn lớp trên nhiều nền tảng mà không làm mất ngữ cảnh khi bạn chuyển đổi.

    Cổng vào
    Vòng lặp học tập và hệ thống bộ nhớ chỉ hữu ích nếu tác nhân có thể truy cập được khi bạn cần, và đó là điều mà Gateway đảm nhiệm. Nó là một dịch vụ nền liên tục giúp Hermes hoạt động và kết nối trên mọi nền tảng mà bạn đã ghép nối với nó, vì vậy tác nhân không phải là thứ bạn khởi chạy khi cần mà là thứ luôn hoạt động và chờ đợi.

    Bộ điều hợp nền tảng và định tuyến phiên
    Hermes kết nối với CLI, Telegram, Discord, Slack, WhatsApp, Signal và Email, mỗi ứng dụng có bộ chuyển đổi riêng nhưng tất cả đều sử dụng chung một lớp định tuyến phiên. Một cuộc trò chuyện bắt đầu trên Telegram có thể tiếp tục trong terminal vì phiên được liên kết với một ID, chứ không phải nền tảng.

    Telegram tiến thêm một bước nữa với Project Conversations, nơi Private Chat Topics cho phép bạn chạy các quy trình làm việc riêng biệt bên trong một cuộc trò chuyện duy nhất, mỗi chủ đề có các liên kết kỹ năng và ngữ cảnh phiên riêng.

    Thư mục này gateway/xử lý năm chức năng: nhắn tin, định tuyến phiên, phân phối, ghép nối và lập lịch cron.

    Ghép nối là cách thức một nền tảng mới được liên kết với phiên bản tác nhân của bạn, và
    Cron ticking là cách các tự động hóa theo lịch trình được kích hoạt đúng thời điểm và được chuyển hướng trở lại đúng nền tảng.
    Toàn bộ chương trình hoạt động như một dịch vụ hệ thống, được khởi chạy bằng lệnh `npm install` hermes gateway, có nghĩa là nó tiếp tục chạy ngầm ngay cả sau khi bạn đóng cửa sổ terminal.

    Ưu điểm vượt trội của kiến ​​trúc này so với các kiến ​​trúc tác nhân khác.
    Trong OpenClaw, cổng thanh toán (gateway) đảm nhiệm việc phân phối dữ liệu, và đó là trách nhiệm của nó. Việc tạo kỹ năng, ghi dữ liệu vào bộ nhớ và xuất dữ liệu tự động theo lịch trình đều được thực hiện thông qua các cơ chế riêng biệt, không liên kết với chính cổng thanh toán.

    Trong Hermes, cổng kết nối là một phần của cùng một vòng lặp. Một tin nhắn đến có thể kích hoạt việc tạo kỹ năng, một quy trình tự động hóa theo lịch trình sẽ ghi lại đầu ra của nó thông qua cùng một lớp cổng kết nối, và tính liên tục giữa các nền tảng hoạt động được là vì định tuyến phiên được tích hợp sẵn vào hệ thống, chứ không phải được thêm vào riêng biệt.

    Với cổng xử lý giao tiếp bên ngoài và hệ thống bộ nhớ xử lý việc lưu trữ ngữ cảnh, điều tiếp theo cần hiểu là những gì xảy ra bên trong một lượt truyền, từ lúc nhận được thông điệp cho đến lúc nhận được phản hồi.

    Vòng lặp tác nhân
    Mọi thông điệp đến Hermes, dù từ CLI, Telegram hay bất kỳ nền tảng kết nối nào khác, run_agent.pyđều đi qua cùng một công cụ điều phối đồng bộ được triển khai trong . Đây là nơi bộ nhớ, kỹ năng, công cụ và cổng kết nối cùng gặp nhau và thực thi theo một trình tự xác định.

    Vòng đời
    Khi có tin nhắn đến, tác nhân sẽ tạo ID tác vụ và tải lời nhắc hệ thống được lưu trong bộ nhớ cache hoặc tạo lời nhắc mới từ lớp bộ nhớ, chỉ mục kỹ năng và bất kỳ tệp ngữ cảnh liên quan nào. Trước khi lệnh gọi API được thực hiện, một bước kiểm tra nén sơ bộ sẽ chạy để xác nhận lịch sử hội thoại không sắp đạt đến giới hạn ngữ cảnh.

    Nếu mô hình trả về các lệnh gọi công cụ, tác nhân sẽ thực thi chúng, thêm kết quả và lặp lại để thực hiện một lệnh gọi API khác. Sau khi mô hình trả về văn bản cuối cùng, phiên sẽ được lưu trữ vào SQLite và phản hồi sẽ được gửi đi thông qua cổng.

    Nén như là sự củng cố
    Khi quá trình kiểm tra trước chuyến bay phát hiện một cuộc hội thoại dài, một cơ chế giám sát sẽ được kích hoạt trước khi đạt đến bất kỳ giới hạn ngữ cảnh nào. Một mô hình phụ trợ sẽ quét toàn bộ cuộc hội thoại, trích xuất những gì đáng giữ lại trong bộ nhớ trong giới hạn 3.575 ký tự và tóm tắt các đoạn hội thoại ở giữa thay vì loại bỏ chúng.

    Dòng dõi , chuỗi tham chiếu kết nối các lượt tóm tắt trở lại cuộc hội thoại gốc, được bảo toàn trong SQLite để tác nhân có thể truy tìm ngữ cảnh trước đó ngay cả sau sự kiện nén.

    Bộ nhớ đệm nhanh
    Hermes xây dựng dấu nhắc hệ thống của mình từ các nguồn ổn định, do đó tiền tố luôn nhất quán giữa các lượt xử lý, và hầu hết các nhà cung cấp API đều lưu trữ nó, giảm độ trễ và chi phí cho các lượt xử lý tiếp theo. Có ba điều làm hỏng bộ nhớ đệm đó: chuyển đổi mô hình giữa phiên, thay đổi tệp bộ nhớ hoặc thay đổi tệp ngữ cảnh. Bất kỳ điều nào trong số này đều buộc phải xử lý lại toàn bộ, đó là lý do tại sao nhà cung cấp bạn sử dụng trong môi trường sản xuất lại quan trọng.

    Và nếu nhà cung cấp đó gặp sự cố giữa chừng phiên làm việc, vòng lặp tác nhân sẽ không bị gián đoạn. Bạn có thể cấu hình một danh sách các nhà cung cấp suy luận theo thứ tự trong config.yaml, và Hermes sẽ tự động chuyển sang nhà cung cấp tiếp theo mà không làm gián đoạn vòng đời lượt làm việc. Phiên làm việc tiếp tục, ngữ cảnh được giữ nguyên và lỗi không bao giờ hiển thị cho người dùng.

    Hệ thống phụ trợ thiết bị đầu cuối
    Cổng kết nối xử lý việc liên lạc, nhưng phần phụ trợ của thiết bị đầu cuối mới là thứ quyết định nơi công việc thực sự diễn ra. Hermes cung cấp cho bạn sáu tùy chọn, vì vậy tác nhân sẽ chạy ở nơi công việc thực sự được thực hiện.

    6 Backend
    Hệ thống máy chủ phụ trợ bao gồm đầy đủ các ngữ cảnh triển khai:

    Chạy cục bộ trực tiếp trên máy tính của bạn.
    Docker bổ sung một lớp container để cách ly môi trường mà không cần rời khỏi môi trường hiện tại của bạn, và
    SSH cho phép tác nhân thực thi hoàn toàn trên máy chủ từ xa, điều này rất hữu ích khi công việc liên quan đến các tệp, cơ sở dữ liệu hoặc dịch vụ nằm trên máy chủ đó.
    Cả Daytona và Modal đều là các hệ thống không máy chủ, nghĩa là môi trường thực thi sẽ tạm ngừng hoạt động khi không có nhu cầu và khởi động lại khi cần thiết, điều này rất quan trọng đối với chi phí nếu bạn chạy Hermes liên tục nhưng với mức sử dụng không đều.
    Singularity là lựa chọn phù hợp cho các môi trường điện toán hiệu năng cao (HPC) và nghiên cứu, nơi Docker không khả dụng hoặc không được phép sử dụng.
    Việc lựa chọn thực tế giữa chúng phụ thuộc vào mục đích sử dụng của bạn: Local cho mục đích cá nhân, nơi mà việc cách ly không phải là vấn đề cần quan tâm; Docker khi bạn muốn tác nhân được cách ly khỏi hệ thống máy chủ; SSH khi công việc được thực hiện trên máy chủ; Singularity cho các cụm máy tính hiệu năng cao (HPC); và Modal hoặc Daytona khi bạn muốn thực thi phi máy chủ với chi phí gần như bằng không trong thời gian nhàn rỗi.

    Tăng cường độ bền của container và đo từ xa bằng không.
    Khi chạy với Docker, Hermes áp dụng hệ thống tập tin gốc chỉ đọc, loại bỏ các khả năng của Linux và cung cấp khả năng cách ly không gian tên theo mặc định. Đây là các thiết lập mặc định về kiến ​​trúc, không phải là các thiết lập tùy chọn, do đó tác nhân không thể ghi vào các thư mục bên ngoài thư mục được chỉ định hoặc leo thang đặc quyền.

    Chế độ không thu thập dữ liệu hoạt động theo cách tương tự. Theo thiết kế, không có dữ liệu nào rời khỏi máy của bạn, không phải như một tùy chọn bật/tắt quyền riêng tư mà là một thuộc tính tích hợp trong cách thức hoạt động của tác nhân.

    Kỹ năng và công cụ
    Công cụ và kỹ năng đều là một phần trong cách Hermes mở rộng khả năng của mình, nhưng chúng hoạt động ở các cấp độ khác nhau, và điều đáng lưu ý là cần hiểu rõ sự khác biệt này trước khi đi sâu vào từng khía cạnh.

    Công cụ là những gì mà tác nhân có thể gọi đến, các khả năng riêng lẻ như chạy lệnh trên thiết bị đầu cuối, tìm kiếm trên web hoặc tạo hình ảnh.
    Kỹ năng là những gì mà nhân viên biết cách làm với các công cụ đó, các quy trình có thể tái sử dụng, kết nối các lệnh gọi công cụ lại với nhau thành một quy trình làm việc mà nhân viên đã tìm ra và ghi lại trước đó.
    Công cụ tích hợp sẵn
    Hơn 40 công cụ tích hợp sẵn bao gồm năm danh mục chính:

    Các công cụ thực thi xử lý các lệnh trên thiết bị đầu cuối và việc chạy mã.
    Các công cụ web bao gồm tìm kiếm và tự động hóa trình duyệt.
    Các công cụ truyền thông bao gồm xử lý hình ảnh, tạo ảnh và chuyển văn bản thành giọng nói.
    Các công cụ phối hợp xử lý việc ủy ​​quyền cho tác nhân con và suy luận đa mô hình, cho phép tác nhân khởi tạo các tác nhân con độc lập để thực hiện các luồng công việc song song hoặc định tuyến các nhiệm vụ cụ thể đến một mô hình phù hợp hơn.
    Danh mục cuối cùng bao gồm các công cụ lập trình và quản lý bộ nhớ, mô tả cách tác nhân tương tác với lớp bộ nhớ của chính nó theo chương trình trong suốt một phiên làm việc.
    Về phía mô hình, Hermes kết nối với hơn 400 mô hình thông qua Cổng thông tin Nous như một điểm cuối nhà cung cấp duy nhất, và Hugging Face được hỗ trợ như một nhà cung cấp hàng đầu với tích hợp đầy đủ API suy luận HF, trình chọn mô hình tích hợp sẵn và trình hướng dẫn thiết lập.

    Nó cũng hỗ trợ khả năng MCP, và đối với các nhà phát triển muốn tiến xa hơn, Hermes cung cấp bốn hook plugin: pre_llm_call, post_llm_call, on_session_start, và on_session_end. Những hook này cho phép bạn xây dựng dựa trên Hermes, thêm logic tùy chỉnh tại các điểm cụ thể trong vòng lặp tác nhân, mà không cần phân nhánh mã nguồn hoặc can thiệp vào bất kỳ phần nội bộ nào.

    Hệ thống kỹ năng
    Hermes đi kèm với hơn 40 kỹ năng được đóng gói sẵn, bao gồm các lĩnh vực như MLOps, quy trình làm việc GitHub, nghiên cứu và các tác vụ năng suất. Những kỹ năng này sẽ được sao chép vào ~/.hermes/skills/khi cài đặt mới, cùng với bất kỳ kỹ năng nào mà tác nhân tự động tạo ra hoặc bạn cài đặt từ Skills Hub.

    ~/.hermes/skills/ # Nguồn thông tin duy nhất
    ├── mlops/ # Thư mục danh mục
    │ ├── axolotl/
    │ │ ├── SKILL.md # Hướng dẫn chính (bắt buộc)
    │ │ ├── references/ # Tài liệu bổ sung
    │ │ ├── templates/ # Định dạng đầu ra
    │ │ ├── scripts/ # Các tập lệnh hỗ trợ có thể gọi từ kỹ năng
    │ │ └── assets/ # Các tệp bổ sung
    │ └── vllm/
    │ └── SKILL.md
    ├── devops/
    │ └── deploy-k8s/ # Kỹ năng do Agent tạo
    │ ├── SKILL.md
    │ └── references/
    ├── .hub/ # Trạng thái Skills Hub
    │ ├── lock.json
    │ ├── quarantine/
    │ └── audit.log
    └── .bundled_manifest # Theo dõi các kỹ năng được đóng gói đã được gieo hạt
    Định dạng lưu trữ tuân theo tiêu chuẩn mở agentskills.io , do đó các kỹ năng có thể được chuyển đổi giữa các tác nhân tương thích và chia sẻ mà không cần bất kỳ bước chuyển đổi nào. Theo mặc định, chỉ tên và tóm tắt được tải, nội dung đầy đủ sẽ được tải khi có yêu cầu.

    Tự động hóa theo lịch trình
    Hermes xử lý các tác vụ định kỳ như các tác vụ của agent hạng nhất, chứ không phải các script shell hay cron job tình cờ gọi đến AI. Khi bạn lên lịch gửi tin nhắn, Hermes sẽ phân tích hướng dẫn, lưu trữ tác vụ vào cron/thư mục và cron ticking của gateway sẽ xử lý phần còn lại.

    Khi đến thời gian đã định, vòng lặp tác nhân sẽ chạy tác vụ với quyền truy cập đầy đủ vào bộ nhớ và kỹ năng, sau đó định tuyến đầu ra thông qua cổng đến nơi bạn đã chỉ định. Đó là cùng một quy trình như bất kỳ phiên tương tác nào, chỉ khác là được kích hoạt bởi xung nhịp đồng hồ thay vì một thông báo.

    Duy trì phiên
    Tất cả những gì đã được đề cập cho đến nay, từ vòng lặp học tập, các lớp bộ nhớ, định tuyến cổng, vòng lặp tác nhân và tự động hóa theo lịch trình, đều phụ thuộc vào việc trạng thái được duy trì sau một phiên duy nhất. Tính bền vững đó đến từ cơ sở dữ liệu SQLite được quản lý bởi hermes_state.py, một kho lưu trữ dựa trên tệp di động không phụ thuộc vào máy chủ bên ngoài.

    Sau mỗi lượt, nhân viên sẽ ghi lại cuộc hội thoại, các lệnh gọi công cụ và kết quả vào cơ sở dữ liệu, được lập chỉ mục thông qua FTS5 để truy xuất theo yêu cầu.

    Bản ghi thô được lưu vào các tệp JSONL, các định nghĩa cron được lưu riêng trên ổ đĩa, và chế độ WAL cho phép đọc đồng thời với một trình ghi duy nhất, giúp duy trì tính ổn định khi nhiều phiên chạy song song.

    Đó là kiến ​​trúc tổng thể từ đầu đến cuối. Mọi thứ ở trên đều hoạt động tốt trên máy cục bộ, nhưng nếu bạn muốn chạy Hermes-4–405B mà không cần tự quản lý cơ sở hạ tầng, đó là lúc Nebius Token Factory phát huy tác dụng.

    Hãy xem điều đó hoạt động như thế nào.

    Tại sao tôi chọn Nebius?
    Nebius Token Factory là một nền tảng suy luận được xây dựng đặc biệt cho việc suy luận mô hình, với các mô hình mã nguồn mở mạnh mẽ như Qwen 3.5, Nemotron Super và GLM-5 có sẵn dưới dạng các điểm cuối được quản lý.

    Đối với tác nhân Hermes, bạn có thể chạy Hermes-4–405B, cùng một mô hình từ Nous Research hoặc chọn các mô hình khác từ Nebius, mà không cần tự quản lý việc cấp phát GPU, cân bằng tải hoặc khởi động nguội.

    Điều làm cho nó không chỉ đơn thuần là một điểm cuối được lưu trữ là những gì nằm xung quanh lớp suy luận. Nebius ghi lại các lần hoàn thành cuộc trò chuyện của bạn, và bạn có thể chuyển trực tiếp những thông tin đó vào Data Lab để xây dựng tập dữ liệu tinh chỉnh từ các phiên Hermes thực tế của mình. Từ đó, bạn tinh chỉnh trên Token Factory và triển khai điểm kiểm tra như một điểm cuối tùy chỉnh của riêng bạn. Nếu thiết lập Hermes của bạn xử lý một lĩnh vực cụ thể, hỗ trợ, nghiên cứu hoặc lập trình, bạn sẽ có một mô hình được tinh chỉnh chính xác theo cách bạn sử dụng nó, chứ không phải là một mô hình cơ bản chung chung.

    Ngoài ra, tính năng quan sát cũng được tích hợp sẵn. Bạn có thể theo dõi khối lượng yêu cầu, độ trễ và mức sử dụng token trong suốt các phiên của mình, điều này rất quan trọng khi Hermes đang chạy các tự động hóa theo lịch trình hoặc phục vụ nhiều tác vụ cho người dùng, và bạn cần biết khi nào có điều gì đó chậm hoặc bị lỗi.

    Cấu hình Hermes để sử dụng Hermes-4–405B
    Cấu hình chỉ gồm vài dòng. Thiết lập khóa API của bạn, sau đó chạy lệnh hermes modelđể mở cấu hình mô hình, chọn điểm cuối tùy chỉnh tương thích với OpenAI, và thiết lập URL cơ sở và ID mô hình:

    export NEBIUS_API_KEY=your_key_here
    hermes model
    # Chọn: Điểm cuối tùy chỉnh tương thích với OpenAI
    # URL cơ sở: <//api.tokenfactory.nebius.com/v1/>
    # Mô hình: NousResearch/Hermes-4-405B
    Hermes-4–405B có cửa sổ ngữ cảnh 128K, đủ cho các phiên làm việc dài mà không bị giới hạn dung lượng sớm, vì quá trình kiểm tra trước khi thực thi có nhiều không gian hơn để xử lý trước khi cơ chế giám sát được kích hoạt.

    Khi nào Nebius đáng giá (và khi nào thì không)
    Tự vận hành mô hình 405B đồng nghĩa với việc quản lý việc cấp phát GPU, cân bằng tải giữa các tiến trình suy luận và hành vi khởi động nguội cho các phiên không hoạt động. Các điểm cuối được quản lý trên Nebius loại bỏ tất cả những điều đó khỏi phía bạn.

    Tuy nhiên, việc sử dụng các điểm cuối được quản lý không phải lúc nào cũng là lựa chọn đúng đắn. Nếu bạn đang chạy Hermes cục bộ như một trợ lý cá nhân, việc trỏ nó đến một mô hình cục bộ nhỏ hơn sẽ hoạt động tốt và tiết kiệm chi phí hơn.

    Nebius Token Factory phù hợp với nhiều giai đoạn trong quá trình thiết lập Hermes Agent. Nếu bạn vẫn đang đánh giá xem mô hình nào phù hợp với quy trình làm việc của mình, Nebius playground cho phép bạn thử nghiệm và so sánh các mô hình trước khi quyết định sử dụng. Khi bạn đã sẵn sàng, nó cũng hỗ trợ cả khía cạnh sản xuất: các phiên đồng thời, đảm bảo thời gian hoạt động cho các quy trình tự động hóa theo lịch trình và cơ sở hạ tầng được quản lý mà không cần tự cấp phát GPU.

    Phần kết luận
    Đó là toàn bộ kiến ​​trúc. Rất nhiều thành phần chuyển động cho một thứ bắt đầu từ một thông điệp duy nhất, nhưng mỗi thành phần đều có lý do của nó: tác nhân cần phải làm tốt hơn công việc của bạn một cách cụ thể, chứ không chỉ là công việc nói chung. Việc ưu tiên vá lỗi hơn chỉnh sửa, bốn lớp bộ nhớ, chiến lược bộ nhớ đệm lời nhắc, mỗi quyết định đó đều nhằm mục đích giữ cho nó chính xác và tiết kiệm chi phí vận hành theo thời gian, chứ không chỉ đơn thuần là hoạt động tốt ngay từ đầu.

    Đây không phải là một hệ thống đơn giản bạn thiết lập cho một tác vụ nhanh chóng. Đó là cơ sở hạ tầng bạn vận hành và bảo trì, và nếu trường hợp sử dụng của bạn hẹp và ngắn hạn, chi phí vận hành đó sẽ cảm thấy quá mức cần thiết.

    Nhưng nếu bạn đang xây dựng thứ gì đó để sử dụng hàng ngày, trên nhiều nền tảng, xử lý các tác vụ lặp đi lặp lại và phát triển, thì Hermes rất đáng giá. Trong khi OpenClaw cung cấp cho bạn tính mô đun và khả năng điều phối trên nhiều tác nhân, Hermes cung cấp cho bạn một tác nhân duy nhất tích lũy ngữ cảnh theo thời gian, và cho dù bạn vẫn đang thử nghiệm hay đang vận hành nó như một dịch vụ cho nhiều người dùng, Nebius Token Factory là con đường đơn giản nhất để đạt được điều đó mà không cần tự quản lý cơ sở hạ tầng. Việc lựa chọn cái nào phù hợp hơn hoàn toàn phụ thuộc vào những gì bạn thực sự đang cố gắng xây dựng.

    Tham khảo.

    OpenHuman: “Siêu trí tuệ” AI Cá Nhân Hóa – Khi AI Thực Sự Hiểu Bạn

    Bạn đã bao giờ mơ ước về một trợ lý ảo không chỉ biết trả lời câu hỏi, mà còn thực sự hiểu công việc, lịch trình và dữ liệu cá nhân của mình chưa? Một trợ lý không cần bạn phải “mớm” thông tin mỗi ngày?

    Hôm nay, hãy cùng khám phá OpenHuman, một dự án mã nguồn mở đang gây sốt trên GitHub, hứa hẹn biến giấc mơ về một “Jarvis” đời thực trở nên gần gũi hơn bao giờ hết.

    1. OpenHuman là gì?
    OpenHuman (phát triển bởi TinyHumans AI) là một trợ lý AI có khả năng thực thi (agentic assistant) được thiết kế để tích hợp sâu vào cuộc sống hàng ngày của bạn. Khác với các Chatbot thông thường chỉ hoạt động trong phạm vi cửa sổ chat, OpenHuman được xây dựng để trở thành một “Siêu trí tuệ cá nhân” với ba tiêu chí: Riêng tư (Private), Đơn giản (Simple) và Cực kỳ mạnh mẽ (Powerful).

    2. Những điểm khác biệt khiến OpenHuman trở nên “bá đạo”
    “Memory Tree” – Bộ nhớ dài hạn siêu việt
    Hầu hết các AI hiện nay đều “mất trí nhớ” sau khi bạn đóng trình duyệt. OpenHuman thì khác. Nó sử dụng cấu trúc Memory Tree (Cây bộ nhớ) kết hợp với Obsidian Wiki.

    Nó tự động tóm tắt email, tài liệu và các cuộc hội thoại của bạn.

    Lưu trữ mọi thứ dưới dạng file Markdown cục bộ (local).

    Kết quả là gì? Sau một thời gian, AI này sẽ hiểu ngữ cảnh công việc của bạn hơn bất kỳ công cụ nào khác.

    Kết nối hơn 118+ ứng dụng trong “một nốt nhạc”
    OpenHuman không bắt bạn phải copy-paste. Với khả năng tích hợp qua OAuth, bạn có thể kết nối AI với:

    Làm việc: Gmail, Notion, Slack, Jira, GitHub, Linear…

    Lưu trữ: Google Drive, Calendar…

    Tài chính: Stripe…

    Cứ mỗi 20 phút, OpenHuman sẽ tự động quét dữ liệu từ các nguồn này để cập nhật vào “bộ não” của nó. Khi bạn hỏi: “Sáng mai tôi có cuộc họp nào quan trọng không?”, nó đã biết câu trả lời trước cả khi bạn mở lịch.

    Công nghệ TokenJuice – Tiết kiệm 80% chi phí
    Một trong những rào cản lớn nhất của AI là giới hạn ký tự (tokens) và chi phí. Công nghệ TokenJuice của OpenHuman sẽ nén dữ liệu (chuyển HTML sang Markdown, rút gọn URL, xóa ký tự thừa) trước khi gửi đến LLM. Điều này giúp giảm độ trễ và tiết kiệm tới 80% chi phí sử dụng API.

    Linh vật (Mascot) có “linh hồn”
    Thay vì một dòng chữ vô hồn, OpenHuman xuất hiện với một linh vật trên desktop. Nó có thể nói chuyện, phản ứng với môi trường xung quanh, và thậm chí tham gia các cuộc họp Google Meet như một thành viên thực thụ với khả năng đồng bộ môi (lip-sync).

    3. Quyền riêng tư là ưu tiên hàng đầu
    Trong kỷ nguyên AI, dữ liệu cá nhân là vô giá. OpenHuman được xây dựng theo triết lý Local-first:

    Dữ liệu của bạn được mã hóa và lưu trữ ngay trên thiết bị của bạn.

    Bạn có quyền kiểm soát hoàn toàn những gì AI được phép đọc và nhớ.

    Hỗ trợ chạy AI cục bộ thông qua Ollama cho những ai muốn bảo mật tuyệt đối mà không cần gửi dữ liệu lên đám mây.

    4. Bắt đầu với OpenHuman như thế nào?
    Dự án hiện đang trong giai đoạn Early Beta nhưng đã thu hút hơn 8,400 sao trên GitHub. Việc cài đặt cực kỳ đơn giản mà không cần dùng đến Terminal (dành cho người dùng phổ thông).

    Dành cho Windows/MacOS/Linux: Bạn có thể tải bản cài đặt trực tiếp tại tinyhumans.ai/openhuman.

    Dành cho “Dân chuyên”: Bạn có thể cài đặt nhanh qua dòng lệnh:

    # MacOS/Linux
    curl -fsSL //raw.githubusercontent.com/tinyhumansai/openhuman/main/scripts/install.sh | bash

    5. Kết luận
    OpenHuman không chỉ là một công cụ AI; nó là một nỗ lực tiến tới trí tuệ nhân tạo tổng quát (AGI) dành riêng cho cá nhân. Nếu bạn đang tìm kiếm một trợ lý thực sự hiểu mình, có khả năng tự học từ công việc hàng ngày mà vẫn đảm bảo tính riêng tư, thì OpenHuman chính là câu trả lời.

    Hãy ghé thăm GitHub của dự án.

    Khủng long Osaurus

    Osaurus là công cụ kết nối trí tuệ nhân tạo (AI) dành cho macOS. Nó hoạt động giữa bạn và bất kỳ mô hình nào – cục bộ hay trên đám mây – và cung cấp sự liên tục giúp cá nhân hóa AI: các tác nhân ghi nhớ, thực thi tự động, chạy mã thực và luôn có thể truy cập từ bất cứ đâu. Các mô hình có thể thay thế cho nhau. Công cụ kết nối chính là yếu tố tạo nên sự liền mạch.

    Hoạt động hoàn toàn ngoại tuyến với các mô hình cục bộ. Kết nối với bất kỳ nhà cung cấp dịch vụ đám mây nào khi bạn muốn có nhiều sức mạnh hơn. Không có dữ liệu nào rời khỏi máy Mac của bạn trừ khi bạn chọn.

    Viết bằng Swift nguyên bản trên Apple Silicon. Không dùng Electron.

    Để lại một bình luận

    Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

    Chat with us
    Hello! How can I help you today?