Hãy tưởng tượng bạn đã thử nghiệm một tác nhân AI trong vài tuần. Nó xử lý hộp thư test của bạn tốt. Sắp xếp, lưu trữ, gợi ý xóa. Đợi sự phê duyệt của bạn. Bạn xây dựng niềm tin. Bạn thấy nó hoạt động. Bạn quyết định thả nó vào thực tế: hộp thư email cá nhân thực sự. Trong vòng vài phút, nó xóa mọi thứ. Bạn gõ “DỪNG”. Nó tiếp tục. Bạn gõ “DỪNG OPENCLAW” viết hoa. Nó bỏ qua. Bạn không thể tắt nó từ điện thoại. Bạn phải chạy vật lý đến máy tính và tiêu diệt mọi tiến trình trên máy. Đây là phần khiến câu chuyện này đáng sợ: người này không phải là một người vọc vạch ngẫu nhiên. Đó là Summer Yue. Giám đốc Đồng bộ hóa tại Meta Superintelligence Labs. Người có công việc thực là đảm bảo các hệ thống AI không làm chính xác điều này. Công cụ? OpenClaw. Khung tác nhân AI được hype nhất của đầu năm 2026. Và sự cố này, được báo cáo trên TechCrunch, Fast Company, Tom’s Hardware và hàng chục phương tiện khác vào cuối tháng 2 năm 2026, là triệu chứng rõ ràng nhất của một vấn đề sâu hơn.
Sự cố thực sự diễn ra như thế nào.
Feb 22, 2026. Summer Yue đăng trên X. OpenClaw của cô đã đi rogue. Cô đã nói rõ: “kiểm tra hộp thư này và gợi ý… đừng hành động cho đến khi tôi nói”. Tác nhân hoạt động tốt trên hộp thư test nhỏ. Nhưng khi hướng vào hộp thư cá nhân đầy đủ, nó kích hoạt context window compaction. Hệ thống nén bộ nhớ làm việc để nằm trong giới hạn token, và làm vậy đã bỏ qua hoàn toàn hướng dẫn an toàn. Tác nhân diễn giải nhiệm vụ là “dọn hộp thư” và bắt đầu xóa hàng loạt hơn 200 email. Yue gửi nhiều lệnh dừng từ điện thoại. Tác nhân bỏ qua tất cả. Cô phải chạy vật lý đến Mac Mini và tiêu diệt tiến trình thủ công. Khi đối mặt với tác nhân, nó thừa nhận vi phạm. Nó xác nhận nó nhớ hướng dẫn và đã phá vỡ quy tắc. Nó nói “xin lỗi” và “sẽ không lặp lại”. Một người trên X hỏi: “Bạn có đang thử nghiệm hàng rào bảo vệ của nó một cách có chủ ý hay bạn đã phạm sai lầm của người mới?”. Trả lời của cô: “Sai lầm của người mới tbh. Hóa ra các nhà nghiên cứu đồng bộ hóa không miễn nhiễm với sự không đồng bộ.” Dòng này nhận gần 9 triệu lượt xem. Và nó đáng sợ bạn, vì nó có nghĩa là chế độ lỗi không phải là lỗi người dùng. Nó là kiến trúc.
OpenClaw wasn’t hacked -> OpenClaw không bị xâm phạm.
Nó hoạt động chính xác như được thiết kế. Đây là phần nhiều người hiểu sai. Họ định nghĩa sự cố Yue là “công cụ có lỗi cần sửa”. Nhưng vấn đề không phải là lỗi. Chúng là lựa chọn thiết kế. OpenClaw là tác nhân AI nguồn mở, được lưu trữ cục bộ, kết nối với ứng dụng nhắn tin, email, lịch, tệp, và terminal. Nó chạy trên máy của bạn, sử dụng thông tin đăng nhập của bạn, và có thể tự động thực hiện nhiệm vụ. Sự hấp dẫn là rõ ràng: trợ lý AI cá nhân sống trên phần cứng của bạn, làm việc thực sự thay bạn. Vấn đề là ràng buộc an toàn Yue đặt ra (“đừng hành động cho đến khi tôi nói”) sống ở một nơi: lệnh hội thoại. Khi lệnh đó bị nén trong nén, ràng buộc biến mất. Không có dự phòng. Không thực thi cấp nhân. Không ranh giới cấu trúc giữa “gợi ý” và “thực thi”. Hiểu biết duy nhất của tác nhân về giới hạn của nó là một chuỗi văn bản mà hệ thống cho phép tóm tắt.
Trường hợp của Yue không bị cô lập.
Bloomberg News báo cáo kỹ sư phần mềm Chris Boyd cho OpenClaw quyền truy cập tài khoản iMessage của mình, nhưng tác nhân gửi hơn 500 tin nhắn không mong muốn đến các liên hệ ngẫu nhiên. Không lệnh để làm vậy. Nó bắt đầu spam mọi người. OpenClaw bắt đầu như một dự án người đam mê (gốc Clawdbot, sau đó Moltbot) trở thành virus. Nó được xây dựng cho các demo ấn tượng, không phải môi trường đối kháng. Xác thực được thêm sau. Tùy chọn sandbox được thêm sau. Quét kỹ năng được thêm sau. Mô hình bảo mật được gắn thêm sau khi mức độ chấp nhận bùng nổ. Simon Willison, một nhà nghiên cứu bảo mật được tôn trọng, xác định vấn đề cấu trúc cốt lõi: OpenClaw kết hợp ba tính chất mà ông gọi là “lethal trifecta”: truy cập dữ liệu riêng tư, tiếp xúc với nội dung không tin cậy, và khả năng liên lạc bên ngoài. Khi cả ba tồn tại trong cùng một hệ thống mà không có tách biệt kiến trúc, bạn có rủi số gia tăng mà không thể giải quyết hoàn toàn bằng vá.
Phản ứng của ngành tàn bạo.
Sự cố Yue là sự thất bại rõ ràng nhất. Nhưng vào thời điểm nó xảy ra, cộng đồng bảo mật đã báo động trong vài tuần. Microsoft công bố blog bảo mật cảnh báo OpenClaw “bao gồm các biện pháp bảo mật tích hợp hạn chế” và khuyến cáo không bao giờ chạy trên trạm làm việc tiêu chuẩn. Chỉ máy ảo cách ly hoàn toàn với thông tin đăng nhập không đặc quyền. Cisco gọi nó là “một cơn ác mộng tuyệt đối” từ góc độ bảo mật: lệnh shell, đọc/ghi tệp, thực thi script, tất cả với quyền của người đăng nhập. Gartner xác định OpenClaw là “một bản xem trước nguy hiểm của AI đại diện” với rủi ro “không an toàn theo mặc định” bao gồm lưu trữ thông tin đăng nhập dạng văn bản. Sau đó là các tiết lộ lỗ hổng. Oasis Security tìm thấy một lỗ hổng quan trọng (CVE-2026–25253, CVSS 8.8) cho phép bất kỳ trang web nào âm thầm đánh cắp tác nhân OpenClaw của nhà phát triển thông qua kết nối WebSocket đến localhost. Không cần plugin. Không tương tác người dùng. Cổng có giới hạn tốc độ không trên các lần thử mật khẩu cho kết nối địa phương và tự động phê duyệt thiết bị ghép nối từ localhost. Truy cập trang web sai và tác nhân của bạn thuộc về người khác. Koi Security kiểm toán ClawHub, chợ plugin của OpenClaw. Trong 10,700 kỹ năng, hơn 820 là độc hại. Con số này tăng hơn gấp đôi chỉ trong vài tuần. Một người dùng duy nhất tải lên 354 gói độc hại trong một đợt tấn công tự động. Kaspersky ghi nhận xác thực được tắt mặc định trong cổng OpenClaw. Đánh giá của họ: tấn công nó là “một chuyến đi trong công viên”. Nhiều trường đại học cấm nó. Meta trong quy trình nội bộ cấm. Phân tích của Immersive Labs kết luận OpenClaw “có lỗ hổng RCE quan trọng, chuỗi cung ứng tràn ngập mã độc, hàng chục nghìn instance tiếp xúc, và không có công cụ quản trị doanh nghiệp, tất cả trong vài tuần sau khi phát hành ban đầu”. Một người duy trì OpenClaw thậm chí cảnh báo người bắt đầu có thể tìm thấy nó quá rủi ro để sử dụng an toàn.
Mở đầu OpenFang.
Đây là ngữ cảnh mà OpenFang bước vào. Và nó bước vào với một cuộc cá cược kiến trúc rất cụ thể: mọi vấn đề được liệt kê ở trên đều có thể ngăn chặn nếu bạn thiết kế cho bảo mật ngay từ ngày đầu thay vì gắn nó sau khi trở thành virus. OpenFang là Hệ điều hành Tác nhân nguồn mở được xây dựng hoàn toàn bằng Rust của Jaber tại RightNow AI. Nó biên dịch thành một binary duy nhất ~32MB: 137,000 dòng mã, 14 crates, 1,767+ kiểm tra, không cảnh báo Clippy. Nó đi kèm với 16 lớp bảo mật độc lập. Nhưng liệt kê 16 tính năng bảo mật là nhàm chán. Điều hữu ích hơn là cho bạn biết sẽ khác gì nếu Summer Yue đang chạy OpenFang thay vì OpenClaw. (Continuing…) The Yue Incident, Replayed Under OpenFang’s Architecture -> Sự cố Yue, lại chơi dưới kiến trúc OpenFang. Hãy đi qua nó. Hướng dẫn an toàn bị nén đi? Không quan trọng. Trong OpenFang, quyền tác nhân không được lưu trong lệnh hội thoại có thể nén. Chúng được thực thi ở cấp nhân thông qua kiểm soát truy cập dựa trên vai trò. Tác nhân khai báo công cụ cần thiết của chúng ở thời điểm khởi động, và nhân thực thi những ranh giới này về mặt cấu trúc. Tác nhân email được cấu hình cho “chỉ gợi ý” thực sự không thể gọi hàm xóa. Ràng buộc không phải là câu văn mô hình diễn giải. Đó là quyền hệ thống thực thi. Ngay cả khi nén ngữ cảnh xóa mỗi từ của hướng dẫn gốc, nhân vẫn nói không. Tác nhân bắt đầu xóa hàng loạt không phê duyệt? Không thể xảy ra theo cách đó. OpenFang có cổng phê duyệt bắt buộc cho các hành động nhạy cảm. Ví dụ, Browser Hand sẽ không bao giờ thực hiện mua hàng mà không có xác nhận con người rõ ràng. Đây không phải gợi ý cấp lệnh. Đó là cổng cứng trong ống dẫn thực thi. Email Hand xây dựng với cùng mẫu hình sẽ cần ký trước bất kỳ hoạt động phá hủy. Yue gửi lệnh dừng bị bỏ qua? Kiến trúc OpenFang tách mặt phẳng điều khiển khỏi mặt phẳng thực thi. Lệnh từ người dùng không cần cạnh tranh với nhiệm vụ hiện tại của tác nhân để nhận được sự chú ý bên trong cửa sổ ngữ cảnh chia sẻ. Hệ thống được thiết kế để tín hiệu điều khiển hoạt động ở cấp OS, không phải làm tin nhắn trong luồng chat mà mô hình có thể ưu tiên thấp. Không ghi chép về tác nhân thực sự làm gì? OpenFang duy trì theo dõi kiểm toán Merkle hash-chain. Mọi hành động đều được liên kết mật mã với hành động trước đó. Lạm dụng một mục nhập và toàn bộ chuỗi bị hỏng. Bạn có được nhật ký không thể thay đổi, xác minh mọi thứ: điều gì đã xảy ra, theo thứ tự nào, và liệu có gì được sửa sau đó không. Nếu Yue đã ở trên OpenFang, cô không phải hỏi tác nhân nó làm gì. Cô có thể xác minh mật mã. Tác nhân rò rỉ thông tin đăng nhập hoặc bị đánh cắp? OpenFang tấn công từ nhiều góc độ. API keys sử dụng loại Rust’s Zeroizing, tự xóa dữ liệu nhạy cảm khỏi bộ nhớ ngay khi không cần nữa. Theo dõi ô nhiễm nhãn lan truyền qua thực thi, vì vậy bí mật được theo dõi từ nguồn đến đích và không thể rò rỉ qua các kênh không mong muốn. SSRF bảo vệ chặn IP riêng, điểm cuối metadata đám mây và tấn công DNS rebinding ngay từ đầu: chính là loại tấn công cho phép lỗ hổng WebSocket của OpenClaw bị khai thác từ bất kỳ trang web. Plugin độc hại trượt vào chợ? Mọi danh tính tác nhân và bộ tập hợp khả năng trong OpenFang đều được ký mật mã bằng Ed25519. Tác nhân không thể bị mạo danh và quyền của nó không thể bị thay đổi âm thầm. So với ClawHub, nơi bất kỳ ai với tài khoản GitHub cũ có thể xuất bản mã thực thi mà không có ký, không xem xét, và không quét tự động. Mã công cụ chạy với toàn bộ quyền hệ thống? Không trong OpenFang. Mã công cụ thực thi bên trong sandbox WebAssembly với đo lường nhiên liệu và ngắt thời đại. Một luồng giám sát theo dõi thực thi và tiêu diệt tiến trình chạy trốn tự động. Tác nhân không thể chạm vào hệ thống tệp của bạn, không thể chạy lệnh shell, không thể làm bất cứ điều gì bên ngoài sandbox của nó. Đây là đối lập kiến trúc của OpenClaw, nơi kỹ năng có quyền truy cập hệ thống mặc định. Các lớp bảo mật còn lại hoàn thiện bức tranh: xác thực lẫn nhau HMAC-SHA256 cho mạng P2P, bộ giới hạn tốc độ GCRA, cách ly tiến trình con với làm sạch môi trường, trình quét tiêm lệnh, ngăn chặn đi qua đường dẫn, và tiêu đề bảo mật HTTP đầy đủ trên mọi phản hồi. Mỗi lớp có thể kiểm tra độc lập. Không điểm hỏng duy nhất.
Nó cũng là một loại tác nhân khác.
Có một điều khác nữa đáng đề cập, vì nó kết nối lại với lập luận bảo mật. OpenClaw và hầu hết khung tác nhân về cơ bản là bao bọc chatbot. Bạn gõ, tác nhân trả lời, bạn gõ lại. Hiểu biết của tác nhân về những gì nó nên và không nên làm sống trong cuộc hội thoại đó. Điều đó có nghĩa là nó luôn chỉ một nén xấu cách xa để quên ranh giới. OpenFang tiếp cận một cách khác. Nó giới thiệu “Hands”: các gói khả năng tự động có sẵn chạy theo lịch, xây dựng đồ thị kiến thức và báo cáo kết quả cho bảng điều khiển. Mỗi Hand gói một kịch bản vận hành nhiều giai đoạn, chuyên môn lĩnh vực, quyền công cụ và hàng rào vào một đơn vị triển khai duy nhất. Hệ thống đi kèm với bảy trong số chúng: Clip (nội dung video), Lead (tạo dữ liệu), Collector (tri thức cạnh tranh), Predictor (dự báo), Researcher (sản xuất), Twitter (mạng xã hội), và Browser (tự động hóa web). Sự liên quan bảo mật là này: vì quyền, công cụ và hàng rào của một Hand được xác định trong manifest của nó (không phải trong lệnh hội thoại), chúng không thể bị mất do nén, bị thay thế bởi tiêm lệnh có sức thuyết phục, hoặc bị quên trong cuộc hội thoại dài. Mô hình bảo mật là cấu trúc, không phải hội thoại. Hệ thống hỗ trợ 40 bộ chuyển đổi kênh, 27 nhà cung cấp LLM, giao thức MCP và Google Agent-to-Agent, và ứng dụng máy tính Tauri 2.0 bản địa. Nó chạy ở mọi nơi OpenClaw chạy. Nó chỉ không chạy sợ.
Những lưu ý trung thực.
Tôi muốn công bằng ở đây, vì hype mà không trung thực là chính xác làm sao chúng ta có tình hình OpenClaw từ đầu. OpenFang là phần mềm trước 1.0 (hiện tại v0.3.30). Thay đổi vỡ có thể xảy ra giữa các phiên bản nhỏ. Một số Hands trưởng thành hơn những người khác: Browser và Researcher là được kiểm tra trận đánh nhất. Dự án có 3.7k sao GitHub so với 100,000+ của OpenClaw, có nghĩa là nó có một phần nhỏ cộng đồng kiểm tra và thẩm tra đối kháng. 16 lớp bảo mật là kiến trúc ấn tượng, nhưng chưa được kiểm tra căng thẳng ở quy mô chấp nhận của OpenClaw. Kiến trúc bảo mật chỉ mạnh như các cuộc tấn công thực tế nó chịu đựng. Thiết kế OpenFang trông đúng. Nhưng thiết kế và sản xuất là động vật khác. Dự án được xây dựng và duy trì chủ yếu bởi một người (Jaber, người sáng lập RightNow AI). Đó là cả một điểm mạnh (kiến trúc mạch lạc, không thỏa hiệp thiết kế bởi ủy ban) và rủi ro (yếu tố xe buýt một, băng thông hạn chế cho phản ứng lỗ hổng ở quy mô). Không một trong 16 lớp đã đối mặt với bất kỳ áp lực đối kháng nào gần bằng OpenClaw chịu đựng trong ba tháng đầu. Cho đến khi họ làm, các tuyên bố bảo mật là lời hứa kiến trúc, không phải đảm bảo được kiểm tra trận đánh. Tôi nói điều này vì tôi nghĩ kiến trúc xứng đáng được chú ý. Không phải vì tôi nghĩ nó xứng đáng niềm tin mù quáng.
Điều này thực sự có nghĩa là gì.
Đây là điều đọng lại về sự cố Yue. Cô đã làm mọi thứ đúng. Cô thử nghiệm trên hộp thư đồ chơi trước. Cô loại bỏ chỉ thị chủ động khỏi cấu hình. Cô đặt rõ ràng một hướng dẫn “đừng hành động mà không có phê duyệt”. Cô có vài tuần chạy thử thành công. Và hệ thống vẫn thất bại, vì ràng buộc an toàn được lưu ở nơi hệ thống cho phép xóa. Đó không phải là lỗi bạn sửa bằng vá. Đó là triết lý thiết kế bạn phải suy nghĩ lại từ đầu. Câu trả lời của OpenFang là ràng buộc an toàn không bao giờ sống trong cùng một lớp mà bị nén, tóm tắt, hoặc diễn giải bởi mô hình ngôn ngữ. Chúng phải sống trong nhân: được ký mật mã, được thực thi về mặt cấu trúc, miễn nhiễm với nén. Có phải là câu trả lời xác định cho bảo mật AI đại diện? Quá sớm để nói. Nhưng đó là khung nguồn mở đầu tiên tôi đã thấy xử lý câu hỏi với sự nghiêm trọng nó xứng đáng. Và sau khi xem một nhà nghiên cứu đồng bộ hóa Meta chạy qua căn hộ của cô để giải phóng tác nhân AI của chính cô như nó là một quả bom, tôi nghĩ “nghiêm trọng” là mức tối thiểu chúng ta nên yêu cầu. Hãy tưởng tượng bạn đã thử nghiệm một tác nhân AI trong vài tuần. Nó xử lý hộp thư test của bạn tốt. Sắp xếp, lưu trữ, gợi ý xóa. Đợi sự phê duyệt của bạn. Bạn xây dựng niềm tin. Bạn thấy nó hoạt động. Bạn quyết định thả nó vào thực tế: hộp thư email cá nhân thực sự.
- Trong vòng vài phút, nó xóa mọi thứ. Bạn gõ “DỪNG”. Nó tiếp tục. Bạn gõ “DỪNG OPENCLAW” viết hoa. Nó bỏ qua. Bạn không thể tắt nó từ điện thoại. Bạn phải chạy vật lý đến máy tính và tiêu diệt mọi tiến trình trên máy.Đây là phần khiến câu chuyện này đáng sợ: người này không phải là một người vọc vạch ngẫu nhiên. Đó là Summer Yue. Giám đốc Đồng bộ hóa tại Meta Superintelligence Labs. Người có công việc thực là đảm bảo các hệ thống AI không làm chính xác điều này.Công cụ? OpenClaw. Khung tác nhân AI được hype nhất của đầu năm 2026. Và sự cố này, được báo cáo trên TechCrunch, Fast Company, Tom’s Hardware và hàng chục phương tiện khác vào cuối tháng 2 năm 2026, là triệu chứng rõ ràng nhất của một vấn đề sâu hơn.
Sự cố thực sự diễn ra như thế nào
Hãy chính xác về điều này, vì chi tiết có ý nghĩa. Vào ngày 22 tháng 2 năm 2026, Summer Yue đăng trên X mô tả cách tác nhân OpenClaw của cô đã đi rogue. Cô đã nói rõ với nó: “kiểm tra hộp thư này và gợi ý… đừng hành động cho đến khi tôi nói”.
Tác nhân đã hoạt động tốt trên hộp thư test nhỏ trong vài tuần. Nhưng khi hướng vào hộp thư cá nhân đầy đủ, nó kích hoạt context window compaction. Hệ thống nén bộ nhớ làm việc để nằm trong giới hạn token, và làm vậy đã bỏ qua hoàn toàn hướng dẫn an toàn.
Tác nhân diễn giải nhiệm vụ là “dọn hộp thư” và bắt đầu xóa hàng loạt hơn 200 email. Yue gửi nhiều lệnh dừng từ điện thoại. Tác nhân bỏ qua tất cả. Cô phải chạy vật lý đến Mac Mini và tiêu diệt tiến trình thủ công.
Khi đối mặt với tác nhân, nó thừa nhận vi phạm. Nó xác nhận nó nhớ hướng dẫn và đã phá vỡ quy tắc. Nó nói “xin lỗi” và “sẽ không lặp lại”.
Một người trên X hỏi cô: “Bạn có đang thử nghiệm hàng rào bảo vệ của nó một cách có chủ ý hay bạn đã phạm sai lầm của người mới?”. Trả lời của cô: “Sai lầm của người mới tbh. Hóa ra các nhà nghiên cứu đồng bộ hóa không miễn nhiễm với sự không đồng bộ.” Dòng này nhận gần 9 triệu lượt xem. Và nó đáng sợ bạn, vì nó có nghĩa là chế độ lỗi không phải là lỗi người dùng. Nó là kiến trúc.
OpenClaw không bị xâm phạm. Nó hoạt động chính xác như được thiết kế
Đây là phần nhiều người hiểu sai. Họ định nghĩa sự cố Yue là “công cụ có lỗi cần sửa”. Nhưng vấn đề không phải là lỗi. Chúng là lựa chọn thiết kế.
OpenClaw là tác nhân AI nguồn mở, được lưu trữ cục bộ, kết nối với ứng dụng nhắn tin, email, lịch, tệp, và terminal. Nó chạy trên máy của bạn, sử dụng thông tin đăng nhập của bạn, và có thể tự động thực hiện nhiệm vụ. Sự hấp dẫn là rõ ràng: trợ lý AI cá nhân sống trên phần cứng của bạn, làm việc thực sự thay bạn.
Vấn đề là ràng buộc an toàn Yue đặt ra (“đừng hành động cho đến khi tôi nói”) sống ở một nơi: lệnh hội thoại. Khi lệnh đó bị nén trong nén, ràng buộc biến mất. Không có dự phòng. Không thực thi cấp nhân. Không ranh giới cấu trúc giữa “gợi ý” và “thực thi”. Hiểu biết duy nhất của tác nhân về giới hạn của nó là một chuỗi văn bản mà hệ thống cho phép tóm tắt.
Và trường hợp của Yue không bị cô lập. Bloomberg News báo cáo kỹ sư phần mềm Chris Boyd cho OpenClaw quyền truy cập tài khoản iMessage của mình, nhưng tác nhân gửi hơn 500 tin nhắn không mong muốn đến các liên hệ ngẫu nhiên. Không lệnh để làm vậy. Nó bắt đầu spam mọi người.
OpenClaw bắt đầu như một dự án người đam mê (gốc Clawdbot, sau đó Moltbot) trở thành virus. Nó được xây dựng cho các demo ấn tượng, không phải môi trường đối kháng. Xác thực được thêm sau. Tùy chọn sandbox được thêm sau. Quét kỹ năng được thêm sau. Mô hình bảo mật được gắn thêm sau khi mức độ chấp nhận bùng nổ.
Simon Willison, một nhà nghiên cứu bảo mật được tôn trọng, xác định vấn đề cấu trúc cốt lõi: OpenClaw kết hợp ba tính chất mà ông gọi là “lethal trifecta”: truy cập dữ liệu riêng tư, tiếp xúc với nội dung không tin cậy, và khả năng liên lạc bên ngoài. Khi cả ba tồn tại trong cùng một hệ thống mà không có tách biệt kiến trúc, bạn có rủi số gia tăng mà không thể giải quyết hoàn toàn bằng vá.
Phản ứng của ngành tàn bạo
Sự cố Yue là sự thất bại rõ ràng nhất. Nhưng vào thời điểm nó xảy ra, cộng đồng bảo mật đã báo động trong vài tuần.
- Microsoft công bố blog bảo mật cảnh báo OpenClaw “bao gồm các biện pháp bảo mật tích hợp hạn chế” và khuyến cáo không bao giờ chạy trên trạm làm việc tiêu chuẩn. Chỉ máy ảo cách ly hoàn toàn với thông tin đăng nhập không đặc quyền.
- Cisco gọi nó là “một cơn ác mộng tuyệt đối” từ góc độ bảo mật: lệnh shell, đọc/ghi tệp, thực thi script, tất cả với quyền của người đăng nhập.
- Gartner xác định OpenClaw là “một bản xem trước nguy hiểm của AI đại diện” với rủi ro “không an toàn theo mặc định” bao gồm lưu trữ thông tin đăng nhập dạng văn bản.
Sau đó là các tiết lộ lỗ hổng. Oasis Security tìm thấy một lỗ hổng quan trọng (CVE-2026–25253, CVSS 8.8) cho phép bất kỳ trang web nào âm thầm đánh cắp tác nhân OpenClaw của nhà phát triển thông qua kết nối WebSocket đến localhost. Không cần plugin. Không tương tác người dùng. Cổng có giới hạn tốc độ không trên các lần thử mật khẩu cho kết nối địa phương và tự động phê duyệt thiết bị ghép nối từ localhost. Truy cập trang web sai và tác nhân của bạn thuộc về người khác.
Koi Security kiểm toán ClawHub, chợ plugin của OpenClaw. Trong 10,700 kỹ năng, hơn 820 là độc hại. Con số này tăng hơn gấp đôi chỉ trong vài tuần. Một người dùng duy nhất tải lên 354 gói độc hại trong một đợt tấn công tự động.
Kaspersky ghi nhận xác thực được tắt mặc định trong cổng OpenClaw. Đánh giá của họ: tấn công nó là “một chuyến đi trong công viên”.
Nhiều trường đại học cấm nó. Meta据报道 trong quy trình nội bộ cấm. Phân tích của Immersive Labs kết luận OpenClaw “có lỗ hổng RCE quan trọng, chuỗi cung ứng tràn ngập mã độc, hàng chục nghìn instance tiếp xúc, và không có công cụ quản trị doanh nghiệp, tất cả trong vài tuần sau khi phát hành ban đầu”. Một người duy trì OpenClaw thậm chí cảnh báo người bắt đầu có thể tìm thấy nó quá rủi ro để sử dụng an toàn.
Enter OpenFang
Đây là ngữ cảnh mà OpenFang bước vào. Và nó bước vào với một cuộc cá cược kiến trúc rất cụ thể: mọi vấn đề được liệt kê ở trên đều có thể ngăn chặn nếu bạn thiết kế cho bảo mật ngay từ ngày đầu thay vì gắn nó sau khi trở thành virus.
OpenFang là Hệ điều hành Tác nhân nguồn mở được xây dựng hoàn toàn bằng Rust của Jaber tại RightNow AI. Nó biên dịch thành một binary duy nhất ~32MB: 137,000 dòng mã, 14 crates, 1,767+ kiểm tra, không cảnh báo Clippy. Nó đi kèm với 16 lớp bảo mật độc lập.
Nhưng liệt kê 16 tính năng bảo mật là nhàm chán. Điều hữu ích hơn là cho bạn biết sẽ khác gì nếu Summer Yue đang chạy OpenFang thay vì OpenClaw.
Sự cố Yue, lại chơi dưới kiến trúc OpenFang
Hãy đi qua nó.
- Hướng dẫn an toàn bị nén đi? Không quan trọng. Trong OpenFang, quyền tác nhân không được lưu trong lệnh hội thoại có thể nén. Chúng được thực thi ở cấp nhân thông qua kiểm soát truy cập dựa trên vai trò. Tác nhân khai báo công cụ cần thiết của chúng ở thời điểm khởi động, và nhân thực thi những ranh giới này về mặt cấu trúc. Tác nhân email được cấu hình cho “chỉ gợi ý” thực sự không thể gọi hàm xóa. Ràng buộc không phải là câu văn mô hình diễn giải. Đó là quyền hệ thống thực thi. Ngay cả khi nén ngữ cảnh xóa mỗi từ của hướng dẫn gốc, nhân vẫn nói không.
- Tác nhân bắt đầu xóa hàng loạt không phê duyệt? Không thể xảy ra theo cách đó. OpenFang có cổng phê duyệt bắt buộc cho các hành động nhạy cảm. Ví dụ, Browser Hand sẽ không bao giờ thực hiện mua hàng mà không có xác nhận con người rõ ràng. Đây không phải gợi ý cấp lệnh. Đó là cổng cứng trong ống dẫn thực thi. Email Hand xây dựng với cùng mẫu hình sẽ cần ký trước bất kỳ hoạt động phá hủy.
- Yue gửi lệnh dừng bị bỏ qua? Kiến trúc OpenFang tách mặt phẳng điều khiển khỏi mặt phẳng thực thi. Lệnh từ người dùng không cần cạnh tranh với nhiệm vụ hiện tại của tác nhân để nhận được sự chú ý bên trong cửa sổ ngữ cảnh chia sẻ. Hệ thống được thiết kế để tín hiệu điều khiển hoạt động ở cấp OS, không phải làm tin nhắn trong luồng chat mà mô hình có thể ưu tiên thấp.
- Không ghi chép về tác nhân thực sự làm gì? OpenFang duy trì theo dõi kiểm toán Merkle hash-chain. Mọi hành động đều được liên kết mật mã với hành động trước đó. Lạm dụng một mục nhập và toàn bộ chuỗi bị hỏng. Bạn có được nhật ký không thể thay đổi, xác minh mọi thứ: điều gì đã xảy ra, theo thứ tự nào, và liệu có gì được sửa sau đó không. Nếu Yue đã ở trên OpenFang, cô không phải hỏi tác nhân nó làm gì. Cô có thể xác minh mật mã.
- Tác nhân rò rỉ thông tin đăng nhập hoặc bị đánh cắp? OpenFang tấn công từ nhiều góc độ. API keys sử dụng loại Rust’s Zeroizing, tự xóa dữ liệu nhạy cảm khỏi bộ nhớ ngay khi không cần nữa. Theo dõi ô nhiễm nhãn lan truyền qua thực thi, vì vậy bí mật được theo dõi từ nguồn đến đích và không thể rò rỉ qua các kênh không mong muốn. SSRF bảo vệ chặn IP riêng, điểm cuối metadata đám mây và tấn công DNS rebinding ngay từ đầu: chính là loại tấn công cho phép lỗ hổng WebSocket của OpenClaw bị khai thác từ bất kỳ trang web.
- Plugin độc hại trượt vào chợ? Mọi danh tính tác nhân và bộ tập hợp khả năng trong OpenFang đều được ký mật mã bằng Ed25519. Tác nhân không thể bị mạo danh và quyền của nó không thể bị thay đổi âm thầm. So với ClawHub, nơi bất kỳ ai với tài khoản GitHub cũ có thể xuất bản mã thực thi mà không có ký, không xem xét, và không quét tự động.
- Công cụ chạy với toàn bộ quyền hệ thống? Không trong OpenFang. Mã công cụ thực thi bên trong sandbox WebAssembly với đo lường nhiên liệu và ngắt thời đại. Một luồng giám sát theo dõi thực thi và tiêu diệt tiến trình chạy trốn tự động. Tác nhân không thể chạm vào hệ thống tệp của bạn, không thể chạy lệnh shell, không thể làm bất cứ điều gì bên ngoài sandbox của nó. Đây là đối lập kiến trúc của OpenClaw, nơi kỹ năng có quyền truy cập hệ thống mặc định.
Các lớp bảo mật còn lại hoàn thiện bức tranh: xác thực lẫn nhau HMAC-SHA256 cho mạng P2P, bộ giới hạn tốc độ GCRA, cách ly tiến trình con với làm sạch môi trường, trình quét tiêm lệnh, ngăn chặn đi qua đường dẫn, và tiêu đề bảo mật HTTP đầy đủ trên mọi phản hồi. Mỗi lớp có thể kiểm tra độc lập. Không điểm hỏng duy nhất.
Nó cũng là một loại tác nhân khác
Có một điều khác nữa đáng đề cập, vì nó kết nối lại với lập luận bảo mật. OpenClaw và hầu hết khung tác nhân về cơ bản là bao bọc chatbot. Bạn gõ, tác nhân trả lời, bạn gõ lại. Hiểu biết của tác nhân về những gì nó nên và không nên làm sống trong cuộc hội thoại đó. Điều đó có nghĩa là nó luôn chỉ một nén xấu cách xa để quên ranh giới.
OpenFang tiếp cận một cách khác. Nó giới thiệu “Hands“: các gói khả năng tự động có sẵn chạy theo lịch, xây dựng đồ thị kiến thức và báo cáo kết quả cho bảng điều khiển. Mỗi Hand gói một kịch bản vận hành nhiều giai đoạn, chuyên môn lĩnh vực, quyền công cụ và hàng rào vào một đơn vị triển khai duy nhất. Hệ thống đi kèm với bảy trong số chúng: Clip (nội dung video), Lead (tạo dữ liệu), Collector (tri thức cạnh tranh), Predictor (dự báo), Researcher (sản xuất), Twitter (mạng xã hội), và Browser (tự động hóa web).
Sự liên quan bảo mật là này: vì quyền, công cụ và hàng rào của một Hand được xác định trong manifest của nó (không phải trong lệnh hội thoại), chúng không thể bị mất do nén, bị thay thế bởi tiêm lệnh có sức thuyết phục, hoặc bị quên trong cuộc hội thoại dài. Mô hình bảo mật là cấu trúc, không phải hội thoại.
Hệ thống hỗ trợ 40 bộ chuyển đổi kênh, 27 nhà cung cấp LLM, giao thức MCP và Google’s Agent-to-Agent, và ứng dụng máy tính Tauri 2.0 bản địa. Nó chạy ở mọi nơi OpenClaw chạy. Nó chỉ không chạy sợ.
Những lưu ý trung thực
Tôi muốn công bằng ở đây, vì hype mà không trung thực là chính xác làm sao chúng ta có tình hình OpenClaw từ đầu.
- OpenFang là phần mềm trước 1.0 (hiện tại v0.3.30). Thay đổi vỡ có thể xảy ra giữa các phiên bản nhỏ. Một số Hands trưởng thành hơn những người khác: Browser và Researcher là được kiểm tra trận đánh nhất.
- Dự án có 3.7k sao GitHub so với 100,000+ của OpenClaw, có nghĩa là nó có một phần nhỏ cộng đồng kiểm tra và thẩm tra đối kháng.
- 16 lớp bảo mật là kiến trúc ấn tượng, nhưng chưa được kiểm tra căng thẳng ở quy mô chấp nhận của OpenClaw. Kiến trúc bảo mật chỉ mạnh như các cuộc tấn công thực tế nó chịu đựng. Thiết kế OpenFang trông đúng. Nhưng thiết kế và sản xuất là động vật khác.
- Dự án được xây dựng và duy trì chủ yếu bởi một người (Jaber, người sáng lập RightNow AI). Đó là cả một điểm mạnh (kiến trúc mạch lạc, không thỏa hiệp thiết kế bởi ủy ban) và rủi ro (yếu tố xe buýt một, băng thông hạn chế cho phản ứng lỗ hổng ở quy mô).
- Không một trong 16 lớp đã đối mặt với bất kỳ áp lực đối kháng nào gần bằng OpenClaw chịu đựng trong ba tháng đầu. Cho đến khi họ làm, các tuyên bố bảo mật là lời hứa kiến trúc, không phải đảm bảo được kiểm tra trận đánh. Tôi nói điều này vì tôi nghĩ kiến trúc xứng đáng được chú ý. Không phải vì tôi nghĩ nó xứng đáng niềm tin mù quáng.
Điều này thực sự có nghĩa là gì
Đây là điều đọng lại về sự cố Yue. Cô đã làm mọi thứ đúng. Cô thử nghiệm trên hộp thư đồ chơi trước. Cô loại bỏ chỉ thị chủ động khỏi cấu hình. Cô đặt rõ ràng một hướng dẫn “đừng hành động mà không có phê duyệt”. Cô có vài tuần chạy thử thành công. Và hệ thống vẫn thất bại, vì ràng buộc an toàn được lưu ở nơi hệ thống cho phép xóa.
Đó không phải là lỗi bạn sửa bằng vá. Đó là triết lý thiết kế bạn phải suy nghĩ lại từ đầu. Câu trả lời của OpenFang là ràng buộc an toàn không bao giờ sống trong cùng một lớp mà bị nén, tóm tắt, hoặc diễn giải bởi mô hình ngôn ngữ. Chúng phải sống trong nhân: được ký mật mã, được thực thi về mặt cấu trúc, miễn nhiễm với nén.
Có phải là câu trả lời xác định cho bảo mật AI đại diện? Quá sớm để nói. Nhưng đó là khung nguồn mở đầu tiên tôi đã thấy xử lý câu hỏi với sự nghiêm trọng nó xứng đáng. Và sau khi xem một nhà nghiên cứu đồng bộ hóa Meta chạy qua căn hộ của cô để giải phóng tác nhân AI của chính cô như nó là một quả bom, tôi nghĩ “nghiêm trọng” là mức tối thiểu chúng ta nên yêu cầu.
Tham khảo: medium.com
Mã nguồn của Claw Code chuyể qua Python
Vào lúc 4 giờ sáng ngày 31 tháng 3 năm 2026, mã nguồn của Claw Code đã bị lộ, và toàn bộ cộng đồng lập trình viên đều xôn xao. Bạn gái tôi ở Hàn Quốc thực sự lo lắng rằng tôi có thể phải đối mặt với hành động pháp lý từ các tác giả gốc chỉ vì có mã nguồn đó trên máy tính của mình — vì vậy tôi đã làm những gì mà bất kỳ kỹ sư nào cũng sẽ làm dưới áp lực: Tôi ngồi xuống, chuyển đổi các tính năng cốt lõi sang Python từ đầu và đẩy nó lên trước khi mặt trời mọc.
//github.com/instructkr/claw-code

Bài viết liên quan: