Các tác nhân AI thực hiện hành động. Hành động có hệ quả. Khi một tác nhân mắc lỗi, đó không phải là một đoạn văn xấu mà bạn có thể xóa — mà là một email sai được gửi cho khách hàng, mã code lỗi được triển khai lên môi trường thực, dữ liệu nhạy cảm bị gửi đến API của bên thứ ba, hoặc phát sinh 500 đô la chi phí API từ một vòng lặp vô hạn.

Đây không phải là rủi ro lý thuyết. Những sự cố này xảy ra hàng ngày với người dùng thực sự đang chạy các tác nhân thực tế. Bài viết này sẽ đề cập đến những sai lầm tốn kém phổ biến nhất và năm biện pháp bảo vệ giúp ngăn chặn chúng.

Tóm tắt chính

Mỗi hành động của tác nhân cần được phân loại là có thể đảo ngược hoặc không thể đảo ngược. Các hành động có thể đảo ngược (chỉnh sửa tệp, tạo bản nháp) có thể chạy tự động. Các hành động không thể đảo ngược (gửi email, triển khai code, xóa dữ liệu) cần được người dùng phê duyệt trước khi thực hiện. Quy tắc đơn giản này giúp ngăn chặn 90% các sai lầm tốn kém của tác nhân.

5 sai lầm tốn kém nhất của tác nhân AI

Sai lầm Hậu quả Chi phí Cách phòng ngừa
Gửi email saiTác nhân gửi bản nháp cho khách hàng mà không kiểm traThiệt hại uy tínKhông bao giờ tự động gửi — chỉ tạo bản nháp
Triển khai code lỗiMã do AI tạo chưa được kiểm tra đã được đẩy lên môiترường thựcNgừng hoạt động, ảnh hưởng đến người dùngYêu cầu kiểm tra vượt qua + phê duyệt từ người dùng
Dữ liệu bị gửi đến API saiDữ liệu nhạy cảm bị rò rỉ đến AI của bên thứ baVi phạm quy định tuân thủDanh sách trắng các API được phép, cô lập dữ liệu
Chi phí API tăng vọtTác nhân lặp lại, tiêu tốn hàng nghìn token100–5.000+ đô la phíĐặt giới hạn chi tiêu trên tài khoản nhà cung cấp
Xóa/ghi đè tệpTác nhân chỉnh sửa hoặc xóa nhầm tệpMất dữ liệu, thời gian khôi phụcSử dụng điểm kiểm tra, hạn chế quyền ghi

5 biện pháp bảo vệ

1. Phân loại mỗi hành động là có thể đảo ngược hay không thể đảo ngược. Việc chỉnh sửa tệp là có thể đảo ngược (git revert, khôi phục điểm kiểm tra). Việc gửi email là không thể đảo ngược (không thể thu hồi). Triển khai code là bán đảo ngược (có thể khôi phục, nhưng vẫn gây ngừng hoạt động). Chỉ tự động thực hiện các hành động có thể đảo ngược.

2. Đặt giới hạn chi tiêu API. Mỗi nhà cung cấp LLM đều có giới hạn chi tiêu. Hãy đặt giới hạn đó. Một vòng lặp tác nhân không kiểm soát có thể đốt cháy 500 đô la chỉ trong một giờ nếu mô hình đắt đỏ và vòng lặp không tự dừng. Giới hạn 50 đô la mỗi ngày giúp ngăn chặn hóa đơn khổng lồ.

3. Sử dụng chức năng điểm kiểm tra/khôi phục của Hermes Agent.