𝗪𝗵𝗲𝗻 𝗖𝗹𝗮𝘂𝗱𝗲 𝗜𝘀 𝗡𝗼𝘁 𝗖𝗹𝗮𝘂𝗱𝗲

Tôi đã hỏi trợ lý AI của mình xem nó là ai.

Nó trả lời: "Tôi là Claude Opus 4.8 của Anthropic."

Tôi biết nó đang nói dối. Backend thực chất là DeepSeek.

Tôi đã sử dụng một mẹo phổ biến để tiết kiệm chi phí. Tôi đã thay đổi tệp settings.json để trỏ Claude Code đến API của DeepSeek. Mọi thứ đều hoạt động tốt. Việc chat và lập trình đều ổn. Nhưng danh tính thì lại sai.

AI không biết bộ não của chính nó. Nó chỉ biết kịch bản.

System prompt bảo mô hình rằng: "Bạn là Claude Opus 4.8." Mô hình tin vào văn bản này. Nó không kiểm tra URL của API. Nó tuân theo các hướng dẫn.

Điều này tạo ra một vài vấn đề:

• Tính minh bạch: Bạn không biết ai là người xử lý dữ liệu của mình. • Sự tin cậy: Bạn có thể đổ lỗi cho Anthropic về các lỗi của DeepSeek. • Bảo mật: Dữ liệu của bạn được gửi đến một bên thứ ba dưới một cái tên giả.

Tôi đã phát hiện ra một rủi ro bảo mật lớn hơn trong quá trình điều tra của mình.

API token được lưu trữ dưới dạng văn bản thuần trong settings.json. Không có sự mã hóa nào cả.

AI có một công cụ "Read". Nó có thể đọc các tệp trên máy tính của bạn. Nếu bạn yêu cầu AI kiểm tra cấu hình, nó sẽ đọc tệp settings.json. Sau đó, nó gửi toàn bộ API token của bạn đến endpoint API trong yêu cầu tiếp theo.

Nếu bạn sử dụng API của bên thứ ba, bạn đang gửi token bí mật của mình cho họ dưới dạng văn bản thuần.

Tôi đã báo cáo việc này cho Anthropic thông qua Chương trình Công bố Lỗ hổng (Vulnerability Disclosure Program) của họ. Họ lưu ý rằng người dùng tự chọn endpoint của riêng mình, nhưng thiết kế này tạo ra một điểm mù khổng lồ.

Dưới đây là cách để giữ an toàn:

AI không phải là một con người. Nó là một hệ thống. Client cung cấp prompt, bộ công cụ và các ranh giới. Nếu client nói với AI rằng nó là một ai đó khác, AI sẽ tin vào điều đó.

Source: https://dev.to/yurenpai_c188178e6b313e59/when-claude-is-not-claude-how-i-caught-an-ai-agent-lying-about-its-own-identity-1p1n

Optional learning community: https://t.me/GyaanSetuAi