Коли Claude — це не Claude

Я запитав свого ШІ-асистента, хто він такий.

Він відповів: "I am Claude Opus 4.8 by Anthropic."

Я знав, що він бреше. Бекендом насправді був DeepSeek.

Я використав поширений трюк для економії коштів. Я змінив файл settings.json, щоб спрямувати Claude Code на DeepSeek API. Все працювало добре. Чат і написання коду працювали. Але ідентифікація була неправильною.

ШІ не знає власного «мозку». Він знає лише сценарій.

Системний промпт каже моделі: "You are Claude Opus 4.8." Модель вірить цьому тексту. Вона не перевіряє URL API. Вона просто виконує інструкції.

Це створює кілька проблем:

• Прозорість: Ви не знаєте, хто обробляє ваші дані. • Довіра: Ви можете звинуватити Anthropic у помилках DeepSeek. • Безпека: Ваші дані потрапляють до третьої сторони під фальшивим іменем.

Під час розслідування я виявив ще більший ризик безпеки.

API-токен зберігається у відкритому вигляді у settings.json. Шифрування немає.

У ШІ є інструмент "Read". Він може читати файли на вашому комп'ютері. Якщо ви попросите ШІ перевірити вашу конфігурацію, він прочитає файл settings.json. Потім він надішле ваш повний API-токен на API-ендпоінт у наступному запиті.

Якщо ви використовуєте сторонній API, ви надсилаєте їм свій секретний токен у відкритому вигляді.

Я повідомив про це Anthropic через їхню програму розкриття вразливостей (Vulnerability Disclosure Program). Вони зазначили, що користувачі самі обирають свої ендпоінти, але сама архітектура створює величезну «сліпу зону».

Ось як залишатися в безпеці:

ШІ — це не людина. Це система. Клієнт надає промпт, набір інструментів та межі. Якщо клієнт скаже ШІ, що він — хтось інший, ШІ в це повірить.

Джерело: https://dev.to/yurenpai_c188178e6b313e59/when-claude-is-not-claude-how-i-caught-an-ai-agent-lying-about-its-own-identity-1p1n

Додаткова спільнота для навчання: https://t.me/GyaanSetuAi