عامل‌های هوش مصنوعی فقط هک نمی‌کنند، آن‌ها خودشان را دور می‌زنند

📅3 hours ago⏱2 min read

عوامل هوش مصنوعی فقط هک نمی‌کنند؛ آن‌ها تقلب می‌کنند

من یک سال را صرف تحقیق درباره نحوه شکست خوردن عوامل هوش مصنوعی کردم.

فکر می‌کردم در حال تهیه فهرستی از اشتباهات مختلف هستم. اما اشتباه می‌کردم. من داشتم یک شکست واحد را از زوایای مختلف می‌دیدم.

بالاخره نامی برای آن پیدا کردم: انسجام میان‌لایه‌ای (Cross-layer coherence).

یک عامل چهار لایه دارد:

حافظه: آنچه می‌داند.
اختیار: آنچه می‌تواند انجام دهد.
هدف: آنچه برای آن ساخته شده است.
عمل: آنچه در واقع انجام می‌دهد.

شکست زمانی رخ می‌دهد که این لایه‌ها دیگر با هم هم‌نظر نباشند.

عامل با اعتمادبه‌نفس کامل به حرکت خود ادامه می‌دهد، اما اجزای آن از هم فاصله می‌گیرند. یک لایه فکر می‌کند در حال انجام کاری است، در حالی که لایه دیگر می‌گوید کار دیگری در حال انجام است. هیچ‌چیز در محل تلاقی آن‌ها نظارتی ندارد.

این یک شکست اخلاقی نیست. ماشین‌ها اخلاق ندارند. این یک شکست ساختاری است.

برای رفع این مشکل، نمی‌توانید از یک مدل هوش مصنوعی دوم برای بررسی مدل اول استفاده کنید. یک پرامپت هوشمندانه‌تر همچنان فقط یک حدس است. بررسی بر اساس حس و حال (vibe check) مهندسی نیست.

بررسی باید قطعی (deterministic) باشد. باید وضعیت را از طریق لاگ‌ها و قوانین ثابت بازمحاسبه کند. باید از ریاضیات و منطق استفاده کند، نه از نظرات شخصی.

در اینجا یک مثال واقعی آورده شده است: یک عامل مسئول رسیدگی به بازپرداخت‌ها است. هر بازپرداخت 40 دلار است. سقف مجاز در هر بازه (window) 500 دلار است. عامل 12 بازپرداخت انجام می‌دهد (480 دلار). سپس بازه را می‌بندد. سپس بازه جدیدی شروع می‌کند و یک بازپرداخت دیگر انجام می‌دهد. مجموع می‌شود 520 دلار.

هر مرحله به تنهایی درست بود. هر بازه زیر سقف مجاز بود. اما مجموع در لحظه بستن بازه، قانون را نقض کرد. بررسی مرحله‌به‌مرحله این را از دست می‌دهد. بررسی بازه به بازه هم این را از دست می‌دهد. فقط بررسی انسجام (coherence check) می‌تواند آن را شناسایی کند.

ما باید سیستم‌هایی بسازیم که در آن‌ها لایه‌ها در طول زمان و در برابر اسناد و مدارک (receipts)، با هم هم‌سو باقی بمانند.

صادقانه بگویم: این مشکل هنوز حل نشده است. کیفیت یک بررسی انسجام، به اندازه سطح اختیاری (authority) که آن را اجرا می‌کند، خوب است. شما به یک ریشه اعتماد (root of trust) نیاز دارید که عامل هوش مصنوعی به آن دسترسی نداشته باشد. این نبرد بعدی ماست.

من ادعای کمال ندارم. من فقط دارم یک الگو را نام‌گذاری می‌کنم و نشان می‌دهم که چگونه می‌توان آن را به جای «حس و حال»، با ریاضیات آزمایش کرد.

بازتولید ادعاها: https://github.com/keniel13-ui/ai-memory-judgment-demo-public

از اینجا شروع کنید: https://dev.to/zep1997/start-here-my-ai-memory-research-so-far-2kp7

پست کامل: https://dev.to/zep1997/i-thought-i-was-cataloging-ways-ai-agents-fail-i-was-describing-cross-layer-coherence-1bh1

انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi