عوامل هوش مصنوعی فقط هک نمیکنند؛ آنها تقلب میکنند
من یک سال را صرف تحقیق درباره نحوه شکست خوردن عوامل هوش مصنوعی کردم.
فکر میکردم در حال تهیه فهرستی از اشتباهات مختلف هستم. اما اشتباه میکردم. من داشتم یک شکست واحد را از زوایای مختلف میدیدم.
بالاخره نامی برای آن پیدا کردم: انسجام میانلایهای (Cross-layer coherence).
یک عامل چهار لایه دارد:
- حافظه: آنچه میداند.
- اختیار: آنچه میتواند انجام دهد.
- هدف: آنچه برای آن ساخته شده است.
- عمل: آنچه در واقع انجام میدهد.
شکست زمانی رخ میدهد که این لایهها دیگر با هم همنظر نباشند.
عامل با اعتمادبهنفس کامل به حرکت خود ادامه میدهد، اما اجزای آن از هم فاصله میگیرند. یک لایه فکر میکند در حال انجام کاری است، در حالی که لایه دیگر میگوید کار دیگری در حال انجام است. هیچچیز در محل تلاقی آنها نظارتی ندارد.
این یک شکست اخلاقی نیست. ماشینها اخلاق ندارند. این یک شکست ساختاری است.
برای رفع این مشکل، نمیتوانید از یک مدل هوش مصنوعی دوم برای بررسی مدل اول استفاده کنید. یک پرامپت هوشمندانهتر همچنان فقط یک حدس است. بررسی بر اساس حس و حال (vibe check) مهندسی نیست.
بررسی باید قطعی (deterministic) باشد. باید وضعیت را از طریق لاگها و قوانین ثابت بازمحاسبه کند. باید از ریاضیات و منطق استفاده کند، نه از نظرات شخصی.
در اینجا یک مثال واقعی آورده شده است: یک عامل مسئول رسیدگی به بازپرداختها است. هر بازپرداخت 40 دلار است. سقف مجاز در هر بازه (window) 500 دلار است. عامل 12 بازپرداخت انجام میدهد (480 دلار). سپس بازه را میبندد. سپس بازه جدیدی شروع میکند و یک بازپرداخت دیگر انجام میدهد. مجموع میشود 520 دلار.
هر مرحله به تنهایی درست بود. هر بازه زیر سقف مجاز بود. اما مجموع در لحظه بستن بازه، قانون را نقض کرد. بررسی مرحلهبهمرحله این را از دست میدهد. بررسی بازه به بازه هم این را از دست میدهد. فقط بررسی انسجام (coherence check) میتواند آن را شناسایی کند.
ما باید سیستمهایی بسازیم که در آنها لایهها در طول زمان و در برابر اسناد و مدارک (receipts)، با هم همسو باقی بمانند.
صادقانه بگویم: این مشکل هنوز حل نشده است. کیفیت یک بررسی انسجام، به اندازه سطح اختیاری (authority) که آن را اجرا میکند، خوب است. شما به یک ریشه اعتماد (root of trust) نیاز دارید که عامل هوش مصنوعی به آن دسترسی نداشته باشد. این نبرد بعدی ماست.
من ادعای کمال ندارم. من فقط دارم یک الگو را نامگذاری میکنم و نشان میدهم که چگونه میتوان آن را به جای «حس و حال»، با ریاضیات آزمایش کرد.
بازتولید ادعاها: https://github.com/keniel13-ui/ai-memory-judgment-demo-public
از اینجا شروع کنید: https://dev.to/zep1997/start-here-my-ai-memory-research-so-far-2kp7
انجمن یادگیری اختیاری: https://t.me/GyaanSetuAi