آنچه یک LLM سریع درباره پیش‌فرض‌ها به من آموخت

Translated for your language. Read the original.

AI-assisted draft.

آنچه یک LLM سریع درباره پیش‌فرض‌ها به من آموخت

من یک LLM ارزان و سریع را به مدت یک ساعت روی یک وظیفه پیچیده اجرا کردم. شکست نخورد.

بیشتر مردم فکر می‌کنند مدل‌های ضعیف در وظایف طولانی شکست می‌خورند. آن‌ها از مسیر منحرف می‌شوند یا در نیمه راه تسلیم می‌شوند. اما این مدل در مسیر باقی ماند. این اتفاق به این دلیل افتاد که من فهرستی از خروجی‌های مورد انتظار (deliverables) را به آن دادم.

فکر می‌کردم این خروجی‌ها به دقت مدل کمک می‌کنند. اشتباه می‌کردم.

یک مطالعه نشان می‌دهد که خروجی‌های مورد انتظار، مدل را دقیق‌تر نمی‌کنند؛ بلکه آن را قابل‌راستی‌آزمایی‌تر می‌کنند. مدل کار خود را بهتر مستند می‌کند و شواهدی برای بررسی شما باقی می‌گذارد.

دو نوع خطا در نرم‌افزار وجود دارد:

خطاهای اجرایی: جابه‌جا شدن یک کاما یا نادیده گرفتن یک حالت خاص (edge case). شما این‌ها را با تست و linting اصلاح می‌کنید.
خطاهای پیش‌فرض: قرار دادن یک مرز در جای اشتباه. اصلاح این خطاها بسیار دشوارتر است.

فرآیند به حل خطاهای اجرایی کمک می‌کند، اما خطاهای پیش‌فرض را حل نمی‌کند. اگر شما و مدل دارای یک نقطه کور مشترک باشید، بازبینی شما نیز با شکست مواجه خواهد شد.

هوش مصنوعی محاسبات مربوط به این خطاها را تغییر می‌دهد.

در گذشته، انسان خطاها را به کندی مرتکب می‌شد. این به شما زمان می‌داد تا متوجه شوید. اما اکنون، هوش مصنوعی خطاها را با سرعت انجام می‌دهد. یک مدل می‌تواند پیش از آنکه شما متوجه شوید، سه ساعت کد بی‌نقص را بر پایه یک پیش‌فرض اشتباه بسازد.

هرچه یک مدل توانمندتر به نظر برسد، بیشتر به آن اعتماد می‌کنید. اجازه می‌دهید مدت بیشتری اجرا شود. کمتر به آن سر می‌زنید. این یک تله است. یک پیش‌فرض اشتباه، چراغ هشدار روشن نمی‌کند؛ بلکه تا زمانی که خیلی دیر شده باشد، شبیه به پیشرفت به نظر می‌رسد.

صنعت سعی می‌کند این مشکل را با فرآیندهای بیشتر حل کند. ما مشخصات (specs) و برنامه‌های بیشتری اضافه می‌کنیم. این فقط باعث ایجاد بار اضافی (overhead) می‌شود. این در واقع استفاده از یک ابزار اجرایی برای حل یک مشکل مربوط به پیش‌فرض است.

ما باید اندازه‌گیری میزان درستی یک مدل را متوقف کنیم. ما باید اندازه‌گیری کنیم که یک پیش‌فرض اشتباه، چقدر قبل از اینکه متوجه آن شویم، دوام می‌آورد.

در محیط عملیاتی، ما این را MTTD (میانگین زمان تشخیص) می‌نامیم.

ما نمی‌توانیم جلوی هر خطایی را بگیریم. ما فقط می‌توانیم هزینه اصلاح خطاها را کاهش دهیم. شما این کار را با شناسایی زودهنگام آن‌ها انجام می‌دهید.

هدف فقط پیدا کردن یک مدل هوشمندتر نیست. هدف این است که تصمیم بگیرید در کجا هنوز باید خودتان کنترل اوضاع را در دست داشته باشید.

Source: https://dev.to/g_correa/what-a-fast-llm-taught-me-about-assumptions-oe

Optional learning community: https://t.me/GyaanSetuAi

آنچه یک LLM سریع درباره پیش‌فرض‌ها به من آموخت

آنچه یک LLM سریع درباره پیش‌فرض‌ها به من آموخت

Continue reading

تیم شما این هفته به مدل هوش مصنوعی بهتری نیاز ندارد

ارزیابی کیفیت خروجی مدل‌های زبانی بزرگ (LLM) در محیط عملیاتی

من یک اسکنر امنیتی هوش مصنوعی ساختم — و سپس یک باگ در آشکارساز خودم پیدا کردم

من یک اسکنر امنیتی هوش مصنوعی ساختم — و بعد یک باگ در آشکارساز خودم پیدا کردم