چرا مدل‌های پیشرو در آزمون‌های اولویت‌بندی مالی شکست می‌خورند

در حالی که مدل‌های زبانی بزرگ (LLM) مانند GPT-4 و Claude بر بنچمارک‌های عمومی تسلط دارند، در بازسازی قضاوت‌های ظریفی که در محیط‌های حساس مالی مورد نیاز است، با مشکل مواجه هستند. گزارش جدیدی از AIA Labs متعلق به Bridgewater و Thinking Machines Lab نشان می‌دهد که حتی پیشرفته‌ترین مدل‌های جهان نیز در رسیدن به آستانه دقت لازم برای جریان‌های کاری حرفه‌ای سرمایه‌گذاری ناتوان هستند.

شکاف میان هوش عمومی و قضاوت مالی

چالش اصلی در امور مالی صرفاً خواندن داده‌ها نیست؛ بلکه جریان مداوم «اولویت‌بندی» (triage) است؛ یعنی تصمیم‌گیری در مورد اینکه کدام اطلاعات واقعاً اهمیت دارند. محققان شش وظیفه حیاتی را بر اساس روتین روزانه یک سرمایه‌گذار تعریف کردند، مانند تعیین اینکه آیا سند یک بانک مرکزی نشان‌دهنده تغییر در نرخ بهره است یا اینکه آیا یک تیتر خبری با یک مدیر اجرایی خاص مرتبط است یا خیر.

در این آزمایش‌ها، مدل‌های پیشرو مانند Gemini، Claude و نسخه‌های مختلف GPT با استفاده از دستوردهی (prompting) پایه، تنها به حدود ۵۰٪ دقت دست یافتند. حتی زمانی که محققان از دستورالعمل‌های نوشته‌شده توسط متخصصان و یک سیستم رتبه‌بندی پیچیده سه مرحله‌ای استفاده کردند — که اطلاعات را در دسته‌های «مرتبط و جالب»، «مرتبط اما غیرجالب» یا «نامرتبط» طبقه‌بندی می‌کرد — دقت تنها به اواسط دهه ۷۰ رسید. این میزان از آستانه دقت ۸۰ درصدی که برای استقرار قابل اعتماد و خودکار در یک صندوق پوشش ریسک (hedge fund) مورد نیاز است، کمتر بود.

تنظیم دقیق مدل‌های وزن‌باز: پیشرفت در بهره‌وری

این مطالعه نشان می‌دهد که مسیر رسیدن به هوش مصنوعی در سطح حرفه‌ای لزوماً از طریق مدل‌های انحصاری بزرگ‌تر و گران‌تر نیست، بلکه از طریق تنظیم دقیق (fine-tuning) مدل‌های وزن‌باز (open-weight) بر اساس تخصص‌های اختصاصی است. Thinking Machines Lab که توسط Mira Murati، مدیر ارشد فناوری سابق OpenAI تأسیس شده است، از پلتفرم Tinker خود برای آموزش مدلی بر پایه Qwen3-235B استفاده کرد.

نتایج خیره‌کننده بود. مدل تنظیم‌شده به دقت ۸۴.۷٪ دست یافت که از بهترین مدل پیشرو آزمایش‌شده (۷۸.۲٪) پیشی گرفت، در حالی که هزینه عملیاتی آن تقریباً ۱۴ برابر کمتر بود. این موضوع یک واقعیت اقتصادی حیاتی را برجسته می‌کند: مدل‌های جدیدتر و بزرگ‌تر مانند GPT-5.4 بازدهی نزولی دارند و اغلب برای بهبودهای جزئی در دقت، هزینه‌های بسیار بیشتری را تحمیل می‌کنند.

قدرت داده‌های اختصاصی و بازخورد انسانی

یک نکته فنی کلیدی از این توسعه، روش‌شناسی مورد استفاده برای گسترش تخصص انسانی است. تیم تحقیق به جای اینکه از سرمایه‌گذاران گران‌قیمت بخواهد هر سند را برچسب‌گذاری کنند، از یک حلقه هوشمندانه «عدم توافق» (disagreement loop) استفاده کرد. ابتدا یک مدل از برچسب‌های اولیه یاد گرفت؛ هرگاه ارزیابی مدل با برچسب اصلی متفاوت بود، آن مورد خاص برای بازبینی انسانی علامت‌گذاری می‌شد. این کار تضمین کرد که زمان ارزشمند سرمایه‌گذاران تنها صرف اصلاح خطاهای واقعی شود و یک مجموعه داده با کیفیت بالا برای تنظیم دقیق ایجاد گردد.

این رویکرد مشکل «خندق داده‌ای» (data moat) را حل می‌کند. در حالی که آزمایشگاه‌های بزرگ بخش زیادی از اینترنت عمومی را استخراج (scrape) کرده‌اند، آن‌ها فاقد دسترسی به قضاوت‌های خصوصی و ظریفی هستند که در ذهن متخصصان مالی وجود دارد. شرکت‌ها با استفاده از مدل‌های وزن‌باز می‌توانند داده‌های اختصاصی، وزن‌های خود و مزیت‌های رقابتی‌شان را کاملاً در داخل سازمان خود نگه دارند.

نکات کلیدی

  • محدودیت‌های مدل‌های پیشرو: مدل‌های زبانی بزرگ با کاربرد عمومی در اولویت‌بندی تخصصی مالی دچار مشکل هستند و اغلب نمی‌توانند به آستانه دقت ۸۰ درصدی مورد نیاز برای استفاده حرفه‌ای برسند.
  • بهره‌وری از طریق مدل‌های وزن‌باز: مدل‌های تنظیم‌شده (fine-tuned)، مانند مدل‌های مبتنی بر Qwen3-235B، می‌توانند با کسری از هزینه‌های عملیاتی، از غول‌های انحصاری پیشی بگیرند.
  • ارزش داده‌های خصوصی: مهم‌ترین دستاوردهای هوش مصنوعی اکنون در داده‌های اختصاصی شرکت‌ها که «استخراج نشده‌اند» و در قضاوت‌های تخصصی کارشناسان انسانی نهفته است.