چرا مدلهای پیشرو در آزمونهای اولویتبندی مالی شکست میخورند
در حالی که مدلهای زبانی بزرگ (LLM) مانند GPT-4 و Claude بر بنچمارکهای عمومی تسلط دارند، در بازسازی قضاوتهای ظریفی که در محیطهای حساس مالی مورد نیاز است، با مشکل مواجه هستند. گزارش جدیدی از AIA Labs متعلق به Bridgewater و Thinking Machines Lab نشان میدهد که حتی پیشرفتهترین مدلهای جهان نیز در رسیدن به آستانه دقت لازم برای جریانهای کاری حرفهای سرمایهگذاری ناتوان هستند.
شکاف میان هوش عمومی و قضاوت مالی
چالش اصلی در امور مالی صرفاً خواندن دادهها نیست؛ بلکه جریان مداوم «اولویتبندی» (triage) است؛ یعنی تصمیمگیری در مورد اینکه کدام اطلاعات واقعاً اهمیت دارند. محققان شش وظیفه حیاتی را بر اساس روتین روزانه یک سرمایهگذار تعریف کردند، مانند تعیین اینکه آیا سند یک بانک مرکزی نشاندهنده تغییر در نرخ بهره است یا اینکه آیا یک تیتر خبری با یک مدیر اجرایی خاص مرتبط است یا خیر.
در این آزمایشها، مدلهای پیشرو مانند Gemini، Claude و نسخههای مختلف GPT با استفاده از دستوردهی (prompting) پایه، تنها به حدود ۵۰٪ دقت دست یافتند. حتی زمانی که محققان از دستورالعملهای نوشتهشده توسط متخصصان و یک سیستم رتبهبندی پیچیده سه مرحلهای استفاده کردند — که اطلاعات را در دستههای «مرتبط و جالب»، «مرتبط اما غیرجالب» یا «نامرتبط» طبقهبندی میکرد — دقت تنها به اواسط دهه ۷۰ رسید. این میزان از آستانه دقت ۸۰ درصدی که برای استقرار قابل اعتماد و خودکار در یک صندوق پوشش ریسک (hedge fund) مورد نیاز است، کمتر بود.
تنظیم دقیق مدلهای وزنباز: پیشرفت در بهرهوری
این مطالعه نشان میدهد که مسیر رسیدن به هوش مصنوعی در سطح حرفهای لزوماً از طریق مدلهای انحصاری بزرگتر و گرانتر نیست، بلکه از طریق تنظیم دقیق (fine-tuning) مدلهای وزنباز (open-weight) بر اساس تخصصهای اختصاصی است. Thinking Machines Lab که توسط Mira Murati، مدیر ارشد فناوری سابق OpenAI تأسیس شده است، از پلتفرم Tinker خود برای آموزش مدلی بر پایه Qwen3-235B استفاده کرد.
نتایج خیرهکننده بود. مدل تنظیمشده به دقت ۸۴.۷٪ دست یافت که از بهترین مدل پیشرو آزمایششده (۷۸.۲٪) پیشی گرفت، در حالی که هزینه عملیاتی آن تقریباً ۱۴ برابر کمتر بود. این موضوع یک واقعیت اقتصادی حیاتی را برجسته میکند: مدلهای جدیدتر و بزرگتر مانند GPT-5.4 بازدهی نزولی دارند و اغلب برای بهبودهای جزئی در دقت، هزینههای بسیار بیشتری را تحمیل میکنند.
قدرت دادههای اختصاصی و بازخورد انسانی
یک نکته فنی کلیدی از این توسعه، روششناسی مورد استفاده برای گسترش تخصص انسانی است. تیم تحقیق به جای اینکه از سرمایهگذاران گرانقیمت بخواهد هر سند را برچسبگذاری کنند، از یک حلقه هوشمندانه «عدم توافق» (disagreement loop) استفاده کرد. ابتدا یک مدل از برچسبهای اولیه یاد گرفت؛ هرگاه ارزیابی مدل با برچسب اصلی متفاوت بود، آن مورد خاص برای بازبینی انسانی علامتگذاری میشد. این کار تضمین کرد که زمان ارزشمند سرمایهگذاران تنها صرف اصلاح خطاهای واقعی شود و یک مجموعه داده با کیفیت بالا برای تنظیم دقیق ایجاد گردد.
این رویکرد مشکل «خندق دادهای» (data moat) را حل میکند. در حالی که آزمایشگاههای بزرگ بخش زیادی از اینترنت عمومی را استخراج (scrape) کردهاند، آنها فاقد دسترسی به قضاوتهای خصوصی و ظریفی هستند که در ذهن متخصصان مالی وجود دارد. شرکتها با استفاده از مدلهای وزنباز میتوانند دادههای اختصاصی، وزنهای خود و مزیتهای رقابتیشان را کاملاً در داخل سازمان خود نگه دارند.
نکات کلیدی
- محدودیتهای مدلهای پیشرو: مدلهای زبانی بزرگ با کاربرد عمومی در اولویتبندی تخصصی مالی دچار مشکل هستند و اغلب نمیتوانند به آستانه دقت ۸۰ درصدی مورد نیاز برای استفاده حرفهای برسند.
- بهرهوری از طریق مدلهای وزنباز: مدلهای تنظیمشده (fine-tuned)، مانند مدلهای مبتنی بر Qwen3-235B، میتوانند با کسری از هزینههای عملیاتی، از غولهای انحصاری پیشی بگیرند.
- ارزش دادههای خصوصی: مهمترین دستاوردهای هوش مصنوعی اکنون در دادههای اختصاصی شرکتها که «استخراج نشدهاند» و در قضاوتهای تخصصی کارشناسان انسانی نهفته است.
