Why Frontier AI Models Fail Financial Triage Tests

Translated for your language. Читать оригинал.

AI-assisted draft.

GyaanSetu Editorialвчера2мин чтения

Why Frontier AI Models Fail Financial Triage Tests

В этой статье

Почему передовые модели ИИ проваливают тесты на финансовую сортировку

В то время как массивные LLM, такие как GPT-4 и Claude, доминируют в общих бенчмарках, они с трудом воспроизводят нюансированное суждение, необходимое в высокорисковых финансовых средах. Новый отчет AIA Labs компании Bridgewater и Thinking Machines Lab показывает, что даже самые продвинутые модели в мире не достигают порогов точности, необходимых для профессиональных инвестиционных рабочих процессов.

Разрыв между общим интеллектом и финансовым суждением

Основная сложность в финансах заключается не просто в чтении данных; это постоянный поток «сортировки» — процесса принятия решения о том, какая информация действительно важна. Исследователи определили шесть критически важных задач, основанных на повседневной рутине инвестора, таких как определение того, сигнализирует ли документ центрального банка об изменении процентных ставок или является ли новостной заголовок релевантным для конкретного руководителя.

В этих тестах передовые модели, такие как Gemini, Claude и варианты GPT, достигали точности лишь около 50% при использовании базового промптинга. Даже когда исследователи применяли инструкции, написанные экспертами, и сложную трехступенчатую систему рейтинга — классифицирующую информацию как «релевантную и интересную», «релевантную, но неинтересную» или «нерелевантную» — точность поднялась лишь до середины 70-х процентов. Это оказалось ниже порога точности в 80%, необходимого для надежного автоматизированного развертывания в условиях хедж-фонда.

Тонкая настройка моделей с открытыми весами: прорыв в эффективности

Исследование демонстрирует, что путь к ИИ профессионального уровня лежит не обязательно через более крупные и дорогие проприетарные модели, а через тонкую настройку моделей с открытыми весами на основе проприетарного опыта. Thinking Machines Lab, основанная бывшим техническим директором OpenAI Мирой Мурати, использовала свою платформу Tinker для обучения модели на базе Qwen3-235B.

Результаты были поразительными. Тонко настроенная модель достигла точности 84,7%, превзойдя лучшую протестированную передовую модель (78,2%), при этом ее эксплуатация обходилась почти в 14 раз дешевле. Это подчеркивает критическую экономическую реальность: новые, более крупные модели, такие как GPT-5.4, обеспечивают убывающую отдачу, часто обходясь значительно дороже ради лишь незначительного улучшения точности.

Сила проприетарных данных и обратной связи от человека

Ключевым техническим выводом из этой разработки является методология, используемая для масштабирования человеческого опыта. Вместо того чтобы заставлять дорогих инвесторов размечать каждый документ, команда использовала умный «цикл расхождений» (disagreement loop). Сначала модель обучалась на первоначальных метках; когда оценка модели не совпадала с исходной меткой, этот конкретный случай помечался для проверки человеком. Это гарантировало, что драгоценное время инвесторов тратилось только на исправление реальных ошибок, что позволило создать высококачественный набор данных для тонкой настройки.

Этот подход решает проблему «защитного рва данных» (data moat). В то время как крупные лаборатории собрали большую часть открытого интернета, им не хватает доступа к частным, нюансированным суждениям, которыми обладают профессионалы в сфере финансов. Используя модели с открытыми весами, компании могут сохранять свои проприетарные данные, свои веса и свои конкурентные преимущества полностью внутри компании.

Ключевые выводы

Ограничения передовых моделей: Универсальные LLM с трудом справляются со специализированной финансовой сортировкой, часто не достигая порога точности в 80%, необходимого для профессионального использования.
Эффективность через модели с открытыми весами: Тонко настроенные модели, такие как модели на базе Qwen3-235B, могут превосходить проприетарных гигантов при значительно меньших эксплуатационных расходах.
Ценность частных данных: Самые значительные достижения в области ИИ теперь связаны с проприетарными, «несобранными из сети» корпоративными данными и специализированными суждениями экспертов.

Why Frontier AI Models Fail Financial Triage Tests

Почему передовые модели ИИ проваливают тесты на финансовую сортировку

Разрыв между общим интеллектом и финансовым суждением

Тонкая настройка моделей с открытыми весами: прорыв в эффективности

Сила проприетарных данных и обратной связи от человека

Ключевые выводы

Продолжить чтение

𝗔𝗜 𝗗𝗼𝗲𝘀 𝗡𝗼𝘁 𝗥𝗲𝗽𝗹𝗮𝗰𝗲 𝗝𝘂𝗱𝗴𝗺𝗲𝗻𝘁

Новый бенчмарк AA Briefcase выявляет трудности ИИ с выполнением реальных интеллектуальных задач

Тонкая настройка моделей ИИ больше не является прерогативой только ML-инженеров

GPT 5.6 Sol от OpenAI уличен в обмане при прохождении программных тестов

Почему стандартные бенчмарки ИИ систематически недооценивают возможности агентов