لماذا تفشل نماذج الذكاء الاصطناعي الرائدة في اختبارات الفرز المالي
بينما تهيمن النماذج اللغوية الكبيرة (LLMs) الضخمة مثل GPT-4 وClaude على المعايير العامة، فإنها تواجه صعوبة في محاكاة التقدير الدقيق المطلوب في البيئات المالية عالية المخاطر. ويكشف تقرير جديد من مختبرات AIA التابعة لشركة Bridgewater ومختبر Thinking Machines أن أكثر النماذج تقدماً في العالم تفشل في تلبية عتبات الدقة اللازمة لسير عمل الاستثمار الاحترافي.
الفجوة بين الذكاء العام والتقدير المالي
لا يكمن التحدي الأساسي في التمويل في مجرد قراءة البيانات، بل في التدفق المستمر لعملية "الفرز" (triage) — أي تحديد المعلومات المهمة حقاً. وقد حدد الباحثون ست مهام حاسمة بناءً على الروتين اليومي للمستثمر، مثل تحديد ما إذا كانت وثيقة البنك المركزي تشير إلى تحول في أسعار الفائدة أو ما إذا كان عنوان إخباري ذا صلة بتنفيذي معين.
في هذه الاختبارات، لم تحقق النماذج الرائدة مثل Gemini وClaude وإصدارات GPT سوى دقة تبلغ حوالي 50% عند استخدام الأوامر البرمجية (prompting) الأساسية. وحتى عندما طبق الباحثون تعليمات مكتوبة من قبل خبراء ونظام تقييم متطور ثلاثي المستويات — يصنف المعلومات كـ "ذات صلة ومثيرة للاهتمام"، أو "ذات صلة ولكن غير مثيرة للاهتمام"، أو "غير ذات صلة" — لم ترتفع الدقة إلا إلى منتصف السبعينيات. وهذا لم يصل إلى عتبة الدقة البالغة 80% المطلوبة للنشر الآلي الموثوق في بيئة صناديق التحوط.
الضبط الدقيق للنماذج مفتوحة الأوزان: طفرة الكفاءة
توضح الدراسة أن الطريق إلى ذكاء اصطناعي بمستوى احترافي لا يمر بالضرورة عبر نماذج مملوكة أكبر وأكثر تكلفة، بل من خلال الضبط الدقيق (fine-tuning) للنماذج مفتوحة الأوزان (open-weight models) باستخدام خبرات خاصة. وقد استخدم مختبر Thinking Machines، الذي أسسته Mira Murati (المديرة التقنية السابقة في OpenAI)، منصة Tinker الخاصة به لتدريب نموذج يعتمد على Qwen3-235B.
كانت النتائج صارخة؛ حيث حقق النموذج الذي تم ضبطه بدقة 84.7%، متفوقاً على أفضل نموذج رائد تم اختباره (78.2%)، بينما كانت تكلفة تشغيله أقل بنحو 14 مرة. وهذا يسلط الضوء على حقيقة اقتصادية حاسمة: النماذج الأحدث والأكبر مثل GPT-5.4 تقدم عوائد متناقصة، وغالباً ما تكلف أكثر بكثير مقابل تحسينات طفيفة فقط في الدقة.
قوة البيانات المملوكة والتعليقات البشرية
إحدى النتائج التقنية الرئيسية لهذا التطور هي المنهجية المستخدمة لتوسيع نطاق الخبرة البشرية. فبدلاً من جعل المستثمرين ذوي التكلفة العالية يقومون بتصنيف كل وثيقة، استخدم الفريق حلقة "عدم اتفاق" (disagreement loop) ذكية. تعلم النموذج أولاً من التصنيفات الأولية؛ وعندما اختلف تقييم النموذج مع التصنيف الأصلي، تم تحديد تلك الحالة المحددة للمراجعة البشرية. وقد ضمن ذلك عدم إضاعة وقت المستثمرين الثمين إلا في تصحيح الأخطاء الفعلية، مما أدى إلى إنشاء مجموعة بيانات عالية الجودة للضبط الدقيق.
يعالج هذا النهج مشكلة "الخندق البياني" (data moat). فبينما قامت المختبرات الكبرى بجمع (scraping) الكثير من الإنترنت العام، إلا أنها تفتقر إلى الوصول إلى التقدير الخاص والدقيق الذي يحمله المتخصصون في التمويل. ومن خلال استخدام النماذج مفتوحة الأوزان، يمكن للشركات الاحتفاظ ببياناتها المملوكة، وأوزانها، ومزاياها التنافسية داخل مؤسساتها بالكامل.
أهم الاستنتاجات
- محدودية النماذج الرائدة: تواجه النماذج اللغوية الكبيرة للأغراض العامة صعوبة في عملية الفرز المالي المتخصص، وغالباً ما تفشل في تلبية عتبة الدقة البالغة 80% المطلوبة للاستخدام المهني.
- الكفاءة عبر النماذج مفتوحة الأوزان: يمكن للنماذج التي تم ضبطها بدقة، مثل تلك القائمة على Qwen3-235B، أن تتفوق على العمالقة المملوكين بجزء بسيط من تكلفة التشغيل.
- قيمة البيانات الخاصة: تكمن أهم مكاسب الذكاء الاصطناعي الآن في بيانات الشركات المملوكة و"غير المجمعة" من الإنترنت، وفي التقدير المتخصص للخبراء البشريين.
