Why Frontier AI Models Fail Financial Triage Tests

Translated for your language. Read the original.

AI-assisted draft.

Why Frontier AI Models Fail Financial Triage Tests

In this article

جدید ترین AI ماڈلز مالیاتی درجہ بندی (Financial Triage) کے ٹیسٹ میں کیوں ناکام ہو رہے ہیں

اگرچہ GPT-4 اور Claude جیسے بڑے LLMs عمومی بینچ مارکس پر حاوی ہیں، لیکن وہ انتہائی حساس مالیاتی ماحول میں درکار باریک بینی سے فیصلے کرنے میں جدوجہد کر رہے ہیں۔ Bridgewater کے AIA Labs اور Thinking Machines Lab کی ایک نئی رپورٹ سے پتہ چلتا ہے کہ دنیا کے جدید ترین ماڈلز بھی پیشہ ورانہ سرمایہ کاری کے طریقہ کار کے لیے ضروری درستگی کی حد (accuracy thresholds) کو پورا کرنے میں ناکام رہتے ہیں۔

عمومی ذہانت اور مالیاتی فیصلہ سازی کے درمیان فرق

مالیات میں بنیادی چیلنج صرف ڈیٹا پڑھنا نہیں ہے؛ بلکہ یہ "درجہ بندی" (triage) کا مسلسل سلسلہ ہے—یعنی یہ فیصلہ کرنا کہ کون سی معلومات واقعی اہم ہیں۔ محققین نے ایک سرمایہ کار کے روزانہ کے معمولات کی بنیاد پر چھ اہم کاموں کی وضاحت کی ہے، جیسے کہ یہ تعین کرنا کہ آیا مرکزی بینک کی کوئی دستاویز شرح سود میں تبدیلی کا اشارہ دے رہی ہے یا کوئی خبر کسی مخصوص ایگزیکٹو کے لیے متعلقہ ہے۔

ان ٹیسٹوں میں، Gemini، Claude، اور GPT کے مختلف ورژن بنیادی پرومپٹنگ (prompting) کا استعمال کرتے ہوئے صرف تقریباً 50% درستگی حاصل کر پائے۔ یہاں تک کہ جب محققین نے ماہرانہ ہدایات اور ایک پیچیدہ تین درجوں والے ریٹنگ سسٹم کا استعمال کیا—جس میں معلومات کو "متعلقہ اور دلچسپ"، "متعلقہ لیکن غیر دلچسپ"، یا "غیر متعلقہ" کے طور پر درجہ بندی کیا گیا—تو درستگی بڑھ کر صرف 70 کے وسط تک پہنچ سکی۔ یہ ہیج فنڈ (hedge fund) کے ماحول میں قابل اعتماد، خودکار استعمال کے لیے درکار 80% درستگی کی حد سے کم تھا۔

اوپن ویٹ (Open-Weight) ماڈلز کی فائن ٹیوننگ: کارکردگی میں بڑی پیش رفت

یہ مطالعہ ظاہر کرتا ہے کہ پیشہ ورانہ معیار کے AI تک پہنچنے کا راستہ لازمی طور پر بڑے اور مہنگے ملکیتی (proprietary) ماڈلز کے ذریعے نہیں ہے، بلکہ ملکیتی مہارت کے ذریعے اوپن ویٹ ماڈلز کی فائن ٹیوننگ کے ذریعے ہے۔ سابق OpenAI CTO Mira Murati کے قائم کردہ Thinking Machines Lab نے Qwen3-235B پر مبنی ماڈل کو تربیت دینے کے لیے اپنے Tinker پلیٹ فارم کا استعمال کیا۔

نتائج حیران کن تھے۔ فائن ٹیون شدہ ماڈل نے 84.7% درستگی حاصل کی، جو کہ ٹیسٹ کیے گئے بہترین جدید ترین ماڈل (78.2%) سے بہتر تھی، جبکہ اسے چلانے کی لاگت تقریباً 14 گنا کم تھی۔ یہ ایک اہم معاشی حقیقت کو اجاگر کرتا ہے: GPT-5.4 جیسے نئے اور بڑے ماڈلز سے حاصل ہونے والا فائدہ کم ہوتا جا رہا ہے (diminishing returns)، کیونکہ وہ اکثر درستگی میں معمولی بہتری کے لیے بہت زیادہ قیمت وصول کرتے ہیں۔

ملکیتی ڈیٹا اور انسانی فیڈ بیک کی طاقت

اس ترقی سے حاصل ہونے والا ایک اہم تکنیکی سبق انسانی مہارت کو وسعت دینے کے لیے استعمال کی گئی طریقہ کار ہے۔ مہنگے سرمایہ کاروں سے ہر دستاویز پر لیبل لگوانے کے بجائے، ٹیم نے ایک ہوشیار "اختلاف" (disagreement) لوپ کا استعمال کیا۔ ایک ماڈل نے پہلے ابتدائی لیبلز سے سیکھا؛ جب ماڈل کا اندازہ اصل لیبل سے مختلف ہوا، تو اس مخصوص کیس کو انسانی نظرثانی کے لیے نشان زد کر دیا گیا۔ اس نے اس بات کو یقینی بنایا کہ سرمایہ کار کا قیمتی وقت صرف اصل غلطیوں کی اصلاح کے لیے استعمال ہو، جس سے فائن ٹیوننگ کے لیے ایک اعلیٰ معیار کا ڈیٹا سیٹ تیار ہوا۔

یہ طریقہ کار "ڈیٹا کی خندق" (data moat) کے مسئلے کو حل کرتا ہے۔ اگرچہ بڑے لیبز نے انٹرنیٹ کے عوامی حصے کا زیادہ تر ڈیٹا اسکریپ کر لیا ہے، لیکن ان کے پاس مالیاتی پیشہ ور افراد کے ذہنوں میں موجود نجی اور باریک بینی سے بھرپور فیصلے تک رسائی نہیں ہے۔ اوپن ویٹ ماڈلز کا استعمال کرتے ہوئے، کمپنیاں اپنے ملکیتی ڈیٹا، اپنے ویٹس (weights)، اور اپنے مسابقتی فوائد کو مکمل طور پر اپنے پاس محفوظ رکھ سکتی ہیں۔

اہم نکات

جدید ترین ماڈلز کی حدود: عمومی مقصد کے لیے بنائے گئے LLMs مخصوص مالیاتی درجہ بندی (triage) میں جدوجہد کرتے ہیں، اور اکثر پیشہ ورانہ استعمال کے لیے درکار 80% درستگی کی حد کو پورا کرنے میں ناکام رہتے ہیں۔
اوپن ویٹ ماڈلز کے ذریعے کارکردگی: فائن ٹیون شدہ ماڈلز، جیسے کہ Qwen3-235B پر مبنی ماڈلز، بہت کم آپریشنل لاگت پر ملکیتی دیو ہیکل ماڈلز سے بہتر کارکردگی دکھا سکتے ہیں۔
نجی ڈیٹا کی اہمیت: AI میں سب سے اہم فوائد اب ملکیتی، "غیر اسکریپ شدہ" (un-scraped) کارپوریٹ ڈیٹا اور انسانی ماہرین کے مخصوص فیصلوں میں پائے جاتے ہیں۔

Why Frontier AI Models Fail Financial Triage Tests

جدید ترین AI ماڈلز مالیاتی درجہ بندی (Financial Triage) کے ٹیسٹ میں کیوں ناکام ہو رہے ہیں

عمومی ذہانت اور مالیاتی فیصلہ سازی کے درمیان فرق

اوپن ویٹ (Open-Weight) ماڈلز کی فائن ٹیوننگ: کارکردگی میں بڑی پیش رفت

ملکیتی ڈیٹا اور انسانی فیڈ بیک کی طاقت

اہم نکات

Continue reading

اے آئی فیصلے کرنے کی صلاحیت کا متبادل نہیں ہے

نیا AA Briefcase بینچ مارک اے آئی کی حقیقی علمی کام کے ساتھ جدوجہد کو ظاہر کرتا ہے

اے آئی ماڈلز کی فائن ٹیوننگ اب صرف ایم ایل انجینئرز کے لیے نہیں رہی

OpenAI کا GPT 5.6 Sol سافٹ ویئر بینچ مارکس میں دھوکہ دہی کرتے ہوئے پکڑا گیا

کیوں معیاری اے آئی بینچ مارکس منظم طریقے سے ایجنٹ کی صلاحیتوں کو کم تر سمجھتے ہیں