LLMs میں سائنسی ذہانت کی جانچ
محققین یہ جاننا چاہتے ہیں کہ کیا Large Language Models سائنسی ذہانت رکھتے ہیں۔
زیادہ تر ٹیسٹ سادہ حقائق پر توجہ مرکوز کرتے ہیں۔ یہ مطالعہ ایسے ورک فلو (workflows) کا استعمال کرتا ہے جو حقیقی سائنسدانوں کے کام کرنے کے طریقے کے مطابق ہیں۔
محققین نے اس بات کا تجربہ کیا کہ ماڈلز پیچیدہ سائنسی استدلال (reasoning) کو کس طرح سنبھالتے ہیں۔
اہم نتائج:
- موجودہ ماڈلز طویل سائنسی ورک فلو کے ساتھ جدوجہد کرتے ہیں۔
- کثیر مرحلہ وار عمل کے دوران استدلال کی غلطیاں ہوتی ہیں۔
- سائنسی طریقوں کے ساتھ ہم آہنگی درستگی کو بہتر بناتی ہے۔
تحقیق میں AI کی حدود کو سمجھنے کے لیے آپ کو ان ورک فلو کا جائزہ لینا چاہیے۔ معیاری بینچ مارکس (benchmarks) مکمل تصویر پیش نہیں کرتے۔
اختیاری لرننگ کمیونٹی: https://t.me/GyaanSetuAi