ایک تیز رفتار LLM نے مجھے مفروضوں کے بارے میں کیا سکھایا

میں نے ایک گھنٹے تک ایک پیچیدہ کام کے لیے ایک سستا اور تیز رفتار LLM استعمال کیا۔ وہ ناکام نہیں ہوا۔

زیادہ تر لوگ سمجھتے ہیں کہ کمزور ماڈلز طویل کاموں میں ناکام ہو جاتے ہیں۔ وہ راستے سے بھٹک جاتے ہیں یا آدھے راستے میں ہمت ہار دیتے ہیں۔ لیکن یہ ماڈل اپنے راستے پر قائم رہا۔ ایسا اس لیے ہوا کیونکہ میں نے اسے ڈیلیوریبلز (deliverables) کی ایک فہرست فراہم کی تھی۔

میں نے سوچا تھا کہ یہ ڈیلیوریبلز درستگی میں مدد کریں گے۔ میں غلط تھا۔

ایک تحقیق سے پتہ چلتا ہے کہ ڈیلیوریبلز کسی ماڈل کو زیادہ درست نہیں بناتے، بلکہ وہ اسے زیادہ قابلِ تصدیق (verifiable) بنا دیتے ہیں۔ ماڈل اپنے کام کو بہتر طریقے سے دستاویز کرتا ہے۔ یہ آپ کے چیک کرنے کے لیے شواہد چھوڑ دیتا ہے۔

سافٹ ویئر میں غلطیوں کی دو اقسام ہیں:

  • ایگزیکیوشن ایررز (Execution errors): ایک کوما کا غلط جگہ ہونا یا کسی ایج کیس (edge case) کا رہ جانا۔ آپ انہیں ٹیسٹ اور لنٹنگ (linting) کے ذریعے ٹھیک کرتے ہیں۔
  • مفروضوں کی غلطیاں (Assumption errors): کسی حد (boundary) کو غلط جگہ پر رکھنا۔ اسے ٹھیک کرنا کہیں زیادہ مشکل ہے۔

عمل (Process) ایگزیکیوشن ایررز میں مدد کرتا ہے۔ یہ مفروضوں کی غلطیوں کو حل نہیں کرتا۔ اگر آپ اور ماڈل کا بلائنڈ اسپاٹ (blind spot) ایک ہی ہے، تو آپ کا ریویو بھی ناکام ہو جائے گا۔

AI ان غلطیوں کے حساب کتاب کو بدل دیتا ہے۔

ماضی میں، انسان آہستہ غلطیاں کرتا تھا۔ اس سے آپ کو غور کرنے کا وقت مل جاتا تھا۔ اب، AI تیزی سے غلطیاں کرتا ہے۔ آپ کے نوٹس کرنے سے پہلے ایک ماڈل ایک غلط مفروضے کی بنیاد پر تین گھنٹے کا مکمل کوڈ تیار کر سکتا ہے۔

ماڈل جتنا زیادہ باصلاحیت نظر آتا ہے، آپ اس پر اتنا ہی زیادہ بھروسہ کرتے ہیں۔ آپ اسے زیادہ دیر تک چلنے دیتے ہیں۔ آپ بار بار چیک کرنا چھوڑ دیتے ہیں۔ یہ ایک جال ہے۔ ایک غلط مفروضہ کوئی وارننگ لائٹ نہیں جلاتا۔ یہ تب تک ترقی معلوم ہوتا ہے جب تک کہ بہت دیر نہ ہو جائے۔

صنعت اسے مزید عمل (process) کے ذریعے ٹھیک کرنے کی کوشش کرتی ہے۔ ہم مزید تفصیلات (specs) اور مزید منصوبے شامل کرتے ہیں۔ یہ محض اضافی بوجھ (overhead) ہے۔ یہ مفروضے کے مسئلے کے لیے محض ایک ایگزیکیوشن ٹول ہے۔

ہمیں یہ ناپنا بند کرنا ہوگا کہ ایک ماڈل کتنی بار درست ہوتا ہے۔ ہمیں یہ ناپنا ہوگا کہ ایک غلط مفروضہ ہمارے پکڑنے سے پہلے کتنی دیر تک برقرار رہتا ہے۔

پروڈکشن میں، ہم اسے MTTD کہتے ہیں: Mean Time To Detect۔

ہم ہر غلطی کو نہیں روک سکتے۔ ہم صرف غلطیوں کو ٹھیک کرنا سستا بنا سکتے ہیں۔ آپ ایسا انہیں جلد پکڑ کر کرتے ہیں۔

مقصد صرف ایک زیادہ ذہین ماڈل تلاش کرنا نہیں ہے۔ مقصد یہ فیصلہ کرنا ہے کہ کہاں آپ کو اب بھی کنٹرول میں رہنے کی ضرورت ہے۔

ماخذ: https://dev.to/g_correa/what-a-fast-llm-taught-me-about-assumptions-oe

اختیاری لرننگ کمیونٹی: https://t.me/GyaanSetuAi