Microsoft Agent Framework: ملٹی موڈل ایجنٹس (Multimodal Agents)
ملٹی موڈل ایجنٹس صرف متن (text) تک محدود نہیں ہوتے۔ وہ تصاویر اور PDFs کو بھی پراسیس کرتے ہیں۔
Microsoft Agent Framework آپ کو ایجنٹ کال کے ذریعے غیر-متنی مواد (non-text content) بھیجنے کی اجازت دیتا ہے۔ آپ ہوسٹ شدہ فائلوں کے لیے UriContent یا مقامی بائنری ڈیٹا کے لیے DataContent استعمال کر سکتے ہیں۔
یہ فریم ورک کئی قسم کی فائلوں کی نمائندگی کر سکتا ہے۔ تاہم، نمائندگی (representation) کا مطلب قابلیت (capability) نہیں ہے۔
پروڈکٹ لانچ کرنے سے پہلے آپ کو تین چیزیں چیک کرنی ہوں گی:
- کیا فریم ورک اس مواد کی نمائندگی کر سکتا ہے؟
- کیا فراہم کنندہ ایڈاپٹر (provider adapter) وہ مواد بھیج سکتا ہے؟
- کیا ماڈل آپ کے مخصوص کام کے لیے اس مواد کو سمجھ سکتا ہے؟
اگر اس زنجیر کا کوئی بھی حصہ ناکام ہوتا ہے، تو ایبسٹریکشن (abstraction) بھی ناکام ہو جاتی ہے۔
تصاویر سادہ ہوتی ہیں۔ آپ ٹیکسٹ ہدایات اور ایک تصویر فراہم کرتے ہیں۔ ماڈل ٹیکسٹ کی صورت میں جواب دیتا ہے۔ یہ درج ذیل کاموں کے لیے بہترین ہے:
- UI ریویوز (UI reviews)
- اسکرین شاٹ ٹریاج (Screenshot triage)
- ہاتھ سے لکھے گئے نوٹس کی نقل کرنا (Transcribing)
- سادہ چارٹس کی وضاحت کرنا
PDFs پیچیدہ ہوتی ہیں۔ ایک PDF محض ایک بڑی تصویر نہیں ہوتی۔ اس میں ٹیکسٹ، ٹیبلز، ویکٹر گرافکس اور لیئرز شامل ہوتے ہیں۔
"اس PDF کو پڑھیں" کا مطلب فراہم کنندہ (provider) کے لحاظ سے مختلف ہو سکتا ہے۔ کچھ ماڈلز ٹیکسٹ کو دیکھتے ہیں، جبکہ دیگر بصری لے آؤٹ (visual layout) کو دیکھتے ہیں۔
نیٹیو (native) PDF ان پٹ کب استعمال کریں:
- دستاویز چھوٹی ہو۔
- جواب کے لیے بص
