Microsoft Agent Framework: Multimodal Agents
يتعامل الوكلاء متعددون الوسائط (Multimodal agents) مع ما هو أكثر من النصوص؛ فهم يعالجون الصور وملفات PDF.
يتيح لك إطار عمل Microsoft Agent تمرير محتوى غير نصي عبر استدعاء الوكيل. يمكنك استخدام UriContent للملفات المستضافة أو DataContent للبيانات الثنائية المحلية.
يمكن للإطار تمثيل أنواع عديدة من الملفات، ومع ذلك، فإن التمثيل لا يعني بالضرورة القدرة.
يجب عليك التحقق من ثلاثة أمور قبل الإطلاق:
- هل يمكن للإطار تمثيل المحتوى؟
- هل يمكن لمحول المزود (provider adapter) إرسال ذلك المحتوى؟
- هل يمكن للنموذج فهم المحتوى للمهمة المحددة التي تقوم بها؟
إذا فشل أي جزء من هذه السلسلة، سيفشل التجريد (abstraction).
الصور بسيطة؛ حيث تقدم تعليمات نصية وصورة، ويقدم النموذج استجابة نصية. يعمل هذا بشكل جيد في:
- مراجعات واجهة المستخدم (UI reviews)
- فرز لقطات الشاشة (Screenshot triage)
- نسخ الملاحظات المكتوبة بخط اليد
- شرح الرسوم البيانية البسيطة
ملفات PDF معقدة؛ فملف PDF ليس مجرد صورة كبيرة، بل يحتوي على نصوص، وجداول، ورسومات متجهة (vector graphics)، وطبقات.
عبارة "اقرأ ملف PDF هذا" تعني أشياء مختلفة اعتمادًا على المزود. فبعض النماذج ترى النص، بينما ترى نماذج أخرى التنسيق المرئي.
متى تستخدم مدخلات PDF الأصلية:
- المستند صغير الحجم.
- التنسيق المرئي مهم للإجابة.
- لا تحتاج إلى البحث في المستند بشكل متكرر.
متى تستخدم المعالجة المسبقة اليدوية:
- تقوم بمعالجة مستندات كثيرة.
- تحتاج إلى استخراج بيانات قابل للتكرار.
- تحتاج إلى استشهادات أو مراجع صفحات مستقرة.
- تحتاج إلى التحكم في التكاليف وزمن الاستجابة (latency).
بالنسبة لأنظمة الإنتاج، لا تجعل "إرسال ملف PDF بالكامل" هو الخيار الافتراضي.
يجب أن تملك التطبيقات حدود الرفع (upload boundary). يجب على التطبيق:
- مصادقة المستخدم وتفويضه.
- التحقق من نوع المحتوى.
- فحص الملفات غير الآمنة.
- تخزين الملف الأصلي.
- إنشاء مخرجات مشتقة (derived artifacts) مثل النص المستخرج أو صور الصفحات.
بعد ذلك، مرر فقط ما يحتاجه الوكيل.
إذا كان عملك يتطلب دقة عالية مثل التعرف الضوئي على الحروف (OCR) أو هياكل الجداول، فاستخدم مسار معالجة المستندات (document processing pipeline) أولاً. يجب أن يعمل الوكيل في طبقة التفسير، وليس في طبقة الاستخراج.
بدلاً من منح الوكيل وصولاً مباشرًا إلى الملفات، امنحه أداة. أداة مثل "InspectDocument" تتيح للوكيل طلب المعلومات دون المساس بالبنية التحتية الخام.
أخيرًا، قم بتسجيل (log) كل شيء يتعلق بمعالجة الملف. لا تكتفِ بتسجيل الإجابة فقط، بل سجل النموذج، وحجم الملف، وعدد الصفحات، ومسار المعالجة المسبقة. بدون ذلك، سيكون تصحيح أخطاء مهام الرؤية (vision task) الفاشلة أمرًا مستحيلاً.
مجتمع تعليمي اختياري: https://t.me/GyaanSetuAi
