Microsoft Agent Framework: मल्टीमॉडल एजेंट्स (Multimodal Agents)

मल्टीमॉडल एजेंट्स टेक्स्ट से कहीं अधिक चीज़ों को संभालते हैं। वे इमेज और PDF को प्रोसेस करते हैं।

Microsoft Agent Framework आपको एजेंट कॉल के माध्यम से नॉन-टेक्स्ट (non-text) कंटेंट पास करने की अनुमति देता है। आप होस्ट की गई फ़ाइलों के लिए UriContent या लोकल बाइनरी डेटा के लिए DataContent का उपयोग कर सकते हैं।

यह फ्रेमवर्क कई प्रकार की फ़ाइलों को दर्शा (represent) सकता है। हालाँकि, दर्शाने की क्षमता और वास्तविक कार्यक्षमता (capability) एक समान नहीं हैं।

शिपिंग से पहले आपको तीन चीज़ें जाँचनी चाहिए:

  • क्या फ्रेमवर्क कंटेंट को दर्शा सकता है?
  • क्या प्रोवाइडर एडॉप्टर उस कंटेंट को भेज सकता है?
  • क्या मॉडल आपके विशिष्ट कार्य के लिए कंटेंट को समझ सकता है?

यदि इस श्रृंखला का कोई भी हिस्सा विफल होता है, तो एब्स्ट्रैक्शन (abstraction) विफल हो जाता है।

इमेज सरल हैं। आप टेक्स्ट निर्देश और एक इमेज प्रदान करते हैं। मॉडल टेक्स्ट में उत्तर देता है। यह इनके लिए अच्छा काम करता है:

  • UI रिव्यूज
  • स्क्रीनशॉट ट्राइएज (triage)
  • हस्तलिखित नोट्स को ट्रांसक्राइब करना
  • सरल चार्ट्स को समझाना

PDF जटिल हैं। एक PDF केवल एक बड़ी इमेज नहीं है। इसमें टेक्स्ट, टेबल, वेक्टर ग्राफिक्स और लेयर्स शामिल होते हैं।

"इस PDF को पढ़ें" का अर्थ प्रोवाइडर के आधार पर अलग-अलग हो सकता है। कुछ मॉडल टेक्स्ट देखते हैं। अन्य विजुअल लेआउट देखते हैं।

नेटिव PDF इनपुट का उपयोग कब करें:

  • दस्तावेज़ छोटा है।
  • उत्तर के लिए विजुअल लेआउट महत्वपूर्ण है।
  • आपको बार-बार दस्तावेज़ को खोजने की आवश्यकता नहीं है।

मैनुअल प्रीप्रोसेसिंग का उपयोग कब करें:

  • आप कई दस्तावेज़ों को प्रोसेस करते हैं।
  • आपको बार-बार होने वाले निष्कर्षण (repeatable extraction) की आवश्यकता है।
  • आपको स्थिर साइटेशन (citations) या पेज रेफरेंस की आवश्यकता है।
  • आपको लागत और लेटेंसी (latency) को नियंत्रित करने की आवश्यकता है।

प्रोडक्शन सिस्टम के लिए, "पूरी PDF भेजें" को अपना डिफ़ॉल्ट न बनाएं।

एप्लिकेशन को अपलोड बाउंड्री (upload boundary) को संभालना चाहिए। एप्लिकेशन को चाहिए कि वह:

  • यूजर को ऑथेंटिकेट और ऑथोराइज़ करे।
  • कंटेंट टाइप को वैलिडेट करे।
  • असुरक्षित फ़ाइलों के लिए स्कैन करे।
  • ओरिजिनल फ़ाइल को स्टोर करे।
  • एक्सट्रैक्ट किए गए टेक्स्ट या पेज इमेज जैसे डेरिव्ड आर्टिफैक्ट्स (derived artifacts) बनाए।

फिर, केवल वही पास करें जिसकी एजेंट को आवश्यकता है।

यदि आपके काम में OCR या टेबल स्ट्रक्चर जैसी उच्च सटीकता (high precision) की आवश्यकता है, तो पहले एक डॉक्यूमेंट प्रोसेसिंग पाइपलाइन का उपयोग करें। एजेंट को एक्सप्लेनेशन लेयर (explanation layer) पर होना चाहिए, न कि एक्सट्रैक्शन लेयर (extraction layer) पर।

एजेंट को फ़ाइलों तक सीधी पहुँच देने के बजाय, उसे एक टूल दें। "InspectDocument" जैसा टूल एजेंट को रॉ इंफ्रास्ट्रक्चर (raw infrastructure) को छुए बिना जानकारी मांगने की अनुमति देता है।

अंत में, फ़ाइल प्रोसेसिंग के बारे में सब कुछ लॉग करें। केवल उत्तर को लॉग न करें। मॉडल, फ़ाइल का आकार, पेज की संख्या और प्रीप्रोसेसिंग पाथ को भी लॉग करें। इसके बिना, विफल विजन टास्क (vision task) को डीबग करना असंभव है।

Source: https://dev.to/lukaswalter/microsoft-agent-framework-multimodal-agents-images-pdfs-and-provider-differences-mib

Optional learning community: https://t.me/GyaanSetuAi