Microsoft Agent Framework: मल्टीमोडल एजंट्स (Multimodal Agents)

मल्टीमोडल एजंट्स केवळ मजकुरापुरते मर्यादित नसून त्यापेक्षा अधिक हाताळू शकतात. ते प्रतिमा (images) आणि PDF देखील प्रोसेस करतात.

Microsoft Agent Framework तुम्हाला एजंट कॉलद्वारे मजकूर नसलेले (non-text) कंटेंट पाठवण्याची परवानगी देते. तुम्ही होस्ट केलेल्या फाईल्ससाठी UriContent किंवा स्थानिक बायनरी डेटासाठी DataContent वापरू शकता.

हे फ्रेमवर्क अनेक प्रकारच्या फाईल्स दर्शवू शकते. तथापि, केवळ दर्शवणे म्हणजे क्षमता (capability) नव्हे.

शिपिंग करण्यापूर्वी तुम्ही तीन गोष्टी तपासल्या पाहिजेत:

  • फ्रेमवर्क तो कंटेंट दर्शवू शकते का?
  • प्रोव्हायडर अडॅप्टर (provider adapter) तो कंटेंट पाठवू शकतो का?
  • मॉडेल तुमच्या विशिष्ट कार्यासाठी तो कंटेंट समजू शकते का?

जर या साखळीतील कोणताही भाग अपयशी ठरला, तर ॲबस्ट्रॅक्शन (abstraction) देखील अपयशी ठरते.

प्रतिमा (Images) सोप्या आहेत. तुम्ही मजकूर सूचना आणि एक प्रतिमा प्रदान करता. मॉडेल मजकूर स्वरूपात प्रतिसाद देते. हे खालील गोष्टींसाठी उत्तम काम करते:

  • UI रिव्ह्यू
  • स्क्रीनशॉट ट्रायज (Screenshot triage)
  • हस्तलिखित नोट्सचे ट्रान्सक्रिप्शन करणे
  • साधे चार्ट्स स्पष्ट करणे

PDF क्लिष्ट असतात. PDF म्हणजे केवळ एक मोठी प्रतिमा नसते. त्यामध्ये मजकूर, तक्ते (tables), वेक्टर ग्राफिक्स आणि लेयर्स असतात.

"ही PDF वाचा" याचा अर्थ प्रोव्हायडरनुसार वेगवेगळा असू शकतो. काही मॉडेल्स मजकूर पाहतात, तर काही व्हिज्युअल लेआउट पाहतात.

नेटिव्ह PDF इनपुट कधी वापरावे:

  • दस्तऐवज (document) लहान असेल तर.
  • उत्तरासाठी व्हिज्युअल लेआउट महत्त्वाचा असेल तर.
  • तुम्हाला दस्तऐवजात वारंवार शोध घेण्याची गरज नसेल तर.

मॅन्युअल प्रीप्रोसेसिंग (manual preprocessing) कधी वापरावे:

  • तुम्ही अनेक दस्तऐवजांवर प्रक्रिया करत असाल तर.
  • तुम्हाला पुन्हा पुन्हा करता येण्याजोग्या एक्सट्रॅक्शनची (repeatable extraction) गरज असेल तर.
  • तुम्हाला स्थिर संदर्भ (citations) किंवा पेज रेफरन्सची गरज असेल तर.
  • तुम्हाला खर्च आणि लॅटन्सी (latency) नियंत्रित करायची असेल तर.

प्रोडक्शन सिस्टम्ससाठी, "संपूर्ण PDF पाठवा" हे तुमचे डीफॉल्ट (default) ठेवू नका.

अपलोड बाउंड्रीवर (upload boundary) ॲप्लिकेशनचे नियंत्रण असावे. ॲप्लिकेशनने खालील गोष्टी केल्या पाहिजेत:

  • वापरकर्त्याचे प्रमाणीकरण (authenticate) आणि अधिकृतकरण (authorize) करणे.
  • कंटेंट प्रकाराची पडताळणी (validate) करणे.
  • असुरक्षित फाईल्ससाठी स्कॅन करणे.
  • मूळ फाईल साठवून ठेवणे.
  • एक्सट्रॅक्ट केलेला मजकूर किंवा पेज इमेजेस सारखे डेरिव्हेटिव्ह आर्टिफॅक्ट्स तयार करणे.

त्यानंतर, एजंटला ज्याची गरज आहे तेवढेच पाठवा.

जर तुमच्या कामासाठी OCR किंवा टेबल स्ट्रक्चर्ससारखी उच्च अचूकता (high precision) आवश्यक असेल, तर प्रथम डॉक्युमेंट प्रोसेसिंग पाईपलाईन वापरा. एजंटने एक्सट्रॅक्शन लेयरवर (extraction layer) न राहता एक्सप्लेनेशन लेयरवर (explanation layer) असावे.

एजंटला फाईल्सचा थेट प्रवेश देण्याऐवजी, त्याला एक टूल द्या. "InspectDocument" सारखे टूल एजंटला मूळ इन्फ्रास्ट्रक्चरला स्पर्श न करता माहिती विचारण्याची परवानगी देते.

शेवटी, फाईल प्रोसेसिंगबद्दल सर्व काही लॉग (log) करा. केवळ उत्तर लॉग करू नका. मॉडेल, फाईलचा आकार, पानांची संख्या आणि प्रीप्रोसेसिंग पाथ (preprocessing path) लॉग करा. याशिवाय, अयशस्वी व्हिजन टास्क डीबग करणे अशक्य आहे.

स्रोत: https://dev.to/lukaswalter/microsoft-agent-framework-multimodal-agents-images-pdfs-and-provider-differences-mib

वैकल्पिक लर्निंग कम्युनिटी: https://t.me/GyaanSetuAi