Microsoft Agent Framework: மல்டிமோடல் ஏஜெண்டுகள் (Multimodal Agents)

மல்டிமோடல் ஏஜெண்டுகள் உரையைத் (text) தாண்டிச் செயல்படுகின்றன. அவை படங்கள் மற்றும் PDF கோப்புகளைக் கையாளுகின்றன.

Microsoft Agent Framework மூலம் நீங்கள் ஏஜெண்ட் அழைப்பின் (agent call) வழியாக உரை அல்லாத உள்ளடக்கங்களை அனுப்ப முடியும். ஹோஸ்ட் செய்யப்பட்ட கோப்புகளுக்கு UriContent அல்லது உள்ளூர் பைனரி தரவுகளுக்கு DataContent ஆகியவற்றைப் பயன்படுத்தலாம்.

இந்தக் கட்டமைப்பால் (framework) பல வகையான கோப்பு வகைகளைக் குறிப்பிட முடியும். இருப்பினும், ஒரு கோப்பைக் குறிப்பிடுவது என்பது அதன் செயல்பாட்டுத் திறனுக்கு (capability) சமமானது அல்ல.

நீங்கள் வெளியிடுவதற்கு (shipping) முன் மூன்று விஷயங்களைச் சரிபார்க்க வேண்டும்:

  • கட்டமைப்பால் அந்த உள்ளடக்கத்தைக் குறிப்பிட முடியுமா?
  • புரோவைடர் அடாப்டர் (provider adapter) அந்த உள்ளடக்கத்தை அனுப்ப முடியுமா?
  • உங்கள் குறிப்பிட்ட பணிக்குத் தேவையான உள்ளடக்கத்தை மாடல் (model) புரிந்துகொள்ள முடியுமா?

இந்தச் சங்கிலியின் எந்தப் பகுதி தோல்வியடைந்தாலும், அந்த அப்ஸ்ட்ராக்ஷன் (abstraction) தோல்வியடையும்.

படங்கள் எளிமையானவை. நீங்கள் உரை வழிமுறைகளையும் (text instructions) ஒரு படத்தையும் வழங்குகிறீர்கள். மாடல் ஒரு உரை பதிலைத் தருகிறது. இது பின்வருவனவற்றிற்குச் சிறப்பாகச் செயல்படும்:

  • UI ஆய்வுகள் (UI reviews)
  • ஸ்கிரீன்ஷாட் வகைப்படுத்துதல் (Screenshot triage)
  • கையால் எழுதப்பட்ட குறிப்புகளைப் பிரதி எடுத்தல் (Transcribing handwritten notes)
  • எளிய வரைபடங்களை விளக்குதல்

PDF கோப்புகள் சிக்கலானவை. ஒரு PDF என்பது வெறும் பெரிய படம் மட்டுமல்ல. அதில் உரை, அட்டவணைகள், வெக்டர் கிராபிக்ஸ் மற்றும் அடுக்குகள் (layers) உள்ளன.

"இந்த PDF-ஐப் படிக்கவும்" என்பது புரோவைடரைப் பொறுத்து வெவ்வேறு அர்த்தங்களைக் கொடுக்கும். சில மாடல்கள் உரையைப் பார்க்கின்றன. மற்றவை காட்சி அமைப்பைப் (visual layout) பார்க்கின்றன.

நேரடி PDF உள்ளீட்டை (native PDF input) எப்போது பயன்படுத்த வேண்டும்:

  • ஆவணம் சிறியதாக இருக்கும்போது.
  • பதிலுக்குக் காட்சி அமைப்பு (visual layout) முக்கியமாக இருக்கும்போது.
  • நீங்கள் ஆவணத்தைத் திரும்பத் திரும்பத் தேட வேண்டிய அவசியம் இல்லாதபோது.

கைமுறை முன்செயலாக்கத்தைப் (manual preprocessing) பயன்படுத்த வேண்டிய சூழல்கள்:

  • நீங்கள் பல ஆவணங்களைக் கையாளும்போது.
  • உங்களுக்குத் திரும்பத் திரும்பச் செய்யக்கூடிய தரவுப் பிரித்தெடுத்தல் (repeatable extraction) தேவைப்படும்போது.
  • உங்களுக்கு நிலையான மேற்கோள்கள் அல்லது பக்கக் குறிப்புகள் தேவைப்படும்போது.
  • செலவு மற்றும் தாமதத்தைக் (latency) கட்டுப்படுத்த வேண்டியிருக்கும் போது.

தயாரிப்பு அமைப்புகளுக்கு (production systems), "முழு PDF-ஐயும் அனுப்புதல்" என்பதை உங்கள் இயல்பு முறையாக (default) மாற்ற வேண்டாம்.

அப்ளிகேஷன் பதிவேற்ற எல்லையைக் (upload boundary) கட்டுப்படுத்த வேண்டும். அப்ளிகேஷன் பின்வருவனவற்றைச் செய்ய வேண்டும்:

  • பயனரை அங்கீகரித்தல் மற்றும் அனுமதித்தல் (Authenticate and authorize).
  • உள்ளடக்க வகையைச் சரிபார்த்தல் (Validate content type).
  • பாதுகாப்பற்ற கோப்புகளை ஸ்கேன் செய்தல்.
  • அசல் கோப்பைச் சேமித்தல்.
  • பிரித்தெடுக்கப்பட்ட உரை அல்லது பக்கப் படங்கள் போன்ற வழித்தோன்றல் பொருட்களை (derived artifacts) உருவாக்குதல்.

பின்னர், ஏஜெண்டிற்குத் தேவையானதை மட்டும் அனுப்பவும்.

உங்கள் பணி OCR அல்லது அட்டவணை அமைப்புகள் போன்ற உயர் துல்லியத்தைக் கோரினால், முதலில் ஒரு ஆவணச் செயலாக்கப் பாதையைப் (document processing pipeline) பயன்படுத்தவும். ஏஜெண்ட் விளக்கப் பாதையில் (explanation layer) இருக்க வேண்டுமே தவிர, தரவுப் பிரித்தெடுக்கும் பாதையில் (extraction layer) இருக்கக் கூடாது.

ஏஜெண்டிற்கு கோப்புகளை நேரடியாக அணுக அனுமதிப்பதற்குப் பதிலாக, அதற்கு ஒரு கருவியைக் (tool) கொடுக்கவும். InspectDocument போன்ற ஒரு கருவி, ஏஜெண்ட் மூலக் கட்டமைப்பை (raw infrastructure) தொடாமலேயே தகவல்களைக் கேட்க அனுமதிக்கிறது.

இறுதியாக, கோப்பு செயலாக்கம் குறித்த அனைத்தையும் பதிவு (log) செய்யவும். பதிலைப் பதிவு செய்வது மட்டும் போதாது. மாடல், கோப்பின் அளவு, பக்கங்களின் எண்ணிக்கை மற்றும் முன்செயலாக்கப் பாதை (preprocessing path) ஆகியவற்றையும் பதிவு செய்யவும். இது இல்லையென்றால், தோல்வியடைந்த விஷன் பணியைத் (vision task) திருத்துவது (debugging) சாத்தியமற்றது.

Source: https://dev.to/lukaswalter/microsoft-agent-framework-multimodal-agents-images-pdfs-and-provider-differences-mib

விருப்பமான கற்றல் சமூகம்: https://t.me/GyaanSetuAi