Microsoft Agent Framework: ಮಲ್ಟಿಮೋಡಲ್ ಏಜೆಂಟ್‌ಗಳು (Multimodal Agents)

ಮಲ್ಟಿಮೋಡಲ್ ಏಜೆಂಟ್‌ಗಳು ಕೇವಲ ಪಠ್ಯವನ್ನು ಮಾತ್ರವಲ್ಲದೆ ಹೆಚ್ಚಿನವುಗಳನ್ನು ನಿರ್ವಹಿಸುತ್ತವೆ. ಅವು ಚಿತ್ರಗಳು ಮತ್ತು PDF ಗಳನ್ನು ಪ್ರೊಸೆಸ್ ಮಾಡುತ್ತವೆ.

Microsoft Agent Framework ಮೂಲಕ ನೀವು ಏಜೆಂಟ್ ಕಾಲ್‌ನಲ್ಲಿ ಪಠ್ಯೇತರ ವಿಷಯಗಳನ್ನು (non-text content) ಕಳುಹಿಸಬಹುದು. ಹೋಸ್ಟ್ ಮಾಡಲಾದ ಫೈಲ್‌ಗಳಿಗಾಗಿ ನೀವು UriContent ಅನ್ನು ಅಥವಾ ಸ್ಥಳೀಯ ಬೈನರಿ ಡೇಟಾಕ್ಕಾಗಿ DataContent ಅನ್ನು ಬಳಸಬಹುದು.

ಈ ಫ್ರೇಮ್‌ವರ್ಕ್ ಅನೇಕ ಫೈಲ್ ಪ್ರಕಾರಗಳನ್ನು ಪ್ರತಿನಿಧಿಸಬಲ್ಲದು. ಆದಾಗ್ಯೂ, ಪ್ರತಿನಿಧಿಸುವುದು ಎಂದರೆ ಅದರ ಸಾಮರ್ಥ್ಯ ಎಂದರ್ಥವಲ್ಲ.

ಬಿಡುಗಡೆ ಮಾಡುವ ಮೊದಲು ನೀವು ಮೂರು ವಿಷಯಗಳನ್ನು ಪರಿಶೀಲಿಸಬೇಕು:

  • ಫ್ರೇಮ್‌ವರ್ಕ್ ಆ ವಿಷಯವನ್ನು ಪ್ರತಿನಿಧಿಸಬಲ್ಲದೇ?
  • ಪ್ರೊವೈಡರ್ ಅಡಾಪ್ಟರ್ ಆ ವಿಷಯವನ್ನು ಕಳುಹಿಸಬಲ್ಲದೇ?
  • ನಿಮ್ಮ ನಿರ್ದಿಷ್ಟ ಕಾರ್ಯಕ್ಕಾಗಿ ಮಾಡೆಲ್ ಆ ವಿಷಯವನ್ನು ಅರ್ಥಮಾಡಿಕೊಳ್ಳಬಲ್ಲದೇ?

ಈ ಸರಪಳಿಯ ಯಾವುದೇ ಭಾಗ ವಿಫಲವಾದರೆ, ಅಬ್‌ಸ್ಟ್ರಾಕ್ಷನ್ (abstraction) ಕೂಡ ವಿಫಲವಾಗುತ್ತದೆ.

ಚಿತ್ರಗಳು ಸರಳವಾಗಿವೆ. ನೀವು ಪಠ್ಯ ಸೂಚನೆಗಳು ಮತ್ತು ಒಂದು ಚಿತ್ರವನ್ನು ನೀಡುತ್ತೀರಿ. ಮಾಡೆಲ್ ಪಠ್ಯದ ಪ್ರತಿಕ್ರಿಯೆಯನ್ನು ನೀಡುತ್ತದೆ. ಇದು ಈ ಕೆಳಗಿನವುಗಳಿಗೆ ಉತ್ತಮವಾಗಿ ಕೆಲಸ ಮಾಡುತ್ತದೆ:

  • UI ವಿಮರ್ಶೆಗಳು (reviews)
  • ಸ್ಕ್ರೀನ್‌ಶಾಟ್ ಟ್ರಯೇಜ್ (triage)
  • ಕೈಬರಹದ ಟಿಪ್ಪಣಿಗಳನ್ನು ಲಿಪ್ಯಂತರ ಮಾಡುವುದು (transcribing)
  • ಸರಳ ಚಾರ್ಟ್‌ಗಳನ್ನು ವಿವರಿಸುವುದು

PDF ಗಳು ಸಂಕೀರ್ಣವಾಗಿವೆ. PDF ಎನ್ನುವುದು ಕೇವಲ ಒಂದು ದೊಡ್ಡ ಚಿತ್ರವಲ್ಲ. ಇದು ಪಠ್ಯ, ಕೋಷ್ಟಕಗಳು (tables), ವೆಕ್ಟರ್ ಗ್ರಾಫಿಕ್ಸ್ ಮತ್ತು ಲೇಯರ್‌ಗಳನ್ನು ಒಳಗೊಂಡಿರುತ್ತದೆ.

ಪ್ರೊವೈಡರ್ ಅವಲಂಬಿತವಾಗಿ "ಈ PDF ಅನ್ನು ಓದಿ" ಎನ್ನುವುದಕ್ಕೆ ವಿಭಿನ್ನ ಅರ್ಥಗಳಿವೆ. ಕೆಲವು ಮಾಡೆಲ್‌ಗಳು ಪಠ್ಯವನ್ನು ನೋಡುತ್ತವೆ. ಇನ್ನು ಕೆಲವು ದೃಶ್ಯ ವಿನ್ಯಾಸವನ್ನು (visual layout) ನೋಡುತ್ತವೆ.

ನೇтив PDF ಇನ್‌ಪುಟ್ ಅನ್ನು ಯಾವಾಗ ಬಳಸಬೇಕು:

  • ದಾಖಲೆಯು ಚಿಕ್ಕದಾಗಿದ್ದಾಗ.
  • ಉತ್ತರಕ್ಕಾಗಿ ದೃಶ್ಯ ವಿನ್ಯಾಸವು ಮುಖ್ಯವಾಗಿದ್ದಾಗ.
  • ನೀವು ದಾಖಲೆಯನ್ನು ಪದೇ ಪದೇ ಹುಡುಕುವ ಅಗತ್ಯವಿಲ್ಲದಿದ್ದಾಗ.

ಮ್ಯಾನುಯಲ್ ಪ್ರಿ-ಪ್ರೊಸೆಸಿಂಗ್ ಅನ್ನು ಯಾವಾಗ ಬಳಸಬೇಕು:

  • ನೀವು ಅನೇಕ ದಾಖಲೆಗಳನ್ನು ಪ್ರೊಸೆಸ್ ಮಾಡುತ್ತಿದ್ದಾಗ.
  • ನಿಮಗೆ ಪುನರಾವರ್ತಿತ ಹೊರತೆಗೆಯುವಿಕೆ (repeatable extraction) ಅಗತ್ಯವಿದ್ದಾಗ.
  • ನಿಮಗೆ ಸ್ಥಿರವಾದ ಉಲ್ಲೇಖಗಳು (citations) ಅಥವಾ ಪುಟದ ಉಲ್ಲೇಖಗಳು ಅಗತ್ಯವಿದ್ದಾಗ.
  • ನೀವು ವೆಚ್ಚ ಮತ್ತು ವಿಳಂಬವನ್ನು (latency) ನಿಯಂತ್ರಿಸಬೇಕಾದಾಗ.

ಪ್ರೊಡಕ್ಷನ್ ಸಿಸ್ಟಮ್‌ಗಳಿಗಾಗಿ, "ಸಂಪೂರ್ಣ PDF ಅನ್ನು ಕಳುಹಿಸಿ" ಎಂಬುದನ್ನು ನಿಮ್ಮ ಡಿಫಾಲ್ಟ್ ಆಗಿ ಮಾಡಬೇಡಿ.

ಅಪ್‌ಲೋಡ್ ಬೌಂಡರಿಯ ಜವಾಬ್ದಾರಿ ಅಪ್ಲಿಕೇಶನ್ ಮೇಲಿರಬೇಕು. ಅಪ್ಲಿಕೇಶನ್ ಈ ಕೆಳಗಿನವುಗಳನ್ನು ಮಾಡಬೇಕು:

  • ಬಳಕೆದಾರರನ್ನು ದೃಢೀಕರಿಸುವುದು (authenticate) ಮತ್ತು ಅಧಿಕಾರ ನೀಡುವುದು (authorize).
  • ವಿಷಯದ ಪ್ರಕಾರವನ್ನು (content type) ಪರಿಶೀಲಿಸುವುದು.
  • ಅಸುರಕ್ಷಿತ ಫೈಲ್‌ಗಳಿಗಾಗಿ ಸ್ಕ್ಯಾನ್ ಮಾಡುವುದು.
  • ಮೂಲ ಫೈಲ್ ಅನ್ನು ಸಂಗ್ರಹಿಸುವುದು.
  • ಹೊರತೆಗೆಯಲಾದ ಪಠ್ಯ ಅಥವಾ ಪುಟದ ಚಿತ್ರಗಳಂತಹ ಉತ್ಪನ್ನಗಳನ್ನು (derived artifacts) ರಚಿಸುವುದು.

ನಂತರ, ಏಜೆಂಟ್‌ಗೆ ಅಗತ್ಯವಿರುವ ವಿಷಯವನ್ನು ಮಾತ್ರ ಕಳುಹಿಸಿ.

ನಿಮ್ಮ ಕೆಲಸವು OCR ಅಥವಾ ಕೋಷ್ಟಕ ರಚನೆಗಳಂತಹ ಹೆಚ್ಚಿನ ನಿಖರತೆಯನ್ನು ಬಯಸಿದರೆ, ಮೊದಲು ಡಾಕ್ಯುಮೆಂಟ್ ಪ್ರೊಸೆಸಿಂಗ್ ಪೈಪ್‌ಲೈನ್ ಬಳಸಿ. ಏಜೆಂಟ್ ವಿವರಣಾ ಹಂತದಲ್ಲಿ (explanation layer) ಇರಬೇಕೇ ಹೊರತು, ಹೊರತೆಗೆಯುವ ಹಂತದಲ್ಲಿ (extraction layer) ಅಲ್ಲ.

ಏಜೆಂಟ್‌ಗೆ ಫೈಲ್‌ಗಳಿಗೆ ನೇರ ಪ್ರವೇಶವನ್ನು ನೀಡುವ ಬದಲು, ಅದಕ್ಕೆ ಒಂದು ಟೂಲ್ ನೀಡಿ. InspectDocument ನಂತಹ ಟೂಲ್, ಮೂಲ ಮೂಲಸೌಕರ್ಯವನ್ನು (raw infrastructure) ಮುಟ್ಟದೆ ಮಾಹಿತಿಯನ್ನು ಕೇಳಲು ಏಜೆಂಟ್‌ಗೆ ಅನುಮತಿಸುತ್ತದೆ.

ಕೊನೆಯದಾಗಿ, ಫೈಲ್ ಪ್ರೊಸೆಸಿಂಗ್ ಬಗ್ಗೆ ಎಲ್ಲವನ್ನೂ ಲಾಗ್ (log) ಮಾಡಿ. ಕೇವಲ ಉತ್ತರವನ್ನು ಮಾತ್ರ ಲಾಗ್ ಮಾಡಬೇಡಿ. ಮಾಡೆಲ್, ಫೈಲ್ ಗಾತ್ರ, ಪುಟಗಳ ಸಂಖ್ಯೆ ಮತ್ತು ಪ್ರಿ-ಪ್ರೊಸೆಸಿಂಗ್ ಹಾದಿಯನ್ನು ಲಾಗ್ ಮಾಡಿ. ಇದು ಇಲ್ಲದಿದ್ದರೆ, ವಿಫಲವಾದ ವಿಷನ್ ಕಾರ್ಯವನ್ನು (vision task) ಡಿಬಗ್ ಮಾಡುವುದು ಅಸಾಧ್ಯ.

Source: https://dev.to/lukaswalter/microsoft-agent-framework-multimodal-agents-images-pdfs-and-provider-differences-mib

Optional learning community: https://t.me/GyaanSetuAi