Microsoft Agent Framework: סוכנים רב-מודאליים
סוכנים רב-מודאליים מטפלים ביותר מטקסט בלבד. הם מעבדים תמונות וקבצי PDF.
ה-Microsoft Agent Framework מאפשר לכם להעביר תוכן שאינו טקסטואלי דרך קריאה לסוכן (agent call). ניתן להשתמש ב-UriContent עבור קבצים מאוחסנים או ב-DataContent עבור נתונים בינאריים מקומיים.
ה-framework יכול לייצג סוגי קבצים רבים. עם זאת, ייצוג אינו זהה ליכולת.
עליכם לבדוק שלושה דברים לפני ההפצה:
- האם ה-framework יכול לייצג את התוכן?
- האם ה-provider adapter יכול לשלוח את התוכן הזה?
- האם המודל יכול להבין את התוכן עבור המשימה הספציפית שלכם?
אם חלק כלשהו בשרשרת הזו נכשל, גם ההפשטה (abstraction) נכשלת.
תמונות הן פשוטות. אתם מספקים הוראות טקסט ותמונה. המודל מספק תגובת טקסט. זה עובד היטב עבור:
- סקירות ממשק משתמש (UI)
- מיון (triage) צילומי מסך
- תמלול הערות בכתב יד
- הסבר של תרשימים פשוטים
קבצי PDF הם מורכבים. PDF אינו רק תמונה גדולה. הוא מכיל טקסט, טבלאות, גרפיקה וקטורית ושכבות.
"קרא את ה-PDF הזה" משמעותו שונה בהתאם לספק (provider). חלק מהמודלים רואים את הטקסט. אחרים רואים את הפריסה הוויזואלית.
מתי להשתמש בקלט PDF טבעי (native):
- המסמך קטן.
- הפריסה הוויזואלית חשובה לתשובה.
- אין צורך לחפש במסמך שוב ושוב.
מתי להשתמש בעיבוד מקדים (preprocessing) ידני:
- אתם מעבדים מסמכים רבים.
- אתם זקוקים לחילוץ (extraction) שניתן לשחזר.
- אתם זקוקים לציטוטים יציבים או לאזכורי עמודים.
- אתם צריכים לשלוט בעלויות ובזמן התגובה (latency).
עבור מערכות ייצור (production), אל תגדירו את "שליחת ה-PDF כולו" כברירת המחדל שלכם.
האפליקציה צריכה להיות הבעלים של גבול ההעלאה (upload boundary). על האפליקציה:
- לאמת ולהרשות (authenticate and authorize) למשתמש.
- לתקף את סוג התוכן.
- לסרוק קבצים לא בטוחים.
- לשמור את הקובץ המקורי.
- ליצור תוצרים נגזרים (derived artifacts) כמו טקסט שחולץ או תמונות של עמודים.
לאחר מכן, העבירו רק את מה שהסוכן צריך.
אם העבודה שלכם דורשת דיוק גבוה כמו OCR או מבני טבלאות, השתמשו תחילה בצינור עיבוד מסמכים (document processing pipeline). הסוכן צריך לשבת בשכבת ההסבר, לא בשכבת החילוץ.
במקום לתת לסוכן גישה ישירה לקבצים, תנו לו כלי (tool). כלי כמו "InspectDocument" מאפשר לסוכן לבקש מידע מבלי לגעת בתשתית הגולמית.
לבסוף, תעדו (log) הכל לגבי עיבוד הקובץ. אל תתעדו רק את התשובה. תעדו את המודל, גודל הקובץ, מספר העמודים ונתיב העיבוד המקדים. ללא זה, ניפוי שגיאות (debugging) של משימת ראייה (vision task) שנכשלה הוא בלתי אפשרי.
קהילת למידה אופציונלית: https://t.me/GyaanSetuAi
