Microsoft Agent Framework: મલ્ટિમોડલ એજન્ટ્સ (Multimodal Agents)
મલ્ટિમોડલ એજન્ટ્સ ટેક્સ્ટ કરતાં વધુ વસ્તુઓ હેન્ડલ કરે છે. તેઓ ઈમેજ અને PDF પ્રોસેસ કરે છે.
Microsoft Agent Framework તમને એજન્ટ કોલ દ્વારા નોન-ટેક્સ્ટ કન્ટેન્ટ પસાર કરવાની મંજૂરી આપે છે. તમે હોસ્ટેડ ફાઇલો માટે UriContent અથવા લોકલ બાઈનરી ડેટા માટે DataContent નો ઉપયોગ કરી શકો છો.
આ ફ્રેમવર્ક ઘણી ફાઇલ પ્રકારોનું પ્રતિનિધિત્વ કરી શકે છે. જોકે, પ્રતિનિધિત્વ અને ક્ષમતા એક સમાન નથી.
શિપિંગ કરતા પહેલા તમારે ત્રણ વસ્તુઓ તપાસવી જોઈએ:
- શું ફ્રેમવર્ક કન્ટેન્ટનું પ્રતિનિધિત્વ કરી શકે છે?
- શું પ્રોવાઈડર એડેપ્ટર તે કન્ટેન્ટ મોકલી શકે છે?
- શું મોડેલ તમારા ચોક્કસ કાર્ય માટે કન્ટેન્ટ સમજી શકે છે?
જો આ સાંકળનો કોઈપણ ભાગ નિષ્ફળ જાય, તો એબ્સ્ટ્રેક્શન (abstraction) નિષ્ફળ જાય છે.
ઈમેજ સરળ છે. તમે ટેક્સ્ટ સૂચનાઓ અને એક ઈમેજ આપો છો. મોડેલ ટેક્સ્ટ પ્રતિસાદ આપે છે. આ નીચેની બાબતો માટે સારું કામ કરે છે:
- UI રિવ્યુઝ
- સ્ક્રીનશોટ ટ્રાયજ (Screenshot triage)
- હાથથી લખેલી નોંધોનું ટ્રાન્સક્રિપ્શન
- સરળ ચાર્ટ્સ સમજાવવા
PDF જટિલ છે. PDF માત્ર એક મોટી ઈમેજ નથી. તેમાં ટેક્સ્ટ, ટેબલ, વેક્ટર ગ્રાફિક્સ અને લેયર્સ હોય છે.
"આ PDF વાંચો" નો અર્થ પ્રોવાઈડરના આધારે અલગ-અલગ હોઈ શકે છે. કેટલાક મોડેલ્સ ટેક્સ્ટ જુએ છે. અન્ય વિઝ્યુઅલ લેઆઉટ જુએ છે.
નેટિવ PDF ઇનપુટનો ઉપયોગ ક્યારે કરવો:
- દસ્તાવેજ નાનો હોય.
- જવાબ માટે વિઝ્યુઅલ લેઆઉટ મહત્વનું હોય.
- તમારે વારંવાર દસ્તાવેજમાં શોધવાની જરૂર ન હોય.
મેન્યુઅલ પ્રી-પ્રોસેસિંગનો ઉપયોગ ક્યારે કરવો:
- તમે ઘણા દસ્તાવેજો પ્રોસેસ કરો છો.
- તમારે પુનરાવર્તિત એક્સટ્રેક્શનની જરૂર છે.
- તમારે સ્થિર સાઇટેશન અથવા પેજ રેફરન્સની જરૂર છે.
- તમારે ખર્ચ અને લેટન્સી (latency) નિયંત્રિત કરવાની જરૂર છે.
પ્રોડક્શન સિસ્ટમ્સ માટે, "આખી PDF મોકલો" ને તમારો ડિફોલ્ટ વિકલ્પ ન બનાવો.
એપ્લિકેશન પાસે અપલોડ બાઉન્ડ્રી હોવી જોઈએ. એપ્લિકેશને આ કરવું જોઈએ:
- યુઝરને ઓથેન્ટિકેટ અને ઓથોરાઈઝ કરો.
- કન્ટેન્ટ પ્રકારને વેલિડેટ કરો.
- અસુરક્ષિત ફાઇલો માટે સ્કેન કરો.
- મૂળ ફાઇલ સ્ટોર કરો.
- એક્સટ્રેક્ટેડ ટેક્સ્ટ અથવા પેજ ઈમેજ જેવા ડેરાઇવ્ડ આર્ટિફેક્ટ્સ બનાવો.
પછી, એજન્ટને જેની જરૂર હોય તે જ પાસ કરો.
જો તમારા કામમાં OCR અથવા ટેબલ સ્ટ્રક્ચર જેવી ઉચ્ચ ચોકસાઈની જરૂર હોય, તો પહેલા ડોક્યુમેન્ટ પ્રોસેસિંગ પાઇપલાઇનનો ઉપયોગ કરો. એજન્ટ એક્સપ્લેનેશન લેયર પર હોવો જોઈએ, એક્સટ્રેક્શન લેયર પર નહીં.
એજન્ટને ફાઇલોનો સીધો એક્સેસ આપવાને બદલે, તેને એક ટૂલ આપો. "InspectDocument" જેવું ટૂલ એજન્ટને રો (raw) ઇન્ફ્રાસ્ટ્રક્ચરને અડ્યા વગર માહિતી માંગવાની મંજૂરી આપે છે.
અંતે, ફાઇલ પ્રોસેસિંગ વિશે બધું જ લોગ કરો. ફક્ત જવાબ લોગ ન કરો. મોડેલ, ફાઇલ સાઈઝ, પેજ કાઉન્ટ અને પ્રી-પ્રોસેસિંગ પાથ લોગ કરો. આ વગર, નિષ્ફળ થયેલ વિઝન ટાસ્કને ડિબગ કરવો અશક્ય છે.
વૈકલ્પિક લર્નિંગ કોમ્યુનિટી: https://t.me/GyaanSetuAi
