Microsoft Agent Framework: Multimodal Agents

Translated for your language. Read the original.

AI-assisted draft.

Microsoft Agent Framework: Multimodal Agents

ਮਲਟੀਮੋਡਲ ਏਜੰਟਸ (Multimodal agents) ਸਿਰਫ਼ ਟੈਕਸਟ ਤੱਕ ਸੀਮਤ ਨਹੀਂ ਹਨ। ਉਹ ਤਸਵੀਰਾਂ ਅਤੇ PDF ਨੂੰ ਵੀ ਪ੍ਰੋਸੈਸ ਕਰਦੇ ਹਨ।

Microsoft Agent Framework ਤੁਹਾਨੂੰ ਇੱਕ ਏਜੰਟ ਕਾਲ ਰਾਹੀਂ ਗੈਰ-ਟੈਕਸਟ ਸਮੱਗਰੀ (non-text content) ਭੇਜਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ। ਤੁਸੀਂ ਹੋਸਟ ਕੀਤੀਆਂ ਫਾਈਲਾਂ ਲਈ UriContent ਜਾਂ ਸਥਾਨਕ ਬਾਈਨਰੀ ਡੇਟਾ ਲਈ DataContent ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹੋ।

ਇਹ ਫਰੇਮਵਰਕ ਕਈ ਤਰ੍ਹਾਂ ਦੀਆਂ ਫਾਈਲਾਂ ਨੂੰ ਦਰਸਾ ਸਕਦਾ ਹੈ। ਹਾਲਾਂਕਿ, ਕਿਸੇ ਚੀਜ਼ ਨੂੰ ਦਰਸਾਉਣਾ (representation) ਉਸ ਦੀ ਸਮਰੱਥਾ (capability) ਦੇ ਬਰਾਬਰ ਨਹੀਂ ਹੁੰਦਾ।

ਸ਼ਿਪ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਤੁਹਾਨੂੰ ਤਿੰਨ ਚੀਜ਼ਾਂ ਦੀ ਜਾਂਚ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ:

ਕੀ ਫਰੇਮਵਰਕ ਸਮੱਗਰੀ ਨੂੰ ਦਰਸਾ ਸਕਦਾ ਹੈ?
ਕੀ ਪ੍ਰੋਵਾਈਡਰ ਅਡੈਪਟਰ (provider adapter) ਉਹ ਸਮੱਗਰੀ ਭੇਜ ਸਕਦਾ ਹੈ?
ਕੀ ਮਾਡਲ ਤੁਹਾਡੇ ਖਾਸ ਕੰਮ ਲਈ ਸਮੱਗਰੀ ਨੂੰ ਸਮਝ ਸਕਦਾ ਹੈ?

ਜੇਕਰ ਇਸ ਲੜੀ ਦਾ ਕੋਈ ਵੀ ਹਿੱਸਾ ਅਸਫਲ ਹੁੰਦਾ ਹੈ, ਤਾਂ ਐਬਸਟਰੈਕਸ਼ਨ (abstraction) ਅਸਫਲ ਹੋ ਜਾਂਦੀ ਹੈ।

ਤਸਵੀਰਾਂ (Images) ਸਰਲ ਹਨ। ਤੁਸੀਂ ਟੈਕਸਟ ਹਦਾਇਤਾਂ ਅਤੇ ਇੱਕ ਤਸਵੀਰ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹੋ। ਮਾਡਲ ਟੈਕਸਟ ਵਿੱਚ ਜਵਾਬ ਦਿੰਦਾ ਹੈ। ਇਹ ਇਹਨਾਂ ਕੰਮਾਂ ਲਈ ਵਧੀਆ ਕੰਮ ਕਰਦਾ ਹੈ:

UI ਰਿਵਿਊਜ਼ (UI reviews)
ਸਕ੍ਰੀਨਸ਼ੌਟ ਟ੍ਰਾਇਜ (Screenshot triage)
ਹੱਥ ਨਾਲ ਲਿਖੇ ਨੋਟਸ ਨੂੰ ਟੈਕਸਟ ਵਿੱਚ ਬਦਲਣਾ (Transcribing handwritten notes)
ਸਧਾਰਨ ਚਾਰਟਾਂ ਦੀ ਵਿਆਖਿਆ ਕਰਨਾ

PDF ਗੁੰਝਲਦਾਰ ਹੁੰਦੇ ਹਨ। ਇੱਕ PDF ਸਿਰਫ਼ ਇੱਕ ਵੱਡੀ ਤਸਵੀਰ ਨਹੀਂ ਹੁੰਦੀ। ਇਸ ਵਿੱਚ ਟੈਕਸਟ, ਟੇਬਲ, ਵੈਕਟਰ ਗ੍ਰਾਫਿਕਸ ਅਤੇ ਲੇਅਰਾਂ ਹੁੰਦੀਆਂ ਹਨ।

"ਇਸ PDF ਨੂੰ ਪੜ੍ਹੋ" ਦਾ ਮਤਲਬ ਪ੍ਰੋਵਾਈਡਰ ਦੇ ਅਧਾਰ 'ਤੇ ਵੱਖ-ਵੱਖ ਹੋ ਸਕਦਾ ਹੈ। ਕੁਝ ਮਾਡਲ ਟੈਕਸਟ ਦੇਖਦੇ ਹਨ। ਦੂਜੇ ਵਿਜ਼ੂਅਲ ਲੇਆਉਟ (visual layout) ਦੇਖਦੇ ਹਨ।

ਨੇਟਿਵ PDF ਇਨਪੁਟ (native PDF input) ਦੀ ਵਰਤੋਂ ਕਦੋਂ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ:

ਦਸਤਾਵੇਜ਼ ਛੋਟਾ ਹੋਵੇ।
ਜਵਾਬ ਲਈ ਵਿਜ਼ੂਅਲ ਲੇਆਉਟ ਮਹੱਤਵਪੂਰਨ ਹੋਵੇ।
ਤੁਹਾਨੂੰ ਵਾਰ-ਵਾਰ ਦਸਤਾਵੇਜ਼ ਵਿੱਚ ਸਰਚ ਕਰਨ ਦੀ ਲੋੜ ਨਾ ਹੋਵੇ।

ਮੈਨੂਅਲ ਪ੍ਰੀ-ਪ੍ਰੋਸੈਸਿੰਗ (manual preprocessing) ਦੀ ਵਰਤੋਂ ਕਦੋਂ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ:

ਤੁਸੀਂ ਬਹੁਤ ਸਾਰੇ ਦਸਤਾਵੇਜ਼ਾਂ ਨੂੰ ਪ੍ਰੋਸੈਸ ਕਰਦੇ ਹੋ।
ਤੁਹਾਨੂੰ ਵਾਰ-ਵਾਰ ਇੱਕੋ ਜਿਹੀ ਐਕਸਟਰੈਕਸ਼ਨ (extraction) ਦੀ ਲੋੜ ਹੈ।
ਤੁਹਾਨੂੰ ਸਥਿਰ ਸਿਟੇਸ਼ਨਾਂ (citations) ਜਾਂ ਪੇਜ ਰੈਫਰੈਂਸਾਂ ਦੀ ਲੋੜ ਹੈ।
ਤੁਹਾਨੂੰ ਲਾਗਤ ਅਤੇ ਲੇਟੈਂਸੀ (latency) ਨੂੰ ਕੰਟਰੋਲ ਕਰਨ ਦੀ ਲੋੜ ਹੈ।

ਪ੍ਰੋਡਕਸ਼ਨ ਸਿਸਟਮਾਂ ਲਈ, "ਪੂਰੀ PDF ਭੇਜੋ" ਨੂੰ ਆਪਣਾ ਡਿਫੌਲਟ ਨਾ ਬਣਾਓ।

ਐਪਲੀਕੇਸ਼ਨ ਨੂੰ ਅਪਲੋਡ ਦੀ ਸੀਮਾ (upload boundary) ਸੰਭਾਲਣੀ ਚਾਹੀਦੀ ਹੈ। ਐਪਲੀਕੇਸ਼ਨ ਨੂੰ ਇਹ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ:

ਯੂਜ਼ਰ ਨੂੰ ਪ੍ਰਮਾਣਿਤ (authenticate) ਅਤੇ ਅਧਿਕਾਰਤ (authorize) ਕਰਨਾ।
ਸਮੱਗਰੀ ਦੀ ਕਿਸਮ (content type) ਦੀ ਪੁਸ਼ਟੀ ਕਰਨਾ।
ਅਸੁਰੱਖਿਅਤ ਫਾਈਲਾਂ ਲਈ ਸਕੈਨ ਕਰਨਾ।
ਅਸਲ ਫਾਈਲ ਨੂੰ ਸਟੋਰ ਕਰਨਾ।
ਐਕਸਟਰੈਕਟ ਕੀਤੇ ਟੈਕਸਟ ਜਾਂ ਪੇਜ ਦੀਆਂ ਤਸਵੀਰਾਂ ਵਰਗੇ ਡੈਰਾਈਵਡ ਆਰਟੀਫੈਕਟਸ (derived artifacts) ਬਣਾਉਣਾ।

ਫਿਰ, ਸਿਰਫ਼ ਉਹੀ ਭੇਜੋ ਜਿਸਦੀ ਏਜੰਟ ਨੂੰ ਲੋੜ ਹੈ।

ਜੇਕਰ ਤੁਹਾਡੇ ਕੰਮ ਲਈ OCR ਜਾਂ ਟੇਬਲ ਸਟ੍ਰਕਚਰ ਵਰਗੀ ਉੱਚ ਸ਼ੁੱਧਤਾ (high precision) ਦੀ ਲੋੜ ਹੈ, ਤਾਂ ਪਹਿਲਾਂ ਇੱਕ ਡੌਕਯੂਮੈਂਟ ਪ੍ਰੋਸੈਸਿੰਗ ਪਾਈਪਲਾਈਨ ਦੀ ਵਰਤੋਂ ਕਰੋ। ਏਜੰਟ ਨੂੰ ਐਕਸਟਰੈਕਸ਼ਨ ਲੇਅਰ (extraction layer) ਦੀ ਬਜਾਏ ਵਿਆਖਿਆ ਲੇਅਰ (explanation layer) 'ਤੇ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ।

ਏਜੰਟ ਨੂੰ ਫਾਈਲਾਂ ਤੱਕ ਸਿੱਧੀ ਪਹੁੰਚ ਦੇਣ ਦੀ ਬਜਾਏ, ਉਸਨੂੰ ਇੱਕ ਟੂਲ (tool) ਦਿਓ। "InspectDocument" ਵਰਗਾ ਟੂਲ ਏਜੰਟ ਨੂੰ ਕੱਚੇ ਇਨਫਰਾਸਟ੍ਰਕਚਰ (raw infrastructure) ਨੂੰ ਛੇੜੇ ਬਿਨਾਂ ਜਾਣਕਾਰੀ ਮੰਗਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ।

ਅੰਤ ਵਿੱਚ, ਫਾਈਲ ਪ੍ਰੋਸੈਸਿੰਗ ਬਾਰੇ ਸਭ ਕੁਝ ਲੌਗ

Microsoft Agent Framework: Multimodal Agents

Microsoft Agent Framework: Multimodal Agents

Continue reading

𝗖𝗼𝗻𝘁𝗲𝘅𝘁 𝗪𝗶𝗻𝗱𝗼𝘄𝘀 𝗔𝗿𝗲 𝗚𝗲𝘁𝘁𝗶𝗻𝗴 𝗛𝘂𝗴𝗲

𝗪𝗵𝘆 𝗠𝗼𝘀𝘁 𝗔𝗜 𝗔𝗴𝗲𝗻𝘁𝘀 𝗔𝗿𝗲 𝗢𝘃𝗲𝗿𝗲𝗻𝗴𝗶𝗻𝗲𝗲𝗿𝗲𝗱

Your Agents Are Fine. The Handoff Between Them Isn't.

Open Knowledge Format: The Markdown Standard for AI Agents