Microsoft Agent Framework: Multimodal Agents

ਮਲਟੀਮੋਡਲ ਏਜੰਟਸ (Multimodal agents) ਸਿਰਫ਼ ਟੈਕਸਟ ਤੱਕ ਸੀਮਤ ਨਹੀਂ ਹਨ। ਉਹ ਤਸਵੀਰਾਂ ਅਤੇ PDF ਨੂੰ ਵੀ ਪ੍ਰੋਸੈਸ ਕਰਦੇ ਹਨ।

Microsoft Agent Framework ਤੁਹਾਨੂੰ ਇੱਕ ਏਜੰਟ ਕਾਲ ਰਾਹੀਂ ਗੈਰ-ਟੈਕਸਟ ਸਮੱਗਰੀ (non-text content) ਭੇਜਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ। ਤੁਸੀਂ ਹੋਸਟ ਕੀਤੀਆਂ ਫਾਈਲਾਂ ਲਈ UriContent ਜਾਂ ਸਥਾਨਕ ਬਾਈਨਰੀ ਡੇਟਾ ਲਈ DataContent ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹੋ।

ਇਹ ਫਰੇਮਵਰਕ ਕਈ ਤਰ੍ਹਾਂ ਦੀਆਂ ਫਾਈਲਾਂ ਨੂੰ ਦਰਸਾ ਸਕਦਾ ਹੈ। ਹਾਲਾਂਕਿ, ਕਿਸੇ ਚੀਜ਼ ਨੂੰ ਦਰਸਾਉਣਾ (representation) ਉਸ ਦੀ ਸਮਰੱਥਾ (capability) ਦੇ ਬਰਾਬਰ ਨਹੀਂ ਹੁੰਦਾ।

ਸ਼ਿਪ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਤੁਹਾਨੂੰ ਤਿੰਨ ਚੀਜ਼ਾਂ ਦੀ ਜਾਂਚ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ:

  • ਕੀ ਫਰੇਮਵਰਕ ਸਮੱਗਰੀ ਨੂੰ ਦਰਸਾ ਸਕਦਾ ਹੈ?
  • ਕੀ ਪ੍ਰੋਵਾਈਡਰ ਅਡੈਪਟਰ (provider adapter) ਉਹ ਸਮੱਗਰੀ ਭੇਜ ਸਕਦਾ ਹੈ?
  • ਕੀ ਮਾਡਲ ਤੁਹਾਡੇ ਖਾਸ ਕੰਮ ਲਈ ਸਮੱਗਰੀ ਨੂੰ ਸਮਝ ਸਕਦਾ ਹੈ?

ਜੇਕਰ ਇਸ ਲੜੀ ਦਾ ਕੋਈ ਵੀ ਹਿੱਸਾ ਅਸਫਲ ਹੁੰਦਾ ਹੈ, ਤਾਂ ਐਬਸਟਰੈਕਸ਼ਨ (abstraction) ਅਸਫਲ ਹੋ ਜਾਂਦੀ ਹੈ।

ਤਸਵੀਰਾਂ (Images) ਸਰਲ ਹਨ। ਤੁਸੀਂ ਟੈਕਸਟ ਹਦਾਇਤਾਂ ਅਤੇ ਇੱਕ ਤਸਵੀਰ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹੋ। ਮਾਡਲ ਟੈਕਸਟ ਵਿੱਚ ਜਵਾਬ ਦਿੰਦਾ ਹੈ। ਇਹ ਇਹਨਾਂ ਕੰਮਾਂ ਲਈ ਵਧੀਆ ਕੰਮ ਕਰਦਾ ਹੈ:

  • UI ਰਿਵਿਊਜ਼ (UI reviews)
  • ਸਕ੍ਰੀਨਸ਼ੌਟ ਟ੍ਰਾਇਜ (Screenshot triage)
  • ਹੱਥ ਨਾਲ ਲਿਖੇ ਨੋਟਸ ਨੂੰ ਟੈਕਸਟ ਵਿੱਚ ਬਦਲਣਾ (Transcribing handwritten notes)
  • ਸਧਾਰਨ ਚਾਰਟਾਂ ਦੀ ਵਿਆਖਿਆ ਕਰਨਾ

PDF ਗੁੰਝਲਦਾਰ ਹੁੰਦੇ ਹਨ। ਇੱਕ PDF ਸਿਰਫ਼ ਇੱਕ ਵੱਡੀ ਤਸਵੀਰ ਨਹੀਂ ਹੁੰਦੀ। ਇਸ ਵਿੱਚ ਟੈਕਸਟ, ਟੇਬਲ, ਵੈਕਟਰ ਗ੍ਰਾਫਿਕਸ ਅਤੇ ਲੇਅਰਾਂ ਹੁੰਦੀਆਂ ਹਨ।

"ਇਸ PDF ਨੂੰ ਪੜ੍ਹੋ" ਦਾ ਮਤਲਬ ਪ੍ਰੋਵਾਈਡਰ ਦੇ ਅਧਾਰ 'ਤੇ ਵੱਖ-ਵੱਖ ਹੋ ਸਕਦਾ ਹੈ। ਕੁਝ ਮਾਡਲ ਟੈਕਸਟ ਦੇਖਦੇ ਹਨ। ਦੂਜੇ ਵਿਜ਼ੂਅਲ ਲੇਆਉਟ (visual layout) ਦੇਖਦੇ ਹਨ।

ਨੇਟਿਵ PDF ਇਨਪੁਟ (native PDF input) ਦੀ ਵਰਤੋਂ ਕਦੋਂ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ:

  • ਦਸਤਾਵੇਜ਼ ਛੋਟਾ ਹੋਵੇ।
  • ਜਵਾਬ ਲਈ ਵਿਜ਼ੂਅਲ ਲੇਆਉਟ ਮਹੱਤਵਪੂਰਨ ਹੋਵੇ।
  • ਤੁਹਾਨੂੰ ਵਾਰ-ਵਾਰ ਦਸਤਾਵੇਜ਼ ਵਿੱਚ ਸਰਚ ਕਰਨ ਦੀ ਲੋੜ ਨਾ ਹੋਵੇ।

ਮੈਨੂਅਲ ਪ੍ਰੀ-ਪ੍ਰੋਸੈਸਿੰਗ (manual preprocessing) ਦੀ ਵਰਤੋਂ ਕਦੋਂ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ:

  • ਤੁਸੀਂ ਬਹੁਤ ਸਾਰੇ ਦਸਤਾਵੇਜ਼ਾਂ ਨੂੰ ਪ੍ਰੋਸੈਸ ਕਰਦੇ ਹੋ।
  • ਤੁਹਾਨੂੰ ਵਾਰ-ਵਾਰ ਇੱਕੋ ਜਿਹੀ ਐਕਸਟਰੈਕਸ਼ਨ (extraction) ਦੀ ਲੋੜ ਹੈ।
  • ਤੁਹਾਨੂੰ ਸਥਿਰ ਸਿਟੇਸ਼ਨਾਂ (citations) ਜਾਂ ਪੇਜ ਰੈਫਰੈਂਸਾਂ ਦੀ ਲੋੜ ਹੈ।
  • ਤੁਹਾਨੂੰ ਲਾਗਤ ਅਤੇ ਲੇਟੈਂਸੀ (latency) ਨੂੰ ਕੰਟਰੋਲ ਕਰਨ ਦੀ ਲੋੜ ਹੈ।

ਪ੍ਰੋਡਕਸ਼ਨ ਸਿਸਟਮਾਂ ਲਈ, "ਪੂਰੀ PDF ਭੇਜੋ" ਨੂੰ ਆਪਣਾ ਡਿਫੌਲਟ ਨਾ ਬਣਾਓ।

ਐਪਲੀਕੇਸ਼ਨ ਨੂੰ ਅਪਲੋਡ ਦੀ ਸੀਮਾ (upload boundary) ਸੰਭਾਲਣੀ ਚਾਹੀਦੀ ਹੈ। ਐਪਲੀਕੇਸ਼ਨ ਨੂੰ ਇਹ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ:

  • ਯੂਜ਼ਰ ਨੂੰ ਪ੍ਰਮਾਣਿਤ (authenticate) ਅਤੇ ਅਧਿਕਾਰਤ (authorize) ਕਰਨਾ।
  • ਸਮੱਗਰੀ ਦੀ ਕਿਸਮ (content type) ਦੀ ਪੁਸ਼ਟੀ ਕਰਨਾ।
  • ਅਸੁਰੱਖਿਅਤ ਫਾਈਲਾਂ ਲਈ ਸਕੈਨ ਕਰਨਾ।
  • ਅਸਲ ਫਾਈਲ ਨੂੰ ਸਟੋਰ ਕਰਨਾ।
  • ਐਕਸਟਰੈਕਟ ਕੀਤੇ ਟੈਕਸਟ ਜਾਂ ਪੇਜ ਦੀਆਂ ਤਸਵੀਰਾਂ ਵਰਗੇ ਡੈਰਾਈਵਡ ਆਰਟੀਫੈਕਟਸ (derived artifacts) ਬਣਾਉਣਾ।

ਫਿਰ, ਸਿਰਫ਼ ਉਹੀ ਭੇਜੋ ਜਿਸਦੀ ਏਜੰਟ ਨੂੰ ਲੋੜ ਹੈ।

ਜੇਕਰ ਤੁਹਾਡੇ ਕੰਮ ਲਈ OCR ਜਾਂ ਟੇਬਲ ਸਟ੍ਰਕਚਰ ਵਰਗੀ ਉੱਚ ਸ਼ੁੱਧਤਾ (high precision) ਦੀ ਲੋੜ ਹੈ, ਤਾਂ ਪਹਿਲਾਂ ਇੱਕ ਡੌਕਯੂਮੈਂਟ ਪ੍ਰੋਸੈਸਿੰਗ ਪਾਈਪਲਾਈਨ ਦੀ ਵਰਤੋਂ ਕਰੋ। ਏਜੰਟ ਨੂੰ ਐਕਸਟਰੈਕਸ਼ਨ ਲੇਅਰ (extraction layer) ਦੀ ਬਜਾਏ ਵਿਆਖਿਆ ਲੇਅਰ (explanation layer) 'ਤੇ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ।

ਏਜੰਟ ਨੂੰ ਫਾਈਲਾਂ ਤੱਕ ਸਿੱਧੀ ਪਹੁੰਚ ਦੇਣ ਦੀ ਬਜਾਏ, ਉਸਨੂੰ ਇੱਕ ਟੂਲ (tool) ਦਿਓ। "InspectDocument" ਵਰਗਾ ਟੂਲ ਏਜੰਟ ਨੂੰ ਕੱਚੇ ਇਨਫਰਾਸਟ੍ਰਕਚਰ (raw infrastructure) ਨੂੰ ਛੇੜੇ ਬਿਨਾਂ ਜਾਣਕਾਰੀ ਮੰਗਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ।

ਅੰਤ ਵਿੱਚ, ਫਾਈਲ ਪ੍ਰੋਸੈਸਿੰਗ ਬਾਰੇ ਸਭ ਕੁਝ ਲੌਗ