Patronus AI ਨੇ Agent Stress-Testing ਲਈ ਡਿਜੀਟਲ ਦੁਨੀਆ ਬਣਾਉਣ ਲਈ $50M ਇਕੱਠੇ ਕੀਤੇ ਹਨ

ਜਿਵੇਂ ਕਿ AI agents ਸਧਾਰਨ ਚੈਟ ਇੰਟਰਫੇਸਾਂ ਤੋਂ ਅਧਿਐਨ (autonomous) ਇਕਾਈਆਂ ਵਿੱਚ ਬਦਲ ਰਹੇ ਹਨ ਜੋ ਗੁੰਝਲਦਾਰ, ਬਹੁ-ਪੜਾਅ ਵਾਲੇ ਕੰਮ ਕਰਨ ਦੇ ਸਮਰੱਥ ਹਨ, ਉਦਯੋਗ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਰੁਕਾਵਟ ਦਾ ਸਾਹਮਣਾ ਕਰ ਰਿਹਾ ਹੈ: ਭਰੋਸੇਯੋਗਤਾ। Patronus AI ਅਸਲੀ ਦੁਨੀਆ ਵਿੱਚ ਜਾਣ ਤੋਂ ਪਹਿਲਾਂ ਇਹਨਾਂ agents ਦਾ stress-test ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤੇ ਗਏ ਉੱਨਤ simulated ਵਾਤਾਵਰਣ ਬਣਾ ਕੇ ਇਸ ਚੁਣੌਤੀ ਦਾ ਹੱਲ ਕਰ ਰਿਹਾ ਹੈ।

ਸਟੈਟਿਕ ਬੈਂਚਮਾਰਕਸ ਤੋਂ ਅੱਗੇ ਵਧਣਾ

ਸਾਲਾਂ ਤੋਂ, AI ਲੈਬਾਂ ਮਾਡਲ ਦੀ ਕਾਬਲੀਅਤ ਦਿਖਾਉਣ ਲਈ ਮਿਆਰੀ ਬੈਂਚਮਾਰਕਸ 'ਤੇ ਨਿਰਭਰ ਰਹੀਆਂ ਹਨ। ਹਾਲਾਂਕਿ, ਇਹਨਾਂ ਸਟੈਟਿਕ ਟੈਸਟਾਂ 'ਤੇ ਉੱਚ ਸਕੋਰ ਅਕਸਰ ਅਸਲੀ ਦੁਨੀਆ ਦੀ ਮੁਹਾਰਤ ਵਿੱਚ ਬਦਲਣ ਵਿੱਚ ਅਸਫਲ ਰਹਿੰਦੇ ਹਨ। ਇੱਕ agent ਲਿਖਤੀ ਟੈਸਟ ਪਾਸ ਕਰ ਸਕਦਾ ਹੈ ਪਰ ਜਦੋਂ ਉਸਨੂੰ ਕਿਸੇ ਲਾਈਵ ਵੈੱਬਸਾਈਟ ਨੂੰ ਚਲਾਉਣ ਜਾਂ ਗੁੰਝਲਦਾਰ ਵਿੱਤੀ ਵਰਕਫਲੋਅ ਨੂੰ ਸੰਭਾਲਣ ਦਾ ਕੰਮ ਦਿੱਤਾ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਉਹ ਬੁਰੀ ਤਰ੍ਹਾਂ ਫੇਲ੍ਹ ਹੋ ਸਕਦਾ ਹੈ।

ਸਾਬਕਾ Meta AI ਖੋਜਕਰਤਾ Anand Kannappan ਅਤੇ Rebecca Qian ਦੁਆਰਾ 2023 ਵਿੱਚ ਸਥਾਪਿਤ, Patronus AI ਨਵੇਂ ਮਾਪਦੰਡ ਸੈੱਟ ਕਰ ਰਿਹਾ ਹੈ। ਸਟੈਟਿਕ ਸਵਾਲਾਂ ਦੀ ਬਜਾਏ, ਇਹ ਸਟਾਰਟਅੱਪ ਵੈੱਬਸਾਈਟਾਂ ਅਤੇ ਅੰਦਰੂਨੀ ਐਂਟਰਪ੍ਰਾਈਜ਼ ਪ੍ਰਣਾਲੀਆਂ ਦੀਆਂ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੀਆਂ ਨਕਲਾਂ ਬਣਾਉਣ ਲਈ "digital world models" ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਹ ਵਾਤਾਵਰਣ agents ਨੂੰ ਇੱਕ ਅਜਿਹੇ sandbox ਵਿੱਚ ਕੰਮ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦੇ ਹਨ ਜੋ ਅਸਲੀ ਦੁਨੀਆ ਦੀ ਅਨਿਸ਼ਚਿਤਤਾ ਦੀ ਨਕਲ ਕਰਦਾ ਹੈ, ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦੇ ਹੋਏ ਕਿ ਉਹ ਅਸਲੀ ਦੁਨੀਆ ਦੇ ਨੁਕਸਾਨ ਦੇ ਜੋਖਮ ਤੋਂ ਬਿਨਾਂ edge cases ਨੂੰ ਸੰਭਾਲ ਸਕਣ।

AI Agents ਲਈ "Waymo Approach"

Patronus AI ਦੇ ਪਿੱਛੇ ਮੁੱਖ ਨਵੀਨਤਾ ਇਹਨਾਂ ਸਿੰਥੈਟਿਕ ਡਿਜੀਟਲ ਦੁਨੀਆ ਦੇ ਅੰਦਰ reinforcement learning ਦੀ ਵਰਤੋਂ ਕਰਨ ਵਿੱਚ ਹੈ। ਕੰਪਨੀ ਇਸ ਗੱਲ ਦੀ ਸਿੱਧੀ ਤੁਲਨਾ ਇਸ ਤਰ੍ਹਾਂ ਕਰਦੀ ਹੈ ਕਿ Waymo ਕਿਵੇਂ autonomous ਵਾਹਨਾਂ ਨੂੰ ਸਿਖਲਾਈ ਦਿੰਦਾ ਹੈ: ਜਿਵੇਂ Waymo ਖ਼ਤਰਨਾਕ ਮੌਸਮ ਜਾਂ ਅਚਾਨਕ ਪੈਦਲ ਚੱਲਣ ਵਾਲਿਆਂ ਦੀਆਂ ਹਰਕਤਾਂ ਵਰਗੇ ਦੁਰਲੱਭ ਖ਼ਤਰਿਆਂ ਤੋਂ ਸਵੈ-ਚਾਲਿਤ ਕਾਰਾਂ ਨੂੰ ਜਾਣੂ ਕਰਵਾਉਣ ਲਈ simulation ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ, Patronus AI agents ਨੂੰ ਅਣਪਛਾਤੇ ਦ੍ਰਿਸ਼ਾਂ (scenarios) ਨਾਲ ਜਾਣੂ ਕਰਵਾਉਂਦਾ ਹੈ।

ਮੌਜੂਦਾ AI agents ਨਾਲ ਇੱਕ ਵੱਡੀ ਸਮੱਸਿਆ ਉਹਨਾਂ ਦੀ "shortcuts" ਲੈਣ ਦੀ ਰੁਝਾਨ ਹੈ—ਘੱਟ ਤੋਂ ਘੱਟ ਰੁਕਾਵਟ ਵਾਲਾ ਰਸਤਾ ਲੱਭਣਾ ਜੋ ਤਕਨੀਕੀ ਤੌਰ 'ਤੇ ਇੱਕ ਉਪ-ਕਾਰਜ (sub-task) ਨੂੰ ਪੂਰਾ ਕਰ ਸਕਦਾ ਹੈ ਪਰ ਮੁੱਖ ਉਦੇਸ਼ ਵਿੱਚ ਅਸਫਲ ਰਹਿੰਦਾ ਹੈ ਜਾਂ ਸੁਰੱਖਿਆ ਪ੍ਰੋਟੋਕੋਲ ਦੀ ਉਲੰਘਣਾ ਕਰਦਾ ਹੈ। Patronus ਦਾ simulation ਵਾਤਾਵਰਣ ਖਾਸ ਤੌਰ 'ਤੇ ਇਹਨਾਂ "hacks" ਨੂੰ ਫੜਨ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ, ਜੋ ਗਲਤੀਆਂ ਲਈ ਜੁਰਮਾਨਾ ਲਗਾ ਕੇ ਅਤੇ ਅਸਲ ਕਾਰਜ ਦੀ ਪੂਰਤੀ ਲਈ ਇਨਾਮ ਦੇ ਕੇ ਮਾਡਲਾਂ ਨੂੰ ਜਵਾਬਦੇਹ ਬਣਾਉਂਦਾ ਹੈ।

ਤੇਜ਼ੀ ਨਾਲ ਵਾਧਾ ਅਤੇ ਗੁੰਝਲਦਾਰਤਾ ਦਾ ਪਸਾਰ

ਅਜਿਹੇ ਸਖ਼ਤ ਮੁਲਾਂਕਣ ਲਈ ਬਾਜ਼ਾਰ ਦੀ ਮੰਗ ਬਹੁਤ ਜ਼ਿਆਦਾ ਹੈ। Patronus AI ਨੇ ਪਿਛਲੇ ਇੱਕ ਸਾਲ ਵਿੱਚ 15 ਗੁਣਾ ਮਾਲੀਆ ਵਾਧਾ ਦਰਜ ਕੀਤਾ ਹੈ, ਜੋ ਸੰਕੇਤ ਦਿੰਦਾ ਹੈ ਕਿ ਅਗਵੱਧ AI ਲੈਬਾਂ ਅਤੇ ਉੱਭਰ ਰਹੇ ਸਟਾਰਟਅੱਪਸ ਨੂੰ ਆਟੋਮੇਟਡ, ਸਕੈਲੇਬਲ ਟੈਸਟਿੰਗ ਦੀ ਬਹੁਤ ਲੋੜ ਹੈ। ਇਸ ਗਤੀ ਦਾ ਸਿੱਟਾ Greenfield Partners ਦੀ ਅਗਵਾਈ ਵਿੱਚ $50 ਮਿਲੀਅਨ ਦੇ Series B ਫੰਡਿੰਗ ਰਾਊਂਡ ਵਜੋਂ ਨਿਕਲਿਆ ਹੈ, ਜਿਸ ਵਿੱਚ Notable Capital, Lightspeed, Datadog, ਅਤੇ Samsung ਦੀ ਭਾਗੀਦਾਰੀ ਰਹੀ ਹੈ, ਜਿਸ ਨਾਲ ਉਹਨਾਂ ਦੀ ਕੁੱਲ ਫੰਡਿੰਗ $70 ਮਿਲੀਅਨ ਹੋ ਗਈ ਹੈ।

ਵਰਤਮਾਨ ਵਿੱਚ, ਕੰਪਨੀ ਸਾਫਟਵੇਅਰ ਇੰਜੀਨੀਅਰਿੰਗ ਅਤੇ ਵਿੱਤ ਵਰਗੇ ਬਹੁਤ ਜ਼ਿਆਦਾ ਤਸਦੀਕਯੋਗ ਖੇਤਰਾਂ 'ਤੇ ਕੇਂਦਰਿਤ ਹੈ। ਹਾਲਾਂਕਿ, ਤਕਨੀਕੀ ਰੋਡਮੈਪ ਅਭਿਲਾਸ਼ੀ ਹੈ। ਸਹਿ-ਸੰਸਥਾਪਕ Anand Kannappan ਨੇ ਨੋਟ ਕੀਤਾ ਕਿ ਟੀਚਾ ਅਜਿਹੇ ਵਾਤਾਵਰਣ ਬਣਾਉਣਾ ਹੈ ਜਿੱਥੇ agents ਲੰਬੇ ਸਮੇਂ ਲਈ—10 ਘੰਟਿਆਂ ਤੋਂ 10 ਹਫ਼ਤਿਆਂ ਤੱਕ—ਸਵੈ-ਨਿਰਧਾਰਤ (autonomously) ਕੰਮ ਕਰ ਸਕਣ, ਤਾਂ ਜੋ ਲੰਬੇ ਸਮੇਂ ਦੀ ਤਰਕਸ਼ੀਲਤਾ ਅਤੇ ਇਕਸਾਰਤਾ ਦਾ ਟੈਸਟ ਕੀਤਾ ਜਾ ਸਕੇ।

AI Ecosystem ਲਈ ਇਹ ਕਿਉਂ ਮਹੱਤਵਪੂਰਨ ਹੈ

ਹਾਲਾਂਕਿ Mercor ਅਤੇ Surge ਵਰਗੀਆਂ human-in-the-loop ਫਰਮਾਂ reinforcement learning ਲਈ ਕੀਮਤੀ ਡੇਟਾ ਪ੍ਰਦਾਨ ਕਰਦੀਆਂ ਹਨ, Patronus AI ਆਟੋਨੋਮਸ ਮੁਲਾਂਕਣ ਨੂੰ ਸਮਰੱਥ ਬਣਾ ਕੇ ਇੱਕ ਵਿਲੱਖਣ ਖੇਤਰ ਵਿੱਚ ਹੈ। ਟੈਸਟਿੰਗ ਲੂਪ ਵਿੱਚੋਂ ਮਨੁੱਖ ਨੂੰ ਹਟਾ ਕੇ, ਉਹ ਅਜਿਹੇ ਪੱਧਰ ਦੀ ਵਿਸ਼ਾਲਤਾ ਅਤੇ ਬਾਰੰਬਾਰਤਾ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦੇ ਹਨ ਜਿਸ ਨਾਲ ਮੈਨੂਅਲ ਟੈਸਟਿੰਗ ਮੈਚ ਨਹੀਂ ਕਰ ਸਕਦੀ। ਜਿਵੇਂ ਕਿ ਅਸੀਂ agentic workflows ਦੇ ਯੁੱਗ ਵੱਲ ਵਧ ਰਹੇ ਹਾਂ, ਸਖ਼ਤ, ਆਟੋਮੇਟਡ simulation ਰਾਹੀਂ ਇੱਕ agent ਦੀ ਭਰੋਸੇਯੋਗਤਾ ਨੂੰ ਪ੍ਰਮਾਣਿਤ ਕਰਨ ਦੀ ਯੋਗਤਾ ਤੈਨਾਤੀ (deployment) ਲਈ ਗੋਲਡ ਸਟੈਂਡਰਡ ਬਣ ਜਾਵੇਗੀ।

ਮੁੱਖ ਗੱਲਾਂ

  • Simulated Stress-Testing: Patronus AI ਆਟੋਨੋਮਸ agent ਮੁਲਾਂਕਣ ਲਈ ਵੈੱਬਸਾਈਟਾਂ ਅਤੇ ਪ੍ਰਣਾਲੀਆਂ ਦੀਆਂ ਯਥਾਰਥਵਾਦੀ ਨਕਲਾਂ ਬਣਾਉਣ ਲਈ "digital world models" ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ।
  • ਵਿਸ਼ਾਲ ਪੂੰਜੀ ਨਿਵੇਸ਼: $50M ਦਾ Series B ਰਾਊਂਡ ਸਟਾਰਟਅੱਪ ਦੀ ਕੁੱਲ ਫੰਡਿੰਗ ਨੂੰ $70M ਤੱਕ ਲੈ ਆਉਂਦਾ ਹੈ, ਜੋ ਸਾਲਾਨਾ ਮਾਲੀਏ ਵਿੱਚ 15 ਗੁਣਾ ਵਾਧੇ ਦੁਆਰਾ ਸੰਚਾਲਿਤ ਹੈ।
  • ਜਵਾਬਦੇਹੀ 'ਤੇ ਧਿਆਨ: ਸਟੈਟਿਕ ਬੈਂਚਮਾਰਕਸ ਦੇ ਉਲਟ, Patronus ਉਹਨਾਂ "shortcuts" ਅਤੇ "hacks" ਦੀ ਪਛਾਣ ਕਰਦਾ ਹੈ ਜੋ agents ਗੁੰਝਲਦਾਰ ਤਰਕ ਨੂੰ ਬਾਈਪਾਸ ਕਰਨ ਲਈ ਵਰਤਦੇ ਹਨ, ਜਿਸ ਨਾਲ ਅਸਲ ਭਰੋਸੇਯੋਗਤਾ ਯਕੀਨੀ ਬਣਦੀ ਹੈ।