AGI: ਕੀ ਅਸੀਂ ਉੱਥੇ ਪਹੁੰਚ ਗਏ ਹਾਂ?

ਅਸੀਂ ਅਜੇ ਤੱਕ AGI ਤੱਕ ਨਹੀਂ ਪਹੁੰਚੇ ਹਾਂ।

ਇੱਕ ਸਾਲ ਪਹਿਲਾਂ, ਮੈਂ ਪੁੱਛਿਆ ਸੀ ਕਿ ਕੀ ਅਸੀਂ Artificial General Intelligence ਤੱਕ ਪਹੁੰਚ ਗਏ ਹਾਂ। ਉਸ ਸਮੇਂ, OpenAI ਦੇ o3 ਮਾਡਲ ਨੇ ARC-AGI-1 ਬੈਂਚਮਾਰਕ 'ਤੇ ਇੱਕ ਵੱਡਾ ਮੀਲ ਪੱਥਰ ਹਾਸਲ ਕੀਤਾ ਸੀ। ਇਸ ਨੇ ਤਰਕ (reasoning) ਵਿੱਚ ਇੱਕ ਅਸਲ ਉਛਾਲ ਦਿਖਾਇਆ ਸੀ।

ਪਰ ਮੈਂ ਉਦੋਂ ਇਹ ਦਲੀਲ ਦਿੱਤੀ ਸੀ ਕਿ ਇਹ ਸਿਰਫ਼ ਇੱਕ ਰੁਕਾਵਟ (pit stop) ਸੀ, ਮੰਜ਼ਿਲ ਨਹੀਂ।

ਮੈਂ ਸਹੀ ਸੀ।

ਅੱਜ ਦੀ ਕਹਾਣੀ AGI ਦੇ ਆਉਣ ਬਾਰੇ ਨਹੀਂ ਹੈ। ਕਹਾਣੀ ਹੋਰ ਵੀ ਦਿਲਚਸਪ ਹੈ। ਅਸੀਂ ਸਧਾਰਨ ਚੈਟਬੋਟਸ ਤੋਂ ਅੱਗੇ ਵਧ ਚੁੱਕੇ ਹਾਂ। ਅਸੀਂ ਹੁਣ ਫਰੰਟੀਅਰ ਰੀਜ਼ਨਿੰਗ (frontier reasoning) ਅਤੇ ਏਜੰਟ ਸਿਸਟਮਾਂ (agent systems) ਦੇ ਯੁੱਗ ਵਿੱਚ ਹਾਂ।

ਖੇਤਰ ਦੀ ਮੌਜੂਦਾ ਸਥਿਤੀ ਇੱਥੇ ਹੈ:

• ਮਾਡਲ ਤਰਕ (reasoning) ਅਤੇ ਕੋਡਿੰਗ ਵਿੱਚ ਬਹੁਤ ਬਿਹਤਰ ਹਨ। • ਉਹ ਟੂਲਸ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹਨ ਅਤੇ ਲੰਬੇ ਸੰਦਰਭਾਂ (contexts) ਨੂੰ ਵਧੇਰੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਪ੍ਰੋਸੈਸ ਕਰਦੇ ਹਨ। • ਉਹ ਤਸਵੀਰਾਂ ਅਤੇ ਆਡੀਓ ਵਰਗੇ ਮਲਟੀਮੋਡਲ ਇਨਪੁੱਟਸ ਨੂੰ ਸੰਭਾਲ ਸਕਦੇ ਹਨ। • ਉਹ ਪਹਿਲਾਂ ਨਾਲੋਂ ਕਿਤੇ ਜ਼ਿਆਦਾ ਆਰਥਿਕ ਤੌਰ 'ਤੇ ਉਪਯੋਗੀ ਹਨ।

ਪਰ ਉਹਨਾਂ ਵਿੱਚ ਅਜੇ ਵੀ ਮਨੁੱਖ ਵਰਗੀ ਵਿਆਪਕਤਾ (generality) ਦੀ ਕਮੀ ਹੈ।

ਬੈਂਚਮਾਰਕ ਅਸਲੀ ਕਹਾਣੀ ਦੱਸਦੇ ਹਨ। ਜਦੋਂ ਕਿ MMLU ਵਰਗੇ ਪੁਰਾਣੇ ਟੈਸਟ ਆਪਣੀ ਸੀਮਾ ਤੱਕ ਪਹੁੰਚ ਚੁੱਕੇ ਹਨ (saturated), ਨਵੇਂ ਟੈਸਟ ਖਾਮੀਆਂ ਦਿਖਾਉਂਦੇ ਹਨ।

• ARC-AGI-1 ਤਰਕ ਲਈ ਇੱਕ ਵੱਡੀ ਸਫਲਤਾ ਸੀ। • ARC-AGI-2 ਦਿਖਾਉਂਦਾ ਹੈ ਕਿ ਨਵੀਨਤਾ (novelty) ਅਤੇ ਸੰਗਠਨ (composition) ਅਜੇ ਵੀ ਬਹੁਤ ਮੁਸ਼ਕਲ ਹਨ। • ARC-AGI-3 ਇੰਟਰਐਕਟਿਵ ਵਾਤਾਵਰਣਾਂ ਵੱਲ ਵਧਦਾ ਹੈ ਜਿੱਥੇ ਮਾਡਲ ਅਨੁਕੂਲਿਤ ਹੋਣ ਲਈ ਸੰਘਰਸ਼ ਕਰਦੇ ਹਨ।

ਅਸੀਂ ਮਾਡਲਾਂ ਦੇ ਸਕੇਲ (scale) ਹੋਣ ਦੇ ਤਰੀਕੇ ਵਿੱਚ ਵੀ ਬਦਲਾਅ ਦੇਖ ਰਹੇ ਹਾਂ। ਇਹ ਹੁਣ ਸਿਰਫ਼ ਵਧੇਰੇ ਡੇਟਾ ਬਾਰੇ ਨਹੀਂ ਰਿਹਾ। ਸਕੇਲਿੰਗ ਹੁਣ ਇਹਨਾਂ ਰਾਹੀਂ ਹੁੰਦੀ ਹੈ:

  • ਪ੍ਰੀ-ਟ੍ਰੇਨਿੰਗ ਸਕੇਲ (Pretraining scale)।
  • ਪੋਸਟ-ਟ੍ਰੇਨਿੰਗ ਅਤੇ ਰੀਇਨਫੋਰਸਮੈਂਟ ਲਰਨਿੰਗ (Reinforcement learning)।
  • ਇਨਫਰੈਂਸ-ਟਾਈਮ ਰੀਜ਼ਨਿੰਗ ਅਤੇ ਟੂਲ ਦੀ ਵਰਤੋਂ।

ਇੱਕ ਮਾਡਲ ਜੋ ਰੁਕ ਸਕਦਾ ਹੈ, ਕੋਡ ਚਲਾ ਸਕਦਾ ਹੈ, ਅਤੇ ਯੋਜਨਾ ਨੂੰ ਸੋਧ ਸਕਦਾ ਹੈ, ਉਹ ਮਾਡਲ ਤੋਂ ਵੱਖਰਾ ਹੈ ਜੋ ਸਿਰਫ਼ ਅਗਲੇ ਸ਼ਬਦ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਦਾ ਹੈ। ਇਹ ਏਜੈਂਟਿਕ ਸਿਸਟਮਾਂ (agentic systems) ਦਾ ਉਭਾਰ ਹੈ।

ਹਾਲਾਂਕਿ, ਇੱਕ ਵੱਡੀ ਖਾਮੀ ਬਾਕੀ ਹੈ: ਭਰੋਸੇਯੋਗਤਾ (reliability)।

METR ਖੋਜ ਦਿਖਾਉਂਦੀ ਹੈ ਕਿ ਭਰੋਸੇਯੋਗ ਕਾਰਜ ਮੁਕੰਮਲ ਕਰਨ ਲਈ ਸਮੇਂ ਦੀ ਸੀਮਾ (time horizon) ਵਧ ਰਹੀ ਹੈ। ਇਹ ਹਰ ਕੁਝ ਮਹੀਨਿਆਂ ਵਿੱਚ ਦੁੱਗਣੀ ਹੋ ਜਾਂਦੀ ਹੈ। ਪਰ 50-ਮਿੰਟ ਦਾ ਕਾਰਜ ਸੀਮਾ ਇੱਕ ਪੂਰਾ ਕੰਮ ਦਾ ਦਿਨ ਨਹੀਂ ਹੈ। ਇਹ ਇੱਕ ਹਫ਼ਤੇ ਦੀ ਖੁਦਮੁਖਤਿਆਰ ਖੋਜ ਨਹੀਂ ਹੈ।

ਅਸੀਂ "ਜਵਾਬ ਦੇਣ ਵਾਲੇ ਮਾਡਲਾਂ" ਤੋਂ "ਟੂਲਸ ਨਾਲ ਤਰਕ ਕਰਨ ਵਾਲੇ ਮਾਡਲਾਂ" ਵੱਲ ਵਧ ਗਏ ਹਾਂ।

ਅਸੀਂ ਬਹੁਤ ਹੀ ਸਮਰੱਥ ਸਿਸਟਮ ਬਣਾ ਰਹੇ ਹਾਂ। ਪਰ ਇਹ ਸਿਸਟਮ ਅਕਸਰ ਵਿਆਪਕ ਪਰ ਕਮਜ਼ੋਰ (brittle) ਹੁੰਦੇ ਹਨ। ਉਹ ਗ੍ਰੈਜੂਏਟ-ਪੱਧਰ ਦੀ ਗਣਿਤ ਨੂੰ ਹੱਲ ਕਰ ਸਕਦੇ ਹਨ ਪਰ ਸਧਾਰਨ, ਨਵੀਆਂ ਪਹੇਲੀਆਂ ਵਿੱਚ ਅਸਫਲ ਰਹਿੰਦੇ ਹਨ।

ਇਮਾਨਦਾਰ ਸਥਿਤੀ ਇਹ ਹੈ:

ਅਸੀਂ AGI 'ਤੇ ਨਹੀਂ ਹਾਂ। ਪਰ ਅਸੀਂ ਕਿਸੇ ਅਜਿਹੀ ਚੀਜ਼ ਦੇ ਬਹੁਤ ਨੇੜੇ ਹਾਂ ਜੋ ਆਰਥਿਕ ਤੌਰ 'ਤੇ ਵੱਡਾ ਬਦਲਾਅ ਲਿਆਵੇਗੀ, ਜਿੰਨਾ ਕਿ ਜ਼ਿਆਦਾਤਰ ਲੋਕਾਂ ਨੇ ਉਮੀਦ ਕੀਤੀ ਸੀ।

ਅਸੀਂ ਜਨਰਲ-ਪਰਪਜ਼ ਰੀਜ਼ਨਿੰਗ ਸਿਸਟਮ