ਫਰੰਟੀਅਰ AI ਮਾਡਲ ਵਿੱਤੀ ਟ੍ਰਾਇਜ (Financial Triage) ਟੈਸਟਾਂ ਵਿੱਚ ਕਿਉਂ ਅਸਫਲ ਰਹਿੰਦੇ ਹਨ
ਹਾਲਾਂਕਿ GPT-4 ਅਤੇ Claude ਵਰਗੇ ਵਿਸ਼ਾਲ LLMs ਆਮ ਬੈਂਚਮਾਰਕਸ 'ਤੇ ਹਾਵੀ ਹਨ, ਪਰ ਉਹ ਉੱਚ-ਜੋਖਮ ਵਾਲੇ ਵਿੱਤੀ ਮਾਹੌਲ ਵਿੱਚ ਲੋੜੀਂਦੇ ਬਾਰੀਕ ਫੈਸਲੇ ਲੈਣ ਦੀ ਸਮਰੱਥਾ ਰੱਖਣ ਵਿੱਚ ਸੰਘਰਸ਼ ਕਰ ਰਹੇ ਹਨ। Bridgewater ਦੇ AIA Labs ਅਤੇ Thinking Machines Lab ਦੀ ਇੱਕ ਨਵੀਂ ਰਿਪੋਰਟ ਤੋਂ ਪਤਾ ਲੱਗਦਾ ਹੈ ਕਿ ਦੁਨੀਆ ਦੇ ਸਭ ਤੋਂ ਉੱਨਤ ਮਾਡਲ ਵੀ ਪੇਸ਼ੇਵਰ ਨਿਵੇਸ਼ ਵਰਕਫਲੋਜ਼ (investment workflows) ਲਈ ਲੋੜੀਂਦੇ ਸ਼ੁੱਧਤਾ ਦੇ ਮਾਪਦੰਡਾਂ ਨੂੰ ਪੂਰਾ ਕਰਨ ਵਿੱਚ ਅਸਫਲ ਰਹਿੰਦੇ ਹਨ।
ਆਮ ਬੁੱਧੀ ਅਤੇ ਵਿੱਤੀ ਫੈਸਲੇ ਲੈਣ ਦੀ ਸਮਰੱਥਾ ਵਿਚਕਾਰ ਪਾੜਾ
ਵਿੱਤ ਵਿੱਚ ਮੁੱਖ ਚੁਣੌਤੀ ਸਿਰਫ਼ ਡੇਟਾ ਪੜ੍ਹਨਾ ਨਹੀਂ ਹੈ; ਇਹ "ਟ੍ਰਾਇਜ" (triage) ਦੀ ਲਗਾਤਾਰ ਪ੍ਰਕਿਰਿਆ ਹੈ—ਇਹ ਫੈਸਲਾ ਕਰਨਾ ਕਿ ਕਿਹੜੀ ਜਾਣਕਾਰੀ ਅਸਲ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਹੈ। ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਇੱਕ ਨਿਵੇਸ਼ਕ ਦੀ ਰੋਜ਼ਾਨਾ ਰੁਟੀਨ ਦੇ ਅਧਾਰ 'ਤੇ ਛੇ ਮਹੱਤਵਪੂਰਨ ਕਾਰਜਾਂ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕੀਤਾ, ਜਿਵੇਂ ਕਿ ਇਹ ਪਤਾ ਲਗਾਉਣਾ ਕਿ ਕੀ ਕੇਂਦਰੀ ਬੈਂਕ ਦਾ ਦਸਤਾਵੇਜ਼ ਵਿਆਜ ਦਰਾਂ ਵਿੱਚ ਬਦਲਾਅ ਦਾ ਸੰਕੇਤ ਦਿੰਦਾ ਹੈ ਜਾਂ ਕੀ ਕੋਈ ਖ਼ਬਰ ਕਿਸੇ ਖਾਸ ਕਾਰਜਕਾਰੀ (executive) ਲਈ ਪ੍ਰਸੰਗਿਕ ਹੈ।
ਇਹਨਾਂ ਟੈਸਟਾਂ ਵਿੱਚ, Gemini, Claude, ਅਤੇ GPT ਵੇਰੀਐਂਟਸ ਵਰਗੇ ਫਰੰਟੀਅਰ ਮਾਡਲਾਂ ਨੇ ਬੇਸਿਕ ਪ੍ਰੋਂਪਟਿੰਗ (prompting) ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਸਮੇਂ ਸਿਰਫ਼ ਲਗਭਗ 50% ਸ਼ੁੱਧਤਾ ਪ੍ਰਾਪਤ ਕੀਤੀ। ਇੱਥੋਂ ਤੱਕ ਕਿ ਜਦੋਂ ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਮਾਹਰਾਂ ਦੁਆਰਾ ਲਿਖੀਆਂ ਹਦਾਇਤਾਂ ਅਤੇ ਇੱਕ ਉੱਨਤ ਤਿੰਨ-ਦਰਜਾ ਰੇਟਿੰਗ ਪ੍ਰਣਾਲੀ ਦੀ ਵਰਤੋਂ ਕੀਤੀ—ਜਿਸ ਵਿੱਚ ਜਾਣਕਾਰੀ ਨੂੰ "ਪ੍ਰਸੰਗਿਕ ਅਤੇ ਦਿਲਚਸਪ," "ਪ੍ਰਸੰਗਿਕ ਪਰ ਦਿਲਚਸਪ ਨਹੀਂ," ਜਾਂ "ਗੈਰ-ਪ੍ਰਸੰਗਿਕ" ਵਜੋਂ ਸ਼੍ਰੇਣੀਬੱਧ ਕੀਤਾ ਗਿਆ ਸੀ—ਤਾਂ ਸ਼ੁੱਧਤਾ ਵਧ ਕੇ ਸਿਰਫ਼ 70 ਦੇ ਵਿਚਕਾਰ ਹੀ ਪਹੁੰਚ ਸਕੀ। ਇਹ ਇੱਕ ਹੈਜ ਫੰਡ (hedge fund) ਦੇ ਮਾਹੌਲ ਵਿੱਚ ਭਰੋਸੇਯੋਗ, ਸਵੈਚਾਲਿਤ ਤਾਇਨਾਤੀ ਲਈ ਲੋੜੀਂਦੇ 80% ਸ਼ੁੱਧਤਾ ਦੇ ਮਾਪਦੰਡ ਤੋਂ ਘੱਟ ਸੀ।
Open-Weight ਮਾਡਲਾਂ ਦੀ Fine-Tuning: ਕੁਸ਼ਲਤਾ ਵਿੱਚ ਇੱਕ ਵੱਡੀ ਸਫਲਤਾ
ਇਹ ਅਧਿਐਨ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਪੇਸ਼ੇਵਰ-ਦਰਜੇ ਦੀ AI ਤੱਕ ਪਹੁੰਚਣ ਦਾ ਰਸਤਾ ਜ਼ਰੂਰੀ ਨਹੀਂ ਕਿ ਵੱਡੇ ਅਤੇ ਮਹਿੰਗੇ ਪ੍ਰੋਪਰਾਈਟਰੀ (proprietary) ਮਾਡਲਾਂ ਰਾਹੀਂ ਹੋਵੇ, ਸਗੋਂ ਪ੍ਰੋਪਰਾਈਟਰੀ ਮੁਹਾਰਤ 'ਤੇ open-weight ਮਾਡਲਾਂ ਦੀ fine-tuning ਰਾਹੀਂ ਹੋ ਸਕਦਾ ਹੈ। OpenAI ਦੀ ਸਾਬਕਾ CTO Mira Murati ਦੁਆਰਾ ਸਥਾਪਿਤ Thinking Machines Lab ਨੇ Qwen3-235B 'ਤੇ ਅਧਾਰਤ ਇੱਕ ਮਾਡਲ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਆਪਣੇ Tinker ਪਲੇਟਫਾਰਮ ਦੀ ਵਰਤੋਂ ਕੀਤੀ।
ਨਤੀਜੇ ਬਹੁਤ ਸਪੱਸ਼ਟ ਸਨ। Fine-tuned ਮਾਡਲ ਨੇ 84.7% ਸ਼ੁੱਧਤਾ ਪ੍ਰਾਪਤ ਕੀਤੀ, ਜੋ ਟੈਸਟ ਕੀਤੇ ਗਏ ਸਭ ਤੋਂ ਵਧੀਆ ਫਰੰਟੀਅਰ ਮਾਡਲ (78.2%) ਨਾਲੋਂ ਬਿਹਤਰ ਸੀ, ਜਦੋਂ ਕਿ ਇਸ ਨੂੰ ਚਲਾਉਣ ਦੀ ਲਾਗਤ ਲਗਭਗ 14 ਗੁਣਾ ਘੱਟ ਸੀ। ਇਹ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਆਰਥਿਕ ਸੱਚਾਈ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ: GPT-5.4 ਵਰਗੇ ਨਵੇਂ ਅਤੇ ਵੱਡੇ ਮਾਡਲ ਘਟਦੇ ਹੋਏ ਲਾਭ (diminishing returns) ਦਿੰਦੇ ਹਨ, ਜੋ ਅਕਸਰ ਸ਼ੁੱਧਤਾ ਵਿੱਚ ਮਾਮੂਲੀ ਸੁਧਾਰ ਲਈ ਕਾਫ਼ੀ ਜ਼ਿਆਦਾ ਲਾਗਤ ਪਾਉਂਦੇ ਹਨ।
ਪ੍ਰੋਪਰਾਈਟਰੀ ਡੇਟਾ ਅਤੇ ਮਨੁੱਖੀ ਫੀਡਬੈਕ ਦੀ ਸ਼ਕਤੀ
ਇਸ ਵਿਕਾਸ ਤੋਂ ਇੱਕ ਮੁੱਖ ਤਕਨੀਕੀ ਸਿੱਖਿਆ ਉਹ ਵਿਧੀ ਹੈ ਜੋ ਮਨੁੱਖੀ ਮੁਹਾਰਤ ਨੂੰ ਵਧਾਉਣ ਲਈ ਵਰਤੀ ਗਈ ਸੀ। ਮਹਿੰਗੇ ਨਿਵੇਸ਼ਕਾਂ ਤੋਂ ਹਰ ਦਸਤਾਵੇਜ਼ ਨੂੰ ਲੇਬਲ ਕਰਵਾਉਣ ਦੀ ਬਜਾਏ, ਟੀਮ ਨੇ ਇੱਕ ਚਲਾਕ "ਅਸਹਿਮਤੀ" (disagreement) ਲੂਪ ਦੀ ਵਰਤੋਂ ਕੀਤੀ। ਇੱਕ ਮਾਡਲ ਨੇ ਪਹਿਲਾਂ ਸ਼ੁਰੂਆਤੀ ਲੇਬਲਾਂ ਤੋਂ ਸਿੱਖਿਆ; ਜਦੋਂ ਮਾਡਲ ਦਾ ਮੁਲਾਂਕਣ ਅਸਲ ਲੇਬਲ ਨਾਲ ਮੇਲ ਨਹੀਂ ਖਾਂਦਾ ਸੀ, ਤਾਂ ਉਸ ਖਾਸ ਮਾਮਲੇ ਨੂੰ ਮਨੁੱਖੀ ਸਮੀਖਿਆ ਲਈ ਫਲੈਗ ਕੀਤਾ ਗਿਆ ਸੀ। ਇਸ ਨੇ ਇਹ ਯਕੀਨੀ ਬਣਾਇਆ ਕਿ ਮਹੱਤਵਪੂਰਨ ਨਿਵੇਸ਼ਕ ਦਾ ਸਮਾਂ ਸਿਰਫ਼ ਅਸਲ ਗਲਤੀਆਂ ਨੂੰ ਸੁਧਾਰਨ ਲਈ ਵਰਤਿਆ ਜਾਵੇ, ਜਿਸ ਨਾਲ fine-tuning ਲਈ ਇੱਕ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲਾ ਡੇਟਾ ਸੈੱਟ ਤਿਆਰ ਹੋਇਆ।
ਇਹ ਪਹੁੰਚ "ਡਾਟਾ ਮੋਟ" (data moat) ਦੀ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰਦੀ ਹੈ। ਹਾਲਾਂਕਿ ਵੱਡੀਆਂ ਲੈਬਾਂ ਨੇ ਜਨਤਕ ਇੰਟਰਨੈਟ ਦਾ ਬਹੁਤ ਸਾਰਾ ਹਿੱਸਾ ਸਕ੍ਰੈਪ (scrape) ਕਰ ਲਿਆ ਹੈ, ਪਰ ਉਹ ਵਿੱਤ ਪੇਸ਼ੇਵਰਾਂ ਦੇ ਦਿਮਾਗ ਵਿੱਚ ਮੌਜੂਦ ਨਿੱਜੀ ਅਤੇ ਬਾਰੀਕ ਫੈਸਲੇ ਲੈਣ ਦੀ ਸਮਰੱਥਾ ਤੱਕ ਪਹੁੰਚ ਨਹੀਂ ਰੱਖਦੇ। Open-weight ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ, ਕੰਪਨੀਆਂ ਆਪਣੇ ਪ੍ਰੋਪਰਾਈਟਰੀ ਡੇਟਾ, ਆਪਣੇ ਵੇਟਸ (weights) ਅਤੇ ਆਪਣੇ ਮੁਕਾਬਲੇਬਾਜ਼ੀ ਦੇ ਫਾਇਦਿਆਂ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਆਪਣੇ ਅੰਦਰ ਹੀ ਰੱਖ ਸਕਦੀਆਂ ਹਨ।
ਮੁੱਖ ਨੁਕਤੇ
- ਫਰੰਟੀਅਰ ਦੀਆਂ ਸੀਮਾਵਾਂ: ਆਮ ਉਦੇਸ਼ਾਂ ਵਾਲੇ LLMs ਵਿਸ਼ੇਸ਼ ਵਿੱਤੀ ਟ੍ਰਾਇਜ (financial triage) ਨਾਲ ਸੰਘਰਸ਼ ਕਰਦੇ ਹਨ, ਅਤੇ ਅਕਸਰ ਪੇਸ਼ੇਵਰ ਵਰਤੋਂ ਲਈ ਲੋੜੀਂਦੇ 80% ਸ਼ੁੱਧਤਾ ਦੇ ਮਾਪਦੰਡ ਨੂੰ ਪੂਰਾ ਕਰਨ ਵਿੱਚ ਅਸਫਲ ਰਹਿੰਦੇ ਹਨ।
- Open-Weight ਮਾਡਲਾਂ ਰਾਹੀਂ ਕੁਸ਼ਲਤਾ: Fine-tuned ਮਾਡਲ, ਜਿਵੇਂ ਕਿ Qwen3-235B 'ਤੇ ਅਧਾਰਤ ਮਾਡਲ, ਕਾਰਜਸ਼ੀਲ ਲਾਗਤ ਦੇ ਇੱਕ ਛੋਟੇ ਹਿੱਸੇ 'ਤੇ ਪ੍ਰੋਪਰਾਈਟਰੀ ਦਿੱਗਜਾਂ ਨਾਲੋਂ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰ ਸਕਦੇ ਹਨ।
- ਨਿੱਜੀ ਡੇਟਾ ਦੀ ਕੀਮਤ: ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ AI ਲਾਭ ਹੁਣ ਪ੍ਰੋਪਰਾਈਟਰੀ, "ਅਣ-ਸਕ੍ਰੈਪ ਕੀਤੇ" (un-scraped) ਕਾਰਪੋਰੇਟ ਡੇਟਾ ਅਤੇ ਮਨੁੱਖੀ ਮਾਹਰਾਂ ਦੀ ਵਿਸ਼ੇਸ਼ ਫੈਸਲੇ ਲੈਣ ਦੀ ਸਮਰੱਥਾ ਵਿੱਚ ਹਨ।
