Why Frontier AI Models Fail Financial Triage Tests

Translated for your language. Read the original.

AI-assisted draft.

Why Frontier AI Models Fail Financial Triage Tests

In this article

ਫਰੰਟੀਅਰ AI ਮਾਡਲ ਵਿੱਤੀ ਟ੍ਰਾਇਜ (Financial Triage) ਟੈਸਟਾਂ ਵਿੱਚ ਕਿਉਂ ਅਸਫਲ ਰਹਿੰਦੇ ਹਨ

ਹਾਲਾਂਕਿ GPT-4 ਅਤੇ Claude ਵਰਗੇ ਵਿਸ਼ਾਲ LLMs ਆਮ ਬੈਂਚਮਾਰਕਸ 'ਤੇ ਹਾਵੀ ਹਨ, ਪਰ ਉਹ ਉੱਚ-ਜੋਖਮ ਵਾਲੇ ਵਿੱਤੀ ਮਾਹੌਲ ਵਿੱਚ ਲੋੜੀਂਦੇ ਬਾਰੀਕ ਫੈਸਲੇ ਲੈਣ ਦੀ ਸਮਰੱਥਾ ਰੱਖਣ ਵਿੱਚ ਸੰਘਰਸ਼ ਕਰ ਰਹੇ ਹਨ। Bridgewater ਦੇ AIA Labs ਅਤੇ Thinking Machines Lab ਦੀ ਇੱਕ ਨਵੀਂ ਰਿਪੋਰਟ ਤੋਂ ਪਤਾ ਲੱਗਦਾ ਹੈ ਕਿ ਦੁਨੀਆ ਦੇ ਸਭ ਤੋਂ ਉੱਨਤ ਮਾਡਲ ਵੀ ਪੇਸ਼ੇਵਰ ਨਿਵੇਸ਼ ਵਰਕਫਲੋਜ਼ (investment workflows) ਲਈ ਲੋੜੀਂਦੇ ਸ਼ੁੱਧਤਾ ਦੇ ਮਾਪਦੰਡਾਂ ਨੂੰ ਪੂਰਾ ਕਰਨ ਵਿੱਚ ਅਸਫਲ ਰਹਿੰਦੇ ਹਨ।

ਆਮ ਬੁੱਧੀ ਅਤੇ ਵਿੱਤੀ ਫੈਸਲੇ ਲੈਣ ਦੀ ਸਮਰੱਥਾ ਵਿਚਕਾਰ ਪਾੜਾ

ਵਿੱਤ ਵਿੱਚ ਮੁੱਖ ਚੁਣੌਤੀ ਸਿਰਫ਼ ਡੇਟਾ ਪੜ੍ਹਨਾ ਨਹੀਂ ਹੈ; ਇਹ "ਟ੍ਰਾਇਜ" (triage) ਦੀ ਲਗਾਤਾਰ ਪ੍ਰਕਿਰਿਆ ਹੈ—ਇਹ ਫੈਸਲਾ ਕਰਨਾ ਕਿ ਕਿਹੜੀ ਜਾਣਕਾਰੀ ਅਸਲ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਹੈ। ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਇੱਕ ਨਿਵੇਸ਼ਕ ਦੀ ਰੋਜ਼ਾਨਾ ਰੁਟੀਨ ਦੇ ਅਧਾਰ 'ਤੇ ਛੇ ਮਹੱਤਵਪੂਰਨ ਕਾਰਜਾਂ ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕੀਤਾ, ਜਿਵੇਂ ਕਿ ਇਹ ਪਤਾ ਲਗਾਉਣਾ ਕਿ ਕੀ ਕੇਂਦਰੀ ਬੈਂਕ ਦਾ ਦਸਤਾਵੇਜ਼ ਵਿਆਜ ਦਰਾਂ ਵਿੱਚ ਬਦਲਾਅ ਦਾ ਸੰਕੇਤ ਦਿੰਦਾ ਹੈ ਜਾਂ ਕੀ ਕੋਈ ਖ਼ਬਰ ਕਿਸੇ ਖਾਸ ਕਾਰਜਕਾਰੀ (executive) ਲਈ ਪ੍ਰਸੰਗਿਕ ਹੈ।

ਇਹਨਾਂ ਟੈਸਟਾਂ ਵਿੱਚ, Gemini, Claude, ਅਤੇ GPT ਵੇਰੀਐਂਟਸ ਵਰਗੇ ਫਰੰਟੀਅਰ ਮਾਡਲਾਂ ਨੇ ਬੇਸਿਕ ਪ੍ਰੋਂਪਟਿੰਗ (prompting) ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਸਮੇਂ ਸਿਰਫ਼ ਲਗਭਗ 50% ਸ਼ੁੱਧਤਾ ਪ੍ਰਾਪਤ ਕੀਤੀ। ਇੱਥੋਂ ਤੱਕ ਕਿ ਜਦੋਂ ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਮਾਹਰਾਂ ਦੁਆਰਾ ਲਿਖੀਆਂ ਹਦਾਇਤਾਂ ਅਤੇ ਇੱਕ ਉੱਨਤ ਤਿੰਨ-ਦਰਜਾ ਰੇਟਿੰਗ ਪ੍ਰਣਾਲੀ ਦੀ ਵਰਤੋਂ ਕੀਤੀ—ਜਿਸ ਵਿੱਚ ਜਾਣਕਾਰੀ ਨੂੰ "ਪ੍ਰਸੰਗਿਕ ਅਤੇ ਦਿਲਚਸਪ," "ਪ੍ਰਸੰਗਿਕ ਪਰ ਦਿਲਚਸਪ ਨਹੀਂ," ਜਾਂ "ਗੈਰ-ਪ੍ਰਸੰਗਿਕ" ਵਜੋਂ ਸ਼੍ਰੇਣੀਬੱਧ ਕੀਤਾ ਗਿਆ ਸੀ—ਤਾਂ ਸ਼ੁੱਧਤਾ ਵਧ ਕੇ ਸਿਰਫ਼ 70 ਦੇ ਵਿਚਕਾਰ ਹੀ ਪਹੁੰਚ ਸਕੀ। ਇਹ ਇੱਕ ਹੈਜ ਫੰਡ (hedge fund) ਦੇ ਮਾਹੌਲ ਵਿੱਚ ਭਰੋਸੇਯੋਗ, ਸਵੈਚਾਲਿਤ ਤਾਇਨਾਤੀ ਲਈ ਲੋੜੀਂਦੇ 80% ਸ਼ੁੱਧਤਾ ਦੇ ਮਾਪਦੰਡ ਤੋਂ ਘੱਟ ਸੀ।

Open-Weight ਮਾਡਲਾਂ ਦੀ Fine-Tuning: ਕੁਸ਼ਲਤਾ ਵਿੱਚ ਇੱਕ ਵੱਡੀ ਸਫਲਤਾ

ਇਹ ਅਧਿਐਨ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਪੇਸ਼ੇਵਰ-ਦਰਜੇ ਦੀ AI ਤੱਕ ਪਹੁੰਚਣ ਦਾ ਰਸਤਾ ਜ਼ਰੂਰੀ ਨਹੀਂ ਕਿ ਵੱਡੇ ਅਤੇ ਮਹਿੰਗੇ ਪ੍ਰੋਪਰਾਈਟਰੀ (proprietary) ਮਾਡਲਾਂ ਰਾਹੀਂ ਹੋਵੇ, ਸਗੋਂ ਪ੍ਰੋਪਰਾਈਟਰੀ ਮੁਹਾਰਤ 'ਤੇ open-weight ਮਾਡਲਾਂ ਦੀ fine-tuning ਰਾਹੀਂ ਹੋ ਸਕਦਾ ਹੈ। OpenAI ਦੀ ਸਾਬਕਾ CTO Mira Murati ਦੁਆਰਾ ਸਥਾਪਿਤ Thinking Machines Lab ਨੇ Qwen3-235B 'ਤੇ ਅਧਾਰਤ ਇੱਕ ਮਾਡਲ ਨੂੰ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਆਪਣੇ Tinker ਪਲੇਟਫਾਰਮ ਦੀ ਵਰਤੋਂ ਕੀਤੀ।

ਨਤੀਜੇ ਬਹੁਤ ਸਪੱਸ਼ਟ ਸਨ। Fine-tuned ਮਾਡਲ ਨੇ 84.7% ਸ਼ੁੱਧਤਾ ਪ੍ਰਾਪਤ ਕੀਤੀ, ਜੋ ਟੈਸਟ ਕੀਤੇ ਗਏ ਸਭ ਤੋਂ ਵਧੀਆ ਫਰੰਟੀਅਰ ਮਾਡਲ (78.2%) ਨਾਲੋਂ ਬਿਹਤਰ ਸੀ, ਜਦੋਂ ਕਿ ਇਸ ਨੂੰ ਚਲਾਉਣ ਦੀ ਲਾਗਤ ਲਗਭਗ 14 ਗੁਣਾ ਘੱਟ ਸੀ। ਇਹ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਆਰਥਿਕ ਸੱਚਾਈ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ: GPT-5.4 ਵਰਗੇ ਨਵੇਂ ਅਤੇ ਵੱਡੇ ਮਾਡਲ ਘਟਦੇ ਹੋਏ ਲਾਭ (diminishing returns) ਦਿੰਦੇ ਹਨ, ਜੋ ਅਕਸਰ ਸ਼ੁੱਧਤਾ ਵਿੱਚ ਮਾਮੂਲੀ ਸੁਧਾਰ ਲਈ ਕਾਫ਼ੀ ਜ਼ਿਆਦਾ ਲਾਗਤ ਪਾਉਂਦੇ ਹਨ।

ਪ੍ਰੋਪਰਾਈਟਰੀ ਡੇਟਾ ਅਤੇ ਮਨੁੱਖੀ ਫੀਡਬੈਕ ਦੀ ਸ਼ਕਤੀ

ਇਸ ਵਿਕਾਸ ਤੋਂ ਇੱਕ ਮੁੱਖ ਤਕਨੀਕੀ ਸਿੱਖਿਆ ਉਹ ਵਿਧੀ ਹੈ ਜੋ ਮਨੁੱਖੀ ਮੁਹਾਰਤ ਨੂੰ ਵਧਾਉਣ ਲਈ ਵਰਤੀ ਗਈ ਸੀ। ਮਹਿੰਗੇ ਨਿਵੇਸ਼ਕਾਂ ਤੋਂ ਹਰ ਦਸਤਾਵੇਜ਼ ਨੂੰ ਲੇਬਲ ਕਰਵਾਉਣ ਦੀ ਬਜਾਏ, ਟੀਮ ਨੇ ਇੱਕ ਚਲਾਕ "ਅਸਹਿਮਤੀ" (disagreement) ਲੂਪ ਦੀ ਵਰਤੋਂ ਕੀਤੀ। ਇੱਕ ਮਾਡਲ ਨੇ ਪਹਿਲਾਂ ਸ਼ੁਰੂਆਤੀ ਲੇਬਲਾਂ ਤੋਂ ਸਿੱਖਿਆ; ਜਦੋਂ ਮਾਡਲ ਦਾ ਮੁਲਾਂਕਣ ਅਸਲ ਲੇਬਲ ਨਾਲ ਮੇਲ ਨਹੀਂ ਖਾਂਦਾ ਸੀ, ਤਾਂ ਉਸ ਖਾਸ ਮਾਮਲੇ ਨੂੰ ਮਨੁੱਖੀ ਸਮੀਖਿਆ ਲਈ ਫਲੈਗ ਕੀਤਾ ਗਿਆ ਸੀ। ਇਸ ਨੇ ਇਹ ਯਕੀਨੀ ਬਣਾਇਆ ਕਿ ਮਹੱਤਵਪੂਰਨ ਨਿਵੇਸ਼ਕ ਦਾ ਸਮਾਂ ਸਿਰਫ਼ ਅਸਲ ਗਲਤੀਆਂ ਨੂੰ ਸੁਧਾਰਨ ਲਈ ਵਰਤਿਆ ਜਾਵੇ, ਜਿਸ ਨਾਲ fine-tuning ਲਈ ਇੱਕ ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲਾ ਡੇਟਾ ਸੈੱਟ ਤਿਆਰ ਹੋਇਆ।

ਇਹ ਪਹੁੰਚ "ਡਾਟਾ ਮੋਟ" (data moat) ਦੀ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰਦੀ ਹੈ। ਹਾਲਾਂਕਿ ਵੱਡੀਆਂ ਲੈਬਾਂ ਨੇ ਜਨਤਕ ਇੰਟਰਨੈਟ ਦਾ ਬਹੁਤ ਸਾਰਾ ਹਿੱਸਾ ਸਕ੍ਰੈਪ (scrape) ਕਰ ਲਿਆ ਹੈ, ਪਰ ਉਹ ਵਿੱਤ ਪੇਸ਼ੇਵਰਾਂ ਦੇ ਦਿਮਾਗ ਵਿੱਚ ਮੌਜੂਦ ਨਿੱਜੀ ਅਤੇ ਬਾਰੀਕ ਫੈਸਲੇ ਲੈਣ ਦੀ ਸਮਰੱਥਾ ਤੱਕ ਪਹੁੰਚ ਨਹੀਂ ਰੱਖਦੇ। Open-weight ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ, ਕੰਪਨੀਆਂ ਆਪਣੇ ਪ੍ਰੋਪਰਾਈਟਰੀ ਡੇਟਾ, ਆਪਣੇ ਵੇਟਸ (weights) ਅਤੇ ਆਪਣੇ ਮੁਕਾਬਲੇਬਾਜ਼ੀ ਦੇ ਫਾਇਦਿਆਂ ਨੂੰ ਪੂਰੀ ਤਰ੍ਹਾਂ ਆਪਣੇ ਅੰਦਰ ਹੀ ਰੱਖ ਸਕਦੀਆਂ ਹਨ।

ਮੁੱਖ ਨੁਕਤੇ

ਫਰੰਟੀਅਰ ਦੀਆਂ ਸੀਮਾਵਾਂ: ਆਮ ਉਦੇਸ਼ਾਂ ਵਾਲੇ LLMs ਵਿਸ਼ੇਸ਼ ਵਿੱਤੀ ਟ੍ਰਾਇਜ (financial triage) ਨਾਲ ਸੰਘਰਸ਼ ਕਰਦੇ ਹਨ, ਅਤੇ ਅਕਸਰ ਪੇਸ਼ੇਵਰ ਵਰਤੋਂ ਲਈ ਲੋੜੀਂਦੇ 80% ਸ਼ੁੱਧਤਾ ਦੇ ਮਾਪਦੰਡ ਨੂੰ ਪੂਰਾ ਕਰਨ ਵਿੱਚ ਅਸਫਲ ਰਹਿੰਦੇ ਹਨ।
Open-Weight ਮਾਡਲਾਂ ਰਾਹੀਂ ਕੁਸ਼ਲਤਾ: Fine-tuned ਮਾਡਲ, ਜਿਵੇਂ ਕਿ Qwen3-235B 'ਤੇ ਅਧਾਰਤ ਮਾਡਲ, ਕਾਰਜਸ਼ੀਲ ਲਾਗਤ ਦੇ ਇੱਕ ਛੋਟੇ ਹਿੱਸੇ 'ਤੇ ਪ੍ਰੋਪਰਾਈਟਰੀ ਦਿੱਗਜਾਂ ਨਾਲੋਂ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕਰ ਸਕਦੇ ਹਨ।
ਨਿੱਜੀ ਡੇਟਾ ਦੀ ਕੀਮਤ: ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ AI ਲਾਭ ਹੁਣ ਪ੍ਰੋਪਰਾਈਟਰੀ, "ਅਣ-ਸਕ੍ਰੈਪ ਕੀਤੇ" (un-scraped) ਕਾਰਪੋਰੇਟ ਡੇਟਾ ਅਤੇ ਮਨੁੱਖੀ ਮਾਹਰਾਂ ਦੀ ਵਿਸ਼ੇਸ਼ ਫੈਸਲੇ ਲੈਣ ਦੀ ਸਮਰੱਥਾ ਵਿੱਚ ਹਨ।

Why Frontier AI Models Fail Financial Triage Tests

ਫਰੰਟੀਅਰ AI ਮਾਡਲ ਵਿੱਤੀ ਟ੍ਰਾਇਜ (Financial Triage) ਟੈਸਟਾਂ ਵਿੱਚ ਕਿਉਂ ਅਸਫਲ ਰਹਿੰਦੇ ਹਨ

ਆਮ ਬੁੱਧੀ ਅਤੇ ਵਿੱਤੀ ਫੈਸਲੇ ਲੈਣ ਦੀ ਸਮਰੱਥਾ ਵਿਚਕਾਰ ਪਾੜਾ

Open-Weight ਮਾਡਲਾਂ ਦੀ Fine-Tuning: ਕੁਸ਼ਲਤਾ ਵਿੱਚ ਇੱਕ ਵੱਡੀ ਸਫਲਤਾ

ਪ੍ਰੋਪਰਾਈਟਰੀ ਡੇਟਾ ਅਤੇ ਮਨੁੱਖੀ ਫੀਡਬੈਕ ਦੀ ਸ਼ਕਤੀ

ਮੁੱਖ ਨੁਕਤੇ

Continue reading

𝗔𝗜 𝗗𝗼𝗲𝘀 𝗡𝗼𝘁 𝗥𝗲𝗽𝗹𝗮𝗰𝗲 𝗝𝘂𝗱𝗴𝗺𝗲𝗻𝘁

ਨਵਾਂ AA Briefcase ਬੈਂਚਮਾਰਕ ਅਸਲ ਗਿਆਨ-ਅਧਾਰਤ ਕੰਮ ਵਿੱਚ AI ਦੇ ਸੰਘਰਸ਼ ਦਾ ਖੁਲਾਸਾ ਕਰਦਾ ਹੈ

Fine Tuning AI Models Is No Longer Just for ML Engineers

OpenAI's GPT 5.6 Sol Caught Cheating in Software Benchmarks

Why Standard AI Benchmarks Systematically Underestimate Agent Capabilities