Frontier Quality Coding at Cheap Tier Cost

Translated for your language. Read the original.

AI-assisted draft.

Frontier Quality Coding at Cheap Tier Cost

ਸਸਤੇ ਪੱਧਰ ਦੀ ਲਾਗਤ 'ਤੇ ਫਰੰਟੀਅਰ-ਗੁਣਵੱਤਾ ਵਾਲੀ ਕੋਡਿੰਗ

ਤੁਸੀਂ ਬਹੁਤ ਹੀ ਘੱਟ ਲਾਗਤ 'ਤੇ ਫਰੰਟੀਅਰ-ਗੁਣਵੱਤਾ ਵਾਲੇ ਕੋਡਿੰਗ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦੇ ਹੋ।

ਅਸੀਂ ਇੱਕ ਅਜਿਹਾ ਸਿਸਟਮ ਬਣਾਇਆ ਹੈ ਜੋ ਜ਼ਿਆਦਾਤਰ ਕੰਮਾਂ ਲਈ ਇੱਕ ਸਸਤੇ ਲੋਕਲ ਮਾਡਲ (local model) ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਹ ਸਿਰਫ਼ ਔਖੇ ਸਵਾਲਾਂ ਨੂੰ ਹੀ ਫਰੰਟੀਅਰ ਮਾਡਲ (frontier model) ਕੋਲ ਭੇਜਦਾ ਹੈ। ਇਹ ਤਰੀਕਾ ਸਿਰਫ਼ ਮਾਡਲ ਦੇ ਆਕਾਰ ਕਰਕੇ ਨਹੀਂ, ਸਗੋਂ ਇਸਦੀ ਬਣਤਰ (structure) ਕਰਕੇ ਕੰਮ ਕਰਦਾ ਹੈ।

ਆਰਕੀਟੈਕਚਰ ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ:

ਦੋ ਚੈਨਲ: ਇੱਕ ਸਮਰੱਥਾ ਚੈਨਲ (ਸਸਤਾ ਲੋਕਲ ਮਾਡਲ) ਅਤੇ ਇੱਕ ਬਣਤਰ ਚੈਨਲ (ਵੈਰੀਫਿਕੇਸ਼ਨ ਗੇਟਸ)।
ਵੈਰੀਫਿਕੇਸ਼ਨ: ਗਾਰਡਸ (Guards) ਇਹ ਫੈਸਲਾ ਕਰਦੇ ਹਨ ਕਿ ਕੀ ਕੋਈ ਉੱਤਰ ਭਰੋਸੇਯੋਗ ਹੈ।
ਐਸਕਲੇਸ਼ਨ (Escalation): ਜੇਕਰ ਗਾਰਡਸ ਫੇਲ ਹੋ ਜਾਂਦੇ ਹਨ, ਤਾਂ ਸਿਸਟਮ ਰਿਕਵੈਸਟ ਨੂੰ ਫਰੰਟੀਅਰ ਮਾਡਲ ਕੋਲ ਭੇਜ ਦਿੰਦਾ ਹੈ।
ਕੈਸ਼ (Cache): ਇੱਕ ਕੈਸ਼ ਲੇਅਰ ਬਿਲਕੁਲ ਇੱਕੋ ਜਿਹੇ ਸਵਾਲਾਂ ਨੂੰ ਦੁਬਾਰਾ ਹੱਲ ਕਰਨ ਤੋਂ ਰੋਕਦੀ ਹੈ।

ਸਾਡੇ HumanEval+ ਟੈਸਟਾਂ ਦੇ ਨਤੀਜੇ:

ਫੁੱਲ ਕੈਸਕੇਡ ਸਕੋਰ: 94.5% ਪਲੱਸ ਕੋਰੈਕਟਨੈੱਸ (correctness)।
ਲੋਕਲ ਮਾਡਲ ਸੋਲੋ ਸਕੋਰ: 84.8% ਪਲੱਸ ਕੋਰੈਕਟਨੈੱਸ।
ਬਣਤਰ ਚੈਨਲ ਲਗਭਗ 10 ਅੰਕਾਂ ਦੀ ਸ਼ੁੱਧਤਾ (accuracy) ਵਧਾਉਂਦਾ ਹੈ।

ਅਸੀਂ ਇੱਕ ਐਬਲੇਸ਼ਨ ਸਟੱਡੀ (ablation study) ਰਾਹੀਂ ਬਣਤਰ ਦੀ ਮਹੱਤਤਾ ਦੀ ਜਾਂਚ ਕੀਤੀ:

ਪੂਰਾ ਸਿਸਟਮ: 100% ਸਹੀ।
ਵੈਰੀਫਿਕੇਸ਼ਨ ਹਟਾਉਣ 'ਤੇ: 75% ਸਹੀ।
ਗਾਰਡਸ ਹਟਾਉਣ 'ਤੇ: 50% ਸਹੀ।

ਜਦੋਂ ਤੁਸੀਂ ਗਾਰਡਸ ਨੂੰ ਹਟਾ ਦਿੰਦੇ ਹੋ, ਤਾਂ ਸ਼ੁੱਧਤਾ ਅੱਧੀ ਰਹਿ ਜਾਂਦੀ ਹੈ। ਇਹ ਸਾਬਤ ਕਰਦਾ ਹੈ ਕਿ ਭਰੋਸੇਯੋਗਤਾ ਇਸਦੀ ਬਣਤਰ ਵਿੱਚ ਹੈ।

ਲਾਗਤ ਦੇ ਫਾਇਦੇ:

ਮਿਸ਼ਰਤ ਲਾਗਤ: $0.00201 ਪ੍ਰਤੀ ਰਿਕਵੈਸਟ।
ਫਰੰਟੀਅਰ ਲਾਗਤ: $0.017 ਪ੍ਰਤੀ ਰਿਕਵੈਸਟ।
ਸਾਡਾ ਸਿਸਟਮ ਹਰ ਰਿਕਵੈਸਟ ਲਈ ਫਰੰਟੀਅਰ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰਨ ਨਾਲੋਂ ਲਗਭਗ 8 ਗੁਣਾ ਸਸਤਾ ਹੈ।
91% ਰਿਕਵੈਸਟਾਂ ਲੋਕਲ ਮਾਡਲ ਦੁਆਰਾ ਪੂਰੀਆਂ ਕੀਤੀਆਂ ਜਾਂਦੀਆਂ ਹਨ।

ਲੌਂਗ ਕੰਟੈਕਸਟ (long context) ਬਾਰੇ ਇੱਕ ਨੋਟ:

ਸਾਡੀ ਕੰਪੈਕਸ਼ਨ ਲੇਅਰ (compaction layer) ਰੌਅ ਕੰਟੈਕਸਟ (raw context) ਦੇ 28,000 ਟੋਕਨਾਂ ਦੇ ਮੁਕਾਬਲੇ ਸਿਰਫ਼ 165 ਟੋਕਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੀ ਹੈ। ਇਹ ਕੁਸ਼ਲਤਾ ਵਿੱਚ ਇੱਕ ਵੱਡਾ ਵਾਧਾ ਹੈ। ਅਸੀਂ 208k ਟੋਕਨਾਂ 'ਤੇ ਇੱਕ ਇਨਫਰਾਸਟ੍ਰਕਚਰ ਸੀਮਾ (infrastructure limit) 'ਤੇ ਪਹੁੰਚ ਗਏ, ਪਰ ਇਹ ਇੱਕ ਸੈਟਿੰਗ ਹੈ, ਮਾਡਲ ਦੀ ਅਸਫਲਤਾ ਨਹੀਂ।

ਅਸੀਂ ਅਜੇ ਤੱਕ ਕੀ ਸਾਬਤ ਨਹੀਂ ਕੀਤਾ ਹੈ:

ਸਾਡੇ ਕੋਲ ਅਧਿਕਾਰਤ ਲੌਂਗ-ਹੋਰਾਈਜ਼ਨ ਬੈਂਚਮਾਰਕ (long-horizon benchmark) ਅੰਕੜੇ ਨਹੀਂ ਹਨ। ਅਸੀਂ RULER ਅਤੇ SWE-bench ਲਈ ਰਨਰ (runners) ਬਣਾਏ ਹਨ, ਪਰ ਅਸੀਂ ਉਹਨਾਂ ਨੂੰ ਕਿਸੇ ਸਾਫ਼ ਸੈਂਡਬਾਕਸ (sandbox) ਵਿੱਚ ਨਹੀਂ ਚਲਾਇਆ ਹੈ। ਅਸੀਂ ਅਜੇ ਤੱਕ ਲੌਂਗ-ਹੋਰਾਈਜ਼ਨ ਪ੍ਰਦਰਸ਼ਨ ਲਈ ਅਧਿਕਾਰਤ ਨਤੀਜਿਆਂ ਦਾ ਦਾਅਵਾ ਨਹੀਂ ਕਰ ਰਹੇ ਹਾਂ।

ਸਾਡੇ ਦਾਅਵੇ ਦਾ ਸਾਰ:

ਸਾਡਾ ਸਿਸਟਮ ਸਸਤੇ ਲੋਕਲ ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਫਰੰਟੀਅਰ ਕੋਡਿੰਗ ਸਕੋਰਾਂ ਦੇ ਬਰਾਬਰ ਹੈ। ਇਹ ਲਾਗਤ ਨੂੰ 8 ਗੁਣਾ ਘਟਾਉਂਦਾ ਹੈ। ਭਰੋਸੇਯੋਗਤਾ ਸਾਡੇ ਬਣਤਰ ਚੈਨਲ (structure channel) ਤੋਂ ਆਉਂਦੀ ਹੈ।

ਸਰੋਤ: https://dev.to/tom_jones_230c4659491adcd/frontier-quality-coding-at-cheap-tier-cost-what-we-built-and-how-we-measured-it-3g2j

ਵਿਕਲਪਿਕ ਲਰਨਿੰਗ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi

Frontier Quality Coding at Cheap Tier Cost

Continue reading

𝗔𝗴𝗲𝗻𝘁 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲 𝗜𝘀 𝗔 𝗖𝗼𝗺𝗽𝘂𝘁𝗲 𝗔𝗹𝗹𝗼𝗰𝗮𝘁𝗶𝗼𝗻 𝗣𝗿𝗼𝗯𝗹𝗲𝗺

ਟਾਇਰਡ AI ਕੋਡ ਰਿਵਿਊ: AI ਦੁਆਰਾ ਤਿਆਰ ਕੀਤੇ ਗਏ PRs ਲਈ ਇੱਕ ਫਰੇਮਵਰਕ

Verification Cost Is The Real AI Coding Cost

A Verification Ladder for Low Cost AI Coding Models