ਸਸਤੇ ਪੱਧਰ ਦੀ ਲਾਗਤ 'ਤੇ ਫਰੰਟੀਅਰ-ਗੁਣਵੱਤਾ ਵਾਲੀ ਕੋਡਿੰਗ

ਤੁਸੀਂ ਬਹੁਤ ਹੀ ਘੱਟ ਲਾਗਤ 'ਤੇ ਫਰੰਟੀਅਰ-ਗੁਣਵੱਤਾ ਵਾਲੇ ਕੋਡਿੰਗ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦੇ ਹੋ।

ਅਸੀਂ ਇੱਕ ਅਜਿਹਾ ਸਿਸਟਮ ਬਣਾਇਆ ਹੈ ਜੋ ਜ਼ਿਆਦਾਤਰ ਕੰਮਾਂ ਲਈ ਇੱਕ ਸਸਤੇ ਲੋਕਲ ਮਾਡਲ (local model) ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਹ ਸਿਰਫ਼ ਔਖੇ ਸਵਾਲਾਂ ਨੂੰ ਹੀ ਫਰੰਟੀਅਰ ਮਾਡਲ (frontier model) ਕੋਲ ਭੇਜਦਾ ਹੈ। ਇਹ ਤਰੀਕਾ ਸਿਰਫ਼ ਮਾਡਲ ਦੇ ਆਕਾਰ ਕਰਕੇ ਨਹੀਂ, ਸਗੋਂ ਇਸਦੀ ਬਣਤਰ (structure) ਕਰਕੇ ਕੰਮ ਕਰਦਾ ਹੈ।

ਆਰਕੀਟੈਕਚਰ ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ:

  • ਦੋ ਚੈਨਲ: ਇੱਕ ਸਮਰੱਥਾ ਚੈਨਲ (ਸਸਤਾ ਲੋਕਲ ਮਾਡਲ) ਅਤੇ ਇੱਕ ਬਣਤਰ ਚੈਨਲ (ਵੈਰੀਫਿਕੇਸ਼ਨ ਗੇਟਸ)।
  • ਵੈਰੀਫਿਕੇਸ਼ਨ: ਗਾਰਡਸ (Guards) ਇਹ ਫੈਸਲਾ ਕਰਦੇ ਹਨ ਕਿ ਕੀ ਕੋਈ ਉੱਤਰ ਭਰੋਸੇਯੋਗ ਹੈ।
  • ਐਸਕਲੇਸ਼ਨ (Escalation): ਜੇਕਰ ਗਾਰਡਸ ਫੇਲ ਹੋ ਜਾਂਦੇ ਹਨ, ਤਾਂ ਸਿਸਟਮ ਰਿਕਵੈਸਟ ਨੂੰ ਫਰੰਟੀਅਰ ਮਾਡਲ ਕੋਲ ਭੇਜ ਦਿੰਦਾ ਹੈ।
  • ਕੈਸ਼ (Cache): ਇੱਕ ਕੈਸ਼ ਲੇਅਰ ਬਿਲਕੁਲ ਇੱਕੋ ਜਿਹੇ ਸਵਾਲਾਂ ਨੂੰ ਦੁਬਾਰਾ ਹੱਲ ਕਰਨ ਤੋਂ ਰੋਕਦੀ ਹੈ।

ਸਾਡੇ HumanEval+ ਟੈਸਟਾਂ ਦੇ ਨਤੀਜੇ:

  • ਫੁੱਲ ਕੈਸਕੇਡ ਸਕੋਰ: 94.5% ਪਲੱਸ ਕੋਰੈਕਟਨੈੱਸ (correctness)।
  • ਲੋਕਲ ਮਾਡਲ ਸੋਲੋ ਸਕੋਰ: 84.8% ਪਲੱਸ ਕੋਰੈਕਟਨੈੱਸ।
  • ਬਣਤਰ ਚੈਨਲ ਲਗਭਗ 10 ਅੰਕਾਂ ਦੀ ਸ਼ੁੱਧਤਾ (accuracy) ਵਧਾਉਂਦਾ ਹੈ।

ਅਸੀਂ ਇੱਕ ਐਬਲੇਸ਼ਨ ਸਟੱਡੀ (ablation study) ਰਾਹੀਂ ਬਣਤਰ ਦੀ ਮਹੱਤਤਾ ਦੀ ਜਾਂਚ ਕੀਤੀ:

  • ਪੂਰਾ ਸਿਸਟਮ: 100% ਸਹੀ।
  • ਵੈਰੀਫਿਕੇਸ਼ਨ ਹਟਾਉਣ 'ਤੇ: 75% ਸਹੀ।
  • ਗਾਰਡਸ ਹਟਾਉਣ 'ਤੇ: 50% ਸਹੀ।

ਜਦੋਂ ਤੁਸੀਂ ਗਾਰਡਸ ਨੂੰ ਹਟਾ ਦਿੰਦੇ ਹੋ, ਤਾਂ ਸ਼ੁੱਧਤਾ ਅੱਧੀ ਰਹਿ ਜਾਂਦੀ ਹੈ। ਇਹ ਸਾਬਤ ਕਰਦਾ ਹੈ ਕਿ ਭਰੋਸੇਯੋਗਤਾ ਇਸਦੀ ਬਣਤਰ ਵਿੱਚ ਹੈ।

ਲਾਗਤ ਦੇ ਫਾਇਦੇ:

  • ਮਿਸ਼ਰਤ ਲਾਗਤ: $0.00201 ਪ੍ਰਤੀ ਰਿਕਵੈਸਟ।
  • ਫਰੰਟੀਅਰ ਲਾਗਤ: $0.017 ਪ੍ਰਤੀ ਰਿਕਵੈਸਟ।
  • ਸਾਡਾ ਸਿਸਟਮ ਹਰ ਰਿਕਵੈਸਟ ਲਈ ਫਰੰਟੀਅਰ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰਨ ਨਾਲੋਂ ਲਗਭਗ 8 ਗੁਣਾ ਸਸਤਾ ਹੈ।
  • 91% ਰਿਕਵੈਸਟਾਂ ਲੋਕਲ ਮਾਡਲ ਦੁਆਰਾ ਪੂਰੀਆਂ ਕੀਤੀਆਂ ਜਾਂਦੀਆਂ ਹਨ।

ਲੌਂਗ ਕੰਟੈਕਸਟ (long context) ਬਾਰੇ ਇੱਕ ਨੋਟ:

ਸਾਡੀ ਕੰਪੈਕਸ਼ਨ ਲੇਅਰ (compaction layer) ਰੌਅ ਕੰਟੈਕਸਟ (raw context) ਦੇ 28,000 ਟੋਕਨਾਂ ਦੇ ਮੁਕਾਬਲੇ ਸਿਰਫ਼ 165 ਟੋਕਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੀ ਹੈ। ਇਹ ਕੁਸ਼ਲਤਾ ਵਿੱਚ ਇੱਕ ਵੱਡਾ ਵਾਧਾ ਹੈ। ਅਸੀਂ 208k ਟੋਕਨਾਂ 'ਤੇ ਇੱਕ ਇਨਫਰਾਸਟ੍ਰਕਚਰ ਸੀਮਾ (infrastructure limit) 'ਤੇ ਪਹੁੰਚ ਗਏ, ਪਰ ਇਹ ਇੱਕ ਸੈਟਿੰਗ ਹੈ, ਮਾਡਲ ਦੀ ਅਸਫਲਤਾ ਨਹੀਂ।

ਅਸੀਂ ਅਜੇ ਤੱਕ ਕੀ ਸਾਬਤ ਨਹੀਂ ਕੀਤਾ ਹੈ:

ਸਾਡੇ ਕੋਲ ਅਧਿਕਾਰਤ ਲੌਂਗ-ਹੋਰਾਈਜ਼ਨ ਬੈਂਚਮਾਰਕ (long-horizon benchmark) ਅੰਕੜੇ ਨਹੀਂ ਹਨ। ਅਸੀਂ RULER ਅਤੇ SWE-bench ਲਈ ਰਨਰ (runners) ਬਣਾਏ ਹਨ, ਪਰ ਅਸੀਂ ਉਹਨਾਂ ਨੂੰ ਕਿਸੇ ਸਾਫ਼ ਸੈਂਡਬਾਕਸ (sandbox) ਵਿੱਚ ਨਹੀਂ ਚਲਾਇਆ ਹੈ। ਅਸੀਂ ਅਜੇ ਤੱਕ ਲੌਂਗ-ਹੋਰਾਈਜ਼ਨ ਪ੍ਰਦਰਸ਼ਨ ਲਈ ਅਧਿਕਾਰਤ ਨਤੀਜਿਆਂ ਦਾ ਦਾਅਵਾ ਨਹੀਂ ਕਰ ਰਹੇ ਹਾਂ।

ਸਾਡੇ ਦਾਅਵੇ ਦਾ ਸਾਰ:

ਸਾਡਾ ਸਿਸਟਮ ਸਸਤੇ ਲੋਕਲ ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ ਫਰੰਟੀਅਰ ਕੋਡਿੰਗ ਸਕੋਰਾਂ ਦੇ ਬਰਾਬਰ ਹੈ। ਇਹ ਲਾਗਤ ਨੂੰ 8 ਗੁਣਾ ਘਟਾਉਂਦਾ ਹੈ। ਭਰੋਸੇਯੋਗਤਾ ਸਾਡੇ ਬਣਤਰ ਚੈਨਲ (structure channel) ਤੋਂ ਆਉਂਦੀ ਹੈ।

ਸਰੋਤ: https://dev.to/tom_jones_230c4659491adcd/frontier-quality-coding-at-cheap-tier-cost-what-we-built-and-how-we-measured-it-3g2j

ਵਿਕਲਪਿਕ ਲਰਨਿੰਗ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi