Microsoft's SkillOpt Boosts GPT 5.5 Performance via Markdown Optimization

Translated for your language. Read the original.

AI-assisted draft.

In this article

Microsoft ਦਾ SkillOpt Markdown Optimization ਰਾਹੀਂ GPT-5.5 ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਨੂੰ ਵਧਾਉਂਦਾ ਹੈ

Microsoft ਅਤੇ ਤਿੰਨ ਚੀਨੀ ਯੂਨੀਵਰਸਿਟੀਆਂ ਦੇ ਖੋਜਕਰਤਾਵਾਂ ਨੇ SkillOpt ਦਾ ਖੁਲਾਸਾ ਕੀਤਾ ਹੈ, ਜੋ ਕਿ ਇੱਕ ਕ੍ਰਾਂਤੀਕਾਰੀ ਵਿਧੀ ਹੈ ਜੋ ਨਿਰਦੇਸ਼ਾਤਮਕ Markdown ਫਾਈਲਾਂ ਨੂੰ ਸਿਖਲਾਈਯੋਗ (trainable) ਪੈਰਾਮੀਟਰਾਂ ਵਜੋਂ ਮੰਨਦੀ ਹੈ। ਇਹਨਾਂ "skill" ਦਸਤਾਵੇਜ਼ਾਂ ਨੂੰ ਅਨੁਕੂਲਿਤ (optimize) ਕਰਕੇ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਪ੍ਰਕਿਰਿਆਤਮਕ ਕੰਮਾਂ (procedural tasks) 'ਤੇ GPT-5.5 ਲਈ 23-ਅੰਕਾਂ ਦਾ ਵੱਡਾ ਪ੍ਰਦਰਸ਼ਨ ਵਾਧਾ ਹਾਸਲ ਕੀਤਾ ਹੈ।

ਟੈਕਸਟ ਨੂੰ ਸਿਖਲਾਈਯੋਗ ਵੇਟਸ (Trainable Weights) ਵਜੋਂ ਮੰਨਣਾ

ਮੌਜੂਦਾ AI ਲੈਂਡਸਕੇਪ ਵਿੱਚ, "skills"—ਮੋਡਿਊਲਰ ਨਿਰਦੇਸ਼ ਜੋ ਏਜੰਟਾਂ ਨੂੰ ਖਾਸ ਪ੍ਰਕਿਰਿਆਵਾਂ, ਟੂਲ-ਵਰਤੋਂ ਦੇ ਨਿਯਮਾਂ ਅਤੇ ਆਊਟਪੁੱਟ ਫਾਰਮੈਟਾਂ ਰਾਹੀਂ ਮਾਰਗਦਰਸ਼ਨ ਕਰਦੇ ਹਨ—ਉਦਯੋਗ ਦੇ ਮਿਆਰ ਬਣ ਰਹੇ ਹਨ। ਜਦੋਂ ਕਿ Anthropic ਵਰਗੀਆਂ ਕੰਪਨੀਆਂ Claude ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਇਹਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੀਆਂ ਹਨ, ਇਹ ਦਸਤਾਵੇਜ਼ ਰਵਾਇਤੀ ਤੌਰ 'ਤੇ ਮਨੁੱਖਾਂ ਦੁਆਰਾ ਲਿਖੇ ਜਾਂਦੇ ਹਨ ਜਾਂ ਇੱਕ LLM ਦੁਆਰਾ ਇੱਕ ਵਾਰ ਵਿੱਚ ਤਿਆਰ ਕੀਤੇ ਜਾਂਦੇ ਹਨ। ਕੋਈ ਵੀ ਵਿਧੀ ਇੱਕ ਅਸਲ ਆਪਟੀਮਾਈਜ਼ਰ (optimizer) ਵਜੋਂ ਕੰਮ ਨਹੀਂ ਕਰਦੀ।

SkillOpt ਇੱਕ ਫ੍ਰੋਜ਼ਨ (frozen) ਟਾਰਗੇਟ ਮਾਡਲ ਲਈ ਇੱਕ ਬਾਹਰੀ, ਸਿਖਲਾਈਯੋਗ ਸਟੇਟ ਵਜੋਂ Markdown ਫਾਈਲ ਨੂੰ ਵਰਤ ਕੇ ਇਸ ਪੈਰਾਡਾਈਮ ਨੂੰ ਬਦਲ ਦਿੰਦਾ ਹੈ। ਮਾਡਲ ਦੇ ਵੇਟਸ ਨੂੰ ਅਪਡੇਟ ਕਰਨ ਦੀ ਬਜਾਏ, ਇੱਕ ਦੂਜਾ "optimizer" ਭਾਸ਼ਾ ਮਾਡਲ ਵਾਰ-ਵਾਰ ਹੋਣ ਵਾਲੀਆਂ ਗਲਤੀਆਂ ਅਤੇ ਸਫਲਤਾਵਾਂ ਦੀ ਪਛਾਣ ਕਰਨ ਲਈ ਐਗਜ਼ੀਕਿਊਸ਼ਨ ਲੌਗਸ (execution logs) ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਦਾ ਹੈ। ਇਹ ਆਪਟੀਮਾਈਜ਼ਰ ਇੱਕ Markdown ਦਸਤਾਵੇਜ਼ ਦੇ ਅੰਦਰ ਸਟੀਕ ਸੋਧਾਂ—ਖਾਸ ਪੈਰੇ ਜੋੜਨਾ, ਹਟਾਉਣਾ ਜਾਂ ਬਦਲਣਾ—ਪ੍ਰਸਤਾਵਿਤ ਕਰਦਾ ਹੈ। ਮਹੱਤਵਪੂਰਨ ਗੱਲ ਇਹ ਹੈ ਕਿ ਇਹ ਤਬਦੀਲੀਆਂ ਉਦੋਂ ਹੀ ਸਵੀਕਾਰ ਕੀਤੀਆਂ ਜਾਂਦੀਆਂ ਹਨ ਜੇਕਰ ਉਹ ਇੱਕ ਵੈਲੀਡੇਸ਼ਨ ਸੈੱਟ (validation set) 'ਤੇ ਮਾਪਣਯੋਗ ਸੁਧਾਰ ਲਿਆਉਂਦੀਆਂ ਹਨ।

ਗਦ (Prose) 'ਤੇ ਲਾਗੂ ਕੀਤੇ ਗਏ ਡੀਪ ਲਰਨਿੰਗ ਸੰਕਲਪ

SkillOpt ਦੀ ਖ਼ੂਬਸੂਰਤੀ ਇਸ ਗੱਲ ਵਿੱਚ ਹੈ ਕਿ ਇਹ ਕਿਵੇਂ ਰਵਾਇਤੀ ਡੀਪ ਲਰਨਿੰਗ ਮਕੈਨਿਕਸ ਨੂੰ ਟੈਕਸਟ-ਪੱਧਰ ਦੇ ਆਪਟੀਮਾਈਜ਼ੇਸ਼ਨ 'ਤੇ ਨਕਸ਼ ਕਰਦਾ ਹੈ। ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਸਥਿਰਤਾ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਕਈ ਉੱਨਤ ਕੰਟਰੋਲ ਮਕੈਨਿਜ਼ਮ ਲਾਗੂ ਕੀਤੇ ਹਨ:

Learning Rate ਅਤੇ Schedulers: ਇੱਕ ਲਰਨਿੰਗ ਰੇਟ ਪ੍ਰਤੀ ਸਟੈਪ (step) ਅਨੁਮਤੀ ਪ੍ਰਾਪਤ ਸੋਧਾਂ ਦੀ ਗਿਣਤੀ ਨੂੰ ਸੀਮਤ ਕਰਦਾ ਹੈ, ਜਦੋਂ ਕਿ ਇੱਕ ਸ਼ੈਡਿਊਲਰ ਅਸਥਿਰਤਾ ਨੂੰ ਰੋਕਣ ਲਈ ਟ੍ਰੇਨਿੰਗ epochs ਦੌਰਾਨ ਸੋਧ ਦੇ ਆਕਾਰ ਨੂੰ ਘਟਾਉਂਦਾ ਹੈ।
Negative Feedback Buffers: ਰੱਦ ਕੀਤੀਆਂ ਗਈਆਂ ਸੋਧਾਂ ਨੂੰ ਇੱਕ ਬਫਰ ਵਿੱਚ ਸਟੋਰ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਜੋ ਨਕਾਰਾਤਮਕ ਉਦਾਹਰਣਾਂ ਵਜੋਂ ਕੰਮ ਕਰਦੀਆਂ ਹਨ ਜੋ ਆਪਟੀਮਾਈਜ਼ਰ ਨੂੰ ਉਹੀ ਗਲਤੀਆਂ ਦੁਹਰਾਉਣ ਤੋਂ ਰੋਕਦੀਆਂ ਹਨ।
Gradient Smoothing: ਹਰੇਕ epoch ਦੇ ਅੰਤ ਵਿੱਚ ਇੱਕ "slow update" ਮਕੈਨਿਜ਼ਮ ਸਥਿਰ ਸੋਧ ਦਿਸ਼ਾਵਾਂ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖਦਾ ਹੈ, ਜੋ ਇਸ ਗੱਲ ਦੀ ਨਕਲ ਕਰਦਾ ਹੈ ਕਿ ਕਿਵੇਂ ਗ੍ਰੇਡੀਐਂਟ ਸਮੂਥਿੰਗ ਰਵਾਇਤੀ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਟ੍ਰੇਨਿੰਗ ਨੂੰ ਸਥਿਰ ਕਰਦੀ ਹੈ।

ਜ਼ਿੰਮੇਵਾਰੀਆਂ ਦੇ ਇਸ ਵੱਖਰੇਕਰਨ ਦਾ ਮਤਲਬ ਹੈ ਕਿ ਮੁੱਖ ਕੰਮ ਟ੍ਰੇਨਿੰਗ ਦੌਰਾਨ ਹੁੰਦਾ ਹੈ। ਇਨਫਰੈਂਸ (inference) ਸਮੇਂ, ਟਾਰਗੇਟ ਮਾਡਲ ਹਲਕਾ ਰਹਿੰਦਾ ਹੈ, ਜੋ ਸਿਰਫ਼ ਸੰਦਰਭ (context) ਵਜੋਂ 300 ਤੋਂ 2,000 ਟੋਕਨਾਂ ਦੀ ਇੱਕ ਸੰਖੇਪ Markdown ਫਾਈਲ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ।

ਬੈਂਚਮਾਰਕ ਦਬਦਬਾ ਅਤੇ ਕਰਾਸ-ਮਾਡਲ ਟ੍ਰਾਂਸਫਰੇਬਿਲਟੀ (Cross-Model Transferability)

ਪ੍ਰਯੋਗਿਕ ਨਤੀਜੇ ਮਹੱਤਵਪੂਰਨ ਹਨ। ਛੇ ਬੈਂਚਮਾਰਕਾਂ—ਜਿਸ ਵਿੱਚ ਸਰਚ, ਮੈਥ, ਸਪ੍ਰੈਡਸ਼ੀਟਸ ਅਤੇ ਇੰਬੌਡੀਡ ਐਕਸ਼ਨ (embodied action) ਸ਼ਾਮਲ ਹਨ—ਵਿੱਚ ਟੈਸਟਿੰਗ ਦੌਰਾਨ, SkillOpt ਨੇ ਲਗਾਤਾਰ ਹੱਥ ਨਾਲ ਲਿਖੀਆਂ ਸਕਿੱਲਜ਼ ਅਤੇ TextGrad ਅਤੇ EvoSkill ਵਰਗੇ ਵਿਸ਼ੇਸ਼ ਤਰੀਕਿਆਂ ਨਾਲੋਂ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ। ਸਿੱਧੀ ਚੈਟ ਵਿੱਚ GPT-5.5 'ਤੇ, ਇਸ ਤਰੀਕੇ ਨੇ ਲਗਭਗ 23 ਅੰਕਾਂ ਦਾ ਔਸਤ ਪ੍ਰਦਰਸ਼ਨ ਵਾਧਾ ਦਿੱਤਾ।

ਸਭ ਤੋਂ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਖੋਜਾਂ ਵਿੱਚੋਂ ਇੱਕ ਇਸ ਤਰੀਕੇ ਦੀ ਟ੍ਰਾਂਸਫਰੇਬਿਲਟੀ (transferability) ਹੈ। GPT-5.5 ਵਰਗੇ ਵੱਡੇ ਮਾਡਲ ਲਈ ਆਪਟੀਮਾਈਜ਼ ਕੀਤੀ ਗਈ ਸਕਿੱਲ ਨੂੰ Qwen3.5-4B ਵਰਗੇ ਬਹੁਤ ਛੋਟੇ ਮਾਡਲਾਂ 'ਤੇ ਲਾਗੂ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ, ਜੋ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਉਹਨਾਂ ਨੂੰ ਉਹ ਪ੍ਰੋਸੀਜਰਲ ਗਿਆਨ (procedural knowledge) ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ ਜੋ ਉਹਨਾਂ ਦੇ ਮੂਲ ਵੇਟਸ (native weights) ਵਿੱਚ ਨਹੀਂ ਹੁੰਦਾ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਸਕਿੱਲਜ਼ ਵਾਤਾਵਰਣ-ਅਗਿਆਤ (environment-agnostic) ਹਨ; Codex ਲੂਪ ਵਿੱਚ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਕੀਤੀ ਗਈ ਸਪ੍ਰੈਡਸ਼ੀਟ ਸਕਿੱਲ ਬਿਨਾਂ ਕਿਸੇ ਮੁੜ-ਸਿਖਲਾਈ (retraining) ਦੇ Claude Code ਵਿੱਚ ਬਿਨਾਂ ਕਿਸੇ ਰੁਕਾਵਟ ਦੇ ਕੰਮ ਕਰਦੀ ਹੈ।

ਉਦਾਹਰਨ ਲਈ, ਸਪ੍ਰੈਡਸ਼ੀਟ ਕੰਮਾਂ ਵਿੱਚ, ਆਪਟੀਮਾਈਜ਼ ਕੀਤੀ ਸਕਿੱਲ ਫਾਰਮੂਲਿਆਂ 'ਤੇ ਨਿਰਭਰ ਕਰਨ ਦੀ ਬਜਾਏ ਪਹਿਲਾਂ ਵਰਕਸ਼ੀਟ ਦੇ ਢਾਂਚੇ ਦੀ ਜਾਂਚ ਕਰਨਾ ਅਤੇ ਸਿੱਧੇ ਤੌਰ 'ਤੇ ਅਸਥਾਪਿਤ (evaluated) ਮੁੱਲ ਲਿਖਣਾ ਸਿੱਖਦੀ ਹੈ। ALFWorld ਵਰਗੇ ਇੰਬੌਡੀਡ AI ਕੰਮਾਂ ਵਿੱਚ, ਸਕਿੱਲ ਉਦੇਸ਼ਾਂ ਨੂੰ ਸਹੀ ਕ੍ਰਮ ਵਿੱਚ ਪੂਰਾ ਕਰਨ ਨੂੰ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਭੇਟ ਕੀਤੇ ਗਏ ਸਥਾਨਾਂ ਦਾ ਲੌਗ (log) ਰੱਖਣਾ ਸਿੱਖਦੀ ਹੈ।

ਮੁੱਖ ਗੱਲਾਂ

ਟੈਕਸਟ-ਅਧਾਰਤ ਆਪਟੀਮਾਈਜ਼ੇਸ਼ਨ: SkillOpt Markdown ਇੰਸਟ੍ਰਕਸ਼ਨ ਫਾਈਲਾਂ ਨੂੰ ਟ੍ਰੇਨੇਬਲ ਸਟੇਟਸ (trainable states) ਵਜੋਂ ਮੰਨਦਾ ਹੈ, ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਮਾਡਲ ਵੇਟਸ ਵਾਂਗ ਆਪਟੀਮਾਈਜ਼ ਕਰਨ ਲਈ ਦੂਜੇ LLM ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ।
ਵੱਡਾ ਪ੍ਰਦਰਸ਼ਨ ਵਾਧਾ: ਇਸ ਤਰੀਕੇ ਨੇ ਪ੍ਰੋਸੀਜਰਲ ਬੈਂਚਮਾਰਕਾਂ 'ਤੇ GPT-5.5 ਵਿੱਚ ਔਸਤ 23 ਅੰਕਾਂ ਦਾ ਵਾਧਾ ਕੀਤਾ, ਖਾਸ ਤੌਰ 'ਤੇ ਟੂਲ-ਯੂਜ਼ (tool-use) ਅਤੇ ਸਖ਼ਤ ਫਾਰਮੈਟਿੰਗ ਕੰਮਾਂ ਵਿੱਚ ਸ਼ਾਨਦਾਰ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ।
ਕਾਰਗਰ ਅਤੇ ਟ੍ਰਾਂਸਫਰੇਬਲ: ਆਪਟੀਮਾਈਜ਼ ਕੀਤੀਆਂ ਸਕਿੱਲਜ਼ ਕੰਪੈਕਟ (2,000 ਟੋਕਨਾਂ ਤੋਂ ਘੱਟ) ਹਨ ਅਤੇ ਵੱਡੇ ਮਾਡਲਾਂ ਤੋਂ ਛੋਟੇ ਮਾਡਲਾਂ ਵਿੱਚ ਜਾਂ ਵੱਖ-ਵੱਖ ਏਜੰਟ ਵਾਤਾਵਰਣਾਂ ਵਿਚਕਾਰ ਟ੍ਰਾਂਸਫਰ ਕੀਤੀਆਂ ਜਾ ਸਕਦੀਆਂ ਹਨ।