Qwen 3.6 27B: ਲੋਕਲ AI ਲਈ ਇੰਜੀਨੀਅਰਾਂ ਦੀ ਗਾਈਡ

Translated for your language. Read the original.

AI-assisted draft.

ਇੱਕ 27B ਮਾਡਲ ਨੇ ਹੁਣੇ ਇੱਕ 397B ਮਾਡਲ ਨੂੰ ਹਰਾ ਦਿੱਤਾ ਹੈ।

ਇਹ ਕੋਈ ਛੋਟੀ ਜਿੱਤ ਨਹੀਂ ਹੈ। ਇਹ ਲੋਕਲ AI ਲਈ ਇੱਕ ਵੱਡਾ ਬਦਲਾਅ ਹੈ।

ਪੁਰਾਣੇ Qwen 3.5 397B ਮਾਡਲ ਨੂੰ 807 GB ਸਟੋਰੇਜ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਇਸ ਨੂੰ ਚਲਾਉਣ ਲਈ ਤੁਹਾਨੂੰ ਇੱਕ multi-GPU ਸਰਵਰ ਦੀ ਲੋੜ ਪਵੇਗੀ।

ਨਵਾਂ Qwen 3.6 27B ਮਾਡਲ ਸਿਰਫ਼ 55.6 GB ਦਾ ਹੈ। 8-bit ਰੂਪ ਵਿੱਚ, ਇਹ ਸਿਰਫ਼ 28 GB ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਤੁਸੀਂ ਇਸਨੂੰ ਇੱਕ ਸਿੰਗਲ MacBook M5 Max 'ਤੇ ਚਲਾ ਸਕਦੇ ਹੋ।

ਆਕਾਰ ਦੇ ਅੰਤਰ ਦੇ ਬਾਵਜੂਦ, 27B ਮਾਡਲ ਮੁੱਖ ਬੈਂਚਮਾਰਕਸ ਵਿੱਚ ਜਿੱਤਦਾ ਹੈ:

• SWE-bench Verified: 77.2% (397B ਮਾਡਲ ਦੇ 76.2% ਨੂੰ ਪਛਾੜ ਦਿੱਤਾ) • AIME 2026: 94.1% • GPQA Diamond: 87.8% (Claude 4.5 Opus ਨੂੰ ਪਛਾੜ ਦਿੱਤਾ)

ਇਹ ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ?

ਇਸਦਾ ਆਰਕੀਟੈਕਚਰ ਇੱਕ ਹਾਈਬ੍ਰਿਡ ਅਟੈਂਸ਼ਨ ਡਿਜ਼ਾਈਨ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਹ ਲੀਨੀਅਰ (linear) ਤੋਂ ਕੁਆਡ੍ਰੈਟਿਕ (quadratic) ਅਟੈਂਸ਼ਨ ਲੇਅਰਾਂ ਦਾ 3:1 ਅਨੁਪਾਤ ਵਰਤਦਾ ਹੈ।

48 ਲੇਅਰਾਂ Gated DeltaNet (Linear attention) ਦੀ ਵਰਤੋਂ ਕਰਦੀਆਂ ਹਨ। ਇਹ ਤੇਜ਼ ਹੈ ਅਤੇ ਮੈਮੋਰੀ ਬਚਾਉਂਦੀ ਹੈ।
16 ਲੇਅਰਾਂ Gated Attention (Quadratic attention) ਦੀ ਵਰਤੋਂ ਕਰਦੀਆਂ ਹਨ। ਇਹ ਸਟੀਕਤਾ ਪ੍ਰਦਾਨ ਕਰਦੀਆਂ ਹਨ।

ਇਹ ਪੈਟਰਨ ਮਾਡਲ ਨੂੰ ਸਟੈਂਡਰਡ ਟ੍ਰਾਂਸਫਾਰਮਰਜ਼ ਦੀ ਭਾਰੀ ਕੰਪਿਊਟਿੰਗ ਲਾਗਤਾਂ ਤੋਂ ਬਿਨਾਂ ਲੰਬੇ ਕੰਟੈਕਸਟ (contexts) ਨੂੰ ਸੰਭਾਲਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ।

ਇੱਕ ਹੋਰ ਜਿੱਤ Multi-Token Prediction (MTP) ਹੈ। ਇਹ ਫੀਚਰ ਮਾਡਲ ਨੂੰ ਇੱਕੋ ਸਮੇਂ 3 ਤੋਂ 4 ਟੋਕਨਾਂ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ।

Apple M5 Max ਹਾਰਡਵੇਅਰ 'ਤੇ, MTP ਸਪੀਡ ਨੂੰ 18 ਟੋਕਨ ਪ੍ਰਤੀ ਸੈਕਿੰਡ ਤੋਂ ਵਧਾ ਕੇ 32 ਟੋਕਨ ਪ੍ਰਤੀ ਸੈਕਿੰਡ ਕਰ ਦਿੰਦਾ ਹੈ। ਇਹ ਥਰੂਪੁੱਟ (throughput) ਵਿੱਚ 77% ਦਾ ਵਾਧਾ ਹੈ।

ਇਸਨੂੰ ਲੋਕਲ ਤੌਰ 'ਤੇ ਕਿਵੇਂ ਡਿਪਲੋਏ ਕਰੀਏ:

ਆਪਣੇ ਹਾਰਡਵੇਅਰ 'ਤੇ ਮਾਡਲ ਚਲਾਉਣ ਲਈ llama.cpp ਦੀ ਵਰਤੋਂ ਕਰੋ।

ਟੂਲ ਇੰਸਟਾਲ ਕਰੋ: brew install llama.cpp
ਵੱਧ ਤੋਂ ਵੱਧ ਸਪੀਡ ਲਈ MTP ਨੂੰ ਇਨੇਬਲ ਕਰਕੇ ਸਰਵਰ ਚਲਾਓ: llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080
ਆਪਣੇ ਮੌਜੂਦਾ ਟੂਲਜ਼ (ਜਿਵੇਂ ਕਿ Cursor ਜਾਂ Python ਸਕ੍ਰਿਪਟਾਂ) ਨੂੰ http://localhost:8080/v1 'ਤੇ ਪੁਆਇੰਟ ਕਰੋ।

AI ਦੀ ਆਰਥਿਕਤਾ ਬਦਲ ਗਈ ਹੈ।

Claude ਜਾਂ GPT-5 ਵਰਗੀਆਂ APIs ਦੀ ਵਰਤੋਂ ਕਰਨ ਨਾਲ ਹਰ ਵਾਰ ਪ੍ਰੋਂਪਟ ਭੇਜਣ 'ਤੇ ਪੈਸੇ ਖਰਚ ਹੁੰਦੇ ਹਨ। ਲੋਕਲ AI ਦੀ ਲਾਗਤ ਪ੍ਰਤੀ ਟੋਕਨ ਜ਼ੀਰੋ ਹੈ। ਇਹ 100% ਪ੍ਰਾਈਵੇਸੀ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਇਹ ਕਿਸੇ ਤੀਜੀ-ਪਾਰਟੀ ਪ੍ਰੋਵਾਈਡਰ 'ਤੇ ਨਿਰਭਰ ਨਹੀਂ ਹੈ ਜੋ ਆਪਣੇ ਨਿਯਮ ਜਾਂ ਕੀਮਤਾਂ ਬਦਲ ਸਕਦਾ ਹੈ।

ਲੋਕਲ AI ਹੁਣ ਕੋਈ ਸਮਝੌਤਾ ਨਹੀਂ ਹੈ। ਇਹ ਇੱਕ ਪੇਸ਼ੇਵਰ ਟੂਲ ਹੈ।

ਸਰੋਤ: https://dev.to/monuminu/qwen-36-27b-how-a-27b-dense-model-beats-a-397b-giant-the-engineers-complete-local-ai-4m36

ਵਿਕਲਪਿਕ ਲਰਨਿੰਗ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi

Qwen 3.6 27B: ਲੋਕਲ AI ਲਈ ਇੰਜੀਨੀਅਰਾਂ ਦੀ ਗਾਈਡ

Continue reading

Qwen3 ਬਨਾਮ DeepSeek R1: 2026 ਵਿੱਚ ਕਿਹੜਾ ਮਾਡਲ ਜਿੱਤੇਗਾ?

Local AI: How to Run Open Source Models Locally