Qwen 3.6 27B: ਲੋਕਲ AI ਲਈ ਇੰਜੀਨੀਅਰਾਂ ਦੀ ਗਾਈਡ
ਇੱਕ 27B ਮਾਡਲ ਨੇ ਹੁਣੇ ਇੱਕ 397B ਮਾਡਲ ਨੂੰ ਹਰਾ ਦਿੱਤਾ ਹੈ।
ਇਹ ਕੋਈ ਛੋਟੀ ਜਿੱਤ ਨਹੀਂ ਹੈ। ਇਹ ਲੋਕਲ AI ਲਈ ਇੱਕ ਵੱਡਾ ਬਦਲਾਅ ਹੈ।
ਪੁਰਾਣੇ Qwen 3.5 397B ਮਾਡਲ ਨੂੰ 807 GB ਸਟੋਰੇਜ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਇਸ ਨੂੰ ਚਲਾਉਣ ਲਈ ਤੁਹਾਨੂੰ ਇੱਕ multi-GPU ਸਰਵਰ ਦੀ ਲੋੜ ਪਵੇਗੀ।
ਨਵਾਂ Qwen 3.6 27B ਮਾਡਲ ਸਿਰਫ਼ 55.6 GB ਦਾ ਹੈ। 8-bit ਰੂਪ ਵਿੱਚ, ਇਹ ਸਿਰਫ਼ 28 GB ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਤੁਸੀਂ ਇਸਨੂੰ ਇੱਕ ਸਿੰਗਲ MacBook M5 Max 'ਤੇ ਚਲਾ ਸਕਦੇ ਹੋ।
ਆਕਾਰ ਦੇ ਅੰਤਰ ਦੇ ਬਾਵਜੂਦ, 27B ਮਾਡਲ ਮੁੱਖ ਬੈਂਚਮਾਰਕਸ ਵਿੱਚ ਜਿੱਤਦਾ ਹੈ:
• SWE-bench Verified: 77.2% (397B ਮਾਡਲ ਦੇ 76.2% ਨੂੰ ਪਛਾੜ ਦਿੱਤਾ) • AIME 2026: 94.1% • GPQA Diamond: 87.8% (Claude 4.5 Opus ਨੂੰ ਪਛਾੜ ਦਿੱਤਾ)
ਇਹ ਕਿਵੇਂ ਕੰਮ ਕਰਦਾ ਹੈ?
ਇਸਦਾ ਆਰਕੀਟੈਕਚਰ ਇੱਕ ਹਾਈਬ੍ਰਿਡ ਅਟੈਂਸ਼ਨ ਡਿਜ਼ਾਈਨ ਦੀ ਵਰਤੋਂ ਕਰਦਾ ਹੈ। ਇਹ ਲੀਨੀਅਰ (linear) ਤੋਂ ਕੁਆਡ੍ਰੈਟਿਕ (quadratic) ਅਟੈਂਸ਼ਨ ਲੇਅਰਾਂ ਦਾ 3:1 ਅਨੁਪਾਤ ਵਰਤਦਾ ਹੈ।
- 48 ਲੇਅਰਾਂ Gated DeltaNet (Linear attention) ਦੀ ਵਰਤੋਂ ਕਰਦੀਆਂ ਹਨ। ਇਹ ਤੇਜ਼ ਹੈ ਅਤੇ ਮੈਮੋਰੀ ਬਚਾਉਂਦੀ ਹੈ।
- 16 ਲੇਅਰਾਂ Gated Attention (Quadratic attention) ਦੀ ਵਰਤੋਂ ਕਰਦੀਆਂ ਹਨ। ਇਹ ਸਟੀਕਤਾ ਪ੍ਰਦਾਨ ਕਰਦੀਆਂ ਹਨ।
ਇਹ ਪੈਟਰਨ ਮਾਡਲ ਨੂੰ ਸਟੈਂਡਰਡ ਟ੍ਰਾਂਸਫਾਰਮਰਜ਼ ਦੀ ਭਾਰੀ ਕੰਪਿਊਟਿੰਗ ਲਾਗਤਾਂ ਤੋਂ ਬਿਨਾਂ ਲੰਬੇ ਕੰਟੈਕਸਟ (contexts) ਨੂੰ ਸੰਭਾਲਣ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ।
ਇੱਕ ਹੋਰ ਜਿੱਤ Multi-Token Prediction (MTP) ਹੈ। ਇਹ ਫੀਚਰ ਮਾਡਲ ਨੂੰ ਇੱਕੋ ਸਮੇਂ 3 ਤੋਂ 4 ਟੋਕਨਾਂ ਦੀ ਭਵਿੱਖਬਾਣੀ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੰਦਾ ਹੈ।
Apple M5 Max ਹਾਰਡਵੇਅਰ 'ਤੇ, MTP ਸਪੀਡ ਨੂੰ 18 ਟੋਕਨ ਪ੍ਰਤੀ ਸੈਕਿੰਡ ਤੋਂ ਵਧਾ ਕੇ 32 ਟੋਕਨ ਪ੍ਰਤੀ ਸੈਕਿੰਡ ਕਰ ਦਿੰਦਾ ਹੈ। ਇਹ ਥਰੂਪੁੱਟ (throughput) ਵਿੱਚ 77% ਦਾ ਵਾਧਾ ਹੈ।
ਇਸਨੂੰ ਲੋਕਲ ਤੌਰ 'ਤੇ ਕਿਵੇਂ ਡਿਪਲੋਏ ਕਰੀਏ:
ਆਪਣੇ ਹਾਰਡਵੇਅਰ 'ਤੇ ਮਾਡਲ ਚਲਾਉਣ ਲਈ llama.cpp ਦੀ ਵਰਤੋਂ ਕਰੋ।
ਟੂਲ ਇੰਸਟਾਲ ਕਰੋ:
brew install llama.cppਵੱਧ ਤੋਂ ਵੱਧ ਸਪੀਡ ਲਈ MTP ਨੂੰ ਇਨੇਬਲ ਕਰਕੇ ਸਰਵਰ ਚਲਾਓ:
llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080ਆਪਣੇ ਮੌਜੂਦਾ ਟੂਲਜ਼ (ਜਿਵੇਂ ਕਿ Cursor ਜਾਂ Python ਸਕ੍ਰਿਪਟਾਂ) ਨੂੰ http://localhost:8080/v1 'ਤੇ ਪੁਆਇੰਟ ਕਰੋ।
AI ਦੀ ਆਰਥਿਕਤਾ ਬਦਲ ਗਈ ਹੈ।
Claude ਜਾਂ GPT-5 ਵਰਗੀਆਂ APIs ਦੀ ਵਰਤੋਂ ਕਰਨ ਨਾਲ ਹਰ ਵਾਰ ਪ੍ਰੋਂਪਟ ਭੇਜਣ 'ਤੇ ਪੈਸੇ ਖਰਚ ਹੁੰਦੇ ਹਨ। ਲੋਕਲ AI ਦੀ ਲਾਗਤ ਪ੍ਰਤੀ ਟੋਕਨ ਜ਼ੀਰੋ ਹੈ। ਇਹ 100% ਪ੍ਰਾਈਵੇਸੀ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਇਹ ਕਿਸੇ ਤੀਜੀ-ਪਾਰਟੀ ਪ੍ਰੋਵਾਈਡਰ 'ਤੇ ਨਿਰਭਰ ਨਹੀਂ ਹੈ ਜੋ ਆਪਣੇ ਨਿਯਮ ਜਾਂ ਕੀਮਤਾਂ ਬਦਲ ਸਕਦਾ ਹੈ।
ਲੋਕਲ AI ਹੁਣ ਕੋਈ ਸਮਝੌਤਾ ਨਹੀਂ ਹੈ। ਇਹ ਇੱਕ ਪੇਸ਼ੇਵਰ ਟੂਲ ਹੈ।
ਵਿਕਲਪਿਕ ਲਰਨਿੰਗ ਕਮਿਊਨਿਟੀ: https://t.me/GyaanSetuAi
