Run GLM 5.2 Secara Tempatan pada Desktop Anda
Kini anda boleh menjalankan model pengekodan termaju pada perkakasan anda sendiri. Zhipu telah mengeluarkan pemberat GLM 5.2 di bawah lesen MIT. Ini mengubah matlamat daripada sekadar memuat turun model kepada melihat sama ada mesin sedia ada anda mampu menjalankannya.
Model ini mempunyai 753B parameter. Pada ketepatan penuh, ia memerlukan 1.5 TB RAM. Anda tidak boleh menjalankannya pada sebuah desktop. Untuk menjalankannya secara tempatan, anda mesti menggunakan kuantisasi. Ini menukar sedikit kualiti untuk jejak memori yang lebih kecil.
Berikut adalah cara pelbagai tetapan mengendalikan model ini:
• Mac Studio M3 Ultra (512 GB): Gunakan kuantisasi 4-bit. Ini memberikan kualiti terbaik dan kelajuan yang boleh digunakan. • Mac Studio M3 Ultra (256 GB): Gunakan kuantisasi 2-bit. Ini adalah tetapan yang paling realistik untuk seorang pembangun tunggal. Anda akan mendapat 3-9 token sesaat. • Desktop dengan 4090 + 256 GB DDR5: Gunakan kuantisasi 2-bit. Ia berjalan melalui offload tetapi tetap perlahan. • MacBook atau mesin 64-128 GB: Jangan cuba ini. Gunakan API hos sebagai ganti.
Mengapa menjalankannya secara tempatan?
- Privasi: Kod dan prom anda tidak akan meninggalkan mesin anda.
- Kerja luar talian: Gunakan dalam persekitaran air-gapped.
- Perkakasan sedia ada: Gunakan Mac Studio yang telah anda beli untuk kerja lain.
- Pembelajaran: Uji tetapan pensampelan dan endpoint tempatan tanpa had kadar.
Rules for success:
- Memori adalah syarat minimum. Anda memerlukan sekurang-kurangnya 256 GB RAM. Jika anda mempunyai kurang daripada itu, berhenti di sini dan gunakan pelan hos.
- Gunakan repositori yang betul. Muat turun kuant GGUF daripada Unsloth di HuggingFace. Repositori rasmi terlalu besar untuk kegunaan tempatan.
- Perhatikan konteks anda. Tetapan tempatan sukar mengendalikan tetingkap 1M token sepenuhnya. Jangkakan 16K hingga 64K dalam praktiknya.
- Tetapkan parameter yang betul. Gunakan temperature 1.0, top-p 0.95, dan min-p 0.01. Tetapan yang salah akan membuatkan model kelihatan "bodoh."
Sebuah mesin tempatan tunggal adalah alat untuk seorang individu. Jika dua pembangun menggunakannya serentak, ia akan menjadi sangat perlahan. Untuk pasukan, anda memerlukan GPU pusat data atau API hos.
Source: https://dev.to/owen_fox/run-glm-52-locally-2026-2-bit-on-a-256gb-mac-or-4090-box-1apn
Optional learning community: https://t.me/GyaanSetuAi
