𝗚𝗲𝗺𝗺𝗮 𝟰 𝟭𝟮𝗕 𝗠𝗲𝗻𝘂𝗻𝗷𝘂𝗸𝗸𝗮𝗻 𝗦𝗲𝗷𝗮𝘂𝗵 𝗠𝗮𝗻𝗮 𝗞𝗲𝗺𝗮𝗷𝘂𝗮𝗻 𝗔𝗜 𝗠𝘂𝗹𝘁𝗶𝗺𝗼𝗱𝗮𝗹 𝗧𝗲𝗺𝗽𝗮𝘁𝗮𝗻
Gemma 4 12B ialah pelancaran baharu daripada Google DeepMind. Ia merapatkan jurang antara model multimodal canggih dengan model yang boleh anda jalankan pada komputer riba. Model ini bersifat padat, multimodal, dan direka untuk muat dalam bajet memori yang praktikal. Ia juga menambah input audio asli.
Bagi pembangun, soalan pentingnya ialah sama ada seni bina ini memudahkan eksperimen tempatan dan aliran kerja pada peranti. Dalam kes ini, jawapannya ialah ya. Gemma 4 12B ialah model multimodal tunggal tanpa pengekod (encoder-free) dengan sokongan untuk teks, imej, dan audio. Ia direka untuk dijalankan dengan 16 GB VRAM atau memori tunggal (unified memory).
Model ini menonjol kerana sokongan ekosistemnya. Ia serasi dengan alatan seperti LM Studio, Ollama, dan MLX. Perkara ini penting kerana model hanya menjadi berguna apabila alatan di sekelilingnya memudahkan proses pengujian, penalaan halus (fine-tune), dan penggunaan (deploy).
Gemma 4 12B mengambil pendekatan yang berbeza daripada sistem multimodal tradisional. Ia menggunakan modul penyematan penglihatan (vision embedding) yang ringan dan memancarkan audio mentah ke dalam ruang dalaman yang sama dengan token teks. Pilihan reka bentuk ini mempunyai kesan praktikal:
- kurang submodul khusus untuk diuruskan
- beban memori (memory overhead) yang lebih rendah
- kurang kerumitan dalam timbunan inferens (inference stack)
- laluan yang lebih mudah untuk penggunaan tempatan
Model ini bersaiz untuk mesin dengan kira-kira 16 GB RAM atau VRAM. Ia disasarkan kepada perkakasan pembangun biasa dan bukannya hanya GPU pusat data. Gemma 4 12B bertujuan untuk mengisi jurang antara model pinggir (edge models) yang kecil dengan sistem yang jauh lebih besar.
Sumber: Pengumuman blog Google Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi