𝗚𝗲𝗺𝗺𝗮 𝟰 𝟭𝟮𝗕 𝗦𝗵𝗼𝘄𝘀 𝗛𝗼𝘄 𝗙𝗮𝗿 𝗟𝗼𝗰𝗮𝗹 𝗠𝘂𝗹𝘁𝗶𝗺𝗼𝗱𝗮𝗹 𝗔𝗜 𝗛𝗮𝘀 𝗠𝗼𝘃𝗲𝗱

Translated for your language. Read the original.

AI-assisted draft.

2 minggu lalu1min read

𝗚𝗲𝗺𝗺𝗮 𝟰 𝟭𝟮𝗕 𝗠𝗲𝗻𝘂𝗻𝗷𝘂𝗸𝗸𝗮𝗻 𝗦𝗲𝗷𝗮𝘂𝗵 𝗠𝗮𝗻𝗮 𝗞𝗲𝗺𝗮𝗷𝘂𝗮𝗻 𝗔𝗜 𝗠𝘂𝗹𝘁𝗶𝗺𝗼𝗱𝗮𝗹 𝗧𝗲𝗺𝗽𝗮𝘁𝗮𝗻

Gemma 4 12B ialah pelancaran baharu daripada Google DeepMind. Ia merapatkan jurang antara model multimodal canggih dengan model yang boleh anda jalankan pada komputer riba. Model ini bersifat padat, multimodal, dan direka untuk muat dalam bajet memori yang praktikal. Ia juga menambah input audio asli.

Bagi pembangun, soalan pentingnya ialah sama ada seni bina ini memudahkan eksperimen tempatan dan aliran kerja pada peranti. Dalam kes ini, jawapannya ialah ya. Gemma 4 12B ialah model multimodal tunggal tanpa pengekod (encoder-free) dengan sokongan untuk teks, imej, dan audio. Ia direka untuk dijalankan dengan 16 GB VRAM atau memori tunggal (unified memory).

Model ini menonjol kerana sokongan ekosistemnya. Ia serasi dengan alatan seperti LM Studio, Ollama, dan MLX. Perkara ini penting kerana model hanya menjadi berguna apabila alatan di sekelilingnya memudahkan proses pengujian, penalaan halus (fine-tune), dan penggunaan (deploy).

Gemma 4 12B mengambil pendekatan yang berbeza daripada sistem multimodal tradisional. Ia menggunakan modul penyematan penglihatan (vision embedding) yang ringan dan memancarkan audio mentah ke dalam ruang dalaman yang sama dengan token teks. Pilihan reka bentuk ini mempunyai kesan praktikal:

kurang submodul khusus untuk diuruskan
beban memori (memory overhead) yang lebih rendah
kurang kerumitan dalam timbunan inferens (inference stack)
laluan yang lebih mudah untuk penggunaan tempatan

Model ini bersaiz untuk mesin dengan kira-kira 16 GB RAM atau VRAM. Ia disasarkan kepada perkakasan pembangun biasa dan bukannya hanya GPU pusat data. Gemma 4 12B bertujuan untuk mengisi jurang antara model pinggir (edge models) yang kecil dengan sistem yang jauh lebih besar.

Sumber: Pengumuman blog Google Komuniti pembelajaran pilihan: https://t.me/GyaanSetuAi

𝗚𝗲𝗺𝗺𝗮 𝟰 𝟭𝟮𝗕 𝗦𝗵𝗼𝘄𝘀 𝗛𝗼𝘄 𝗙𝗮𝗿 𝗟𝗼𝗰𝗮𝗹 𝗠𝘂𝗹𝘁𝗶𝗺𝗼𝗱𝗮𝗹 𝗔𝗜 𝗛𝗮𝘀 𝗠𝗼𝘃𝗲𝗱

Continue reading

OpenAI GPT-4o Membawa Kecerdasan Multimodal kepada Semua Orang

𝗚𝗼𝗼𝗴𝗹𝗲 𝗚𝗲𝗺𝗺𝗮 𝟰 𝟭𝟮𝗕: 𝗔𝗜 𝗢𝗻 𝗬𝗼𝘂𝗿 𝗗𝗲𝘃𝗶𝗰𝗲

𝗚𝗟𝗠 𝟱.𝟮 𝗜𝘀 𝗧𝗵𝗲 𝗡𝗲𝘄 𝗟𝗲𝗮𝗱𝗲𝗿 𝗜𝗻 𝗢𝗽𝗲𝗻 𝗦𝗼𝘂𝗿𝗰𝗲 𝗔𝗜

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

Seni Bina Gemma 2: Prestasi Lebih Tinggi daripada Model yang Lebih Kecil