𝗚𝗲𝗺𝗺𝗮 𝟰 𝟭𝟮𝗕 𝗦𝗵𝗼𝘄𝘀 𝗛𝗼𝘄 𝗙𝗮𝗿 𝗟𝗼𝗰𝗮𝗹 𝗠𝘂𝗹𝘁𝗶𝗺𝗼𝗱𝗮𝗹 𝗔𝗜 𝗛𝗮𝘀 𝗠𝗼𝘃𝗲𝗱

Gemma 4 12B 是 Google DeepMind 发布的新作。它缩小了先进多模态模型与可在笔记本电脑上运行的模型之间的差距。该模型采用稠密架构,具备多模态能力,并旨在适应实际的内存预算。它还增加了原生音频输入功能。

对于开发者而言,关键的问题在于其架构是否能让本地实验和设备端工作流变得更加容易。在这种情况下,答案是肯定的。Gemma 4 12B 是一个统一的、无需编码器(encoder-free)的多模态模型,支持文本、图像和音频。它旨在 16 GB 的显存(VRAM)或统一内存环境下运行。

该模型的显著特点在于其生态系统支持。它兼容 LM Studio、Ollama 和 MLX 等工具。这一点至关重要,因为只有当周边工具链能够让模型易于测试、微调和部署时,模型才会真正发挥作用。

Gemma 4 12B 采取了不同于传统多模态系统的方案。它使用轻量级的视觉嵌入(vision embedding)模块,并将原始音频投影到与文本 token 相同的内部空间中。这一设计选择带来了实际的优势:

  • 更少的专门子模块需要管理
  • 更低的内存开销
  • 更低的推理栈复杂度
  • 更简单的本地部署路径

该模型的规模适用于拥有约 16 GB RAM 或 VRAM 的机器。它的目标是面向普通开发者的硬件,而非仅仅是数据中心 GPU。Gemma 4 12B 旨在填补微型边缘模型与庞大系统之间的空白。

来源:Google 官方博客公告 可选学习社区:https://t.me/GyaanSetuAi