𝗚𝗲𝗺𝗺𝗮 𝟰 𝟭𝟮𝗕 𝗦𝗵𝗼𝘄𝘀 𝗛𝗼𝘄 𝗙𝗮𝗿 𝗟𝗼𝗰𝗮𝗹 𝗠𝘂𝗹𝘁𝗶𝗺𝗼𝗱𝗮𝗹 𝗔𝗜 𝗛𝗮𝘀 𝗠𝗼𝘃𝗲𝗱

Translated for your language. Leggi l'originale.

AI-assisted draft.

2 settimane fa1min di lettura

Gemma 4 12B mostra quanto avanti sia progredita l'IA multimodale locale

Gemma 4 12B è una nuova release di Google DeepMind. Riduce il divario tra i modelli multimodali avanzati e i modelli che è possibile eseguire su un laptop. Questo modello è denso, multimodale e progettato per rientrare in un budget di memoria pratico. Aggiunge inoltre l'input audio nativo.

Per gli sviluppatori, la domanda importante è se l'architettura renda più semplici la sperimentazione locale e i flussi di lavoro on-device. In questo caso, la risposta è sì. Gemma 4 12B è un modello multimodale unificato e senza encoder (encoder-free) con supporto per testo, immagini e audio. È progettato per funzionare con 16 GB di VRAM o memoria unificata.

Questo modello si distingue per il supporto all'ecosistema. È compatibile con strumenti come LM Studio, Ollama e MLX. Questo è importante perché i modelli diventano utili solo quando gli strumenti circostanti permettono di testarli, affinarli (fine-tune) e implementarli facilmente.

Gemma 4 12B adotta un approccio diverso rispetto ai sistemi multimodali tradizionali. Utilizza un modulo di vision embedding leggero e proietta l'audio grezzo nello stesso spazio interno dei token di testo. Questa scelta progettuale ha conseguenze pratiche:

meno sottomoduli specializzati da gestire
un minor overhead di memoria
minore complessità nello stack di inferenza
un percorso più semplice per l'implementazione locale

Questo modello è dimensionato per macchine con circa 16 GB di RAM o VRAM. È rivolto all'hardware comune degli sviluppatori piuttosto che solo alle GPU dei datacenter. Gemma 4 12B è destinato a colmare il divario tra i piccoli modelli edge e i sistemi molto più grandi.

Fonte: annuncio sul blog di Google Community di apprendimento opzionale: https://t.me/GyaanSetuAi

𝗚𝗲𝗺𝗺𝗮 𝟰 𝟭𝟮𝗕 𝗦𝗵𝗼𝘄𝘀 𝗛𝗼𝘄 𝗙𝗮𝗿 𝗟𝗼𝗰𝗮𝗹 𝗠𝘂𝗹𝘁𝗶𝗺𝗼𝗱𝗮𝗹 𝗔𝗜 𝗛𝗮𝘀 𝗠𝗼𝘃𝗲𝗱

Continua a leggere

OpenAI GPT 4o porta l'intelligenza multimodale a tutti

𝗚𝗼𝗼𝗴𝗹𝗲 𝗚𝗲𝗺𝗺𝗮 𝟰 𝟭𝟮𝗕: 𝗔𝗜 𝗢𝗻 𝗬𝗼𝘂𝗿 𝗗𝗲𝘃𝗶𝗰𝗲

𝗚𝗟𝗠 𝟱.𝟮 𝗜𝘀 𝗧𝗵𝗲 𝗡𝗲𝘄 𝗟𝗲𝗮𝗱𝗲𝗿 𝗜𝗻 𝗢𝗽𝗲𝗻 𝗦𝗼𝘂𝗿𝗰𝗲 𝗔𝗜

DiffusionGemma 26B: Generazione di testo in parallelo

𝗚𝗲𝗺𝗺𝗮 𝟮 𝗔𝗿𝗰𝗵𝗶𝘁𝗲𝗰𝘁𝘂𝗿𝗲: 𝗠𝗼𝗿𝗲 𝗣𝗲𝗿𝗳𝗼𝗿𝗺𝗮𝗻𝗰𝗲 𝗳𝗿𝗼𝗺 𝗟𝗲𝘀𝘀 𝗠𝗼𝗱𝗲𝗹