𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial4 วันที่ผ่านมา1min read

Google DeepMind ได้เปิดตัว DiffusionGemma 26B โดยโมเดลนี้ใช้เทคนิค discrete diffusion แทนที่จะใช้วิธี autoregressive แบบมาตรฐาน

โมเดลส่วนใหญ่ เช่น GPT หรือ Llama จะสร้างข้อความทีละหนึ่ง token โดยต้องประมวลผลเต็มรูปแบบในทุกๆ token ซึ่งทำให้การใช้งานแบบ local หรือการทำงานแบบ real-time นั้นล่าช้า

DiffusionGemma ทำงานแตกต่างออกไป โดยจะเริ่มจากกลุ่มของ 256 random tokens แล้วค่อยๆ ปรับปรุงให้ดีขึ้นผ่านการประมวลผลหลายรอบ (multiple passes)

ทำไมเรื่องนี้ถึงสำคัญ:

• ความเร็ว: สามารถทำความเร็วได้ถึง 1,000 tokens ต่อวินาทีบน GPU H100 ในขณะที่โมเดลมาตรฐานทำได้เพียง 70 tokens ต่อวินาทีบนฮาร์ดแวร์เดียวกัน • ประสิทธิภาพ: แทนที่จะต้องประมวลผล 256 รอบสำหรับ 256 tokens โมเดลนี้ใช้เพียงประมาณ 10 รอบเท่านั้น • การใช้งาน GPU: ใช้พลังในการประมวลผล (compute power) ได้อย่างมีประสิทธิภาพมากกว่าการพึ่งพาแบนด์วิดท์ของหน่วยความจำ (memory bandwidth)

ข้อแลกเปลี่ยน:

ความเร็วที่ได้มาต้องแลกด้วยคุณภาพ โดย DiffusionGemma มีคะแนนด้านการใช้เหตุผล (reasoning) และการเขียนโค้ด (coding) ต่ำกว่าเมื่อเทียบกับ Gemma 4 26B รุ่นมาตรฐาน

กรณีการใช้งานที่เหมาะสมที่สุด:

การเติมโค้ด (Code infilling)
การเติมข้อมูลใน JSON schemas
การเติมเอกสารที่มีโครงสร้าง (Structured document completion)
งานแบบ local ที่ให้ความสำคัญกับความหน่วงต่ำ (low latency) เป็นอันดับแรก

สิ่งที่ควรหลีกเลี่ยง:

API ที่มีการทำงานพร้อมกันสูง (high-concurrency) และมี batch ขนาดใหญ่
งานที่ให้ความสำคัญกับคุณภาพเป็นอันดับแรกเพียงอย่างเดียว
แอปพลิเคชันที่ต้องการการสตรีมข้อความแบบทีละคำ

โมเดลนี้ใช้สถาปัตยกรรม Mixture-of-Experts (MoE) โดยมีพารามิเตอร์ทั้งหมด 25.2B แต่ใช้พารามิเตอร์ที่ทำงานจริง (active parameters) เพียง 3.8B ต่อขั้นตอน คุณสามารถรันเวอร์ชัน 4-bit บน RTX 4090 ที่มี VRAM 24GB ได้

นี่คือโมเดลในขั้นทดลอง หากคุณต้องการความแม่นยำสูงสุด ให้ใช้ Gemma 4 รุ่นมาตรฐาน แต่หากคุณต้องการความเร็วสูงสุดสำหรับการใช้งานแบบ local ให้ใช้ DiffusionGemma

ที่มา: https://dev.to/prabhakar_chaudhary_7afe4/diffusiongemma-26b-how-googles-text-diffusion-model-generates-tokens-in-parallel-56og

ชุมชนการเรียนรู้เพิ่มเติม (ไม่บังคับ): https://t.me/GyaanSetuAi

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

Continue reading

𝗚𝗲𝗺𝗺𝗮 𝟰 𝟭𝟮𝗕 𝗦𝗵𝗼𝘄𝘀 𝗛𝗼𝘄 𝗙𝗮𝗿 𝗟𝗼𝗰𝗮𝗹 𝗠𝘂𝗹𝘁𝗶𝗺𝗼𝗱𝗮𝗹 𝗔𝗜 𝗛𝗮𝘀 𝗠𝗼𝘃𝗲𝗱

DiffusionGemma: จุดเปลี่ยนใหม่ของ Open AI จาก Google

DiffusionGemma: 1,000 โทเคนต่อวินาที

สถาปัตยกรรม Gemma 2: ประสิทธิภาพที่สูงขึ้นจากโมเดลขนาดเล็กลง

Google เปลี่ยนแปลงการสร้าง AI ไปตลอดกาล