𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

Google DeepMind ได้เปิดตัว DiffusionGemma 26B โดยโมเดลนี้ใช้เทคนิค discrete diffusion แทนที่จะใช้วิธี autoregressive แบบมาตรฐาน

โมเดลส่วนใหญ่ เช่น GPT หรือ Llama จะสร้างข้อความทีละหนึ่ง token โดยต้องประมวลผลเต็มรูปแบบในทุกๆ token ซึ่งทำให้การใช้งานแบบ local หรือการทำงานแบบ real-time นั้นล่าช้า

DiffusionGemma ทำงานแตกต่างออกไป โดยจะเริ่มจากกลุ่มของ 256 random tokens แล้วค่อยๆ ปรับปรุงให้ดีขึ้นผ่านการประมวลผลหลายรอบ (multiple passes)

ทำไมเรื่องนี้ถึงสำคัญ:

• ความเร็ว: สามารถทำความเร็วได้ถึง 1,000 tokens ต่อวินาทีบน GPU H100 ในขณะที่โมเดลมาตรฐานทำได้เพียง 70 tokens ต่อวินาทีบนฮาร์ดแวร์เดียวกัน • ประสิทธิภาพ: แทนที่จะต้องประมวลผล 256 รอบสำหรับ 256 tokens โมเดลนี้ใช้เพียงประมาณ 10 รอบเท่านั้น • การใช้งาน GPU: ใช้พลังในการประมวลผล (compute power) ได้อย่างมีประสิทธิภาพมากกว่าการพึ่งพาแบนด์วิดท์ของหน่วยความจำ (memory bandwidth)

ข้อแลกเปลี่ยน:

ความเร็วที่ได้มาต้องแลกด้วยคุณภาพ โดย DiffusionGemma มีคะแนนด้านการใช้เหตุผล (reasoning) และการเขียนโค้ด (coding) ต่ำกว่าเมื่อเทียบกับ Gemma 4 26B รุ่นมาตรฐาน

กรณีการใช้งานที่เหมาะสมที่สุด:

  • การเติมโค้ด (Code infilling)
  • การเติมข้อมูลใน JSON schemas
  • การเติมเอกสารที่มีโครงสร้าง (Structured document completion)
  • งานแบบ local ที่ให้ความสำคัญกับความหน่วงต่ำ (low latency) เป็นอันดับแรก

สิ่งที่ควรหลีกเลี่ยง:

  • API ที่มีการทำงานพร้อมกันสูง (high-concurrency) และมี batch ขนาดใหญ่
  • งานที่ให้ความสำคัญกับคุณภาพเป็นอันดับแรกเพียงอย่างเดียว
  • แอปพลิเคชันที่ต้องการการสตรีมข้อความแบบทีละคำ

โมเดลนี้ใช้สถาปัตยกรรม Mixture-of-Experts (MoE) โดยมีพารามิเตอร์ทั้งหมด 25.2B แต่ใช้พารามิเตอร์ที่ทำงานจริง (active parameters) เพียง 3.8B ต่อขั้นตอน คุณสามารถรันเวอร์ชัน 4-bit บน RTX 4090 ที่มี VRAM 24GB ได้

นี่คือโมเดลในขั้นทดลอง หากคุณต้องการความแม่นยำสูงสุด ให้ใช้ Gemma 4 รุ่นมาตรฐาน แต่หากคุณต้องการความเร็วสูงสุดสำหรับการใช้งานแบบ local ให้ใช้ DiffusionGemma

ที่มา: https://dev.to/prabhakar_chaudhary_7afe4/diffusiongemma-26b-how-googles-text-diffusion-model-generates-tokens-in-parallel-56og

ชุมชนการเรียนรู้เพิ่มเติม (ไม่บังคับ): https://t.me/GyaanSetuAi