DiffusionGemma: 1.000 Token mỗi giây

Translated for your language. Read the original.

AI-assisted draft.

4 ngày trước2min read

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮: 𝟭,𝟬𝟬𝟬 𝗧𝗼𝗸𝗲𝗻𝘀 𝗣𝗲𝗿 𝗦𝗲𝗰𝗼𝗻𝗱

Hầu hết các mô hình ngôn ngữ hoạt động theo từng từ một. Chúng đi từ trái sang phải. Điều này tạo ra một giới hạn về tốc độ vì mô hình phải đợi từng từ kết thúc trước khi bắt đầu từ tiếp theo.

Google DeepMind đã thay đổi điều này với DiffusionGemma.

Thay vì viết tuần tự, nó sử dụng một quy trình khử nhiễu (denoising). Nó lấy một khối lên đến 256 token và tinh chỉnh tất cả chúng cùng một lúc. Cách tiếp cận này đạt được hơn 1.000 token mỗi giây trên một card NVIDIA H100 duy nhất. Tốc độ đó nhanh gấp bốn lần so với các mô hình tiêu chuẩn.

Cách thức hoạt động:

Mô hình bắt đầu với một khối các token giữ chỗ (placeholder tokens).
Nó thực hiện nhiều lượt để làm sạch các token giữ chỗ này.
Mỗi token đều xem xét tất cả các token khác trong khối cùng một lúc.
Góc nhìn hai chiều này giúp mô hình hiểu ngữ cảnh từ cả hai phía.

Hiệu suất phần cứng:

• NVIDIA H100: hơn 1.000 token/giây • NVIDIA DGX Station: lên đến 2.000 token/giây • GeForce RTX 5090: ~700 token/giây • Nhu cầu VRAM: ~18GB khi được lượng tử hóa (quantized)

Sử dụng ở đâu:

DiffusionGemma vượt trội trong các thiết lập cục bộ (local). Trên đám mây, các công ty gom nhóm nhiều người dùng lại với nhau để duy trì hiệu quả. Trên máy tính cá nhân của bạn, GPU thường ở trạng thái rảnh rỗi giữa các từ. DiffusionGemma giải quyết vấn đề này bằng cách chuyển đổi các nút thắt cổ chai về bộ nhớ thành các tác vụ tính toán thuần túy.

Sử dụng cho:

Code infilling: Thêm mã vào giữa một hàm.
Text editing: Thay đổi một câu trong một đoạn văn.
Constraint tasks: Giải các câu đố hoặc toán học nơi mà toàn bộ khối phải khớp với nhau.

Sự đánh đổi là chất lượng. Các bài kiểm tra (benchmarks) cho thấy DiffusionGemma có điểm thấp hơn Gemma 4 tiêu chuẩn về khả năng lập luận và lập trình. Ngôn ngữ khó khử nhiễu hơn hình ảnh vì chỉ một từ sai có thể làm hỏng cả một câu.

Kết luận:

Hãy sử dụng DiffusionGemma nếu bạn cần tốc độ trên phần cứng cục bộ. Hãy sử dụng Gemma 4 tiêu chuẩn nếu bạn cần độ chính xác cao nhất và khả năng lập luận sâu.

Nguồn: https://dev.to/prabhakar_chaudhary_7afe4/diffusiongemma-how-google-deepminds-text-diffusion-model-achieves-1000-tokens-per-second-3jnl

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi

DiffusionGemma: 1.000 Token mỗi giây

Continue reading

DiffusionGemma: Bước ngoặt AI mở của Google

Hogwild! Suy luận: Tạo LLM song song

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

𝗚𝗼𝗼𝗴𝗹𝗲 𝗖𝗵𝗮𝗻𝗴𝗲𝘀 𝗔𝗜 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻 𝗙𝗼𝗿𝗲𝘃𝗲𝗿

GPT làm được nhiều hơn bạn nghĩ