Kiến trúc Gemma 2: Hiệu năng vượt trội từ mô hình tinh gọn

Translated for your language. Read the original.

AI-assisted draft.

Hôm kia1min read

Kiến trúc Gemma 2: Hiệu năng cao hơn từ mô hình nhỏ hơn

Google đã phát hành Gemma 2. Mô hình này chứng minh rằng bạn không cần kích thước khổng lồ để đạt được hiệu năng cao. Mô hình 27B có khả năng cạnh tranh với các mô hình có kích thước gấp đôi nó.

Bí mật nằm ở kiến trúc.

Gemma 2 sử dụng phương pháp attention hỗn hợp. Attention tiêu chuẩn thường chậm và nặng nề. Gemma 2 khắc phục điều này bằng cách chuyển đổi giữa hai loại attention:

• Local sliding window attention: Cơ chế này tập trung vào cửa sổ 4096 token. Nó xử lý ngữ cảnh tức thời một cách nhanh chóng. • Global attention: Cơ chế này xem xét toàn bộ ngữ cảnh 8192 token.

Sự kết hợp này mang lại hiệu quả và ngữ cảnh sâu mà không tốn quá nhiều chi phí tính toán.

Các mô hình cũng sử dụng Grouped-Query Attention (GQA). Điều này cho phép nhiều query heads chia sẻ cùng một bộ key và value. Việc này giúp giảm mức sử dụng bộ nhớ và tăng tốc độ tạo văn bản. Các mô hình 9B và 27B sử dụng GQA. Mô hình 2B sử dụng một phiên bản thậm chí còn nhanh hơn gọi là Multi-Query Attention (MQA).

Các phương pháp huấn luyện cũng đã thay đổi. Các mô hình 2B và 9B đã sử dụng kỹ thuật chưng cất tri thức (knowledge distillation). Chúng học hỏi từ một mô hình giáo viên (teacher model) lớn hơn. Điều này giúp chúng hiểu các mẫu phức tạp tốt hơn so với phương pháp huấn luyện tiêu chuẩn.

Điều này có ý nghĩa gì đối với bạn:

• Chi phí thấp hơn: Bạn có thể chạy Gemma 2 27B trên một GPU NVIDIA H100 duy nhất. • Khả năng tiếp cận tốt hơn: Các mô hình nhỏ hơn có thể hoạt động trên phần cứng tiêu dùng và các thiết bị di động. • Thử nghiệm dễ dàng hơn: Bạn có thể chạy các mô hình đã được tinh chỉnh theo chỉ dẫn (instruction-tuned) ngay tại máy cục bộ bằng Ollama.

Ngành công nghiệp đang chuyển dịch. Chúng ta đang dần rời xa việc chỉ đơn thuần là thêm nhiều tham số hơn. Trọng tâm hiện nay là trí tuệ trên mỗi tham số. Điều này giúp AI chất lượng cao trở nên bền vững và thực tế hơn cho tất cả mọi người.

Nguồn: https://dev.to/albertomontagnese/gemma-2s-architecture-more-performance-from-less-model-3moc

Cộng đồng học tập tùy chọn: https://t.me/GyaanSetuAi

Kiến trúc Gemma 2: Hiệu năng vượt trội từ mô hình tinh gọn

Continue reading

Google Gemma 4 12B: AI trên thiết bị của bạn

Gemma 4 12B cho thấy AI đa phương thức cục bộ đã tiến xa đến mức nào

DiffusionGemma: Bước ngoặt AI mở của Google

𝗗𝗶𝗳𝗳𝘂𝘀𝗶𝗼𝗻𝗚𝗲𝗺𝗺𝗮 𝟮𝟲𝗕: 𝗣𝗮𝗿𝗮𝗹𝗹𝗲𝗹 𝗧𝗲𝘅𝘁 𝗚𝗲𝗻𝗲𝗿𝗮𝘁𝗶𝗼𝗻

Không ai còn muốn mô hình 70B tham số của bạn nữa