Subquadratic tuyên bố đạt bước đột phá trong việc giải quyết nút thắt cổ chai bậc hai của LLM

Ngành công nghiệp AI đang xôn xao về Subquadratic, một startup có trụ sở tại Miami, đơn vị tuyên bố đã giải quyết được một giới hạn toán học vốn đã kìm hãm các Mô hình Ngôn ngữ Lớn (LLM) trong gần một thập kỷ qua. Mặc dù ban đầu có nhiều sự hoài nghi, nhưng các xác minh độc lập gần đây cho thấy kiến trúc "SubQ" mới của họ có thể thay đổi căn bản mô hình của AI tạo sinh.

Vấn đề: Chi phí bậc hai của cơ chế chú ý dày đặc (Dense Attention)

Để hiểu được tầm quan trọng trong tuyên bố của Subquadratic, trước hết cần hiểu về kiến trúc "Transformer" do Google giới thiệu vào năm 2017. Hầu hết các LLM hiện đại đều dựa vào một cơ chế gọi là dense attention. Trong quá trình này, mọi token (từ hoặc một phần của từ) trong một chuỗi đều được nhân với mọi token khác để nắm bắt ngữ cảnh.

Điều này tạo ra một gánh nặng tính toán khổng lồ được gọi là sự mở rộng bậc hai (quadratic expansion). Nếu bạn tăng gấp đôi độ dài của một văn bản, các yêu cầu tính toán sẽ tăng lên khoảng gấp bốn lần. Đối với một tài liệu 10.000 từ, mô hình phải thực hiện gần 50 triệu phép nhân riêng lẻ. Sự kém hiệu quả này là lý do chính khiến các LLM nổi tiếng là những "kẻ ngốn năng lượng", đòi hỏi nguồn năng lượng khổng lồ và phần cứng đắt tiền để xử lý các ngữ cảnh dài.

Giải pháp: Mở rộng quy mô với cơ chế chú ý thưa thớt (Sparse Attention)

Mô hình SubQ của Subquadratic nhằm mục đích loại bỏ dense attention để chuyển sang sử dụng sparse attention. Triết lý cốt lõi là không phải mọi mối quan hệ giữa các từ đều quan trọng để hiểu một tài liệu. Thay vì nhân mọi token với mọi token khác, sparse attention chỉ chọn lọc những mối quan hệ liên quan nhất để tính toán.

Mặc dù "sparse attention" không phải là một khái niệm mới, nhưng các nỗ lực trước đây đã gặp khó khăn trong việc duy trì mức độ lập luận và sắc thái cao như trong các mô hình dense attention. Subquadratic tuyên bố đã lấp đầy khoảng cách này, tạo ra một mô hình mang lại hiệu quả của sparse attention mà không bị suy giảm trí thông minh như truyền thống.

Xác thực các tuyên bố: Kết quả từ Appen

Sau những hoài nghi ban đầu—với một số nhà phê bình thậm chí còn so sánh các tuyên bố chưa được xác minh này với "Theranos của AI"—Subquadratic đã công bố các điểm chuẩn (benchmarks) từ bên thứ ba từ Appen, một công ty đánh giá AI hàng đầu. Kết quả từ các thử nghiệm độc lập của Appen đã xác thực kiến trúc SubQ, mô tả những phát hiện này là "gây sốc" và là một "nhân tố thay đổi cuộc chơi" tiềm năng.

Theo startup này, SubQ mang lại một số lợi thế kỹ thuật mang tính đột phá:

  • Cửa sổ ngữ cảnh (Context Window): SubQ có thể xử lý lượng văn bản lớn hơn tới 12 lần cùng một lúc so với hầu hết các mô hình hiện nay, khiến nó trở nên lý tưởng để phân tích toàn bộ kho mã nguồn hoặc các thư viện tài liệu khổng lồ.
  • Hiệu suất: Mặc dù có kiến trúc tinh gọn hơn, SubQ vẫn đạt hiệu suất tương đương với các đơn vị dẫn đầu ngành như OpenAI, Google DeepMind và Anthropic trong các tác vụ quan trọng như lập trình.
  • Hiệu quả: Mô hình này nhanh hơn, rẻ hơn và tiết kiệm năng lượng hơn đáng kể so với các mô hình dựa trên kiến trúc transformer hiện có.

Một kỷ nguyên mới vượt xa Transformers?

Subquadratic không chỉ hướng tới việc tối ưu hóa các mô hình hiện tại; họ đang tìm cách thay thế kiến trúc nền tảng của toàn ngành. CEO Justin Dangel đã tuyên bố rằng công ty tin rằng kỷ nguyên xây dựng dựa trên Transformers có thể đang dần đi đến hồi kết. Nếu SubQ có thể tiếp tục chứng minh được hiệu quả ở quy mô lớn, sự chuyển đổi từ cơ chế chú ý dày đặc (dense attention) sang chú ý thưa (sparse attention) có thể đại diện cho sự thay đổi đáng kể nhất trong kiến trúc AI kể từ khi Transformer được phát minh.

Những điểm chính cần lưu ý

  • Phá vỡ rào cản bậc hai (Quadratic Barrier): SubQ sử dụng cơ chế chú ý thưa (sparse attention) để tránh sự gia tăng lũy thừa về tính toán vốn là yêu cầu của cơ chế chú ý dày đặc (dense attention) truyền thống.
  • Xử lý ngữ cảnh vượt trội: Mô hình có thể xử lý lượng dữ liệu lớn hơn gấp 12 lần cùng một lúc, cho phép phân tích sâu các tập dữ liệu quy mô lớn và các đoạn mã dài.
  • Hiệu quả đã được kiểm chứng: Thử nghiệm độc lập bởi Appen xác nhận rằng SubQ đạt được hiệu suất cấp cao (tương đương với OpenAI và Google) với chi phí và năng lượng chỉ bằng một phần nhỏ.