Gemini SQL2 của Google thiết lập chuẩn mực mới về độ chính xác của Text to SQL

Translated for your language. Read the original.

AI-assisted draft.

GyaanSetu Editorial3 tuần trước3min read

In this article

Gemini-SQL2 của Google thiết lập chuẩn mực mới về độ chính xác Text-to-SQL

Google Research vừa công bố Gemini-SQL2, một hệ thống text-to-SQL mạnh mẽ vượt xa các đối thủ dẫn đầu ngành hiện nay trong việc chuyển đổi ngôn ngữ tự nhiên thành các truy vấn cơ sở dữ liệu. Được xây dựng trên kiến trúc Gemini 3.1 Pro tiên tiến, mô hình mới này đánh dấu một bước tiến lớn trong cách con người tương tác với dữ liệu cấu trúc phức tạp.

Thống trị bảng xếp hạng chuẩn đánh giá BIRD

Tác động thực sự của Gemini-SQL2 thể hiện rõ nhất qua hiệu suất của nó trên chuẩn đánh giá BIRD (Big Bench for Intelligent Retrieval and Database). Chuẩn đánh giá chuyên biệt này đo lường mức độ chính xác mà một AI có thể chuyển đổi ngôn ngữ con người thành các truy vấn SQL có thể thực thi để đưa ra kết quả đúng.

Gemini-SQL2 đã đạt được độ chính xác thực thi đáng kinh ngạc là 80,04%, khẳng định vị trí quán quân tuyệt đối trên bảng xếp hạng. Để dễ hình dung, thành tựu này tạo ra một khoảng cách khổng lồ giữa Google và các đối thủ cạnh tranh gần nhất. GPT-5.5-xhigh của OpenAI theo sau với độ chính xác khoảng 72,8%, trong khi Claude Opus 4.6 của Anthropic đạt 70,9%. Các tên tuổi lớn khác trong ngành, bao gồm Databricks, AWS, Tencent và Alibaba, đều tụt lại phía sau đáng kể so với ngưỡng hiệu suất mới này.

Giải quyết sự phức tạp của logic kinh doanh

Việc chuyển đổi ngôn ngữ tự nhiên sang SQL khó hơn nhiều so với việc tạo văn bản thông thường. Google Research lưu ý rằng các môi trường cơ sở dữ liệu trong thế giới thực hiếm khi đơn giản; dữ liệu thường được phân lớp dày đặc, và các truy vấn phải tính đến các logic kinh doanh đa bước, phức tạp mới có thể mang lại giá trị sử dụng.

Một điểm yếu phổ biến của các LLM hiện nay là tạo ra các câu lệnh SQL "đúng cú pháp" nhưng lại không trả về kết quả "đúng về mặt logic" do hiểu sai các mối quan hệ trong lược đồ (schema). Gemini-SQL2 giải quyết vấn đề này bằng cách đảm bảo rằng các truy vấn được tạo ra không chỉ vững chắc về mặt cấu trúc mà còn thực thi thành công để cung cấp chính xác dữ liệu mà người dùng yêu cầu. Khả năng này đóng vai trò then chốt đối với các ứng dụng doanh nghiệp, nơi mà chỉ một lệnh join hoặc bộ lọc sai cũng có thể dẫn đến những phân tích kinh doanh sai lầm nghiêm trọng.

Những tác động đối với tương lai của trí tuệ dữ liệu

Mặc dù Google vẫn chưa công bố báo cáo nghiên cứu chính thức hay thông báo ngày phát hành công khai cho Gemini-SQL2, nhưng những tác động đối với bối cảnh AI rộng lớn hơn là vô cùng sâu sắc. Khi các LLM trở nên thành thạo hơn trong việc thao tác dữ liệu có cấu trúc, rào cản giữa người dùng không chuyên về kỹ thuật và các kho dữ liệu doanh nghiệp khổng lồ sẽ tiếp tục được xóa bỏ.

Đối với các nhà phát triển và nhà sáng lập, sự phát triển này gợi mở về một tương lai nơi "Giao diện Ngôn ngữ Tự nhiên" cho dữ liệu trở thành một tính năng tiêu chuẩn thay vì là một sự xa xỉ. Chúng ta có thể kỳ vọng thấy các tính năng ngôn ngữ tự nhiên nâng cao được tích hợp trong toàn bộ bộ dịch vụ dữ liệu của Google, cho phép các nhà phân tích truy vấn các cơ sở dữ liệu phức tạp dễ dàng như cách họ đặt câu hỏi cho một đồng nghiệp. Xu hướng hướng tới khả năng text-to-SQL đáng tin cậy và có độ chính xác cao này là một bước tiến quan trọng trong việc giúp trí tuệ dữ liệu do AI thúc đẩy trở nên thực sự tự chủ và có khả năng mở rộng.

Những điểm chính cần lưu ý

Dẫn đầu về Benchmark: Gemini-SQL2 đạt độ chính xác thực thi 80,04% trên benchmark BIRD, vượt xa đáng kể so với OpenAI (72,8%) và Anthropic (70,9%).
Nền tảng Kiến trúc: Hệ thống được xây dựng trên mô hình Gemini 3.1 Pro, được tối ưu hóa đặc biệt để xử lý các lược đồ cơ sở dữ liệu phức tạp và các logic kinh doanh tinh vi.
Tác động đến Doanh nghiệp: Bước đột phá này mở đường cho các giao diện ngôn ngữ tự nhiên đáng tin cậy hơn trong các dịch vụ dữ liệu, giúp thu hẹp khoảng cách giữa dữ liệu thô và các thông tin chuyên sâu có thể hành động được.