Google 的 Gemini-SQL2 树立了 Text-to-SQL 准确率的新标杆

Google Research 发布了 Gemini-SQL2,这是一个强大的 text-to-SQL 系统,在将自然语言转换为数据库查询方面显著超越了目前的行业领导者。该新模型基于先进的 Gemini 3.1 Pro 架构构建,标志着人类与复杂结构化数据交互方式的一次重大飞跃。

统治 BIRD 基准测试排行榜

Gemini-SQL2 的真正影响力在其 BIRD(Big Bench for Intelligent Retrieval and Database)基准测试的表现中体现得最为明显。这一专门的基准测试用于评估 AI 将人类语言转换为可执行 SQL 查询并产生正确结果的准确程度。

Gemini-SQL2 实现了惊人的 80.04% 执行准确率,稳居排行榜首位。为了直观地理解这一成就,它在 Google 与其最接近的竞争对手之间拉开了巨大的差距。OpenAI 的 GPT-5.5-xhigh 以约 72.8% 的准确率紧随其后,而 Anthropic 的 Claude Opus 4.6 则为 70.9%。包括 Databricks、AWS、腾讯和阿里巴巴在内的其他主要行业参与者,都显著落后于这一新的性能天花板。

解决业务逻辑的复杂性

将自然语言转换为 SQL 比标准的文本生成要困难得多。Google Research 指出,现实世界的数据库环境很少是简单的;数据通常具有很强的层次性,且查询必须考虑到复杂的、多步骤的业务逻辑才能发挥作用。

现有 LLM 的一个常见失败点是生成“语法正确”但由于误解模式(schema)关系而无法返回“逻辑正确”答案的 SQL。Gemini-SQL2 通过确保生成的查询不仅结构合理,而且能够成功执行以提供用户请求的确切数据,从而解决了这一问题。这种能力对于企业级应用至关重要,因为在这些应用中,一个错误的连接(join)或过滤(filter)都可能导致灾难性的错误业务洞察。

对数据智能未来的启示

虽然 Google 尚未发布关于 Gemini-SQL2 的正式研究论文或宣布公开发布日期,但其对更广泛 AI 版图的影响是深远的。随着 LLM 在结构化数据处理方面变得越来越熟练,非技术用户与海量企业级数据仓库之间的摩擦将持续消除。

对于开发者和创始人而言,这一进展预示着一个未来:数据的“自然语言接口”将成为一项标准功能,而非奢侈配置。我们可以预见,增强的自然语言功能将集成到 Google 的整个数据服务套件中,使分析师能够像向同事提问一样轻松地查询复杂的数据库。这种向可靠、高准确度的 text-to-SQL 迈进的趋势,是实现真正自主且可扩展的 AI 驱动数据智能的关键一步。

核心要点

  • 基准测试领先地位: Gemini-SQL2 在 BIRD 基准测试中实现了 80.04% 的执行准确率,显著超过了 OpenAI (72.8%) 和 Anthropic (70.9%)。
  • 架构基础: 该系统基于 Gemini 3.1 Pro 模型构建,并针对处理复杂的数据库模式(schemas)和错综复杂的业务逻辑进行了专门优化。
  • 企业级影响: 这一突破为数据服务中更可靠的自然语言接口铺平了道路,缩小了原始数据与可操作洞察之间的差距。