AGI：我们实现它了吗？

Translated for your language. 阅读原文.

AI-assisted draft.

AGI：我们到达了吗？

我们还没有达到 AGI。

一年前，我曾问过我们是否已经实现了通用人工智能（AGI）。当时，OpenAI 的 o3 模型在 ARC-AGI-1 基准测试中达到了一个重要的里程碑。它在推理能力上展现出了真正的飞跃。

但我当时认为这只是一个中转站，而非终点。

我是对的。

如今的故事并非关于 AGI 的到来，而是更有趣。我们已经超越了简单的聊天机器人，现在正处于前沿推理和智能体（agent）系统的时代。

以下是该领域的现状：

• 模型在推理和编程方面表现得好得多。 • 它们能更有效地使用工具并处理长上下文。 • 它们可以处理图像和音频等多模态输入。 • 它们比以往任何时候都更具经济实用价值。

但它们仍然缺乏类人般的通用性。

基准测试揭示了真相。虽然像 MMLU 这样的旧测试已经趋于饱和，但新的测试展示了差距。

• ARC-AGI-1 是推理能力的突破。 • ARC-AGI-2 表明新颖性和组合能力仍然非常困难。 • ARC-AGI-3 进入了交互式环境，模型在这些环境中难以适应。

我们也看到了模型扩展方式的转变。这不再仅仅关乎更多的数据。现在的扩展是通过以下方式实现的：

一个能够暂停、运行代码并修正计划的模型，与一个仅仅预测下一个词的模型是不同的。这就是智能体系统（agentic systems）的兴起。

然而，一个主要的差距仍然存在：可靠性。

METR 的研究表明，可靠完成任务的时间跨度正在增长。它每隔几个月就会翻倍。但 50 分钟的任务跨度还称不上一个完整的工作日，更谈不上进行一周的自主研究。

我们已经从“回答问题的模型”转向了“使用工具进行推理的模型”。

我们正在构建能力极强的系统。但这些系统往往“面广而脆弱”。它们可以解决研究生水平的数学问题，却会在简单且新颖的谜题面前折戟。

诚实的立场是这样的：

我们还没有达到 AGI。但我们比大多数人预期的更接近某种具有经济颠覆性的事物。

我们正在构建通用推理系统。它们看起来聪明得令人震惊，但仍然会以某些方式失败，从而证明它们缺乏真正的类人适应能力。

里程碑是真实的，但炒作过度了。现在的真正工作在于构建鲁棒性和自主性。

继续阅读