AGI:我们到达了吗?
我们还没有达到 AGI。
一年前,我曾问过我们是否已经实现了通用人工智能(AGI)。当时,OpenAI 的 o3 模型在 ARC-AGI-1 基准测试中达到了一个重要的里程碑。它在推理能力上展现出了真正的飞跃。
但我当时认为这只是一个中转站,而非终点。
我是对的。
如今的故事并非关于 AGI 的到来,而是更有趣。我们已经超越了简单的聊天机器人,现在正处于前沿推理和智能体(agent)系统的时代。
以下是该领域的现状:
• 模型在推理和编程方面表现得好得多。 • 它们能更有效地使用工具并处理长上下文。 • 它们可以处理图像和音频等多模态输入。 • 它们比以往任何时候都更具经济实用价值。
但它们仍然缺乏类人般的通用性。
基准测试揭示了真相。虽然像 MMLU 这样的旧测试已经趋于饱和,但新的测试展示了差距。
• ARC-AGI-1 是推理能力的突破。 • ARC-AGI-2 表明新颖性和组合能力仍然非常困难。 • ARC-AGI-3 进入了交互式环境,模型在这些环境中难以适应。
我们也看到了模型扩展方式的转变。这不再仅仅关乎更多的数据。现在的扩展是通过以下方式实现的:
- 预训练规模。
- 后训练和强化学习。
- 推理时推理(inference-time reasoning)和工具使用。
一个能够暂停、运行代码并修正计划的模型,与一个仅仅预测下一个词的模型是不同的。这就是智能体系统(agentic systems)的兴起。
然而,一个主要的差距仍然存在:可靠性。
METR 的研究表明,可靠完成任务的时间跨度正在增长。它每隔几个月就会翻倍。但 50 分钟的任务跨度还称不上一个完整的工作日,更谈不上进行一周的自主研究。
我们已经从“回答问题的模型”转向了“使用工具进行推理的模型”。
我们正在构建能力极强的系统。但这些系统往往“面广而脆弱”。它们可以解决研究生水平的数学问题,却会在简单且新颖的谜题面前折戟。
诚实的立场是这样的:
我们还没有达到 AGI。但我们比大多数人预期的更接近某种具有经济颠覆性的事物。
我们正在构建通用推理系统。它们看起来聪明得令人震惊,但仍然会以某些方式失败,从而证明它们缺乏真正的类人适应能力。
里程碑是真实的,但炒作过度了。现在的真正工作在于构建鲁棒性和自主性。
来源:https://dev.to/ernestohs/agi-are-we-there-yet-a-follow-up-1471
可选学习社区:https://t.me/GyaanSetuAi
