OpenAI Codex 发布 Record & Replay 功能,实现复杂工作流自动化
OpenAI 为其 macOS 上的 Codex 应用推出了一项具有变革意义的“Record & Replay”功能,标志着自主智能体(autonomous agent)能力的重大飞跃。通过观察用户执行手动操作序列,AI 现在可以将人类行为转化为永久且可重复使用的数字技能。
从观察到自动化:Record & Replay 的工作原理
最新 Codex 更新的核心创新在于能够将单次会话的工作流转化为可重复的自动化流程。用户无需编写复杂的脚本或提示词(prompts)来描述流程,只需通过“演示”引导 AI 智能体完成特定任务即可。例如,用户可以演示上传 YouTube 视频的全过程——包括添加元数据、选择缩略图以及上传字幕。
演示完成后,Codex 会将这些操作编码为一项“技能(skill)”。此后,智能体便可以在未来独立执行整个序列。这使得 AI 的交互方式从简单的基于对话的指令,转向了真正的“Computer Use”,即模型能够像人类一样与操作系统和应用程序界面进行交互。
技术增强与 26.616 版本更新
除了 Record & Replay 功能外,26.616 版本还引入了专为专业高级用户和开发者设计的关键基础设施更新。针对“Automations”历史记录的新批量操作功能可以更好地管理先前记录的任务,同时还实现了一项先进的“hand-off(接管)”功能。这允许用户在本地机器和远程主机之间转移活动线程,从而在连接的硬件上无缝延续复杂任务。
要使用这些高级自动化功能,用户必须启用“Computer Use”。虽然 Codex 可以免费下载,但执行这些工作流所需的高级推理能力需要付费的 ChatGPT 账户。
地区可用性与更广泛的 AI 格局
这些功能的推出面临一些地理限制。目前,Record & Replay 在英国、瑞士和欧盟境内暂不可用。然而,基础性的“Computer Use”能力自 6 月 16 日起已可在欧盟使用,为未来的功能对齐奠定了基础。
这一发展是人工智能行业的关键时刻。我们正在见证大语言模型(LLMs)从单纯的“知识引擎”向“行动引擎”的转变。通过掌握观察并复制基于 GUI 任务的能力,Codex 正在助力 OpenAI 主导白领工作自动化领域,有效地将桌面操作系统转变为一个由智能体而非手动点击所驱动的环境。
核心要点
- 行为模仿: 新的 Record & Replay 功能允许 Codex 将单次手动演示转换为可重复使用的自动化技能。
- 高级工作流管理: 26.616 版本引入了本地与远程主机之间的线程移交,并改进了自动化历史记录的批量管理。
- 智能体演进: 这一举措标志着从基于文本的 AI 辅助向能够操作复杂软件界面的自主 “Computer Use” 智能体的转变。