OpenAI 和 Anthropic 如何设计 AI 系统

Translated for your language. 阅读原文.

AI-assisted draft.

前天2分钟阅读

OpenAI 和 Anthropic 如何设计 AI 系统

许多人试图通过查看 API 文档或博客文章来对 AI 公司进行逆向工程。他们只关注模型或端点。这会导致错误的结论。

OpenAI 和 Anthropic 不仅仅是在构建模型。他们正在构建整个生态系统。

生产级 AI 系统是一个大规模分布式系统。它是一种分层架构，其中每个部分都会影响其他部分。

如果你将 AI 视为单一组件，你就会忽略真正的核心工作。真正的奥妙在于这些层级之间是如何相互作用的。

以下是大规模 AI 系统的核心层：

• 数据流水线：收集并清洗训练数据。 • 训练基础设施：管理大规模计算和 GPU 集群。 • 模型层：核心 LLM 架构。 • 推理层：以低延迟向用户提供响应。 • 安全层：实施护栏和对齐。 • 可观测性：监控性能并追踪错误。 • 反馈循环：利用新数据随时间推移不断改进模型。

模型只是这个网络中的一部分。

例如，对齐不是一次性的任务。公司使用不同的策略来保持模型的安全：

一旦模型准备就绪，挑战就会转向推理。你必须在速度和成本之间取得平衡。工程师使用批处理、缓存和量化等技术来保持系统的快速和可靠。

扩展这些系统非常困难。这不仅仅是增加更多硬件的问题，更在于管理复杂性。随着规模的扩大，你会面临协调性和可靠性方面的新问题。

成功源于将 AI 视为一个不断进化的系统。这些公司构建的不是静态产品，而是能够从现实世界使用中学习的循环系统。

不要孤立地看待模型。要看整个系统。

继续阅读