OpenAI 和 Anthropic 如何设计 AI 系统
许多人试图通过查看 API 文档或博客文章来对 AI 公司进行逆向工程。他们只关注模型或端点。这会导致错误的结论。
OpenAI 和 Anthropic 不仅仅是在构建模型。他们正在构建整个生态系统。
生产级 AI 系统是一个大规模分布式系统。它是一种分层架构,其中每个部分都会影响其他部分。
如果你将 AI 视为单一组件,你就会忽略真正的核心工作。真正的奥妙在于这些层级之间是如何相互作用的。
以下是大规模 AI 系统的核心层:
• 数据流水线:收集并清洗训练数据。 • 训练基础设施:管理大规模计算和 GPU 集群。 • 模型层:核心 LLM 架构。 • 推理层:以低延迟向用户提供响应。 • 安全层:实施护栏和对齐。 • 可观测性:监控性能并追踪错误。 • 反馈循环:利用新数据随时间推移不断改进模型。
模型只是这个网络中的一部分。
例如,对齐不是一次性的任务。公司使用不同的策略来保持模型的安全:
- RLHF:利用人类反馈来引导行为。
- Constitutional AI:利用基于规则的指导来实现规模化。
- 输出过滤:利用后处理来拦截不良内容。
一旦模型准备就绪,挑战就会转向推理。你必须在速度和成本之间取得平衡。工程师使用批处理、缓存和量化等技术来保持系统的快速和可靠。
扩展这些系统非常困难。这不仅仅是增加更多硬件的问题,更在于管理复杂性。随着规模的扩大,你会面临协调性和可靠性方面的新问题。
成功源于将 AI 视为一个不断进化的系统。这些公司构建的不是静态产品,而是能够从现实世界使用中学习的循环系统。
不要孤立地看待模型。要看整个系统。
Source: https://dev.to/stack_overflowed/how-companies-like-openai-and-anthropic-design-their-ai-systems-2537