OpenAI 和 Anthropic 如何设计 AI 系统
许多人试图通过查看 API 文档或博客文章来对 AI 公司进行逆向工程。他们只关注模型和端点。这会导致错误的结论。
模型只是拼图中的一环。
像 OpenAI 和 Anthropic 这样的公司不仅仅是在构建模型。他们正在构建庞大的生态系统。他们正在构建大规模的分布式系统。
如果你认为他们仅仅拥有更好的模型,你就错过了真正的秘密。他们的成功源于如何通过集成闭环来训练、部署和改进这些模型。
这种规模的生产级 AI 系统需要多个层级:
• 数据流水线 (Data Pipelines):用于收集和清洗训练数据。 • 训练基础设施 (Training Infrastructure):用于管理庞大的计算成本和并行性。 • 模型层 (Model Layer):保证准确性的核心架构。 • 推理层 (Inference Layer):以低延迟提供响应。 • 安全层 (Safety Layer):用于实施护栏 (guardrails) 和对齐 (alignment)。 • 可观测性 (Observability):用于监控性能和调试错误。 • 反馈闭环 (Feedback Loops):随着时间的推移不断改进模型。
每个层级都相互依赖。如果你改变其中一个,就会影响整个系统。
训练也是一个持续的过程。这些公司不会训练一次模型就停止。他们采用持续训练范式。他们使用数千个 GPU 来处理源源不断的新数据流。
对齐和安全也是其设计的核心。他们使用不同的策略来引导模型行为:
• RLHF:利用人类反馈进行高质量对齐。 • Constitutional AI:利用基于规则的引导来实现规模化。 • Prompt Constraints:利用系统指令进行快速设置。 • Output Filtering:利用后处理进行内容审核。
他们结合这些方法以保持稳健性。
模型准备就绪后,必须对其进行服务。他们使用批处理 (batching)、缓存 (caching) 和量化 (quantization) 等技术。这些技术有助于平衡速度与成本之间的权衡。
最后,他们利用可观测性来洞察一切。由于 AI 的输出并不总是相同的,调试非常困难。你不能只看一个错误,必须观察整个系统的模式。
AI 领域的成功源于对这些复杂交互的管理。他们将 AI 视为一个不断进化的系统,而非一个静态的产品。
来源:https://dev.to/stack_overflowed/how-companies-like-openai-and-anthropic-design-their-ai-systems-2537
可选学习社区:https://t.me/GyaanSetuAi