AI SaaS 背后的隐藏架构

构建 AI SaaS 平台教会了我一件事。

难点不在于调用 LLM,而在于让 AI 在真实的业务场景中落地。

起初,一切看起来都很简单。你会认为:

  • API 密钥只是简单的密钥。
  • SSO 只是一个连接。
  • 计费只是接入 Stripe。
  • 部署只是使用 Docker。
  • AI 只是调用一下 OpenAI。

但随着平台进入实战阶段,每个简单的课题都会演变成一个复杂的系统。

API Keys

API 密钥不仅仅是一个字符串。在企业级 SaaS 中,密钥必须处理:

  • 权限范围 (Scopes) 与过期时间。
  • 吊销机制与审计日志。
  • 租户边界与速率限制 (Rate limits)。
  • 基于套餐的访问权限。

一个密钥必须能够回答:谁拥有它、它属于哪个租户,以及它可以访问哪些资源。

SSO 与身份认证

连接一个身份提供商很容易,难点在于决定信任什么。

  • 你是信任邮箱域名还是信任用户组?
  • 租户管理员能否创建平台管理员?
  • 如果一个用户属于多个租户,该怎么办?

真正的 SSO 需要包含签发者验证 (Issuer validation)、角色映射 (Role mapping) 和会话隔离 (Session isolation)。

AI 运营

调用模型很容易,但运营 AI 很难。你需要追踪:

  • Token 消耗与成本。
  • 服务商的使用情况与延迟。
  • 重试、超时与降级方案 (Fallbacks)。
  • Prompt 管理与数据边界。

Demo 只需要一个响应,但商业平台需要知道哪个租户使用了哪个模型,以及确切的成本是多少。

计费与治理

Stripe 处理支付,但它并不定义你的产品。严肃的 SaaS 会将计费与以下内容挂钩:

  • 配额 (Quotas) 与功能开关 (Feature gates)。
  • 租户限制与订阅状态。
  • 部署模式,例如本地部署 (On-prem) 或客户云。

计费演变成了商业治理。它控制着客户被允许使用的功能范围。

执行与扩展

Kubernetes 并不能直接让你实现可扩展性。你必须通过分离以下内容来管理工作负载:

  • 队列 (Queues) 与工作进程 (Workers)。
  • 资源限制与自动扩缩容 (Autoscaling)。
  • 网络策略与可观测性 (Observability)。

你需要知道哪个工作进程正在失败,以及哪个租户产生了最大的负载。

可观测性

监控不是锦上添花,而是产品的一部分。

  • 工程师需要知道哪里出了问题。
  • 管理层需要知道价值在哪里创造,成本在哪里上升。

最重要的教训是:这些系统是环环相扣的。 如果 AI 缺乏计量,它就会变得昂贵;如果 SSO 缺乏隔离,它就会变得危险;如果计费缺乏强制执行,它就会变成摆设。

构建 AI SaaS 最难的部分不是 Prompt,而是让身份、数据、成本和基础设施协同运作。

Source: https://dev.to/tarik_haddadi_4f933f0e217/the-hidden-architecture-behind-ai-saas-lessons-from-building-an-enterprise-automation-platform-56f2

Optional learning community: https://t.me/GyaanSetuAi