模型路由:停止用一个模型处理所有事情
使用 70B 模型来总结一封简短的电子邮件是种浪费。使用 3B 模型来审查代码则是有风险的。大多数系统处于两者之间。这正是模型路由发挥作用的地方。
路由将任务难度与模型能力进行匹配。它可以节省成本并缩短等待时间。大多数人对所有事情都使用同一个模型。这种做法在成本或速度成为问题之前是行得通的。
使用这四种策略:
• 基于能力:根据模型的能力进行路由。 • 成本感知:根据您的预算进行路由。 • 延迟感知:根据您对响应速度的需求进行路由。 • 混合模式:结合以上三种方式。
将您的任务与合适的规模进行匹配:
- 分类与打标签:1-3B 模型(例如 Qwen2.5-1.5B)。
- 摘要与提取:3-7B 模型(例如 Llama-3.1-8B)。
- 代码生成:7-14B 模型(例如 DeepSeek-Coder)。
- 复杂推理:14-32B 模型(例如 Llama-3.1-70B)。
- 创意写作与分析:32B+ 模型(例如 GPT-4)。
如果一个小模型就能处理某项任务,就不要使用大模型。1.5B 模型可以很好地处理情感分析,但它写不了论文。
本地模型是一个明智的选择。在购买硬件后,它们的成本几乎为零。如果您需要处理数千个请求,运行本地模型可能比支付 API token 费用要便宜得多。
考虑以下针对速度的使用场景:
- 实时聊天:使用 7B 以下的模型以获得即时响应。
- 交互式工具:使用 14B 以下的模型。
- 批量处理:可以使用任何规模的模型。
如果您构建路由,请包含一个回退链(fallback chain)。从最好的模型开始。如果它失败或达到限制,则转向下一个最好的模型。您链条中的最后一个模型应该是本地模型。本地模型不会因为网络问题或 API 限制而失败。
路由会增加复杂性。如果您的每个任务难度都相同,请不要使用它。先从使用一个模型开始。只有当成本或速度成为问题时,才添加路由。
Source: https://dev.to/rosgluk/model-routing-stop-using-one-model-for-everything-4mf1
Optional learning community: https://t.me/GyaanSetuAi