𝗚𝗣𝗧 的能力远超你的想象

GPT 模型正在改变我们处理文本的方式。

这段旅程始于 GPT-1。它证明了机器可以编写连贯的句子。随后出现的 GPT-2 展示了这些模型的巨大潜力。接着 GPT-3 问世,凭借 1750 亿个参数,它证明了模型不仅能完成句子,还能做更多事情。

秘诀在于 Transformer 架构。它能从海量数据中学习模式。你不需要编写每一条规则,可以通过微调(fine-tune)来应对特定任务,或者使用自然语言来引导它。

但在生产环境中运行这些模型非常困难。

高延迟会破坏用户体验。我们曾使用 64 块 Nvidia H100 GPU 运行大型模型,延迟为 120 毫秒。这对于我们的需求来说太慢了。于是我们改用通过 LoRA 技术实现的 60 亿参数的小型模型。这使延迟降至 38 毫秒,每月还为我们节省了 3 万美元。虽然我们损失了一些代码准确性,但速度和成本的优势使其变得物有所值。

你还必须警惕偏见。GPT 从互联网中学习模式,这意味着它可能会重复刻板印象或事实错误。即使在出错时,它听起来也显得很有信心。

我们构建了一个数据流水线(data pipeline)来捕捉这些错误。我们使用规则引擎来标记有偏见的语言。最初,我们 4% 的标记是错误的。通过添加一个小型验证模型,我们将错误率降到了 1% 以下。

成本和能源也是巨大的障碍。

训练大型模型的成本高达数百万美元。我们使用量化(quantization)技术来降低成本。通过使用 4-bit 量化,我们将每个 token 的成本从 0.00015 美元降至 0.00004 美元。对于大型 SaaS 产品而言,这每年可以节省 300 万美元。

未来正朝着效率化发展。开发者不再仅仅追求扩大模型规模,而是致力于让模型变得更聪明、更小巧。我们需要的是既快速、廉价,又能对其知识盲区保持诚实的模型。

明智地使用这些工具。了解它们的局限性。建立护栏(guardrails)以确保它们保持有用。

Source: https://dev.to/lavkeshdwivedi/gpt-does-more-than-you-think-fll

Optional learning community: https://t.me/GyaanSetuAi