Probably 融资 900 万美元，利用精密工程解决 LLM 幻觉问题

📅3 hours ago⏱3 min read

In this article

Probably 融资 900 万美元，通过精密工程对抗 LLM 幻觉

随着大语言模型 (LLM) 越来越多地融入专业工作流，行业面临着一个持久的障碍：即使是最先进的模型也存在产生幻觉的倾向。初创公司 Probably 正正面应对这一挑战，并获得了由 Andreessen Horowitz 领投的 900 万美元种子轮融资，旨在为 AI 可靠性构建一种更严谨、更具确定性的方法。

向 99.99% 的准确率迈进

在创始人 Peter Elias 的带领下，Probably 的核心使命是弥合 LLM 的概率特性与确定性系统所要求的 99.99% 准确率标准之间的差距。在涉及高风险的环境中，一个事实错误就可能使 AI 工具变得毫无用处。为了解决这个问题，Probably 正在摒弃“准确率纯粹是模型规模的函数”这一观点，转而专注于“约束工程 (harness engineering)”。

该公司的旗舰产品是一款旨在从复杂数据集中提取洞察的数据科学工具。与提供对话式响应的标准聊天机器人不同，Probably 的工具为每个答案都提供了具体的引用和透明的审计追踪，允许用户验证每个输出背后的逻辑。

“数据科学机甲”架构

Probably 并不单纯依赖大型模型的推理能力，而是利用了 Elias 所称的“数据科学机甲 (data science mech suit)”。这种架构充当了一套复杂的约束系统，LLM 的初始输出会立即接受确定性验证器的审查。

如果 LLM 生成的结果与底层数据集不完全一致，验证器就会将其拒绝。至关重要的是，LLM 是专门针对该验证器进行训练的，从而创建了一个针对速度和事实完整性进行优化的闭环系统。这种方法基于一个基本原理：通过工程手段优化上下文并减少歧义，可以在不需要大规模计算暴力的情况下，迫使模型“做正确的事”。

通过更小、更本地化的模型实现高效

Probably 方法最显著的技术意义之一是能够使用更小、更高效的模型。由于“机甲”承担了验证和上下文优化的重任，该系统可以在比“前沿模型弱四个量级”的模型上运行。

这一转变带来了巨大的经济和运营效益：

降低 Token 成本： 更小的模型显著降低了单次查询的成本，随着企业寻求优化 AI 预算，这是一个至关重要的因素。
本地执行： 这些更轻量级的模型可以在本地硬件（如台式机）上运行，而无需昂贵且高延迟的数据中心连接。
可扩展性： 该引擎的设计旨在超越数据科学领域，扩展到会计和医疗服务等对精度敏感的行业。

挑战大型 AI 实验室的激励模式

Elias 指出了当前 AI 领域存在的一种结构性错位：大型 AI 实验室的激励机制促使它们构建庞大的通用模型，而这些模型往往需要用户频繁进行纠错。由于这些实验室通常根据 Token 使用量收费，更多的错误和后续查询实际上可能会增加其收入。通过专注于精度，并利用工程手段而非单纯依靠规模来“减少歧义”，Probably 正在为任务关键型 AI 应用开辟一个利基市场，在这些应用中，可靠性是唯一重要的指标。

核心要点

确定性验证： Probably 使用“机甲套件”（mech suit）架构，通过确定性验证器来检查 LLM 的输出，目标是达到 99.99% 的准确率。
高性价比工程： 通过更好的上下文工程来减少歧义，该系统可以在更小、更便宜的模型上运行，并能在本地硬件上操作。
精度优先： 该技术旨在将 AI 推向医疗和金融等高风险、对精度敏感的行业，在这些行业中，幻觉是不可接受的。

Probably 融资 900 万美元，利用精密工程解决 LLM 幻觉问题

Probably 融资 900 万美元，通过精密工程对抗 LLM 幻觉

向 99.99% 的准确率迈进

“数据科学机甲”架构

通过更小、更本地化的模型实现高效

挑战大型 AI 实验室的激励模式

核心要点

Continue reading

𝗙𝗶𝘅𝗶𝗻𝗴 𝗔𝗜 𝗛𝗮𝗹𝗹𝘂𝗰𝗶𝗻𝗮𝘁𝗶𝗼𝗻𝘀

𝗕𝘂𝗶𝗹𝗱𝗶𝗻𝗴 𝗗𝗼𝗺𝗮𝗶𝗻 𝗦𝗽𝗲𝗰𝗶𝗳𝗶𝗰 𝗟𝗟𝗠 𝗘𝘃𝗮𝗹 𝗦𝗲𝘁𝘀

AI 红队测试：保护大语言模型免受对抗性风险的影响

MA ProofBench：GPT 5.5 在数学分析中达到 16% 的准确率

迈向高效的 LLM 服务