打破 AI 集体思维:Flint 如何对抗 LLM 的群体思维
虽然像 ChatGPT 和 Claude 这样的大语言模型在编程和研究方面表现出色,但它们正日益陷入可预测的“群体思维”(groupthink)陷阱。随着主流模型趋向于高概率、重复性的回答,一家新的初创公司正试图为生成式 AI 生态系统注入急需的发散性。
问题所在:“人工蜂群思维”效应
当前 LLM 开发的一个重大局限在于,模型倾向于趋向于统计学上概率最高的答案,从而导致研究人员称之为“人工蜂群思维”(Artificial Hivemind)的现象。一篇获得 NeurIPS 奖项的论文 《人工蜂群思维:语言模型的开放式同质性(及其他)》(“Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)”) 揭示了这种根深蒂固的重复性。
研究团队测试了 25 种不同的 LLM,包括美国主流模型和来自中国的开源版本。当被要求为“时间”提供一个比喻时,1,250 个回答中的绝大多数都趋同于“时间是一条河流”或“时间是一位织工”之类的陈词滥调。这种缺乏多样性的现象不仅仅是一个小瑕疵,它是以最大化可靠性和连贯性为主要目标、在相似数据集上训练模型的副产品。OpenAI 已经承认,追求新颖性有时会导致回答能力变弱、可靠性降低,这就是为什么大多数模型默认选择安全、“高概率”的输出。
Flint 登场:将多样性置于可预测性之上
澳大利亚初创公司 Springboards 正通过其新模型 Flint 来挑战这一现状。与不惜一切代价对抗“幻觉”的主流模型不同,Springboards 的 CEO Pip Bingemann 认为,对于创意任务来说,一定程度的不可预测的发散性是必要的。
在实际测试中,输出分布的差异非常显著:
- 随机性: 当被要求提供一个随机数时,ChatGPT 和 Claude 经常默认给出“7”,而 Flint 则提供了高精度、非标准的数字,如“3.7916”。
- 创意品牌化: 当被要求为 New Balance 提供一句标语时,Claude 和 ChatGPT 都生成了“Run your way”,而 Flint 则提供了一个截然不同的选择:“Built to last, run to win”。
- 名词选择: 主流模型倾向于选择 Toyota 或 Honda 等“安全”品牌,而 Flint 则展示了更广泛的选择范围,选择了像 Ford F-150 这样不太容易被预测的选项。
面向专业人士的创意工具
Springboards 不仅仅是在构建一个独立的模型;他们正在为广告和营销专业人士开发一种专门的工具。该平台允许用户聚合来自多个模型(包括 ChatGPT 和 Claude)的输出,并将它们结合起来以合成新的想法。Flint 在这个生态系统中充当“创意弹射器”,专门设计用于将用户推离现有的思维框架。
77X 的首席战略官 Zoe Scaman 指出,虽然主流模型经常建议一些陈旧的解决方案(例如“以有趣的方式教授金融素养”),但 Flint 提供了激进的视角转变,例如建议对“财富积累”这一概念本身进行彻底的品牌重塑。
核心要点
- LLM 同质性: 由于相似的训练方法,主流模型正趋向于相似、可预测的答案,从而产生了“人工蜂群思维”效应。
- Flint 方法: Springboards 的 Flint 模型优先考虑回答的多样性和发散性,使其比标准模型更适合头脑风暴和创意策略。
- 可靠性权衡: 行业面临着模型可靠性(保持在高概率范围内)与创意新颖性(拥抱低概率、多样化的输出)之间的根本矛盾。
