Google DeepMind 推出“超人”人工智能系统，该系统在事实核查、节省成本和提高准确性方面表现出色

小椰子啊 • 2024-03-29 商业

谷歌DeepMind研究部门的一项新研究发现，在评估大型语言模型生成的信息的准确性时，人工智能系统可以胜过人类事实核查员。

这篇题为“大型语言模型中的长格式事实性”的论文发表在预印本服务器arXiv上，介绍了一种称为搜索增强事实性评估器（SAFE）的方法。SAFE 使用大型语言模型将生成的文本分解为单个事实，然后使用 Google 搜索结果来确定每个声明的准确性。

“SAFE利用LLM将长篇回复分解为一组单独的事实，并使用多步骤推理过程评估每个事实的准确性，包括向Google搜索发送搜索查询并确定搜索结果是否支持事实，”作者解释说。

“超人”表演引发争论

研究人员在大约16,000个事实的数据集上将SAFE与人类注释者进行了对比，发现SAFE的评估在72%的时间内与人类评分相匹配。更值得注意的是，在SAFE和人类评分者之间的100个分歧样本中，SAFE的判断在76%的案例中被发现是正确的。

虽然这篇论文断言“LLM代理可以达到超人的评级性能”，但一些专家质疑“超人”在这里的真正含义。

加里·马库斯（Gary Marcus）是一位著名的人工智能研究员，经常批评夸大其词的说法，他在Twitter上表示，在这种情况下，“超人”可能只是意味着“比工资过低的众包工作者更好，而不是真正的人类事实核查员”。

“这使得定性具有误导性，”他说。“就像说1985年的国际象棋软件是超人一样。

马库斯提出了一个有道理的观点。为了真正展示超人的表现，SAFE需要与专业的人类事实核查员进行基准测试，而不仅仅是众包工人。人工评分者的具体细节，例如他们的资格、薪酬和事实核查过程，对于正确地将结果置于上下文中至关重要。

SAFE的一个明显优势是成本——研究人员发现，使用人工智能系统比人类事实核查员便宜约20倍。随着语言模型生成的信息量不断爆炸式增长，拥有一种经济且可扩展的方式来验证声明将变得越来越重要。

DeepMind 团队使用 SAFE 在一个名为 LongFact 的新基准测试中评估了 4 个家族（Gemini、GPT、Claude 和 PaLM-2）的 13 个顶级语言模型的事实准确性。他们的结果表明，较大的模型通常产生较少的事实错误。

然而，即使是性能最好的模型也会产生大量虚假声明。这凸显了过度依赖能够流利地表达不准确信息的语言模型的风险。像SAFE这样的自动事实核查工具可以在减轻这些风险方面发挥关键作用。

虽然 SAFE 代码和 LongFact 数据集已在 GitHub 上开源，允许其他研究人员仔细审查和构建工作，但研究中使用的人类基线仍需要更多的透明度。了解众包工作者的背景和流程的具体情况对于在适当的背景下评估 SAFE 的能力至关重要。

随着科技巨头竞相为从搜索到虚拟助手等应用程序开发更强大的语言模型，自动对这些系统的输出进行事实核查的能力可能被证明是至关重要的。像SAFE这样的工具是朝着建立新的信任和问责制迈出的重要一步。

然而，至关重要的是，这些重要技术的开发必须以公开的方式进行，并得到任何一家公司之外的广泛利益相关者的投入。对人类专家（而不仅仅是众包工作者）进行严格、透明的基准测试对于衡量真正的进展至关重要。只有这样，我们才能衡量自动事实核查对打击错误信息的实际影响。

椰有料原创，作者：小椰子啊，转载请注明出处：http://www.studioyz.com/5806.html