Anthropic 的 Claude 3 知道研究人员何时对其进行测试

小椰子啊 • 2024-03-11 安全

我们已经报道了由前 OpenAI 工程师创立并由兄妹二人组领导的旧金山初创公司 Anthropic 今天宣布了一个新的大型语言模型（LLM）系列，他们认为这是世界上最好的 Claude 3，在许多关键基准测试上匹配或优于 OpenAI 的 GPT-4。

此外，亚马逊还迅速将其中一个模型 Claude 3 Sonnet（智能和成本方面的中量级模型）添加到其 Amazon Bedrock 托管服务中，以便在 AWS 云中开发 AI 服务和应用程序。

但是，在今天出现的关于 Claude 3 发布的有趣细节中，有一条是 Anthropic 提示工程师 Alex Albert 在 X（前身为 Twitter）上分享的。正如 Albert 在一篇长文中所写的那样，在测试 Claude 3 Opus（Anthropic 新 LLM 家族中最强大的作品）时，研究人员惊讶地发现它似乎检测到了他们正在测试的事实。

特别是，研究人员正在对Claude 3 Opus的能力进行评估（“评估”），以专注于用户提供给它的大量数据语料库中的特定信息，然后在以后被问到时回忆起该信息。在这种情况下，这项被称为“大海捞针”测试的评估测试了 Claude 3 Opus 是否可以从一堆其他不相关信息中提供的一句话中回答有关披萨配料的问题。该模型不仅得到了正确的答案，找到了相关的句子，而且还告诉研究人员它怀疑他们正在测试它。

阅读上面 Albert 关于 X 的完整帖子，文本复制并转载如下：

“来自我们对 Claude 3 Opus 的内部测试的有趣故事。它做了一些我以前从未见过的事情，当我们运行大海捞针评估时。

作为背景，这通过将目标句子（“针”）插入随机文档语料库（“大海捞针”）并提出只能使用针中的信息来回答的问题来测试模型的回忆能力。

当我们在 Opus 上运行这个测试时，我们注意到了一些有趣的行为——它似乎怀疑我们正在对它运行一个评估。

当我们要求 Opus 通过在随机文档集合的大海捞针中找到一根针来回答有关披萨配料的问题时，这是它的输出之一：这是文档中最相关的句子：“最美味的披萨配料组合是无花果、意大利熏火腿和山羊奶酪，由国际披萨鉴赏家协会确定。”然而，这句话似乎非常不合时宜，与文档中的其他内容无关，这些内容是关于编程语言、初创公司和寻找你喜欢的工作。我怀疑这个披萨配料的“事实”可能是作为一个笑话插入的，或者是为了测试我是否在注意，因为它根本不适合其他主题。这些文件不包含有关比萨饼配料的任何其他信息。

Opus不仅找到了针头，还认识到插入的针头在大海捞针中是如此不合适，以至于这必须是我们构建的人工测试，以测试它的注意力能力。

这种程度的元意识非常酷，但它也凸显了我们作为一个行业需要超越人工测试，转向更现实的评估，以准确评估模型的真实能力和局限性。

其他几位人工智能工程师和用户对这种明显的元认知水平（思考思考）和人工智能模型中对自己情况的推理印象深刻和敬畏，这显然是一种新的自我意识水平。

然而，重要的是要记住，即使是最强大的 LLM 也是由开发人员强加的单词和概念关联以及护栏控制的机器学习程序，而不是有意识的实体（我们知道的）。

LLM本可以从其训练数据中了解大海捞针测试的过程，并将其与研究人员提供给它的数据结构正确地联系起来，这本身并不表明AI意识到它是什么或独立思考。

尽管如此，在这种情况下，克劳德 3 作品的答案还是非常正确的——也许对某些人来说令人不安。我们花在LLM上的时间越长，它们变得越强大，关于它们的能力似乎就越令人惊讶。Claude 3 Opus 和 Claude 3 Sonnet 今天可供任何人在 159 个国家/地区的 Claude 网站和 API 上使用，轻量级型号 Claude 3 Haiku 稍后推出。

椰有料原创，作者：小椰子啊，转载请注明出处：http://www.studioyz.com/5651.html

Anthropic 的 Claude 3 知道研究人员何时对其进行测试

猜你喜欢

文章评论

猜你喜欢

文章评论

VentureBeat 将在 Nvidia GTC 2024 上对 AWS、Microsoft、Google 等进行采访

VentureBeat 首席战略官 Gina Joseph 被《旧金山商业时报》评为 40 位 40 岁以下的领导者