大型语言模型(LLM)研究的下一步是什么?这是 ML 长矛下发生的事情

大型语言模型(LLM)研究的下一步是什么?这是 ML 长矛下发生的事情

围绕大型语言模型(LLM)的潜在应用有很多令人兴奋的事情。我们已经看到LLM用于多个应用程序,包括撰写电子邮件和生成软件代码。

但随着对LLM的兴趣增加,对其局限性的担忧也在增加;这会使在不同的应用程序中使用它们变得困难。其中一些包括幻觉虚假事实,在需要常识的任务中失败以及消耗大量精力。

以下是一些可以帮助解决这些问题的研究领域,并使LLM在未来可用于更多领域。

知识检索

ChatGPT和GPT-3等LLM的关键问题之一是它们倾向于“产生幻觉”。这些模型经过训练,可以生成合理的文本,而不是基于真实事实。这就是为什么他们可以编造从未发生过的事情。自 ChatGPT 发布以来,许多用户指出如何推动模型生成听起来令人信服但实际上不正确的文本。

可以帮助解决此问题的一种方法是一类称为“知识检索”的技术。知识检索背后的基本思想是为LLM提供来自外部知识来源(如维基百科或特定领域知识库)的额外上下文。

谷歌在 2020 年推出了“检索增强语言模型预训练”(REALM)。当用户向模型提供提示时,“神经检索器”模块使用该提示从知识语料库中检索相关文档。然后将文档和原始提示传递给LLM,LLM在知识文档的上下文中生成最终输出。

知识检索工作继续取得进展。最近,AI21 Labs提出了“上下文检索增强语言建模”,该技术可以轻松地在不同的黑盒和开源LLM中实现知识检索。

您还可以在 You.com 中看到工作中的知识检索以及必应中使用的 ChatGPT 版本。收到提示后,LLM 首先创建搜索查询,然后检索文档并使用这些源生成其输出。它还提供指向源的链接,这对于验证模型生成的信息非常有用。知识检索不是一个完美的解决方案,仍然会犯错误。但这似乎是朝着正确方向迈出的一步。

更好的快速工程技术

尽管他们的成绩令人印象深刻,但LLM不理解语言和世界 - 至少不像人类那样理解。因此,总会有他们出乎意料的行为并犯出人类看起来愚蠢的错误的情况。

解决这一挑战的一种方法是“提示工程”,这是一套用于制作提示的技术,可指导LLM产生更可靠的输出。一些提示工程方法涉及创建“少数镜头学习”示例,其中您可以在提示前面添加一些类似的示例和所需的输出。模型在生成输出时使用这些示例作为指导。通过创建少数样本的数据集,公司可以提高LLM的性能,而无需重新训练或微调它们。

另一个有趣的工作线是“思维链(COT)提示”,这是一系列提示工程技术,使模型不仅可以产生答案,还可以产生用于达到答案的步骤。CoT 提示对于需要逻辑推理或分步计算的应用程序特别有用。

有不同的 CoT 方法,包括一种在提示前面加上一些分步解决方案示例的少数镜头技术。另一种方法是零镜头CoT,它使用触发短语来强制LLM产生到达结果的步骤。最近的一种称为“忠实思维链推理”的技术使用多个步骤和工具来确保LLM的输出准确反映其用于达到结果的步骤。

推理和逻辑是深度学习的基本挑战之一,可能需要新的架构和人工智能方法。但就目前而言,更好的提示技术可以帮助减少LLM犯的逻辑错误,并帮助解决他们的错误。

对齐和微调技术

使用特定于应用程序的数据集微调LLM将提高它们在这些领域的鲁棒性和性能。当像 GPT-3 这样的 LLM 部署在通用模型性能不佳的专用域中时,微调特别有用。

新的微调技术可以进一步提高模型的准确性。值得注意的是“从人类反馈中强化学习”(RLHF),用于训练ChatGPT的技术。在RLHF中,人类注释者对预先训练的LLM的答案进行投票。然后,他们的反馈用于训练奖励系统,该系统进一步微调LLM,以更好地与用户意图保持一致。RLHF在ChatGPT上运行得很好,这也是它在遵循用户说明方面比其前辈好得多的原因。

该领域的下一步将是OpenAI,Microsoft和其他LLM平台提供商创建工具,使公司能够创建自己的RLHF管道并为其应用程序定制模型。

优化的法学硕士

LLM的一大问题是它们的成本过高。训练和运行 GPT-3 和 ChatGPT 大小的模型可能非常昂贵,以至于它们无法用于某些公司和应用程序。

有几项努力可以降低LLM的成本。其中一些以创建更高效的硬件为中心,例如为LLM设计的特殊AI处理器。

另一个有趣的方向是开发新的LLM,它可以用更少的参数匹配更大模型的性能。一个例子是LLaMA,这是Facebook开发的一系列小型高性能LLM。LLaMa模型可供没有运行超大型模型的基础设施的研究实验室和组织访问。

根据Facebook的数据,LLaMa的13亿参数版本在主要基准上优于GPT-175的3亿参数版本,65亿的变体与最大模型的性能相匹配,包括540亿参数PaLM。

虽然LLM还有更多的挑战需要克服,但有趣的是,这些发展将如何帮助开发人员和研究界更加可靠和易于访问。

椰有料原创,作者:小椰子啊,转载请注明出处:http://www.studioyz.com/2261.html

0

扫一扫,分享到微信

猜你喜欢

文章评论

电子邮件地址不会被公开。 必填项已用*标注

后发表评论

上一篇

AI 优先基础设施:加快上市时间的关键

下一篇

ChatGPT的嗡嗡声以及为什么它会比你想象的更早结束

微信公众号

微信公众号