埃隆·马斯克 (Elon Musk) 宣布 Grok-1.5,性能接近 GPT-4 水平

埃隆·马斯克 (Elon Musk) 宣布 Grok-1.5,性能接近 GPT-4 水平

在开源 Grok-1 仅几周后,埃隆·马斯克 (Elon Musk) 的 xAI 宣布了其专有大型语言模型 (LLM) 的升级版本——Grok-1.5。

Grok-1.5 将于下周发布,它带来了增强的推理和解决问题的能力,并接近已知的开放和封闭 LLM 的性能,包括 OpenAI 的 GPT-4 和 Anthropic 的 Claude 3。它还能够处理长上下文,但仍然落后于 Gemini 1.5 Pro 高达 100 万个令牌的上下文窗口。

马斯克指出,Grok-1.5 将在 X 平台上为 xAI 的 ChatGPT 挑战聊天机器人提供动力,而新模型的继任者 Grok-2 仍处于训练阶段。他表示,下一个版本应该能够“在所有指标上超过当前的人工智能”,但没有透露何时可用的具体细节。

Grok-1.5 带来了什么?

xAI 去年 11 月宣布了 Grok-1,称该 AI 以“银河系漫游指南”为蓝本,几乎可以回答任何事情,以帮助人类寻求理解和知识——无论背景或政治观点如何。在 xAI 共享的 GSM8K、HumanEval 和 MMLU 等基准测试中,Grok-1 的表现优于 Llama-2-70B 和 GPT-3.5。

现在,随着 Grok-1.5 的发布,该公司正在这项工作的基础上,在所有主要基准测试中比以前的模型进行了重大改进,包括与编码和数学相关任务相关的基准测试。

“在我们的测试中,Grok-1.5 在数学基准上取得了 50.6% 的分数,在 GSM8K 基准上取得了 90% 的分数,这两个数学基准涵盖了广泛的小学到高中竞争问题。此外,它在 HumanEval 基准测试中得分为 74.1%,该基准测试评估代码生成和解决问题的能力,“xAI 在一篇博客文章中指出。

在评估AI模型在不同任务中的语言理解能力的MMLU基准测试中,新模型的得分为81.3%,大大超过了Grok-1的73%。

除此之外,xAI 还确认 Grok-1.5 具有多达 128,000 个令牌的上下文窗口(令牌是单词、图像、视频、音频或代码的整个部分或子部分)。这使得该模型能够一次性接收和处理大量信息——比 Grok-1 多 16 倍,使其更适合分析、总结和提取长文档中的信息。它甚至可以处理更长、更复杂的提示,同时仍保持指令跟踪功能。

接近 OpenAI 和 Anthropic

凭借增强的推理和解决问题的能力,Grok-1.5 不仅在基准测试中优于其前身,而且还接近流行的开源和闭源模型,包括 Gemini 1.5 Pro、GPT-4 和 Claude 3。

例如,在 MMLU 上,Grok-1.5 的 81.3% 的得分击败了最近推出的 Mistral Large,但落后于 Gemini 1.5 Pro(83.7%)、GPT-4(截至 2023 年 3 月的 86.4%)和 Claude 3 Opus(86.8%)。在GSM8K基准测试中也发现了类似的差距,xAI模型仅次于Google,OpenAI和Anthropic的产品。

值得注意的是,Grok-1.5 似乎唯一具有优势的基准测试是 HumanEval,它的表现优于 Claude 3 Opus 以外的所有型号。xAI 希望继续这些改进,并通过 Grok-2 实现进一步的性能提升,根据马斯克的说法,Grok-2 在所有指标上都应该超过当前的 AI。该模型目前正在训练中。

技术顾问布莱恩·罗梅尔(Brian Roemmele)表示,根据他与Grok-1的合作,Grok-2“在发布时将成为最强大的LLM AI平台之一。它将在几乎所有指标上都超越OpenAI。

Grok-1.5 的可用性

至于Grok-1.5,xAI计划下周开始部署。该公司表示,该模型最初将提供给早期测试人员和已经在 X 平台 (Twitter) 上使用 Grok 聊天机器人的人——可以实时访问平台上的所有帖子。推出将分阶段进行,该公司将改进模型并引入几项新功能——可能包括一种新的精神错乱的有趣模式——同时逐步将其提供给更广泛的用户。

当马斯克在 X 上推出 Grok 时,这被视为推动 Grok 和 X 采用的举措。他首先将人工智能作为平台“Premium+”订阅的一部分提供,价格为每月 16 美元。然而,就在几天前,这位亿万富翁分享说,所有每月支付 8 美元的高级订阅者也将启用聊天机器人。在另一次更新中,他还确认,拥有一定水平经过验证的订阅者关注者的追随者将免费获得 Premium 和 Premium+ 订阅福利,包括 Grok。

椰有料原创,作者:小椰子啊,转载请注明出处:http://www.studioyz.com/5824.html

0

扫一扫,分享到微信

猜你喜欢

文章评论

电子邮件地址不会被公开。 必填项已用*标注

后发表评论

上一篇

Google DeepMind 推出“超人”人工智能系统,该系统在事实核查、节省成本和提高准确性方面表现出色

下一篇

Microsoft 和 Nvidia 在 GTC 上宣布重大的新集成、突破等

微信公众号

微信公众号