埃隆·马斯克（Elon Musk）宣布 Grok-1.5，性能接近 GPT-4 水平

小椰子啊 • 2024-04-02 人工智能

埃隆·马斯克（Elon Musk）宣布 Grok-1.5，性能接近 GPT-4 水平

在开源 Grok-1 仅几周后，埃隆·马斯克（Elon Musk）的 xAI 宣布了其专有大型语言模型（LLM）的升级版本——Grok-1.5。

Grok-1.5 将于下周发布，它带来了增强的推理和解决问题的能力，并接近已知的开放和封闭 LLM 的性能，包括 OpenAI 的 GPT-4 和 Anthropic 的 Claude 3。它还能够处理长上下文，但仍然落后于 Gemini 1.5 Pro 高达 100 万个令牌的上下文窗口。

马斯克指出，Grok-1.5 将在 X 平台上为 xAI 的 ChatGPT 挑战聊天机器人提供动力，而新模型的继任者 Grok-2 仍处于训练阶段。他表示，下一个版本应该能够“在所有指标上超过当前的人工智能”，但没有透露何时可用的具体细节。

Grok-1.5 带来了什么？

xAI 去年 11 月宣布了 Grok-1，称该 AI 以“银河系漫游指南”为蓝本，几乎可以回答任何事情，以帮助人类寻求理解和知识——无论背景或政治观点如何。在 xAI 共享的 GSM8K、HumanEval 和 MMLU 等基准测试中，Grok-1 的表现优于 Llama-2-70B 和 GPT-3.5。

现在，随着 Grok-1.5 的发布，该公司正在这项工作的基础上，在所有主要基准测试中比以前的模型进行了重大改进，包括与编码和数学相关任务相关的基准测试。

“在我们的测试中，Grok-1.5 在数学基准上取得了 50.6% 的分数，在 GSM8K 基准上取得了 90% 的分数，这两个数学基准涵盖了广泛的小学到高中竞争问题。此外，它在 HumanEval 基准测试中得分为 74.1%，该基准测试评估代码生成和解决问题的能力，“xAI 在一篇博客文章中指出。

在评估AI模型在不同任务中的语言理解能力的MMLU基准测试中，新模型的得分为81.3%，大大超过了Grok-1的73%。

除此之外，xAI 还确认 Grok-1.5 具有多达 128,000 个令牌的上下文窗口（令牌是单词、图像、视频、音频或代码的整个部分或子部分）。这使得该模型能够一次性接收和处理大量信息——比 Grok-1 多 16 倍，使其更适合分析、总结和提取长文档中的信息。它甚至可以处理更长、更复杂的提示，同时仍保持指令跟踪功能。

接近 OpenAI 和 Anthropic

凭借增强的推理和解决问题的能力，Grok-1.5 不仅在基准测试中优于其前身，而且还接近流行的开源和闭源模型，包括 Gemini 1.5 Pro、GPT-4 和 Claude 3。

例如，在 MMLU 上，Grok-1.5 的 81.3% 的得分击败了最近推出的 Mistral Large，但落后于 Gemini 1.5 Pro（83.7%）、GPT-4（截至 2023 年 3 月的 86.4%）和 Claude 3 Opus（86.8%）。在GSM8K基准测试中也发现了类似的差距，xAI模型仅次于Google，OpenAI和Anthropic的产品。

值得注意的是，Grok-1.5 似乎唯一具有优势的基准测试是 HumanEval，它的表现优于 Claude 3 Opus 以外的所有型号。xAI 希望继续这些改进，并通过 Grok-2 实现进一步的性能提升，根据马斯克的说法，Grok-2 在所有指标上都应该超过当前的 AI。该模型目前正在训练中。

技术顾问布莱恩·罗梅尔（Brian Roemmele）表示，根据他与Grok-1的合作，Grok-2“在发布时将成为最强大的LLM AI平台之一。它将在几乎所有指标上都超越OpenAI。

Grok-1.5 的可用性

至于Grok-1.5，xAI计划下周开始部署。该公司表示，该模型最初将提供给早期测试人员和已经在 X 平台（Twitter）上使用 Grok 聊天机器人的人——可以实时访问平台上的所有帖子。推出将分阶段进行，该公司将改进模型并引入几项新功能——可能包括一种新的精神错乱的有趣模式——同时逐步将其提供给更广泛的用户。

当马斯克在 X 上推出 Grok 时，这被视为推动 Grok 和 X 采用的举措。他首先将人工智能作为平台“Premium+”订阅的一部分提供，价格为每月 16 美元。然而，就在几天前，这位亿万富翁分享说，所有每月支付 8 美元的高级订阅者也将启用聊天机器人。在另一次更新中，他还确认，拥有一定水平经过验证的订阅者关注者的追随者将免费获得 Premium 和 Premium+ 订阅福利，包括 Grok。

椰有料原创，作者：小椰子啊，转载请注明出处：http://www.studioyz.com/5824.html

埃隆·马斯克（Elon Musk）宣布 Grok-1.5，性能接近 GPT-4 水平

Grok-1.5 带来了什么？

接近 OpenAI 和 Anthropic

Grok-1.5 的可用性

猜你喜欢

文章评论

Grok-1.5 带来了什么？

接近 OpenAI 和 Anthropic

Grok-1.5 的可用性

猜你喜欢

文章评论

Google DeepMind 推出“超人”人工智能系统，该系统在事实核查、节省成本和提高准确性方面表现出色

Microsoft 和 Nvidia 在 GTC 上宣布重大的新集成、突破等