马斯克的 Grok AI 开源

马斯克的 Grok AI 开源

亿万富翁多公司领导人埃隆·马斯克(Elon Musk)的初创公司xAI今天开源了其第一个大型语言模型(LLM)Grok。

马斯克此前曾宣布此举将在本周发生,现在使任何其他企业家、程序员、公司或个人能够接受格罗克的权重——模型的人工“神经元”或软件模块之间的连接强度,允许模型做出决策并接受输入并以文本形式提供输出——以及其他相关文档,并将模型的副本用于他们想要的任何内容。 包括用于商业应用。

“我们正在发布我们的大型语言模型Grok-1的基本模型权重和网络架构,”该公司在一篇博客文章中宣布。“Grok-1 是一个 3140 亿参数的专家混合模型,由 xAI 从头开始训练。”

有兴趣的人可以在 Grok 的 Github 页面上或通过 torrent 链接下载代码。

Grok 的开源意味着什么

参数是指控制模型的权重和偏差——参数越多,通常模型越先进、越复杂、性能越好。Grok 拥有 3140 亿个参数,远远领先于 Meta 的 Llama 2(700 亿个参数)和 Mistral 8x7B(120 亿个参数)等开源竞争对手。

Grok 是在 Apache 许可证 2.0 下开源的,该许可证允许商业使用、修改和分发,尽管它不能被注册为商标,并且用户不会因此而获得任何责任或保证。此外,他们必须复制原始许可证和版权声明,并说明他们所做的更改。

Grok 的架构于 2023 年 10 月使用 JAX 和 Rust 上的自定义训练堆栈开发,融合了神经网络设计的创新方法。该模型将 25% 的权重用于给定的代币,这是一种提高其效率和有效性的策略

Grok 最初于 2023 年 11 月作为专有或“闭源”模型发布,到目前为止,它只能在马斯克独立但相关的社交网络 X(前身为 Twitter)上访问,特别是通过 X Premium+ 付费订阅服务,每月收费 16 美元或每年 168 美元。

但是,Grok 的发布并未包含其训练数据的完整语料库。这对使用模型来说并不重要,因为它已经被训练过了,但它不允许用户看到它从中学到的东西——大概是用户在 X 上的文本帖子(xAI 博客文章不透明地将其描述为“在大量文本数据上训练的基本模型,未针对任何特定任务进行微调。

它也不包括与X上可用的实时信息的任何连接,马斯克最初将其吹捧为Grok相对于其他LLM的主要属性。为此,用户仍然需要在 X 上订阅付费版本。

不仅仅是一项技术举措,更是一项商业和公关策略

Grok 旨在与 OpenAI 制造的 ChatGPT 相媲美,OpenAI 是马斯克于 2018 年共同创立并与之决裂的公司,现在与之竞争,Grok 以意为“理解”的俚语命名,并被描述为“以银河系漫游指南为蓝本的 AI”,这是英国作家道格拉斯·亚当斯 (Douglas Adams) 于 1970 年代开创性的广播剧和讽刺科幻系列丛书(2005 年被改编成一部主要电影)。

马斯克将 Grok 定位为 ChatGPT 和其他领先的 LLM 的更幽默、更未经审查的版本,鉴于对 AI 审查制度的抱怨以及谷歌 Gemini 令人尴尬的种族混乱图像生成和可疑的意识形态立场,这一立场在用户中具有新的吸引力(Gemini 至少在一个例子中暗示,马斯克的推文可能与纳粹领导人阿道夫·希特勒一样对社会有害).当然,Gemini受到了马斯克和其他有影响力的科技领袖的强烈批评,包括a16z联合创始人和网络先驱马克·安德森(Marc Andreessen)。

Grok 的开源显然也是马斯克在诉讼和对 OpenAI 的一般批评中有用的意识形态立场,他最近起诉了 OpenAI,指责他的前公司放弃了其“创始协议”,以非营利组织的形式运营。OpenAI至少在舆论法庭上发布了为其辩护的电子邮件,表明马斯克意识到并可能支持其转向专有的营利性技术。

X 上的 AI 社区已经对这个版本做出了好奇和兴奋的反应。值得注意的是,技术界指出了该模型在前馈层中使用GeGLU及其归一化方法,并点头使用了有趣的三明治范数技术。甚至 OpenAI 的员工也发布了他们对该模型的兴趣。

因此,Grok 的发布可能会给所有其他 LLM 提供商带来压力,尤其是其他竞争对手的开源提供商,要求他们向用户证明他们的优势。

椰有料原创,作者:小椰子啊,转载请注明出处:http://www.studioyz.com/5695.html

0

扫一扫,分享到微信

猜你喜欢

文章评论

电子邮件地址不会被公开。 必填项已用*标注

后发表评论

上一篇

随着公司加大投资,苹果研究人员在多模态人工智能方面取得突破

下一篇

Google 利用 Gemini 扩展 BigQuery,为云数据库提供矢量支持

微信公众号

微信公众号