Zyphra 发布 Zamba,这是一种 SSM 混合基础模型,可将 AI 引入更多设备

Zyphra 发布 Zamba,这是一种 SSM 混合基础模型,可将 AI 引入更多设备

Zyphra Technologies正在引入一种新的基础模型,以进一步分散人工智能。Zamba 是一个开源的 7B SSM 混合 AI,使用该公司的 Mamba 块和全球共享注意力层构建。据信,它可以为更多设备带来智能,同时需要更低的推理成本。

适用于所有设备的 AI

“我们的梦想和愿望是建立你的个人人工智能,”Zyphra的首席执行官Krithik Puthalath告诉VentureBeat。“我们的基本使命是更好地连接人们。设备和社交媒体承诺了一个世界,在这个世界里,我们将更加紧密地联系在一起,更快乐,更专注和当下。和。。。事实远非如此。我们的梦想和愿景是人工智能的未来。

“我们认为从根本上说,根本问题是大公司的人工智能是集中的,”Puthalath继续说,“因此,在追求[通用人工智能]的过程中,OpenAI、Anthropic和所有这些人都在云中构建这个整体模型——一个适合每个人的模型。我们开始看到这种方法的局限性,那就是我们不信任这些东西。所以,人工智能感觉不像我们自己的。如果你使用 ChatGPT,它会给你很好的答案,并且有推理能力。但是,拥有记忆力、个性化、真正策划到你是谁并了解你的能力,我们错过了这一点。

不要低估较小的 LLM

与 OpenAI 的 GPT、Anthropic 的 Claude 或 Meta 的 LLaMA 相比,拥有 70 亿个参数的模型很小,所有这些都拥有数百亿个参数。然而,Zyphra 有意选择了这种方法,因为它认为拥有小型语言模型 (SML) 是将 AI 放置在更多设备上的最佳方式。

尽管该公司的第一款车型BlackMamba有10亿个参数,但Zyphra联合创始人兼首席科学家Beren Millidge将其描述为相当于一个“玩具”,并证明了Zyphra在架构实验方面取得了成功。因此,虽然 10 亿是一个很好的起点,但 70 亿是“你实际上可以与之进行认真对话的东西”。

“70 亿实际上是一个完美的规模,能够在几乎所有设备上本地运行它,”他解释道。另一方面,如果你正在运行一个有几千亿到一万亿个参数的模型,那么它可能只能使用一个大型的GPU集群来运行,而大多数人都无法访问。根据 Millidge 的说法,这就是 Zyphra 瞄准这种规模的原因。

“这是去中心化的游戏,”Puthalath评论道。这些更大的模型必须在云上运行。如果你能为我们作为消费者想要的简单用例制作更小、性能更高的模型,那么就可以在更小的规模上完成。他的公司并不是唯一一家推动更专业、更小的语言模型的公司。

人工智能将继续注入我们的设备,但将模型存储在本地可能是确保生成的响应及时的最佳方式。没有人愿意等待数据从云端传输到他们的智能手表、手机、电视、电脑、平板电脑或可穿戴眼镜。它必须是实时的。因此,这样做还可以使其更实惠,降低运行推理的成本,并允许模型制作者将更多资源用于创新。

与竞争对手竞争

Zyphra 吹嘘 Zamba 在广泛的标准基准测试中优于其他开源模型 LLaMA 1、LLaMA 2 7B 和 OLMo-7B,同时声称需要不到一半的训练数据。虽然它的测试是在内部完成的,但该公司透露,它将发布其权重,以便任何人都可以自己判断。

当被问及如何开发这种新架构时,Millidge回答说,他的团队的工作是“由从业者的直觉偏见指导的。我们对模型目前在哪些问题上苦苦挣扎有想法,然后我们对如何解决这些问题有直觉。

该团队还从神经科学中汲取灵感,特别是围绕大脑如何工作的一般方案。Zamba 由单个全局内存块构建,该块由一堆 Mamba 块(状态空间组件)和每个块用于读取和写入的全局内存组成。“这样一来,模型就更容易在顺序层之间共享信息。这是......灵感来自大脑皮层如何与海马体相互作用,海马体负责你的长期记忆。

但Zyphra并不依赖神经科学、机器学习和一般思维的直觉。还涉及大量的实验。“你的直觉并不总是正确的,”米利奇认为。“你必须......学习一些实验,看看哪些有效,哪些无效,然后从那里进行迭代。

椰有料原创,作者:小椰子啊,转载请注明出处:http://www.studioyz.com/5924.html

0

扫一扫,分享到微信

猜你喜欢

文章评论

电子邮件地址不会被公开。 必填项已用*标注

后发表评论

上一篇

斯坦福大学报告:人工智能在多个方面超越了人类,但成本正在飙升

下一篇

科技开拓者分享作为女性创始人获得投资的方法

微信公众号

微信公众号