随着公司加大投资,苹果研究人员在多模态人工智能方面取得突破

随着公司加大投资,苹果研究人员在多模态人工智能方面取得突破

苹果研究人员开发了在文本和图像上训练大型语言模型的新方法,使人工智能系统更强大、更灵活,这可能是人工智能和未来苹果产品的重大进步。

这项工作在一篇题为“MM1:多模态LLM预训练的方法,分析和见解”的研究论文中进行了描述,该论文于本周悄悄发布在 arxiv.org 上,展示了如何仔细结合不同类型的训练数据和模型架构可以在一系列AI基准测试中实现最先进的性能。

研究人员解释说:“我们证明,对于大规模的多模态预训练,使用图像标题、交错图像文本和纯文本数据的仔细组合对于在多个基准中实现最先进的少量结果至关重要。通过在涵盖视觉和语言信息的不同数据集上训练模型,MM1 模型能够在图像标题、视觉问答和自然语言推理等任务中表现出色。

缩放视觉组件是关键

研究人员还发现,图像编码器的选择和输入图像的分辨率对模型性能有重大影响。“我们表明,图像编码器与图像分辨率和图像令牌计数具有重大影响,而视觉语言连接器设计的重要性相对可以忽略不计,”他们说。这表明,继续扩展和完善这些多模态模型的视觉组件将是进一步提高收益的关键。

令人惊讶的是,最大的 300 亿参数 MM1 模型表现出强大的上下文学习能力,允许它使用少量“思路链”提示对多个输入图像执行多步推理。这表明大型多模态模型有可能解决复杂的、开放式的问题,这些问题需要扎根的语言理解和生成。

苹果的十亿美元人工智能赌注

在MM1研究发布之际,苹果一直在加大对人工智能的投资,以赶上谷歌、Microsoft和亚马逊等竞争对手,这些竞争对手在将生成式人工智能功能集成到其产品中方面取得了领先。根据彭博社最近的一份报告,该公司有望每年在人工智能开发上花费10亿美元。

消息人士称,苹果正在开发一个名为“Ajax”的大型语言模型框架,以及一个内部称为“Apple GPT”的聊天机器人。目标是将这些技术集成到 Siri、信息、Apple Music 和其他应用程序和服务中。例如,人工智能可用于自动生成个性化播放列表,帮助开发人员编写代码,或参与开放式对话和任务完成。

我们将人工智能和机器学习视为基础技术,它们几乎是我们推出的每款产品不可或缺的一部分,“苹果首席执行官蒂姆库克在最近的财报电话会议上表示。“我不打算详细介绍它是什么,因为 - 如你所知,我们没有 - 我们真的没有这样做。但你可以打赌,我们正在投资,我们正在投资,我们将负责任地做这件事,随着时间的推移,你会看到产品的进步,这些技术是它们的核心。

人工智能军备竞赛的高风险

在重大技术变革方面,苹果一直以来都是快速追随者,而不是先行者。但是,随着人工智能有望改变数字格局的方方面面,iPhone制造商保持竞争力的风险很高。MM1 研究表明,苹果拥有取得前沿进步的人才和资源。但这家臭名昭著的神秘公司能否迅速采取行动,以跟上不断升级的人工智能军备竞赛的步伐,还有待观察。

许多人的目光将集中在 6 月的苹果全球开发者大会上,预计该公司将在会上推出新的人工智能功能和开发者工具。与此同时,像Keyframer动画工具这样的小型AI进步和苹果研究实验室的性能增强表明,幕后正在取得稳步进展。

正如库克最近在第一季度财报电话会议上暗示的那样:“我们很高兴在今年晚些时候分享我们在人工智能领域正在进行的工作的细节。现在很清楚,这项工作包括雄心勃勃的努力,以掌握最大规模的多模态智能。无处不在的、具有帮助和类人能力的人工智能时代可能比我们想象的要早到来——苹果打算在塑造它方面发挥重要作用。

椰有料原创,作者:小椰子啊,转载请注明出处:http://www.studioyz.com/5699.html

0

扫一扫,分享到微信

猜你喜欢

文章评论

电子邮件地址不会被公开。 必填项已用*标注

后发表评论

上一篇

安全专家克里斯·克雷布斯 (Chris Krebs) 谈 TikTok、人工智能和生存的关键

下一篇

马斯克的 Grok AI 开源

微信公众号

微信公众号