埃隆·马斯克(Elon Musk)的xAI预览了其首款多模式模型Grok-1.5V

埃隆·马斯克(Elon Musk)的xAI预览了其首款多模式模型Grok-1.5V

埃隆·马斯克(Elon Musk)的xAI推出了其第一个多模态模型。它不仅可以理解文本,而且还能够处理文档、图表、图表、屏幕截图和照片中看到的内容。Grok-1.5 Vision或Grok-1.5V将很快提供给早期测试人员和现有的Grok用户。

该公司在一篇博客文章中表示:“Grok-1.5V在许多领域与现有的前沿多模态模型具有竞争力,从多学科推理到理解文档,科学图表,图表,屏幕截图和照片。

今天的揭幕是在 xAI 公布其更新的聊天机器人模型 Grok-1.5 几周后发布的。

该公司重点介绍了七个展示 Grok-1.5V 潜力的例子,从将流程图的白板草图转换为 Python 代码,从简单地从孩子的绘画中生成睡前故事,到解释模因,将表格转换为 CSV 文件格式,并确定您的甲板是否有腐烂的木头需要更换。

在与同行 GPT-4V、Claude 3Sonnet、Claude 3 Opus 和 Gemini Pro 1.5 的测试中,xAI 声称其多模态模型脱颖而出。特别值得骄傲的是,Grok-1.5V在RealWorldQA基准测试中的表现优于竞争对手,这是它为评估现实世界的空间理解而创建的新指标。

首先,RealWorldQA 使用 700 多张图像进行训练,并为每个项目提供问答。这些图像从从车辆拍摄的匿名图像到其他真实世界的样本不等。xAI 正在根据 Creative Commons 许可向公众发布 RealWorldQA。

自 2023 年 11 月聊天机器人首次问世以来,马斯克的人工智能公司一直在努力跟上 OpenAI 和其他市场领导者的步伐,不断取得进步。Grok-1.5V 是在 xAI 将其 Grok AI 开源后不到一个月推出的。但它的努力并非没有争议。本月早些时候,研究人员透露,Grok聊天机器人可以指导用户进行犯罪活动。

尽管如此,xAI仍在努力追求建立能够理解宇宙的“有益的[通用人工智能]”。它透露,在未来几个月内,Grok AI 的多模态理解和生成能力将进行“重大”更新。

椰有料原创,作者:小椰子啊,转载请注明出处:http://www.studioyz.com/5956.html

0

扫一扫,分享到微信

猜你喜欢

文章评论

电子邮件地址不会被公开。 必填项已用*标注

后发表评论

上一篇

谷歌的新技术为LLM提供了无限的上下文

下一篇

边缘 AI:AI 的可访问、可持续的未来

微信公众号

微信公众号