Assembly AI 声称其新的 Universal-1 模型的幻觉比 Whisper 少 30%

Assembly AI 声称其新的 Universal-1 模型的幻觉比 Whisper 少 30%

AI 即服务提供商 Assembly AI 有一种新的语音识别模型,称为 Universal-1。该公司使用超过 1250 万小时的多语言音频数据进行训练,表示它在英语、西班牙语、法语和德语的语音到文本准确性方面表现良好。它吹嘘说,与 OpenAI 的 Whisper Large-v3 模型相比,Universal-1 可以将语音数据的幻觉减少 30%,将环境噪音减少 90%。

在一篇博客文章中,该公司将 Universal-1 描述为“我们使命的又一个里程碑,即为多种语言提供准确、忠实和强大的语音转文本功能,帮助我们的客户和全球开发人员构建各种语音 AI 应用程序。除了更好地理解四种主要语言外,该模型还可以进行代码切换,在单个音频文件中转录多种语言。

Universal-1 还支持改进的时间戳估计,这在处理音频和视频编辑以及对话分析时非常重要。Assembly AI 声称新模型比其前身 Conformer-2 好 13%。因此,说话人日记化效果更好,串联最小排列字错误率 (cpWER) 提高了 14%,说话人数量估计精度提高了 71%。

最后,并行推理变得更加高效,减少了长音频文件的周转处理时间。据说 Universal-1 完成这项任务的速度比 Whisper Large-v3 快五倍。Assembly AI 在具有 16GB VRAM 的 Nvidia Tesla T4 机器上将 Universal-1 的处理速度与 Whisper Large-3 进行了比较。前者的批处理大小为 64,转录 21 小时的音频需要 1 秒。然而,使用更小的 24 个批处理大小,后者需要 107 秒才能完成相同的任务。

改进的语音转文本 AI 模型的好处是,笔记者可以生成更准确且无幻觉的笔记,识别操作项并整理元数据,例如专有名词、说话者和计时信息。此外,它还将帮助创建者工具应用程序,包括人工智能驱动的视频编辑工作流程、远程医疗平台、自动化临床记录输入和索赔提交流程,其中准确性很重要,等等。

椰有料原创,作者:小椰子啊,转载请注明出处:http://www.studioyz.com/5879.html

0

扫一扫,分享到微信

猜你喜欢

文章评论

电子邮件地址不会被公开。 必填项已用*标注

后发表评论

上一篇

英特尔推出 Gaudi 3,以开放的生态系统在 AI 芯片领域挑战英伟达

下一篇

困惑的增长颠覆了对SEO的担忧,揭示了谷歌主导地位的裂缝

微信公众号

微信公众号