Assembly AI 声称其新的 Universal-1 模型的幻觉比 Whisper 少 30%

AI 即服务提供商 Assembly AI 有一种新的语音识别模型，称为 Universal-1。该公司使用超过 1250 万小时的多语言音频数据进行训练，表示它在英语、西班牙语、法语和德语的语音到文本准确性方面表现良好。它吹嘘说，与 OpenAI 的 Whisper Large-v3 模型相比，Universal-1 可以将语音数据的幻觉减少 30%，将环境噪音减少 90%。

在一篇博客文章中，该公司将 Universal-1 描述为“我们使命的又一个里程碑，即为多种语言提供准确、忠实和强大的语音转文本功能，帮助我们的客户和全球开发人员构建各种语音 AI 应用程序。除了更好地理解四种主要语言外，该模型还可以进行代码切换，在单个音频文件中转录多种语言。

Universal-1 还支持改进的时间戳估计，这在处理音频和视频编辑以及对话分析时非常重要。Assembly AI 声称新模型比其前身 Conformer-2 好 13%。因此，说话人日记化效果更好，串联最小排列字错误率（cpWER）提高了 14%，说话人数量估计精度提高了 71%。

最后，并行推理变得更加高效，减少了长音频文件的周转处理时间。据说 Universal-1 完成这项任务的速度比 Whisper Large-v3 快五倍。Assembly AI 在具有 16GB VRAM 的 Nvidia Tesla T4 机器上将 Universal-1 的处理速度与 Whisper Large-3 进行了比较。前者的批处理大小为 64，转录 21 小时的音频需要 1 秒。然而，使用更小的 24 个批处理大小，后者需要 107 秒才能完成相同的任务。

改进的语音转文本 AI 模型的好处是，笔记者可以生成更准确且无幻觉的笔记，识别操作项并整理元数据，例如专有名词、说话者和计时信息。此外，它还将帮助创建者工具应用程序，包括人工智能驱动的视频编辑工作流程、远程医疗平台、自动化临床记录输入和索赔提交流程，其中准确性很重要，等等。

椰有料原创，作者：小椰子啊，转载请注明出处：http://www.studioyz.com/5879.html

Assembly AI 声称其新的 Universal-1 模型的幻觉比 Whisper 少 30%

猜你喜欢

文章评论

猜你喜欢

文章评论

英特尔推出 Gaudi 3，以开放的生态系统在 AI 芯片领域挑战英伟达

困惑的增长颠覆了对SEO的担忧，揭示了谷歌主导地位的裂缝