Synthesia 通过“富有表现力的头像”在 AI 视频中实现下一次飞跃

Synthesia 通过“富有表现力的头像”在 AI 视频中实现下一次飞跃

总部位于伦敦的 Synthesia 是一家使企业能够创建专业级 AI 视频的初创公司,随着“富有表现力的头像”的推出,它在升级其平台方面迈出了新的一步。

从今天开始,这些AI化身比普通数字化身领先一步,并根据他们提供的内容的上下文调整他们的语气、面部表情和肢体语言。就在一周前,Microsoft展示了VASA,这是一个人工智能框架,可以将人类头像转换为说话和唱歌的视频,并配有表情和头部运动。

然而,与只是一项研究工作的 VASA 不同,富有表现力的头像背后的技术非常真实,将帮助 Syntheisa 的客户为他们的目标受众创建比以往任何时候都更逼真的 AI 视频。

Synthesia 在 AI 视频方面的下一步

该公司由一群人工智能研究人员和企业家于2017年创立,其中包括一些来自斯坦福大学和剑桥大学的人。Synthesia 构建了一个端到端平台来创建自定义 AI 语音和头像(用户甚至可以使用现有的),并将它们与预先编写或 AI 制作的脚本一起使用,以生成工作室质量的 AI 视频。

该产品在企业层面引起了广泛的采用,超过 200,000 人使用数字化身创建了超过 1800 万个视频。然而,Synthesia或其他任何人提供的化身都存在一个主要差距:情感理解。与实际的视频演示者不同,数字化身无法改变他们的语气、表情或手势以匹配脚本;这些方面必须预先确定。

现在,随着富有表现力的头像的推出,这种情况正在改变。

正如 Synthesia 所解释的那样,新的 AI 化身能够理解一段文本中传达的上下文和情感,并改变他们的语气和表情来发表演讲。该公司声称,他们已经可以通过表情、眨眼甚至眼睛凝视的微妙调整来表现出一系列情绪,以配合演讲。想象一下,化身在谈论欣喜若狂的事情时微笑着大笑,或者在悲伤/忧郁的事情上停顿较长。

“有了这些新的化身,我们不仅仅是在创建数字渲染;我们正在介绍数字演员。这项技术为数字化身带来了一定程度的复杂性和真实感,模糊了虚拟与现实之间的界限,“该公司的首席技术官乔恩·斯塔克(Jon Starck)在一篇博客文章中写道。

为了实现这种程度的情感预测和真实感,Syntheisa 正在使用 EXPRESS-1,这是一种深度学习模型,经过数小时的文本和视频训练,展示了文本在现实世界中的发音方式。

“EXPRESS-1 实时预测每个动作和面部表情,与口语的时间、语调和重音无缝对齐。这导致了令人惊讶的自然和人类般的表演,“斯塔克补充道。新的头像还带来了更自然的口型同步和不同语言的声音。

富有表现力的头像有什么含义?

虽然具有像人类一样表情和说话能力的数字化身很容易被滥用来欺骗人们并造成个人/社会伤害,但 Synthesia 正在积极努力确保以企业为中心的积极用例,尤其是在通信和知识共享方面。

例如,该公司表示,医疗保健公司可以使用新技术为患者创建更具同理心的视频,或者营销团队可以使用它在讨论新产品的视频中传达兴奋和乐观情绪。

为了确保安全,该公司表示,它已经更新了使用政策,以限制企业用户可以在平台上制作的内容类型,并且还投资于早期检测恶意行为者以及C2PA等内容凭据技术。

目前,这家拥有 300 名员工的公司与超过 55,000 家企业合作,其中包括财富 100 强企业中的一半。其中一个客户是视频通话平台Zoom,它声称它已经能够使用Synthesia将销售和培训视频的速度提高90%。

椰有料原创,作者:小椰子啊,转载请注明出处:http://www.studioyz.com/6005.html

0

扫一扫,分享到微信

猜你喜欢

文章评论

电子邮件地址不会被公开。 必填项已用*标注

后发表评论

上一篇

人工智能初创公司 Edia 保证在一年内为学区提供更好的数学成绩

下一篇

AuditBoard 使用内置的 LLM 描述升级其风险管理平台

微信公众号

微信公众号