合成数据如何大规模推动人工智能的发展

合成数据如何大规模推动人工智能的发展

人工智能 (AI) 严重依赖大型、多样化且精心标记的数据集来训练机器学习 (ML) 算法。在现代,数据已成为人工智能的命脉,获得正确的数据被认为是开发强大的人工智能系统最关键和最具挑战性的方面。

然而,收集和标记来自现实世界的数百万个元素的庞大数据集既耗时又昂贵。因此,那些训练ML模型的人已经开始严重依赖合成数据,或者人工生成的数据,而不是由现实世界的事件产生的数据。

近年来,合成数据越来越受欢迎,为数据质量问题提供了可行的解决方案,并提供了重塑大规模ML部署的潜力。根据Gartner的一项研究,到60年,合成数据预计将占人工智能开发中使用的所有数据的2024%。

利用合成数据为 AI/ML 增压

这个概念优雅而简单。它允许从业者以数字方式、按需和任何所需的数量生成所需的数据,并根据他们的精确规格量身定制。研究人员现在甚至可以转向使用场景、物体和人类的 3D 模型创建的合成数据集,以快速生成动作剪辑,而不会遇到与真实数据相关的版权问题或道德问题。

“使用合成数据进行机器学习训练允许公司为以前由于所需数据是私有的,质量太低或根本不存在的场景构建模型,”Forrester分析师Rowan Curran告诉VentureBeat。“创建合成数据集使用生成对抗网络(GAN)等技术,将几千个人的数据集转换为在训练ML模型时执行相同性能的数据集 - 但没有原始数据集的任何个人身份信息(PII)。

支持者指出了选择合成数据集的各种好处。首先,使用合成数据可以显着降低生成训练数据的成本。它还可以解决与从现实世界获得的潜在敏感数据相关的隐私问题。

与真实数据相比,合成数据可以帮助减轻偏见,真实数据可能无法准确代表有关现实世界的全部信息。在合成数据集中,还可以通过纳入代表现实可能性但难以从真实数据中获得的罕见情况来解释更大的多样性。

Curran解释说,合成数据集用于在不存在所需数据的情况下为模型创建数据,因为数据收集场景发生的频率太低。

“一家医疗保健提供者希望更好地发现早期肺癌,但可用的图像数据很少。因此,为了建立他们的模型,他们创建了一个合成数据集,该数据集使用健康的肺部图像与早期肿瘤相结合,以构建一个新的训练数据集,就好像它是从现实世界收集的相同数据一样,“Curran说。

他说,合成数据也在金融服务等其他安全行业找到了吸引力。这些公司在如何使用和移动数据方面存在重大限制,尤其是向云中移动数据。

合成数据有可能增强软件开发,加速研发,促进ML模型的训练,使组织能够更深入地了解其内部数据和产品,并改进业务流程。反过来,这些好处可以促进人工智能的大规模增长。

它在人工智能的现实世界中是如何运作的?

但问题仍然存在:人工生成的数据能否与真实数据一样有效?使用合成数据训练的模型在对实际动作进行分类时表现如何?

合成数据平台Synthesis AI的首席执行官兼创始人Yashar Behzadi表示,公司经常结合使用合成数据和真实世界的数据来训练他们的模型,并确保它们经过优化以获得最佳性能。

“合成数据通常用于增强和扩展真实世界的数据,确保更强大和高性能的模型,”他告诉VentureBeat。例如,他说Synthesis AI正在与少数一级汽车制造商和软件公司合作。

“我们不断听到可用的训练数据要么分辨率太低,要么没有足够的分辨率 - 而且他们没有得到客户的同意来训练计算机视觉模型,”他说。“合成数据解决了所有三个挑战——质量、数量和隐私。

他解释说,当公司无法从人工贴标机获得某些注释时,他们也会转向合成数据,例如深度图、表面法线、3D 地标、详细的分割图和材料属性。

“人工智能模型中的偏见是有据可查的,并且与不完整的训练数据有关,这些数据缺乏与种族,肤色或其他人口统计数据相关的必要多样性,”他说。“因此,人工智能偏见不成比例地影响了代表性不足的人口统计数据,并导致包容性较低的应用程序和产品。他继续说,使用合成数据,公司可以明确定义训练数据集,以最大限度地减少偏见,并确保更具包容性、以人为本的模型,而不会侵犯消费者隐私。

用合成数据替换一小部分真实世界的训练数据,可以加速和简化各种规模的人工智能模型的训练和部署。

例如,在IBM,研究人员使用ThreeDWorld模拟器及其相应的Task2Sim平台来生成真实场景和对象的模拟图像,这些图像可用于预训练图像分类器。这些合成图像减少了所需的真实训练数据量,并且已经发现它们在医学扫描中检测癌症等任务的预训练模型中同样有效。

此外,用人工生成的数据补充真实数据可以降低模型的风险,该模型是根据从互联网上抓取的原始数据预先训练的,这些数据表现出种族主义或性别歧视倾向。定制的人工数据经过预先审查,以最大程度地减少偏差的存在,从而降低模型中此类不良行为的风险。

“在我们开始使用真实世界的数据之前,尽可能多地使用合成数据有可能清理我们所处的狂野西部模式,”麻省理工学院-IBM沃森人工智能实验室联合主任兼探索性人工智能研究负责人David Cox说。

合成数据和模型质量

工厂优化平台Fero Labs的联合创始人兼首席科学家、哥伦比亚大学兼职教授Alp Kucukelbir表示,尽管合成数据可以补充真实世界的数据来训练人工智能模型,但它有一个很大的警告:你需要知道你在现实世界的数据集中填补了什么差距。

“假设你正在使用人工智能使钢厂脱碳。你想使用人工智能来解开和揭示该工厂的具体操作(例如,确切地说,特定工厂的机器如何协同工作),而不是重新发现你可以在教科书中找到的基本冶金学。在这种情况下,要使用合成数据,您必须模拟钢厂的精确操作,超出我们的教科书冶金知识,“Kucukelbir解释道。“如果你有这样一个模拟器,你一开始就不需要人工智能了。

机器学习擅长插值,但在从训练数据集推断方面可以改进。然而,人工生成的数据允许研究人员和从业者为算法提供“极端情况”数据,并最终可以加速研发工作,约翰迪尔新兴技术总监Julian Sanchez补充道。

“我们在约翰迪尔以实验的方式尝试了合成数据,它显示出一些希望。一般的例子涉及农业,其中特定角落案例的发生率可能非常低,“桑切斯告诉VentureBeat。“合成数据通过数据为AI / ML算法提供了所需的参考点,并使研究人员有机会了解经过训练的[模型]如何处理不同的用例。这将是AI/ML扩展的一个重要方面。

同样,前谷歌副总裁、在线学习平台Udacity现任董事长兼联合创始人塞巴斯蒂安·特伦(Sebastian Thrun)表示,这种数据在某些方面通常是不现实的。通过合成数据进行模拟是加速学习的快速安全方法,但它们通常具有已知的缺点。

“感知数据(相机图像、语音等)尤其如此。但正确的策略通常是将真实世界的数据与合成数据相结合,“Thrun告诉VentureBeat。“在谷歌的自动驾驶汽车项目Waymo工作期间,我们使用了两者的组合。合成数据将在我们永远不想在现实世界中经历的情况下发挥重要作用。

将合成数据用于 AI 的挑战

多云数据安全平台Securiti AI的人工智能副总裁Michael Rinehart表示,合成数据的有用性与其提供的隐私之间存在权衡。

“找到适当的权衡是一个挑战,因为它依赖于公司,就像任何风险回报评估一样,”莱因哈特说。“隐私的定量估计并不完美,合成数据集实际上可能比估计所暗示的提供更多的隐私,这一事实进一步加剧了这一挑战。

他解释说,因此,可能会对此类数据应用更宽松的控制或流程。例如,公司在敏感数据扫描期间可能会跳过已知的合成数据文件,从而失去对其扩散的可见性。数据科学团队甚至可以在它们上训练大型模型,这些模型能够记忆和再生合成数据,然后传播它们。

“如果合成数据或其任何衍生物旨在共享或暴露,公司应确保它保护其所代表的任何客户的隐私,例如,利用差异隐私,”Rinehart建议道。“高质量的差异私有合成数据确保团队可以使用不会暴露敏感信息的真实数据进行实验。

埃森哲数据科学和机器学习工程全球负责人费尔南多·卢西尼(Fernando Lucini)补充说,生成合成数据是一个高度复杂的过程,需要具有专业技能和真正高级人工智能知识的人员。

“一家公司需要非常具体和复杂的框架和指标来验证它是否创建了它的意图,”他解释说。

人工智能合成数据的下一步是什么?

Lucini认为,合成数据对研究人员来说是一个福音,并将很快成为每个组织技术堆栈的标准工具,用于扩展其AI / ML模型的实力。

“利用合成数据不仅为研究人员提供了解决更有趣的问题和加速解决方案的机会,而且还有可能开发更具创新性的算法,这些算法可能会解锁我们以前认为不可能的新用例,”Lucini补充道。“我希望合成数据成为每个机器学习、人工智能和数据科学工作流程的一部分,从而成为任何公司数据解决方案的一部分。

就合成AI的Behzadi而言,他预测生成AI热潮已经并将继续成为合成数据的巨大催化剂。

“在过去的几个月里,出现了爆炸性的增长,将生成人工智能与合成数据相结合只会进一步采用,”他说。

他说,将生成人工智能与视觉效果管道相结合,合成数据的多样性和质量将大大提高。“这将进一步推动合成数据在各行各业的快速采用。在未来几年,每个计算机视觉团队都将利用合成数据。

椰有料原创,作者:小椰子啊,转载请注明出处:http://www.studioyz.com/2220.html

0

扫一扫,分享到微信

猜你喜欢

文章评论

电子邮件地址不会被公开。 必填项已用*标注

后发表评论

上一篇

负责任的 AI 是大规模实现 AI 的必要条件

下一篇

对大规模 AI 的追求如何在企业中获得动力

微信公众号

微信公众号