OpenAI 的 Sora:魔鬼在“数据的细节”中

OpenAI 的 Sora:魔鬼在“数据的细节”中

对于OpenAI首席技术官米拉·穆拉蒂(Mira Murati)来说,《华尔街日报》昨天对个人科技专栏作家乔安娜·斯特恩(Joanna Stern)的独家采访似乎是一个灌篮高手。OpenAI 的 Sora 文本到视频模型的剪辑在上个月的一次演示中展示,Murati 表示可能会在几个月内公开发布,它“好到足以让我们害怕”,但也足够可爱或良性,让我们微笑。瓷器店里的那头公牛什么都没打坏!噢。

但采访在4点24分左右突然出现,当时斯特恩问穆拉蒂用什么数据来训练索拉。穆拉蒂的回答是:“我们使用了公开可用和许可的数据。但是,尽管她后来证实 OpenAI 使用了 Shutterstock 内容(作为他们 2023 年 7 月宣布的六年训练数据协议的一部分),但她对 Stern 关于 Sora 是否在 YouTube、Facebook 或 Instagram 视频上接受过训练的尖锐问题感到挣扎。

“我不打算详细介绍数据”

当被问及YouTube时,穆拉蒂皱起了脸,说:“我实际上不确定。至于Facebook和Instagram?她起初絮絮叨叨地说,如果这些视频是公开的,“可能会有”,但她对此“不确定,没有信心”,最后说“我只是不打算详细介绍所使用的数据——但它是公开的或许可的数据。

我敢肯定,许多公关人员并不认为这次采访是公关杰作。无论如何,穆拉蒂都不可能提供细节——更不用说与版权相关的诉讼,包括《纽约时报》目前面临的最大的诉讼。

但无论你是否相信 OpenAI 使用 YouTube 视频来训练 Sora(请记住,The Information 在 2023 年 6 月报道称,OpenAI “秘密使用来自该网站的数据来训练其一些人工智能模型”),问题是,对许多人来说,魔鬼真的数据的细节中。生成式人工智能版权之争已经酝酿了一年多,从作家、摄影师和艺术家到律师、政治家、监管机构和企业公司,许多利益相关者都想知道是什么数据训练了 Sora 和其他模型——并检查它们是否真的是公开的、适当的许可等。

这不仅仅是 OpenAI 的问题

训练数据的问题也不仅仅是版权问题。这也是一个信任和透明度的问题。例如,如果 OpenAI 确实在 YouTube 或其他“公开可用”的视频上进行训练——如果“公众”不知道这一点,这意味着什么?即使法律允许,公众也能理解吗?

这不仅仅是OpenAI的问题。哪家公司肯定使用公开分享的 YouTube 视频来训练他们的视频模型?当然是拥有 YouTube 的谷歌。哪家公司肯定在使用 Facebook 和 Instagram 公开分享的图像和视频来训练其模型?拥有 Facebook 和 Instagram 的 Meta 已经证实它正在这样做。再一次——也许是完全合法的。但是,当服务条款协议悄然改变时——联邦贸易委员会最近对此发出了警告——公众真的意识到了吗?

最后,这不仅仅是领先的人工智能公司及其封闭模型的问题。训练数据问题是生成式人工智能的一个基础问题,我在 2023 年 8 月说过,这个问题可能面临清算——不仅在美国法院,而且在公众舆论法庭上。

正如我在那篇文章中所说,“直到最近,人工智能社区之外,很少有人深入考虑过数百个数据集,这些数据集使LLM能够处理大量数据并生成文本或图像输出——这种做法可以说始于普林斯顿大学助理教授李飞飞(Fei-Fei Li)在2009年发布的ImageNet——将影响许多创造性工作被纳入数据集的人。

人类数据的商业未来

当然,数据收集有着悠久的历史——主要用于营销和广告。至少在理论上,这一直是关于某种让步和接受的(尽管显然数据经纪人和在线平台已经将其变成了一个隐私爆炸式的数以亿计的业务)。你向公司提供你的数据,作为回报,你会得到更个性化的广告,更好的客户体验,等等。您无需为 Facebook 付费,但作为交换,您可以共享您的数据,营销人员可以在您的 Feed 中展示广告。

即使在理论上,当涉及到非自愿提供的大规模模型的生成式 AI 训练数据时,也根本没有同样的直接交换。事实上,许多人认为情况恰恰相反——生成式人工智能模型“窃取”了他们的工作,威胁到他们的工作,或者除了深度伪造和内容“潦草”之外几乎没有什么值得注意的事情。

许多专家向我解释说,精心策划和记录的训练数据集有一个非常重要的地方,这些数据集可以使模型变得更好,其中许多人认为,大量公开可用的数据语料库是公平的游戏——但这通常是为了研究目的,因为研究人员正在努力了解模型如何在一个变得越来越封闭和秘密的生态系统中工作。

但是,随着他们对此的了解越来越多,公众会接受这样一个事实,即他们发布的 YouTube 视频、他们分享的 Instagram Reels、设置为“公开”的 Facebook 帖子已经被用来训练商业模式为大型科技公司赚大钱?如果他们知道 Sora 的魔力是在海绵宝宝视频和 10 亿个公开的生日派对剪辑上训练的,他们会不会大大削弱?

也许不是。也许随着时间的流逝,这一切都会变得不那么恶心。也许 OpenAI 和其他人并不那么关心“公众”意见,因为他们努力达到他们认为“AGI”是什么。也许更多的是为了赢得使用非消费者选项的开发人员和企业公司。也许他们相信——也许他们是对的——消费者长期以来一直在关注真正的数据隐私问题。

但魔鬼仍然存在于数据的细节中。OpenAI、谷歌和 Meta 等公司可能在短期内具有优势,但从长远来看,我想知道今天围绕 AI 训练数据的问题是否会最终成为魔鬼的交易。

椰有料原创,作者:小椰子啊,转载请注明出处:http://www.studioyz.com/5713.html

0

扫一扫,分享到微信

猜你喜欢

文章评论

电子邮件地址不会被公开。 必填项已用*标注

后发表评论

上一篇

Databricks 投资 Mistral 并将其 AI 模型引入数据智能平台

下一篇

Snowflake 和 Landing AI 强强联手,利用计算机视觉应对非结构化数据挑战

微信公众号

微信公众号