RedPajama 复制 LLaMA 数据集以构建开源、最先进的 LLM

小椰子啊 • 2023-04-25 人工智能

以为开源AI对骆驼科的引用已经完成吗？再想一想：昨天，一家总部位于加利福尼亚州门洛帕克的公司Together专注于构建去中心化的云和开源模型，昨天宣布了RedPajama（是的，就像Llama Llama Red Pajama一样）。

“在很多方面，人工智能正在经历它的Linux时刻，”该公司在一篇博客文章中表示，链接到Together的联合创始人Chris Re，斯坦福大学副教授和SambaNova，Snorkel.ai 和Factory的联合创始人Chris Re撰写的一月份的文章。UnmuteAdvanced SettingsFullscreenPauseUp Next

RedPajama是Together，Ontocord.ai，ETH DS3Lab，斯坦福CRFM，Hazy Research和MILA魁北克AI研究所之间的合作项目，旨在创建领先的，完全开源的大型语言模型（LLM）。它的努力始于昨天发布的1.2万亿个代币数据集，该数据集遵循LLaMA配方。这些数据使任何组织都能够预先训练可以许可的模型。完整的数据集可在Hugging Face上找到，用户可以使用Github上提供的Apache 2.0脚本重现结果。

LLaMA 是 Meta 于 4 月发布的最先进的基础 LLM，对研究人员有门控访问权限。最近几周，其他几种基于LLaMA的型号已经问世，包括羊驼，骆马和考拉 - 但这些型号尚未用于商业用途。当LLaMA模型在<>chan上泄露时，也有一些LLaMA戏剧。

在接下来的几周内，Together 将发布一整套基于 RedPajama 数据集的 LLM 和指令调整版本。该公司强调，即将推出的模型将是完全开源的，并且在商业上可行。该公司在一条推文中说：“我们希望这可以是一个干净的房间，无戏剧的版本。我们在未来几周内发布的RedPajama型号将在Apache 2.0许可下发布。

RedPajama 是开源 AI 浪潮的一部分

正如VentureBeat上周报道的那样，开源AI在过去几周中经历了一段时间，随着LLM的发布浪潮以及初创公司，集体和学术界的努力，推动了AI向封闭式专有LLM的转变。

与骆驼相邻的模型Dolly 2.0（如Dolly the Sheep）上周也成为头条新闻，当时其开发商Databricks称其为第一个开放的，遵循指令的商业用途LLM。

但是像LLaMA这样最大的，最先进的开源LLM仅限于研究界。“它们的局限性在于你不能构建真正的应用程序并交付它们，”Together的创始人兼首席执行官，Cloudmark和Topsy的前联合创始人Vipul Ved Prakash说。“我们认为拥有宽松许可的模型是开源人工智能的一个关键方面。

复制LLaMA数据集并非易事

该公司从LLaMa开始，它称之为“领先的开放基础模型套件”，因为它是在“经过仔细过滤质量的非常大的数据集”上进行训练的。此外，7亿参数LLaMA模型“训练的时间要长得多，远远超过龙猫最优点，以确保在该模型大小下获得最佳质量。

虽然数据集和模型都不完全相同，但开发人员的目标是创建一个完全开源的LLaMA复制品，可用于商业应用，并提供“更透明的研究管道”。

开发人员无法访问LLaMA数据集，但有足够的配方可以继续。“我们非常仔细地遵循配方，基本上从头开始重新创建[LLaMA数据集]，”Prakash说。该数据集由七个数据切片组成，包括来自Common Crawl，arxiv，Github，Wikipedia和开放书籍语料库的数据。

“对于每个数据切片，我们都会进行仔细的数据预处理和过滤，并调整我们的质量过滤器，以大致匹配Meta AI在LLaMA论文中报告的令牌数量，”阅读博客文章。

“LLaMA接受训练的所有数据都是公开可用的数据，但挑战在于他们没有提供实际的数据集 - 从概述到实际数据集有很多工作要做，”Prakash说。例如，他解释说，这篇论文可能会描述他们如何从一百万个文档中挑选出最好的10，000个，但他们没有给你10，000个。“所以我们按照配方重复所有这些工作来创建等效的数据集，”他说。

关于建立透明系统的争论

普拉卡什说，RedPajama项目的合作者认为，系统透明是很重要的。“你确切地知道这个模型是如何建造的，它是什么，”他说。“如果你想改进它，你可以从数据集开始。

他补充说，该项目还将一个更大的社区聚集到这些模型中。“我想说的是，学术界确实被排除在基础模型研究之外，因为从数据到计算所需的资源水平，”他说。他补充说，今天世界上有少数人在研究这些大型模型，如果有更广泛的访问，世界各地的“很多聪明人”将能够探索神经架构、训练算法和安全研究的不同方向。

“此外，这是第一个可以适应不同任务的真正通用人工智能之一，我们认为适用性非常广泛，”他说。“但是，只有当您可以访问模型，模型权重并使它们适应不同的计算环境时，才能实现许多不同的应用程序。我们看到很多这种情况都是因为开源人工智能而发生的。

然而，开源AI辩论还有另一面。例如，OpenAI的首席科学家兼联合创始人Ilya Sutskever最近表示，如此公开地分享研究是“错误的”，称对竞争的恐惧和对安全的担忧是“不言而喻的”。他补充说，“在某些时候，如果人们愿意，很容易对这些模型造成很大的伤害。

在最近接受VentureBeat采访时，Meta人工智能研究副总裁Joelle Pineau表示，虽然AI模型中的问责制和透明度至关重要，但Meta的关键是平衡访问级别，这可能会根据模型的潜在危害而有所不同。

“我的希望，这反映在我们的数据访问战略中，是弄清楚如何允许这些模型的可验证性审计的透明度，”她说，并补充说访问可以根据模型的潜在危害程度来决定。

另一方面，她说，某些程度的开放太过分了。“这就是为什么LLaMA模型有一个门控版本，”她解释说。“许多人会很高兴完全开放。我不认为这是今天负责任的事情。

围绕道德数据集的辩论

关于数据集本身的伦理问题也存在争议，无论模型是开放的还是封闭的。上周《卫报》的一篇文章称，“用于训练最新一代人工智能系统的巨大数据集，如ChatGPT和Stable Diffusion背后的数据集，可能包含数十亿张从互联网上抓取的图像，数百万本盗版电子书，欧洲议会16年的整个会议记录以及整个英语维基百科。

但普拉卡什说，他认为“这些模型在某种程度上捕捉了人类社会的产出，并且有一种义务使它们开放并可供所有人使用。他补充说，这些模型的“大部分魔力”来自这样一个事实，即它们是在“非常广泛和庞大”的数据上进行训练的。

他还指出，原始数据在实际模型中被大幅压缩。RedPajama 数据集为 5 TB，模型可以小至 14 GB，比它们建模的原始数据小 ~500 倍。

“这意味着来自数据的知识被抽象，转换和建模，以神经网络模型中参数的权重和偏差的非常不同的表示形式进行建模，而不是以其原始形式存储和使用，”Prakash说。因此，它“不是复制训练数据 - 它是在此之上的衍生工作。根据我们的理解，只要模型不复制数据，它就被认为是合理使用——它正在从中学习。

毫无疑问，开源人工智能的争论非常复杂。但当被问及为什么公司将新项目命名为RedPajama时，答案要简单得多。“我们很多人都有小孩，”普拉卡什说。“看起来很有趣。”

椰有料原创，作者：小椰子啊，转载请注明出处：http://www.studioyz.com/1761.html

RedPajama 复制 LLaMA 数据集以构建开源、最先进的 LLM

RedPajama 是开源 AI 浪潮的一部分

复制LLaMA数据集并非易事

关于建立透明系统的争论

围绕道德数据集的辩论

猜你喜欢

文章评论

RedPajama 是开源 AI 浪潮的一部分

复制LLaMA数据集并非易事

关于建立透明系统的争论

围绕道德数据集的辩论

猜你喜欢

文章评论

Sofy 推出 SofySense，这是一个生成式 AI 驱动的无代码移动应用程序测试解决方案

卵巢“生物钟”和其他生殖健康隐喻导致科学误入歧途