第一个“训练有素”的 AI 大型语言模型就在这里

小椰子啊 • 2024-03-27 人工智能

“如果不使用受版权保护的材料，就不可能训练当今领先的人工智能模型，”OpenAI在提交给英国上议院的文件中表示，该文件在今年早些时候成为网络上的头条新闻。

事实上，这一论点是该公司公开和法律辩护的关键，因为该公司有争议的大规模数据抓取做法用于训练其人工智能模型，包括为其热门产品 ChatGPT 提供动力的 GPT-3.5/4 大型语言模型（LLM），甚至隐含地，谷歌、Mistral、Meta、Anthropic 和 Cohere 等竞争对手.批评者认为，OpenAI应该寻求肯定的明确同意和/或向所有者支付许可费以使用受版权保护的数据，但该公司表示，其做法是公平的变革性使用，并且它们在互联网的长期规范下运作，其中许多公司多年来一直在为搜索引擎索引和其他有用的功能提供动力。没有大规模投诉。这场斗争在各种正在进行的诉讼中继续进行。

但是，一种新的模型正在挑战这一假设——至少，它挑战了这样一种观念，即如果不依赖受版权保护的数据，就不可能创建一个有用的模型。

新的LLM被称为KL3M（Kelvin Legal Large Language Model，发音为“Clem”），它是273 Ventures的工作，这是一家成立两年的初创公司，由伊利诺伊理工学院法学教授兼首席战略官（CSO）Daniel Martin Katz和他的“经常合作者”Michael Bommarito共同创立，Michael Bommarito是一位法律技术企业家，担任273 Ventures的首席执行官。两人此前曾共同创立了 LexPredict，这是一家较老的人工智能法律初创公司，并将其出售给全球法律公司 Elevate。

KL3M 于 2024 年 2 月下旬发布，但今天，它赢得了第一个获得独立审计公司 Fair Trained 颁发的“许可模型（L）认证”的 LLM，这是一家由前 Stability AI 高管 Ed Newton-Rex 创立和领导的非营利组织。我妻子担任主编的《连线》杂志是第一个报道这一消息的人。

公平训练（L）认证仅授予那些能够通过申请和审查过程证明其 AI 模型训练数据是根据“与有权签订此类协议所需的一方的合同协议”获得和使用的公司，或者是公共领域/开放许可。它还需要支付 150 美元到每年 500 美元到 500 美元/每年 6,000 美元不等的费用。显然，KL3M符合这些要求。

“今天，我们非常高兴地宣布，开尔文法律大型语言模型（KL3M）现在被认证为经过公平训练，”Katz在社交网络X上的帐户上写道。“KL3M是第一个获得此类认证的LLM（在任何类别中）。

“生成式人工智能可以在未经许可的情况下不利用受版权保护的作品而存在，”Fairly Trained在一篇博客文章中写道，宣布了K3LM和其他四个实体的认证 - 提供AI语音和歌唱模型的Voicemod，音乐公司Infinite Album和Lemonaide，以及人工智能驱动的团体Frostbite Orckings。

KL3M是如何训练的？

根据Katz的说法，他今天在接受VentureBeat的简短电话采访时表示，273 Ventures自成立以来一直在“煞费苦心地收集不会有问题的数据”，这些数据来自包括美国政府文件发布和旧法律文件在内的来源 - 所有这些都在公共领域。

“我们不确定你是否可以在不使用大量受版权保护的信息的情况下做这样的事情（训练人工智能模型），”卡茨说。“我们认为至少在一定程度上有可能取得成功，特别是在法律、金融和监管领域，那里有相当多的材料没有版权。

Katz指出，并非所有这些行业都提供统一的公有领域文件，而且各国的公有领域文件差异很大，例如，在英国，一些政府实体或机构可以对他们制作的文件和数据行使皇家版权。

在273 Ventures的最初几个月里，很大一部分是整理哪些文件和数据可以用来训练KL3M，而不会侵权，甚至不会有侵权的风险。这些数据本身最终也被捆绑到一个产品中，即 Kelvin Legal DataPack，其中包含超过 1500 亿个代币，并于 2023 年 8 月发布。

就KL3M而言，它接受了“Kelvin Legal DataPack的高质量，精心策划的英语子集”的培训，包括对10,000份文档的手动审查和“包含约3500亿个令牌的数据集”。273 Ventures在这里更详细地描述了其KL3M的培训制度。

到目前为止，结果是两个版本的 KL3M：具有 1.7 亿个参数（控制 AI 模型的属性）的 kl3m-170m，以及具有 17 亿个参数的更大的 kl3m-1.7b。与更大型号（以及许多其他竞争 LLM）所需的 NVidia RTX 4060 8GB 芯片相比，Kl3m-170m 的性能较差，但可以在与配备 M1 芯片的 Macbook Air 一样低功耗且便宜的硬件上运行。

273 Ventures还准备在下个月发布KL3M的37亿参数变体。

KL3M有什么用，它的成本是多少？

在其产品网页上，KL3M被宣传为有助于“起草和修改工时条目和发票，起草和修改合同条款，起草和修改SEC文件，如10-K和8-K报告部分，[和]起草明显的专利......”

尽管在设计时考虑到了律师事务所和法律行业——客户对数据来源和合法性问题特别敏感——但 Katz 告诉 VentureBeat，他实际上对 KL3M 超越这一目标行业的推广程度感到震惊。

“这样想吧：法律几乎触及了社会上的每一个话题，”卡茨解释说。政府发布了大量原始材料，教你概念和语言的使用......我个人有点惊讶，但它确实比我们想象的要广泛。

在上个月最初宣布该模型时，273 Ventures 制作了几张图表，对 KL3M 的性能进行了基准测试，并将其与同类其他模型进行了比较，发现 17 亿参数版本比其他 10 个领先模型（包括 GPT-2 Large 和 open_llama_3b_v2）具有更低（因此更好）的困惑或代币预测错误——至少在编写法律材料和 Wiki 条目方面是这样。

KL3M 的 17 亿参数模型在有毒输出方面的得分也远低于同类其他小型模型，包括 Microsoft 大肆吹嘘的 Phi-2。

目前，卡茨说，由于保密原因，他拒绝透露具体姓名的几家律师事务所客户已经在使用该模型。

椰有料原创，作者：小椰子啊，转载请注明出处：http://www.studioyz.com/5794.html

第一个“训练有素”的 AI 大型语言模型就在这里

KL3M是如何训练的？

KL3M有什么用，它的成本是多少？

猜你喜欢

文章评论

KL3M是如何训练的？

KL3M有什么用，它的成本是多少？

猜你喜欢

文章评论

ServiceNow 的华盛顿特区更新通过 Gen AI 为 IT 运营和虚拟代理提供支持

“注意力就是你所需要的一切” 创作者在 Nvidia GTC 上超越变形金刚，将目光投向 AI：“世界需要更好的东西”