Gretel 发布了世界上最大的开源文本到 SQL 数据集,使企业能够释放 AI 的潜力

Gretel 发布了世界上最大的开源文本到 SQL 数据集,使企业能够释放 AI 的潜力

Gretel 是合成数据行业的开拓者,在实现高质量 AI 训练数据的民主化方面取得了巨大的飞跃。该公司周四宣布发布世界上最大的开源文本到SQL数据集,此举旨在加速AI模型训练,并为全球企业解锁新的可能性。

该数据集拥有超过 100,000 个精心制作的合成文本到 SQL 样本,涵盖 100 个垂直领域,现已在 Apache 2.0 许可下在 Hugging Face 上提供。Gretel 的这一大胆举措旨在为开发人员提供创建强大的 AI 模型所需的工具,这些模型可以理解自然语言查询并生成 SQL 查询,从而有效地弥合业务用户和复杂数据源之间的差距。

“获取高质量的训练数据是使用生成式人工智能进行构建的最大障碍之一,”Gretel首席科学家Yev Meyer在接受VentureBeat采访时强调。“高质量的合成数据可以填补这一空白。大型语言模型(LLM)和人工智能领域最近最显着的转变之一是对数据质量的重新关注。

应对数据质量挑战

Gretel 的突破性数据集是使用 Gretel Navigator 生成的,Gretel Navigator 是一个复杂的复合 AI 系统,目前处于公共预览阶段。“我们的开源文本到 SQL 数据集是由 Gretel Navigator 生成的,Gretel Navigator 是我们的复合 AI 系统,它集成了基于代理的执行、多个专有模型(包括自定义表格大型语言模型)和隐私增强技术,可从头开始按需生成高质量的合成数据,”Meyer 解释道。

此版本的影响是深远的,因为各行各业的企业都在努力应对访问和利用隐藏在复杂数据库、数据仓库和数据湖中的大量数据的挑战。Gretel的数据集不仅为这个问题提供了解决方案,而且还包括一个解释字段,该字段提供了SQL代码的通俗易懂的英语描述,使最终用户更容易理解并从输出中提取价值。

严格的质量验证和广泛的行业应用

Gretel对数据质量的承诺体现在其细致的验证过程中。“我们生成的每个数据集都经过质量评估。质量基准是我们工作的核心,“Meyer 说。当使用独立服务和 LLM-as-a-judge 技术进行评估时,该公司的 Text-to-SQL 数据集在符合 SQL 标准、正确性和遵守指令方面始终优于其他数据集。

Gretel数据集的潜在应用非常广泛,涵盖从金融、医疗保健到政府的行业。财务分析师现在可以询问有关公司绩效的问题,并从数据库中获得即时答案,而医疗保健提供商可以简化对来自多个实验的临床试验数据的分析。政府领导人还可以利用该数据集为公民提供对公共记录数据库的轻松访问,例如许可证、财产所有权和许可证。

平衡数据隐私和可访问性

随着企业越来越认识到以数据为中心的人工智能的重要性,Gretel能够生成大量高质量的合成数据,使其成为该行业的关键参与者。“Gretel解决方案在构建时考虑到了企业规模,因此客户可以在从头开始创建数据或编辑和增强现有数据时满足他们的数据需求,”Meyer告诉VentureBeat。

Gretel对隐私的奉献同样令人印象深刻,他采用差分隐私等尖端技术来确保敏感信息受到保护,同时仍然使模型能够从数据中学习。这种对平衡准确性和隐私的承诺使 Gretel 在数据安全至关重要的行业中脱颖而出。

Gretel的Text-to-SQL数据集的发布标志着该公司加速采用以数据为中心的人工智能并使企业能够释放其数据的全部潜力的使命的一个重要里程碑。凭借对质量、隐私和可访问性的关注,Gretel 处于领先地位,有望引领合成数据革命。

随着人工智能领域继续以惊人的速度发展,Gretel对开源社区的开创性贡献证明了其致力于推动创新和民主化高质量训练数据的访问。随着企业利用人工智能的力量在日益数据驱动的世界中获得竞争优势并推动增长,这一版本可能会影响到各行各业的连锁反应。

椰有料原创,作者:小椰子啊,转载请注明出处:http://www.studioyz.com/5845.html

0

扫一扫,分享到微信

猜你喜欢

文章评论

电子邮件地址不会被公开。 必填项已用*标注

后发表评论

上一篇

Microsoft 通过更多存储和对大型 RAG 应用的支持来增强 Azure AI 搜索

下一篇

随着戴尔投资 AI SiMa.ai,争夺 AI 一代优势的竞赛升温

微信公众号

微信公众号