DataStax 使用新的数据 API 可以更轻松地构建生成式 AI RAG 应用程序

DataStax 使用新的数据 API 可以更轻松地构建生成式 AI RAG 应用程序

DataStax 希望通过今天推出的新数据 API 使开发人员能够更轻松地构建生成式 AI 检索增强生成 (RAG) 应用程序。

DataStax 是开源 Apache Cassandra 数据库背后的领先商业供应商之一,该数据库是其 AstraDB 云数据库即服务的基础。与许多其他数据库供应商一样,DataStax 已在 2023 年为其平台添加了矢量数据库功能。在最近的一次活动中,DataStax 的 CEO 声称 Cassandra 是“..最适合 AI 世代的数据库。

矢量数据库功能对于实现将大型语言模型 (LLM) 与数据平台相结合以生成高度准确和定制结果的 RAG 应用程序至关重要。

虽然自 2023 年 7 月以来,DataStax 在 AstraDB 中具有矢量功能,但该功能仍然需要用户使用 Cassandra 查询语言 (CQL) 作为查询数据的主要路径。今天推出的新数据 API 改变了这一点,为开发人员提供了使用 Python 和 JavaScript 编程语言访问数据库的能力,该公司声称这有助于缩小 DataStax 和专门构建的矢量数据库(如 Pinecone)之间的差距,后者刚刚更新了其同名平台与无服务器数据库功能。

“除了向量之外,不支持任何其他查询类型的原生向量数据库与具有非常强大的查询模型的混合数据库之间存在着一种拉锯战,”DataStax首席产品官Ed Anuff告诉VentureBeat。“我们希望做的是缩小这一差距,这就是日期 API 的意义所在。”

DataStax 数据 API 如何改变开发人员构建 RAG 应用程序的方式

新的数据 API 不会为 AstraDB 数据库提供任何新的向量功能。相反,它的作用是使开发人员更容易构建应用程序。

根据 Anuff 的说法,新的 API 旨在减少开发人员正在做的事情与数据库提供的内容之间的阻抗不匹配。Anuff 指出,自 2023 年 7 月矢量功能首次登陆 AstraDB 以来,注册云数据库的所有新用户中约有一半正在使用它来构建生成 AI 应用程序。

挑战在于,这些开发人员无法轻松使用他们已经使用的编程语言来构建生成 AI 应用程序(主要是 Python 和 JavaScript)来访问 AstraDB。

在新的数据 API 之前,使用 AstraDB 构建 AI 应用程序的开发人员将不得不使用标准的 Cassandra 查询语言 (CQL),这涉及的数据建模知识比开发人员想要处理的简单机架应用程序要多。查询也不会针对矢量数据进行优化。

Anuff 解释说,新的数据 API 通过自动处理矢量化、在 Python 和 JavaScript 等语言中呈现更简单的界面,以及通过在数据库级别更有效地存储和索引矢量数据来优化性能,而不仅仅是将矢量添加为另一种数据类型,从而使它变得更容易。与仅在现有 Cassandra API 和数据模型之上构建相比,这缩短了学习曲线并提高了性能。

一切都与 API 有关

对于某些类的数据库 API,所发生的只是从本机编程语言(如 Python 或 JavaScript)转换为数据库的任何查询语言的一种形式。这在功能上与开发人员通过对象关系映射器(ORM)处理数据库的方法非常相似。

DataStax 数据 API 略有不同,因为 Cassandra 的架构与其他数据库不同。体系结构级别的 Cassandra 是围绕一组高性能基元组织的,这些基元组合在一起以支持不同类型的查询模式。Anuff 说,Cassandra 数据架构使得在数据库的更深层进行连接成为可能,从而提高了整体查询性能。

“数据API向开发人员公开了一种非常简单的基于JSON的数据格式,其中任何可以在JSON中表达的内容,开发人员都可以从数据库中发送和检索,”Anuff说。“但我们以一种非常有效的方式将其存储在 Cassandra 中,我们直接在存储层执行此操作,并确保开发人员获得的性能得到维护。

使用 JVector 引擎加速向量

DataStax矢量数据库发展的另一个关键部分是JVetor搜索引擎,它是AstraDB的一部分。JVector 是由 DataStax 开发的开源嵌入式矢量搜索引擎。

Anuff 解释说,JVector 使用一种称为 DiskANN 的算法,它是 ANN(近似最近邻搜索)算法的基于磁盘的存储优化版本,该算法广泛用于几乎所有向量数据库。他指出,与其他在大型存储和分发规模下表现不佳的算法相比,DiskANN 提供了更好的检索能力。

根据 DataStax 的说法,JVector 引擎使 AstraDB 能够实现比其他向量数据库更好的相关性和召回率。DataStax 的大部分矢量工作,包括 JVector 和数据 API,都是开源的,供 Cassandra 开源社区以及 DataStax 的 AstraDB 客户使用。

“我们非常坚定地致力于为开源生态系统提供东西,”Anuff说。“我们也只是想确保,如果你只是一个试图弄清楚你应该使用什么云服务的开发人员,你有最简单的途径。

椰有料原创,作者:小椰子啊,转载请注明出处:http://www.studioyz.com/5414.html

0

扫一扫,分享到微信

猜你喜欢

文章评论

电子邮件地址不会被公开。 必填项已用*标注

后发表评论

上一篇

Google DeepMind 的 AI 系统可以像数学奥运选手一样解决几何问题

下一篇

更合乎道德的人工智能?Quite Trained 推出以认证基于许可数据训练的 AI 工具

微信公众号

微信公众号