语音AI,云中的超级计算以及用于LLM和生成AI的GPU,是Nvidia的下一个重大举措

语音AI,云中的超级计算以及用于LLM和生成AI的GPU,是Nvidia的下一个重大举措

在其 GTC 2023 会议上,英伟达透露了其语音人工智能计划,其中大型语言模型 (LLM) 开发发挥了关键作用。为了继续发展其软件实力,这家硬件巨头宣布了一套工具,以帮助开发人员和组织致力于高级自然语言处理(NLP)。

在这方面,该公司在软件方面推出了NeMo和DGX Cloud,在硬件方面推出了Hopper GPU。NeMo是Nvidia AI Foundations Cloud Services的一部分,可创建AI驱动的语言和语音模型。DGX Cloud 是一个基础架构平台,专为通过云提供优质服务和运行自定义 AI 模型而设计。在Nvidia的新AI硬件阵容中,期待已久的Hopper GPU现已上市,并准备增强实时LLM推理。

在云中拨号 LLM 工作负载

Nvidia 的 DGX Cloud 是一项 AI 超级计算服务,使企业能够立即访问为 LLM、生成式 AI 和其他突破性应用程序训练高级模型所需的基础设施和软件。

DGX Cloud 提供 DGX AI 超级计算的专用集群,与 Nvidia 专有的 AI 软件配对。该服务实际上允许每个企业通过简单的 Web 浏览器访问自己的 AI 超级计算机,从而消除了与获取、部署和管理本地基础设施相关的复杂性。

此外,该服务还包括整个AI开发管道中Nvidia专家的支持。客户可以直接与 Nvidia 工程师合作,优化他们的模型并解决各种行业用例的开发挑战。

“我们正处于人工智能的iPhone时刻,”英伟达创始人兼首席执行官黄仁勋说。初创公司正在竞相构建颠覆性产品和商业模式,而现有企业正在寻求回应。DGX Cloud使客户能够在全球规模的云中即时访问Nvidia AI超级计算。

ServiceNow 将 DGX 云与本地 Nvidia DGX 超级计算机结合使用,以实现灵活、可扩展的混合云 AI 超级计算,有助于推动其在大型语言模型、代码生成和因果分析方面的 AI 研究。

ServiceNow还共同管理BigCode项目,这是一个负责任的开放科学LLM计划,该计划在Nvidia的Megatron-LM框架上进行培训。

“BigCode是在单个A100 GPU上运行的Nvidia Megatron-LM克隆中使用多查询注意力实现的,”ServiceNow产品平台副总裁Jeremy Barnes告诉VentureBeat。“这导致推理延迟减半,吞吐量增加了 3.8 倍,说明了 Nvidia 上的 LLM 和生成 AI 最前沿可能出现的工作负载类型。”

Barnes表示,ServiceNow旨在改善客户的用户体验和自动化成果。

“这些技术是由我们的基础和应用人工智能研究小组开发的,他们专注于负责任地开发企业人工智能的基础模型,”巴恩斯补充道。

DGX 云实例的起价为每个实例每月 36,999 USD。

简化语音 AI 开发

Nvidia NeMo服务旨在帮助企业将LLM与其专有数据相结合,以改善聊天机器人,客户服务和其他应用程序。作为新推出的Nvidia AI Foundations Cloud服务系列的一部分,Nvidia NeMo服务使企业能够通过使用专有数据增强其LLM来缩小差距。这使他们能够通过强化学习频繁更新模型的知识库,而无需从头开始。

“我们目前的重点是LLM模型的定制,”Nvidia企业计算副总裁Manuvir Das在GTC预简报中表示。“使用我们的服务,企业可以从头开始构建语言模型,也可以利用我们的示例架构。

NeMo 服务中的这一新功能使大型语言模型能够从专有数据源中检索准确的信息,并对用户查询生成类似人类的对话式响应。

NeMo旨在帮助企业跟上不断变化的环境,解锁高度准确的AI聊天机器人,企业搜索引擎和市场情报工具等功能。借助 NeMo,企业可以为 NLP、实时自动语音识别 (ASR) 和文本转语音 (TTS) 应用构建模型,例如视频通话转录、智能视频助手和自动呼叫中心支持。

NeMo 可以帮助企业构建模型,这些模型可以从不断发展的知识库中学习并适应该数据库,而这些知识库独立于最初训练模型的数据集。NeMo不需要对LLM进行重新培训以解释新信息,而是可以利用企业数据源获取最新详细信息。

此功能允许企业使用定期更新的特定于域的知识来个性化大型语言模型。它还包括引用语言模型响应来源的能力,从而增强用户对输出的信任。

使用 NeMo 的开发人员还可以设置护栏来定义 AI 的专业领域,从而更好地控制生成的响应。

英伟达表示,数字工程解决方案和平台公司Quantiphi正在与NeMo合作构建模块化生成AI解决方案,以帮助企业创建定制的LLM,以提高员工的生产力。其团队还在开发工具,使用户能够在几秒钟内在非结构化文本、图像和表格中搜索最新信息。

类固醇的LLM架构?

英伟达还宣布了四款推理GPU,针对各种新兴的LLM和生成AI应用程序进行了优化。这些 GPU 旨在帮助开发人员创建专门的 AI 驱动的应用程序,这些应用程序可以快速提供新的服务和见解。此外,每个 GPU 都旨在针对特定的 AI 推理工作负载进行优化,同时还具有专用软件。

在GTC上推出的四个GPU中,Nvidia H100 NVL专为LLM部署量身定制,使其成为大规模部署大规模LLM(如ChatGPT)的合适选择。H100 NVL 拥有 94GB 内存和变压器引擎加速功能,在数据中心规模上,GPT-12 的推理性能比上一代 A3 快 100 倍。

此外,GPU的软件层包括Nvidia AI Enterprise软件套件。该套件包括高性能深度学习推理软件开发套件 Nvidia TensorRT 和 Nvidia Triton 推理服务器(一种标准化模型部署的开源推理服务软件)。

H100 NVL GPU将于今年下半年推出。

椰有料原创,作者:小椰子啊,转载请注明出处:http://www.studioyz.com/2122.html

0

扫一扫,分享到微信

猜你喜欢

文章评论

电子邮件地址不会被公开。 必填项已用*标注

后发表评论

上一篇

TestGPT 是一种用于确保代码完整性的生成 AI 工具,已发布测试版

下一篇

分析师分享了 2023 年 8 项 ChatGPT 安全预测

微信公众号

微信公众号