为什么分布式 AI 是推动 AI 创新的关键

小椰子啊 • 2023-09-24 人工智能

人工智能的未来是分布式的，Anyscale的联合创始人，执行董事长兼总裁Ion Stoica在VB Transform的第一天说。这是因为模型复杂性没有放缓的迹象。

“在过去的几年里，训练最先进模型的计算需求，取决于数据集，每10个月增长35倍到18倍，”他说。

就在五年前，最大的型号还适合单个 GPU;快进到今天，仅仅为了适应最先进型号的参数，就需要数百甚至数千个 GPU。PaLM或谷歌的Pathway语言模型有530亿个参数 - 这只是最大的参数的一半，超过1万亿个参数。该公司使用6,000多个GPU来训练最新的。

Stoica补充说，即使这些模型停止增长，GPU继续以与前几年相同的速度发展，它仍然需要大约19年的时间才能足够复杂，可以在单个GPU上运行这些最先进的模型。

“从根本上说，这是机器学习应用程序的需求与单个处理器或单个服务器的功能之间的巨大差距，逐月增长，”他说。“除了分发这些工作负载之外，没有其他方法可以支持它们。就这么简单。编写这些分布式应用程序很难。实际上，这比以前更难。

扩展应用程序和工作负载的独特挑战

构建机器学习应用程序有多个阶段，从数据标记和预处理到训练、超参数调优、服务、强化学习等，每个阶段都需要扩展。通常，每个步骤都需要不同的分布式系统。为了构建端到端的机器学习管道或应用程序，现在有必要将这些系统拼接在一起，但也要管理它们中的每一个。它还需要针对各种 API 进行开发。所有这些都增加了AI/ML项目的巨大复杂性。

Stoica说，开源Ray Distributed Computing项目和Anyscale的使命是使这些分布式计算工作负载的扩展更容易。

“通过Ray，我们试图提供一个计算框架，你可以在上面端到端地构建这些应用程序，”他说。“W Anyscale基本上提供了一个托管的托管Ray，当然还有安全功能和工具，使这些应用程序的开发，部署和管理更容易。

混合有状态和无状态计算

该公司最近推出了一款无服务器产品，该产品抽象出所需的功能，无需担心这些功能将在哪里运行，并减轻了开发人员和程序员在扩展时的负担。但是对于透明的基础设施，函数的功能受到限制 - 例如，它们执行计算，将数据写回S3上，然后它们就消失了 - 但许多应用程序需要有状态运算符。

例如，如果训练在每次迭代后写回 S3，或者甚至只是从 GPU 内存移动到机器内存，就会变得过于昂贵，因为获取数据的开销，然后通常还序列化和反序列化该数据。

“从第一天开始，Ray就是围绕这些运算符构建的，这些运算符可以保持状态并可以不断更新状态，在软件工程术语中，我们称之为'actor'，”他说。“Ray一直支持这种无状态和有状态计算的双重模式。

人工智能的实施是在哪一局？

Stoica说，有一种诱惑说，人工智能的实施终于到了步行阶段，最近数字增长的加速推动了人工智能转型之旅——但我们只是看到了冰山一角。与机会相比，当前的市场规模仍然存在差距 - 类似于大约10年前的大数据状态。

“这需要时间，因为[需要]的时间不仅仅是开发工具，”他说。“这是在培训人们。培训专家。这需要更多时间。如果你看看大数据和发生的事情，八年前，很多大学开始提供数据科学学位。当然，现在有很多课程，人工智能课程，但我认为你会看到越来越多的应用人工智能和数据课程，而今天并不多。

椰有料原创，作者：小椰子啊，转载请注明出处：http://www.studioyz.com/4038.html

为什么分布式 AI 是推动 AI 创新的关键

扩展应用程序和工作负载的独特挑战

混合有状态和无状态计算

人工智能的实施是在哪一局？

猜你喜欢

文章评论

扩展应用程序和工作负载的独特挑战

混合有状态和无状态计算

人工智能的实施是在哪一局？

猜你喜欢

文章评论

机器人简化了开源RPA

医疗保健行业如何利用数据修复碎片化系统