关于神经网络复杂性的争论:更大意味着更好吗?

关于神经网络复杂性的争论:更大意味着更好吗?

人工智能(AI)自诞生以来取得了巨大的进步,神经网络通常是这一进步的一部分。对AI模型中的变量应用权重的神经网络是这种现代技术不可或缺的一部分。

研究正在进行中,专家们仍在争论神经网络复杂性是否越大越好。

传统上,研究人员专注于构建具有大量参数的神经网络,以实现基准数据集的高精度。虽然这种方法导致了迄今为止一些最复杂的神经网络的发展——例如 GPT-3,现在有超过 175 亿个参数导致 GPT-4。但它也带来了重大挑战。

例如,这些模型需要大量的计算能力、存储和时间来训练,并且它们可能难以集成到实际应用程序中。

人工智能社区的专家对神经网络复杂性的重要性有不同的看法。一些人认为,如果训练有效且高效,较小的,训练良好的网络可以实现与大型模型相当的结果。

例如,Google DeepMind的Chinchilla等较新的模型 - 仅包含70亿个参数 - 声称在大量语言基准测试中优于Gopher,GPT-3,Jurassic-1和Megatron-Tuuring NLG。同样,Meta 的 LLaMA(包含 65 亿个参数)表明,较小的模型可以实现更高的性能。

尽管如此,神经网络的理想规模和复杂性仍然是人工智能界争论的问题,这引发了一个问题:神经网络的复杂性重要吗?

神经网络复杂性的本质

神经网络由互连的人工神经元层构建而成,这些人工神经元可以识别数据中的模式并执行各种任务,例如图像分类、语音识别和自然语言处理 (NLP)。每层中的节点数、层数和分配给每个节点的权重决定了神经网络的复杂性。神经网络的节点和层越多,它就越复杂。

随着需要更多层和参数的深度学习技术的出现,神经网络的复杂性显着增加。深度学习算法使神经网络能够用于一系列应用,包括图像和语音识别以及NLP。这个想法是,更复杂的神经网络可以从输入数据中学习更复杂的模式,并实现更高的准确性。

“一个复杂的模型可以更好地推理并发现细微的差异,”安永数据科学经理Ujwal Krothapalli说。“然而,一个复杂的模型也可以'记住'训练样本,并且在与训练集非常不同的数据上不能很好地工作。

越大越好

微软研究院的塞巴斯蒂安·布贝克和斯坦福大学的马克·塞尔克于 2021 年在领先的人工智能会议 NeurIPS 上发表的一篇论文解释了为什么扩展人工神经网络的大小会带来更好的结果。他们发现神经网络必须比传统预期的要大,以避免特定的基本问题。

但是,这种方法也有一些缺点。开发大型神经网络的主要挑战之一是训练它们所需的计算能力和时间。此外,大型神经网络在实际场景中部署通常具有挑战性,需要大量资源。

“模型越大,训练和推断就越困难,”英伟达人工智能软件产品管理副总裁Kari Briski告诉VentureBeat。“对于训练,您必须具备将算法扩展到数千个GPU的专业知识,对于推理,您必须优化所需的延迟并保持模型的准确性。

Briski解释说,复杂的AI模型(如大型语言模型(LLM)是自回归的,计算上下文输入决定接下来生成哪个字符或单词。因此,基于应用程序规范,生成方面可能具有挑战性。

“需要多GPU,多节点推理才能使这些模型实时生成响应,”她说。“此外,降低精度但保持准确性和质量可能具有挑战性,因为具有相同精度的训练和推理是首选。

训练技术的最佳结果

研究人员正在探索优化神经网络的新技术,以便在资源有限的环境中部署。麻省理工学院的Stefanie Jegelka和研究人员Andreas Loukas和Marinos Poiitis在NeurIPS 2021上发表的另一篇论文显示,神经网络不需要复杂,仅通过训练技术就可以获得最佳结果。

该论文揭示了较小尺寸模型的好处很多。它们的训练速度更快,更容易集成到实际应用程序中。此外,它们可以更具可解释性,使研究人员能够了解他们如何做出预测并识别潜在的数据偏差。

软件开发公司Globant的数据科学和人工智能主管Juan Jose Lopez Murphy表示,他认为网络复杂性和性能之间的关系非常复杂。

“随着”缩放定律“的发展,我们发现许多模型训练严重不足,”墨菲告诉VentureBeat。“您需要利用通用已知架构的缩放法则,并对较小模型的性能进行实验,以找到合适的组合。然后,您可以根据预期性能扩展复杂性。

他说,像Chinchilla或LLaMA这样的较小模型 - 使用较小的模型实现了更高的性能 - 提出了一个有趣的案例,即嵌入在较大网络中的一些潜力可能会被浪费,而更复杂模型的部分性能潜力在训练不足中丢失。

“对于更大的模型,你在特异性方面获得的东西,你可能会失去可靠性,”他说。我们还没有完全理解这种情况是如何以及为什么发生的——但该行业的大量研究正在回答这些问题。我们每天都在学习更多。

不同的工作需要不同的神经方案

为 AI 模型开发理想的神经架构是一个复杂且持续的过程。没有放之四海而皆准的解决方案,因为不同的任务和数据集需要不同的体系结构。但是,有几个关键原则可以指导开发过程。

其中包括设计可扩展、模块化和高效的架构,使用迁移学习等技术来利用预先训练的模型,以及优化超参数以提高性能。另一种方法是设计专门的硬件,如TPU和GPU,可以加速神经网络的训练和推理。

毕马威美国企业人工智能负责人Ellen Campana建议,理想的神经网络架构应基于数据大小、要解决的问题和可用的计算资源,确保它能够高效、有效地学习相关特征。

“对于大多数问题,最好考虑合并已经训练过的大型模型并对其进行微调,以配合您的用例,”Campana告诉VentureBeat。“从头开始训练这些模型,特别是对于生成用途,在计算方面非常昂贵。因此,当数据出现问题时,更小、更简单的模型更适合。使用预先训练的模型可能是绕过数据限制的另一种方法。

更高效的架构

Campana说,神经网络的未来在于开发更高效的架构。创建优化的神经网络架构对于实现高性能至关重要。

“我认为它将继续朝着更大的模型发展,但越来越多的它们可以重复使用,”坎帕纳说。“因此,它们由一家公司进行培训,然后获得使用许可,就像我们在OpenAI的Davinci模型中看到的那样。对于想要使用人工智能的人来说,这使得成本和足迹都非常易于管理,但他们得到了使用人工智能解决具有挑战性的问题所需的复杂性。

同样,企业MLOps平台Domino Data Lab的数据科学战略和传播主管Kjell Carlsson认为,更小,更简单的模型总是更适合实际应用程序。

“没有一个引人注目的生成式人工智能模型适合原始状态下的实际应用,”卡尔森说。“对于实际应用,它们需要针对一组狭窄的用例进行优化,这反过来又减小了它们的尺寸和使用成本。一个成功的例子是GitHub Copilot,这是OpenAI的Codex模型的一个版本,针对自动完成代码进行了优化。

神经网络架构的未来

Carlsson说,OpenAI正在提供像ChatGPT和GPT4这样的模型,因为我们还不知道潜在用例的一小部分。

“一旦我们知道了用例,我们就可以为它们训练这些模型的优化版本,”他说。“随着计算成本的不断下降,我们可以预期人们将继续使用”蛮力“方法,利用使用越来越多的参数训练的现有神经网络架构。

他认为,我们还应该期待突破,开发人员可能会提出改进和新架构,从而显着提高这些模型的效率,同时使他们能够执行越来越多的复杂、类似人类的任务。

同样,人工智能分析平台ThoughtSpot的联合创始人兼首席技术官Amit Prakash表示,我们将经常看到越来越大的模型显示出更强的功能。但是,这些模型的较小版本将尝试近似较小模型的输出质量。

“我们将看到这些较大的模型用于教导较小的模型模仿类似的行为,”Prakash告诉VentureBeat。“一个例外可能是稀疏模型或专家模型的混合,其中大型模型具有决定应该使用神经网络的哪一部分以及应该关闭哪一部分的层,然后只有一小部分模型被激活。

他说,最终,开发成功的人工智能模型的关键是在复杂性、效率和可解释性之间取得适当的平衡。

椰有料原创,作者:小椰子啊,转载请注明出处:http://www.studioyz.com/2084.html

0

扫一扫,分享到微信

猜你喜欢

文章评论

电子邮件地址不会被公开。 必填项已用*标注

后发表评论

上一篇

OpenAI 的 ChatGPT 插件改变游戏AI的 5 种方式

下一篇

GPT-4 将 AI 安全风险提升到更高的档次

微信公众号

微信公众号