栏目分类

热点资讯

你的位置:真实 勾引 > 成人卡通动漫 >

麻仓优qvod 强化学习之父 Rich Sutton 最新演讲:用「去中心化神经收罗」应答深度学习局限性

发布日期:2025-01-01 00:32    点击次数:116

麻仓优qvod 强化学习之父 Rich Sutton 最新演讲:用「去中心化神经收罗」应答深度学习局限性

不幸性渐忘是大模子期间的下一个冲破口麻仓优qvod。

作家丨王悦

剪辑丨陈彩娴

在东谈主们为 AI2.0 期间的技巧突出惊呼和欢欣之时,东谈主工智能和其背后深度学习、神经收罗泥土的真实发展水平怎样?

对于这一问题的谜底省略不错在第六届海外散布式东谈主工智能会议(Distributed Artificial Intelligence Conference,DAI 2024)上窥知一二。DAI 2024 已在新加坡管制大学得胜举办,本届会议的亮点之一等于邀请到当代强化学习的奠基东谈主 Richard S. Sutton 教悔、昆仑万维荣誉照看人颜水成博士、UC Berkeley Sergey Levine 教悔和 Google DeepMind 研究科学家 Georgios Piliouras 博士这四位分量级嘉宾,从多智能体系统、强化学习和具身智能等方面,建议了新的念念路和治理有策动,给东谈主工智能领域的前沿研究以启发和全新视角。

DAI 2024 现场,当代强化学习的奠基东谈主、阿尔伯塔大学教悔 Richard S. Sutton 教悔在开幕式上发表了题为《Decentralized Neural Networks》的主旨演讲。Sutton 教悔指出,现时东谈主工智能的发展尚未达到真实真谛上的全面兑现,其主要瓶颈在于深度学习的局限性。这些问题包括不幸性渐忘、可塑性丧失以及模子崩塌等风景,对东谈主工智能的抓续学习才能组成了重要挑战。

为应答这些问题,Sutton 教悔建议了「去中心化神经收罗」的全新见解。该步调的中枢理念是赋予每个神经元零丁的方向,举例向其他神经元传递灵验信息、保抓自身活跃等。这种遐想旨在兑现一种动态均衡:保抓“主干”神经元的领悟性,同期饱读励“边际”神经元进行探索,从而增强收罗的稳妥性和抓续学习才能。

在演讲中,Sutton 教悔还共享了他的创新算法——抓续反向传播(Continual Backprop)。该算法通过在每轮反向传播中,根据神经元的活跃度聘请性地再行启动化部分心经元,从而栽植模子的活泼性和学习效果。实验标明,该算法在多个抓续学习任务中施展优于传统反向传播步调,为抓续学习领域提供了新的治理有策动。

AI 科技考虑在不转变答应的前提下进行整理:

我想先从总体上谈谈东谈主工智能以及咱们应该怎样抱有志在四方。当下,咱们到底在尝试作念什么?咱们试图充分认识智能,以便创造出比现时东谈主类更智能的生物。这是一个深远的才能里程碑。咱们将丰富咱们的经济,转变咱们的社会轨制,这将是变革性的、全新的,但同期亦然延续了陈腐趋势的。东谈主们一直在创造器用,而这些器用也转变了他们。

那么,下一步重要的要领将是认识咱们我方,为此构建器用,这是一个宏伟而光荣的探索,是典型的东谈主类行动。我以为,这是念念考东谈主工智能的允洽布景。

再次强调,咱们必须以慈祥的派头濒临这个问题,这是一个如斯巨大、伏击的问题,而咱们濒临它时显得如斯轻捷。咱们试图在这方面取得进展。这正在发生,而且将会发生。意志到它将会发生并尝试成为其中的一部分,并不是自傲的。

这等于我的起点,我的底牌一经摆在桌面上了。在科学中,步融合玄学的搀杂很伏击,一方面是你想要完全确立和革命的科学内容,但同期你也必须有政策和步调,这对于我今天想要考虑的内容相配关联。

我今天要考虑的,我称之为《去中心化的神经收罗》,这仅仅一个我正在发展的想法。是以这不是一个我会向你们展示最终居品的东西。我会向你们展示一些想法,况且我会建议一些硬性的结束,这些结束至少为这些想法提供了动机。

我想从我的论断动手。往时,所谓的散布式东谈主工智能或者说去中心化东谈主工智能,咱们更倾向于将其视作是一群像运行收罗或为某种大型行径作念出孝敬的 Agents。我走的是另一条路,我会将其看作一个单一的心智、一个单一的大脑,将其视为散布式的,它由许多自己等于方向寻求系统的组件组成,它们自己等于有方向的 Agents。

我要说的是,这些 Agents 等于东谈主工神经收罗中的神经元。

1

DL & ANNs——All is not well

是以我想从我的论断动手。今天的深度学习和东谈主工神经收罗并不是一切齐很好。它们会不幸性地健忘,失去可塑性,履行上会在延长锤真金不怕火的条目下崩溃。

这些问题许多齐与延长锤真金不怕火关联,而咱们时常不会在深度学习中遭遇这些问题,因为咱们时常不会进行延长锤真金不怕火。咱们仅仅锤真金不怕火霎时然后就罢手并冻结系统。

但要是确切想要制造一个能够渡过一世的 Agent,它就必须抓续学习。强化学习、Agent齐想要抓续学习。因此,它们能够应答抓续的、延长的锤真金不怕火或学习瑕瑜常伏击的。

为了兑现一谈后劲,需要更多的东西。我会为此提供把柄,咱们需要收罗中未充分愚弄的东谈主工神经元的额外变异源。是以收罗必须尝试不同的事情。然后咱们需要保护和保留那些变异有用的神经元。这是一种生成性测试。其中枢方向等于你尝试各式事物,保留好的那些。

面前,对我来说,这些需求锋利标明神经元应该有让其他神经元倾听的去中心化方向。面前,这对我来说是一个锋利的建议,这是我正在念念考的事情,我不可讲解,我会尝试和你研究这个想法,我会讲解深度学习的局限性、流毒,并向你展示一些技巧,让它们更好地使命。但这种去中心化的想法仅仅我将要向你建议的一个想法,我面前还无法真实讲解它。

今天我将研究收罗中的神经元这个见解。这些神经元自身有方向,它们想要贯穿其他神经元,它们想要为系数这个词收罗作念出孝敬。我将展示一些对于传统深度学习的新的把柄问题。这是咱们几个月前在《Nature》杂志上发表的把柄,咱们展示了深度学习在抓续监督学习中会失去可塑性。

其次,咱们一经展示了深度学习在万古候的强化学习中可能会崩溃。这些问题一经得到了治理。咱们通过引入变异和聘请性糊口来治理它们,也等于尝试一系列事物并保留好的那些。因此,我以为这是去中心化方向的基础,这些 Agent 将尝试为收罗作念出孝敬。我以为用这些术语来念念考将会是有用的。

我将展示的第二件事,是来自阿尔伯塔大学的一些新使命,他们开导了这些在线流算法用于强化学习,这一直是咱们在深度学习中无法与之竞争的流算法。流算法意味着数据流经它们,它们不保存任何数据,每个数据有一个固定的盘算量,你不需要保存任何东西,是以你不错在事情发生时完全处理它们,然后丢弃它们。这是天然的学习形式。

首先,我应该界说一下我所说的去中心化神经收罗是什么真谛。它是一个其神经元追求的方向与系数这个词收罗的方向不同的收罗。去中心化意味着莫得中央结束器。有多个 Agent 在推行任务,但算作一个举座,咱们但愿最终能酿成一个刚劲的智能收罗。

举例,系数这个词收罗可能寻求最大化其强化学习系统的奖励,或者它可能寻求按照锤真金不怕火集的劝诱对图像进行分类以监督学习系统。但单个神经元可能有其他方向,比如它们可能想要提供收罗中其他神经元发现存用的信号。这是一个局部方向,或者是它们可能想要自我模范化,况且在一定时候分数内保抓活跃。这是它们零丁于收罗举座方向的局部方向的计算。是以,去中心化神经收罗的说法是一个由追求方向的组成部分组成的方向寻求系统。

当代强化学习当先被构想为一个去中心化的神经收罗。是以,要是 Andy Bartow 和我可能是当代强化学习之父,那么 A. Harry Klopf 等于祖父,因为他是让咱们动手这一切使命的东谈主。他写了《The Hedonistic Neuron》这本书,建议单个神经元。他将单个神经元视为寻求方向的实体,寻求事物和幸免事物。大脑中的神经元访佛于社会中的东谈主。每个东谈主齐是享乐目的者。

他履行上以为新的时常的神经元试图得回欣喜并幸免被扼制。他相配戒备这个短语,即从寻求方向的组件中寻求方向的系统。而Andy Barton和我在1980年操纵在马萨诸塞大学使命时研究了它。

Klopf 的科学孝敬是意志到这种去中心化的不雅点,或者仅仅念念考想要东西的代理,这对咱们今天来说并不较着。那时,它在系数工程学、系数结束论、系数神经收罗中齐是不存在的。莫得代理想要某物的见解。它一经变成了监督学习,即他们不想要某物,他们仅仅作念他们被呈文的事情。他们不试图转变寰球,他们试图匹配寰球正在作念的事情。而 Klopf 意志到了这少许,并在资助了 Andy Barton 和我在马萨诸塞大学的使命。是以他确切是当代强化学习的祖父。

履行上强化学习像山一样陈腐。Marvin Minsky 在他的博士论文中作念了对于强化学习的研究,但他其后它变得不流行了,因为他们并不真实接受代理寻求事物的想法。他们以为它变成了监督学习。

这些是一些真实神经元的时候蔓延照相,它们在培养中,但重心是这些神经元正在伸出纤维。它们的树突和轴突终局有助长锥,不这么想是很难的:这些神经元试图作念一些事情。

它们试图找到其他单位贯穿,其他神经元贯穿,并参与收罗。是以,这是荧惑东谈主心的,但咱们可能会设想咱们的神经元以这种形式使命,就像 Harry Klopf 所作念的那样。

是以,我以为一个去中心化的神经收罗应该在三个层面上进行稳妥。它应该稳妥贯穿线,正如咱们刚刚看到的,神经元伸出贯穿线与其他神经元酿成贯穿;然后咱们还要稳妥权重;第三,天然不那么较着,咱们要稳妥步长参数,这些参数决定了学习的速率,偶然它们被称为学习率参数,但最佳称之为步长参数。我深信,这对于神经收罗的畴昔来说是一个相配伏击的理念,是以咱们将会研究它。

面前,要是咱们想转变结构,首先就选藏到传统的深度学习,它们有一个相配固定的预遐想结构,时常是分层的,况且这些层有特殊的功能。另一种作念法是让收罗天然助长,是以你可能会从一个输出单位和几个传感器、输入动手,然后跟着你添加新的特征,你会得到一个更复杂的收罗。在这个经过中,你会少许少许地积贮神经元,变得愈加复杂、更有才能。

是以我以为,要是这是一个去中心化的收罗,况且试图为收罗作念出孝敬,这将是一种更天然的形式。一朝为收罗作念出了孝敬,你就成为了收罗的一部分。在那之前,你仅仅在探索并尝试作念一些有助于孝敬的事情。

第一个不雅点是咱们区别收罗中一经学习过的部分,我将这部分称为主干收罗。你详情了权重瑕瑜零的,异常是它们通过收罗贯穿并影响收罗的输出。面前照确切当代神经收罗中,许多神经元根底不是这么的,它们对收罗的输出莫得孝敬。是以,咱们中的一些东谈主会称它们为示寂的,我不想让你以为它们是示寂的,是以我将给它们一个不同的名字,将称它们为边际部分。

主干收罗是咱们面前正在使用的,咱们学到的学问,而边际部分是我以为它们在边际嗡嗡作响并试图酿成一些对收罗有用的功能,一些信号,然后收罗将聘请性地倾听。是以本色是咱们要保护和退换主干收罗。在边际部分,咱们但愿它更具探索性。这履行上险些与旧例反向传播所作念的相悖。要是你想反向传播,要是你影响了输出,那些线性概率反向传播会转变。通过梯度下跌,你将转变那些一经影响输出的,而那等于纰缪。而那些不影响任何东西的,你根底不会转变它们,因为它们的梯度将为零。

为了更直不雅地讲明这少许,我作念了这张图。这里有一个神经收罗,经过完全学习后,它们齐有许多示寂单位。是以这里的玄色代表主干收罗,蓝色代表边际部分。咱们不错浅近地修剪掉边际部分,只保留主干收罗。这等于主干收罗和边际部分的见解。

面前,咱们需要新的算法,咱们需要学习主干收罗,咱们需要在边际部分进行学习。在主干收罗里面学习,省略咱们不错径直使用反向传播、梯度下跌。在边际部分学习,咱们需要一些新的想法,让这些单位试图被倾听。以及需要选藏一个问题,即怎样找到主干收罗?

有个基本的理念是,一个单位结束其传入权重,不结束其传出权重。每个神经元齐有传入权重和传出权重,每个传出权重齐是另一个神经元的传入权重。对这些散布式 Agent 分拨职守,咱们分拨每个 Agent 结束其传入权重。

这是梯度,这个对于权重值的广泛纰缪的小偏导数,从神经元i到神经元j的权重,我以前称它们为单位。今天我决定称它们为神经元,不管咱们考虑的是东谈主工神经元照旧真实神经元,从面前动手齐是东谈主工的。

是以,要是你是在边际部分,根据界说就不会影响纰缪,是以这个梯度老是零。在反向传播中,根据这个梯度,偏导数来转变权重。因此,反向传播不可用来学习这些权重,因为根据界说,导数老是零,你长久不会转变那些权重。是以这就像是一个罗网。要是你堕入一个罗网,要是你最终处于边际部分,梯度下跌将长久不会再转变你的权重。是以这等于为什么,咱们要求它们继续学习。我的不雅点是,边际部分必须是更具探索性的、更活跃的、更解放地转变我方。

是的,咱们不错为边际单位、边际神经元转变其传入贯穿,但愿下流的某个神经元聘请听取咱们提供的信息,因此,要是一个下流神经元在主干收罗以外听取意见,这对咱们莫得平正,仍然是不消的、不影响主干收罗。是以咱们对贯穿到主干收罗感酷爱,咱们想提供一些东西,那些主干收罗会决定咱们不可径直结束那些。

面前咱们想使用社会隐喻,就像咱们齐是东谈主,咱们齐会对东谈主们是否残暴咱们或对他们是否对咱们所说的感酷爱相配明锐。

操逼

让咱们对这个总体见解再作念一些补充。咱们一经提到了步长优化,成就步长。这是在主干收罗上学习的一个不可或缺的部分,因为咱们想要保护主干收罗,这意味着要是主干收罗正在作念一些有用的事情,咱们必须使其步长变小,以便它们不会被转变。咱们不但愿主干收罗快速变化,而反向传播时常会倾向于转变主干收罗。咱们必须对消这少许。

是以要是一个边际单位照实创造了一个有用的东西,它与主干收罗的贯穿时常需要两个要领。首先,主干收罗对这个新神经元尽头怀疑,先给它一个较小的步长,是以即使它在作念善事,权重也会保抓很小。但要是发现它确切在作念善事,它的步长最终会增多,然后权重会增多。等于这么才能与主干收罗贯穿。

以上系数这些齐是我的第一个不雅点。

2

在未充分愚弄的东谈主工神经元中增多额外变化源

为了兑现深度学习(DL)和东谈主工神经收罗(ANNs)的一谈后劲,需要更多的东西。咱们需要在未充分愚弄的东谈主工神经元中增多额外的变化源。咱们需要保护和保留那些被以为有用的、变化的神经元。

第二部分,我想谈谈传统深度学习存在问题的把柄,因为这恰是鼓励新事物需求的能源。

这个新把柄是什么?这是我提到的《Nature》杂志上的著述。而且,咱们并不是第一个发现深度抓续学习问题的东谈主,上个世纪 90 年代就有不幸性渐忘的问题,早期的研究也露馅了容量丢失。Ashton Adams 展示了部分学习然后学习更多的失败。还有其他一些研究许多齐在强化学习领域,但莫得东谈主真实使用当代步调系统地、透顶地展示抓续学习中可塑性丧失的问题。是以咱们在这篇《Nature》杂志的著述中作念了这么的研究。

第少许是深度学习在抓续的监督学习中失去了可塑性。咱们首先在 ImageNet 上展示了这少许,这是一个经典的监督学习问题,这个数据库包含了数百万张名词类别的图片,有一千个类别,每个类别有700张或更多的图片,它被泛泛使用。

深度学习于今仍在使用,咱们必须稳妥它,使其能够抓续学习。我想作念的是抓续学习,这将在强化学习和东谈主工智能中相配有用,是基于东谈主工智能的强化学习。

是以咱们不得不转变它,咱们试图尽可能少地转变它,使其成为一个抓续学习的问题。是以咱们作念的,履行上是这些图片中展示的,这里咱们拿了两个类别,咱们要求收罗区别鳄鱼和吉他,然后当区别差未几完成时,咱们继续说「面前健忘它,想要你区别另外两个东西」。

这个经过会一直抓续,有一千个类别,你可能会想你不错作念500对,但履行上你不错作念更多,因为你不错在不同的对中重用单个类别。是以你不错得到大肆数目的二元分类任务,你不错看到你在第一个任务上作念得有多好?

怎样计算你作念得有多好?咱们将通过测试集和锤真金不怕火集来计算,测量测试聚首正确百分比,然后将其在屡次运行中平均,转变测试聚首的配对,以得回系统的结束。在建议问题之前,我必须谈一个实验。

这些是伏击的是细节。咱们在职何给定时候点,只会要求它对一双名词进行分类。咱们只在动手时用第一双名词启动化收罗一次。然后咱们使用的是咱们能猜度的最模范的步调,履行上咱们尝试了多数的不同步调,我会向你们展示代表性的结束。

问题是,性能将怎样跟着任务序列演变?它会在第一个任务上更好照旧在第二个任务上更好?你在分类第一双名词时会得到更高的百分比,照旧当你继续到第二对时,你会作念得更好或更差。你可能会作念得更好的原因是什么?

一朝你到了第500对,第500对应该和第499对相配相似。但由于你知谈这部分研究的是可塑性的丧失,也许你瞻望履行上事情会跟着时候的推移变得更糟。是以这是在前10个任务中发生的情况,天然,结束取决于参数。

让咱们望望这些结束。在测试集上,要是步长是100,咱们得到了约莫89%的正确率。要是步长更小,咱们会慢一些。咱们当先作念得没那么好,但履行上对于较小的步长,有更多的从简,咱们照确切第二个任务、第三个任务、第四个任务上露馅了革命。那么畴昔会发生什么?咱们得出什么论断?学习率、可塑性在早期任务中偶然是在提高的,但在历久内不明晰会发生什么变化。

这些红线和橙线之间仅仅数字略有不同,因为咱们是在系数这个词50个任务上进行分组。第一个数据点是前50个任务的平均值,然则有一个较着的趋势。首先,更好的步长是它一直鄙人降,到了第2000个任务时施展尽头差,而且这种差的进程,与绿线比拟,绿线是一个线性基线,基本上莫得任何深度学习,它径直从像素到类别。这等于咱们在旧例布景下看到的。

在某些情况下,会退化得比线性还差,在其他情况下,与线性相似。是以这基本上是跟着时候的推移,学习才能的可怕丧失。给你一个新的任务,你根底无法处理任何任务,致使无法比线性收罗处理得更好。这项研究干涉了多数的盘算,大多数变体齐更糟,咱们作念了系数变体,是一个盛大的数目。

面前你不错有更好的算法。是以这条线和之前一样,仅仅比例尺有点不同。之前咱们第一个类别的准确率能达到89%,面前有了这些其他的革命,咱们在职务上取得了突出,不是可塑性的丧失,而是跟着时候的推移学习才能的提高。然后这种革命在许多任务中抓续进行,突出5000个任务。是以这些算法中,L2是一种浅近的正则化,而在浅近的情况下,这履行上不错是一个显耀的革命。

L2正则化意味着咱们对大权重进行处分。Shrink 和 Perturb 触及到 L2 正则化,但也在权重中加入了飞快变化。咱们发面前某些情况下,这不错有积极的效果,尽管在这个案例中不是许多,但在其他案例中是这么的。

我想展示另一个结束,这是历久强化学习中深度学习的崩溃。这里的任务是这只蚂蚁,尽管它唯有四条腿,咱们结束八个枢纽。咱们试图让它行行运看起来像这么。看到底部的蚂蚁正以尽头快的速率上前出动。它因为上前出动而得到奖励,因为向后滑动而受到处分。

这是在数百万个时候步长中的施展结束。在y轴上展示的是在一个情节中得回的总奖励,情节是它上前跑动的一段时候。然后在情节扫尾时重置。是以基本上,当咱们有尽头快的前进速率时,这个数字就会上涨。一个模范的算法,PPO是一个强化学习算法。要是咱们径直使用它,咱们得到的是这么的行动、它学得相配好,变化很高。然则,要是咱们继续锤真金不怕火,它就完全罢手快速行走了,它仅仅鸠拙地出动。脱色个收罗也曾能够作念得相配好,但面前它不可抓续作念好。履行上,它退化了,致使跌到零以下,因为某些类型的颠仆会有处分。

要是调养权重,咱们不错得到更万古候的更好施展。但要是咱们继续进行更万古候的锤真金不怕火,通常的事情也会发生。你可能会问,这不是一个大问题吗?为什么东谈主们以前不知谈呢?谜底是,东谈主们偶然照实看到了,但他们时常不会运行那么久。他们运行直到它运行得尽头好,然后他们就罢手了。要是你在这里扫尾这个实验,它看起来就像它运行得相配好。唯有当你坚抓,我写了没罕有百万的更多时候步长,但你会看到它退化了。

选藏其他线条,LT正则化莫得退化,它是平线,而抓续反向传播可能跟着时候的推移作念得略微好少许。那么抓续反向传播是什么?这个短语是飞快梯度下跌,反向传播,但有聘请性地再行启动化。反向传播触及在时候动手时的启动化,在系数单位中制作小的飞快权重,在抓续反向传播中,咱们将继续在单位中成就小的飞快权重、再行启动化。

履行上,再行启动化和启动化算法是一样的。但再行启动化将是聘请性的。咱们不会对主干收罗上的单位进行再行启动化。咱们将对未使用的单位进行再行启动化。因此,咱们将根据它们的着力对神经元进行名次,然后只再行启动化那些最不有用的几个。

3

赋予每个神经元零丁方向

这是着力更新的方程。是以这是单位、神经元i的着力,新的一个是Eta,Eta是一个像0.9这么的参数。是以咱们淡化旧的着力,加入这个数目。基本上着力变成了这个数目的平均值或平均值。这个数目是神经元行径的完全值。是以你唯有行径才有高着力,而且你的传出权重必须在完全值上很大。那是从你的单位i到单位K的系数K的权重,你领有权重的,要是咱们有大的传出权重,是以这些是传出权重,完全值大的传出权重在某些时候你的行径是计算你对收罗影响进程的一个方针。天然,这莫得探讨到接纳神经元的着力。也许这不是着力完整的见解,但这是咱们使用的,这足以得回那些好的结束,这是一个需要进一步实验的领域。

是以一种形式是,神经元再行启动化,直到其他神经元从它们那边觉悟。它们寻求爱护,它们寻求孝敬,它们寻求让别东谈主听它们的,发现它们有用。

为什么这种失败会发生?很猛进程上是我屡次提到的,神经元变得示寂,它们退出了主干收罗,然后它们被困在主干收罗以外,无法孝敬。

是以这个图清晰馅的是——这是在蚂蚁通达的强化学习任务上。跟着时候的推移,咱们测量活跃时候少于1%的单位数目。是以这些是应该活跃的寝息单位,但它们仅仅普通的反向传播中的寝息单位。值得选藏的是,在抓续反向传播中,它们再次变得活跃。那些寝息的单位被选中进行再行启动化。是以它们再次得回了变化。

但在反向传播中,有这些寝息单位是不好的,因为它们莫得孝敬。是以在这里,突出一半的单位最终变得寝息,而抓续反向传播和正则化,这两种步调阻截了多数单位变得寝息。当神经元要为我方的运作认真时,它们天然会选藏到我方一经寝息,然后在某种真谛上再行叫醒我方。是以选择这种去中心化的视角将治理这个问题,就像抓续反向传播至少部分治理了这个问题一样。

以上我的主要不雅点。另外,我的共事们在阿尔伯塔大学进行的另一项新使命,是对于流算法的研究。图片中的蓝线,这是在各式模范深度强化学习任务上的性能数字,Mujoko和其他一些东西。是以每一个蓝线代表一个问题,性能通过条形图露馅,蓝线是新算法的性能。蓝线左边的这些东西,这些是经典的强化学习算法,非深度算法,你会在强化学习的教科书中找到的流算法。

与这个流成就中的其他算法比拟,这些算法施展得不太好,是以这被称为流繁重。问题在于,要是咱们接管天然的强化算法,它们在流式在线成就中施展得不太好。新的结束是,蓝线与右边的算法竞争,这些是基于回放的深度学习步调,保存了许多东西。是以面前咱们不错进行流式深度强化学习,它顺利了。我以为这是一个相配伏击的结束。并不是说它老是比一切齐好,或者完全竞争,这取决于细节。但这是流步调性能的显耀栽植,由 Muhammad 和他的一些共事完成的。

我之是以会提到这项使命,是因为我以为它和刚才讲的内容异常关联,它也选择了一种去中心化的视角。是以我也将它视为救济去中心化神经收罗论点的一部分。

以上大致是我想讲的内容。我的论断是,今天的深度学习步调并不完善,咱们需要更多的东西。它们在系数这些方面齐失败了,咱们今天一经展示了其中的一些,是以为了兑现一谈后劲,咱们需要更多的东西。基于抓续的布景,需要尝试各式步调,然后咱们需要保留好的那些,等于领有一个去中心化收罗的想法。天然这个计划还有点弱,但它锋利建议咱们应该望望这些基于去中心化的算法,以及神经元的方向是让其他神经元听它们的,尽管我还不可讲解这少许。

DAI2024 共分为五大主题、七个session,内容触及多智能体系统、强化学习、深度学习、博弈论、AI Agents 和 LLM 推理等多个领域,展示了来自 NeurIPS、ICLR、ICML、AAAI、AAMAS、CoRL 等顶级会议期刊的高质地学术后果。此外,大会还组织了多个学术沙龙,深入探讨具身智能、博弈论、盛开环境中的多智能体强化学习以及大说话模子驱动的代码智能体等前沿热门话题。AI 科技考虑将抓续爱护。

更多内容,点击下方爱护:

未经「AI科技考虑」授权,严禁以任何形式在网页、论坛、社区进行转载!

公众号转载请先在「AI科技考虑」后台留言取得授权,转载时需标注起头并插入本公众号柬帖。



我的网站