蔡永强 投稿麻仓优作品封面 量子位 | 公众号 QbitAI 莫得算法莫得实验,从2610篇收录论文中脱颖而出,成为独逐个篇纯表面入选2024 ICML Spotlight的论文。 “Vocabulary for Universal Approximation: A Linguistic Perspective of Mapping Compositions(词的全能贴近:从谈话角度看映射组合)”,这篇纯表面论文讲了什么,缘何入选Spotlight? 浮松来说,现在基于深度学习的序列模子,如谈

麻仓优作品封面 AI顶会ICML收了一篇论文:没算法没实验

麻仓优作品封面 AI顶会ICML收了一篇论文:没算法没实验

蔡永强 投稿麻仓优作品封面

量子位 | 公众号 QbitAI

莫得算法莫得实验,从2610篇收录论文中脱颖而出,成为独逐个篇纯表面入选2024 ICML Spotlight的论文。

“Vocabulary for Universal Approximation: A Linguistic Perspective of Mapping Compositions(词的全能贴近:从谈话角度看映射组合)”,这篇纯表面论文讲了什么,缘何入选Spotlight?

浮松来说,现在基于深度学习的序列模子,如谈话模子,受到了畴前包涵并赢得突开始,这促使议论东说念主员探索将非序列问题调遣为序列样式的可能性。

沿着这一念念路,深度神经网罗不错暴露为一系列线性或非线性映射的复合函数,其中每个映射王人不错看作是一个“词”。

但是,线性映射的权重是未详情的,因此需要无尽多个词。

而这篇论文议论有限情形并构造性地解说了存在一个有限的函数词汇表V,用于终了全能贴近。

也等于说,关于任何连气儿映射f、紧集Ω和ε>0,存在V中的一个有限序列,使得它们的复合映射能够在Ω上访佛f且贴近短处小于ε。

论文议论效果展示了函数复合的超卓访佛智力,并为正则谈话提供了新的模子。

这项议论由北京师范大学蔡永强完成,在2024 ICML的2610篇收录论文中,144篇是Oral,191篇是Spotlight。但初步盘货在本年的Oral和Spotlight论文中,仅有这一篇是莫得算法莫得实验的纯表面著作。

底下咱们来望望具体内容。

天然谈话与全能贴近的相似之处

融会热诚学家媾和话学家早已意志到谈话关于智能的膺惩性,而BERT和GPT等谈话模子的流行进一步突显了这一丝。

这些基于RNN或Transformer的模子通过将天然谈话处理转换为序列学习问题,透顶转换了天然谈话处理的议论标的。它们不错处理文本中的长程依赖性,并笔据险峻文内容生成连贯的文本,这使它们成为谈话攀附和生成方面的膺惩器用。

这些模子的得手还催生了一种通过将非序列问题转换为序列问题来处理非序列问题的新标准。

举例,图像处理不错转换为序列学习问题,将图像分割成小块,将它们按一定规矩排列,然后使用序列学习算法处理得到的序列以终了图像识别。

序列学习算法的使用还不错延迟到强化学习鸿沟,举例Decision Transformer通过运用因果掩码Transformer输出最好动作,不错赢得很好的性能。

序列建模为处理多样问题开导了新的可能性,这种趋势似乎在表面议论鸿沟也得到了体现。

无人不晓,东说念主工神经网罗具有全能贴近智力,宽或深的前馈网罗不错放荡贴近紧集上的连气儿函数。

依依社区

但是,在AlphaFold、BERT和GPT等现实应用中,残差网罗结构比前馈结构更受赞佩。据不雅察,残差网罗(ResNet)不错视为能源系统的前向欧拉糟蹋,这种关系催生了一系列基于能源系统的神经网罗结构,举例连气儿情形的Neural ODE等。基于能源系统的神经网罗结构有望在各个鸿沟发达膺惩作用。

值得忽闪的是,谈话模子和能源系统王人与技巧序列建模联系,况且已有用地应用于非序列问题。

这一不雅察天然会让咱们产生疑问:

谈话模子和技巧序列建模各自的得手之间是否存在内在接洽?麻仓优作品封面

本文这项议论等于在探究这一问题。

通过比较议论,作家从全能贴近的角度得到了一些初步效果。具体来说,不错解说存在有限个映射,称为词汇表,(其中的映射不错取为一些自治能源系统的流映射),使得任何连气儿映射不错通过复合词汇表中的一个系列来访佛。

这与天然谈话中基于词来构建短语、句子、段落和篇章来传达复杂信息的方式相似。

下表1直不雅地体现了这种相似性。

△表 1. 天然谈话与全能贴近的相似之处

转头来说,议论有以下几个孝敬:

解说了通过复合有限集 V 中的一系列映射不错终了全能贴近性质。给出了构造性解说,基于能源系统流映射构造了满足条款的 V。给出了复合映射与天然谈话中的单词/短语/句子之间的一个类比,这不错启发贴近表面、能源系统、序列建模媾和话学之间的跨学科议论。主要论断标记

对深度学习有所了解的读者应该王人据说过全能贴近定理,它指的是神经网罗不错访佛放荡的连气儿函数。

“访佛”需要明确是在什么酷爱之下,底下是两种常见的描述,本文称为C-UAP和Lᴾ-UAP,草榴论坛其中C-UAP更强一些。

全能贴近性质

为了表述本文的新式全能贴近定理,需要给出如下标记:

有限词汇表

中枢是将V称为词汇表,V中的映射称为“词”,V中一个序列的复合称为“句子”,扫数“句子”的联结记为HV。标记中的实心点暴露的是函数复合,计较时先复合最左边的函数。与老例的复合函数标记比拟,有底下的关系:

函数复合

这里之是以要引入新的标记,而不是径直用复合函数的老例标记,是因为老例标记中开始运算的函数是写在临了边,这个违犯的规矩未便于书写。

定理

本文的主要定理表述如下:

主要论断

定理2.2比较手段性,标记:

暴露的是d维保抓定向的微分同胚构成的联结,笔据Brenier&Gangbo于2003解说的论断(保抓定向的微分同胚不错访佛连气儿函数,前提是维数d大于等于2)不错得到引申2.3。

引申2.3标明“句子”的联结HV具有全能贴近性质。这与传统的全能贴近具有内容的区别。

解说念念路

定理的解说波及的常识重心成列如下:

(1)保抓定向的微分同胚不错访佛连气儿函数(Brenier & Gangbo, 2003 )

(2)保抓定向的微分同胚不错用微分方程的流映射来访佛(Agrachev & Caponigro, 2010)

(3)常微分方程不错使用算子辩别样式来访佛求解(Holden et al., 2010)

(4)单荫藏层的神经网罗不错访佛放荡连气儿函数(Cybenko, 1989)

(5)流映射是单参数的,关于单参数t,不错用形如p+q√2样式的数来访佛,其中p,q是整数(Kronecker贴近定理)

基于重心 (3) 和 (4),作家曾解说了d维流映射不错用宽度为d(深度不限)的全攀附神经网罗来访佛,并在此基础上议论了神经网罗具有全能贴近的最小宽度问题,本文进一步结合其余重心得到了词汇表的全能贴近定理。

重心 (5) 起到绝顶要害的作用,它是数论内部比较基础的论断之一,读者可能比较熟悉的版块是:议论荒谬数(比如圆周率π)的整数倍,其少许部分在[0,1]区间上是重生的。

备注:行为上述念念路的一个老练,读者不错尝试解说矩阵(线性映射)版块的定理:议论d阶方阵,存在有限个方阵的联结V,使得放荡的方阵王人不错用V中的一个序列的乘积来访佛(证卓见原论文附录 D,念念路是议论初等矩阵,它们是单参数的)。

转头与启发

本文主淌若解说了全能贴近不错像使用谈话相绽放到,传达的王人是“用有限个字抒发无尽的念念想”,主要论断先后投了NeurIPS和ICLR但王人被拒了,6+4位审稿东说念主王人认为论断很挑升念念但不明晰有什么用(ICLR 的审稿看法见OpenReview)。

作家暴露吸取了审稿东说念主的建议,在投ICML的版块中加入了对正则谈话(样式谈话中最浮松的一种)的探讨(见定理 5.2),并意象了对天然谈话处理标准的启发,这才得以领受。

著作之是以被选为Spotlight,可能是因为定理暗意咱们不错议论将词镶嵌为函数(而非向量),这关于攀附和构建东说念主工智能模子具有一定的启发性。

在天然谈话处理中,准确描述词和句子的语义至关膺惩。

无人不晓的词向量镶嵌提供了一个很好的基线,具有相似语义的单词具有相似的词向量。但是,由于静态词向量无法描画多义词的不同语义以及险峻文的影响,东说念主们成就了动态词向量模子以及更复杂的大谈话模子,如BERT和GPT。

但是,奈何解释预老练谈话模子是一个贫困的问题。

作家指出了本文的定理隐含的论断是,如果将语义暴露为函数(这是一个比向量空间大得多的空间),那么咱们不错通过复合一序列来自函数词汇表中的函数来访佛任何语义。

这等于本文第5节中提议的复合流空间模子(CFSM)。

从新老练这么一个CFSM是贫困而耗时的。一种替代决策是径直从LLM(如Llama)中提真金不怕火镶嵌的函数,然后不雅察CFSM在多猛进度上不错归附LLM的功能。

东说念主类的天然谈话短长常复杂的,将词镶嵌为函数天然比将词镶嵌为向量更具一般性,但如故是Toy模子。

作家暴露本文盼望能对工程师们有所启发,从新凝视“词镶嵌”这个术语,大致不错对攀附 Transformer,Mamba,RNN,TTT等模子,以及提议新的模子带来新的视角。

作家临了还附上1889年4月26日诞生于奥地利维也纳省的谈话形而上学家路德维希‧约瑟夫‧约翰‧维特根斯坦的两句名言:

“The limits of my language mean the limits of my world.”(我的谈话的界限即是我的寰宇的界限。)

“The meaning of a word is its use in the language.”(一个词的酷爱在于它在谈话中的使用。)

论文贯串:https://proceedings.mlr.press/v235/cai24a.html

— 完 —

量子位 QbitAI · 头条号签约麻仓优作品封面



上一篇:麻仓优作品封面 智能语音电话机器东谈主:重塑疏浚规模,引颈办事新纪元    下一篇:AIKA最新番号 港股近期跌幅不大是因套推辞易影响小 仍受避险神志压制    


Powered by 亚洲情色图片 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群 © 2013-2022 版权所有