新闻中心

原作者带队,LSTM真杀回来了!

2024-05-10
浏览次数:
返回列表

lstm:这次重生,我要夺回 transformer 拿走的一切。

在20世纪90年代,长短时记忆(LSTM)方法引入了恒定误差选择轮盘和门控的核心思想。三十多年来,LSTM经受住了时间的考验,并为众多深度学习的成功案例做出了贡献。然而,随着Transformer横空出世之后,LSTM自身所存储的局限性使其风光不再。

当人们都以为 Transformer 在语言模型领域稳坐江山的时候,LSTM 又杀回来了 —— 这次,是以 xLSTM 的身份。

5 月 8 日,LSTM 提出者和奠基者 Sepp Hochreiter 在 arXiv 上传了 xLSTM 的预印本论文。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

原作者带队,LSTM真杀回来了!

在论文的机构中还出现了一家名为“NXAI”的公司,Sepp Hochreiter表示:“借助xLSTM,我们缩小了与现有最先进LLM的差距。借助NXAI,我们已开始构建自己的欧洲LLM。”

原作者带队,LSTM真杀回来了!

  • 论文标题:xLSTM: Extended Long Short-Term Memory

  • 论文链接:https://arxiv.org/pdf/2405.04517

具体来说,xLSTM 从三个层面解决了 LSTM 以往所存在的局限性:

(i) 无法修改存储决策。

可以通过「最近邻搜索」(Nearest Neighbor Search)问题来举例说明这一局限性:在给定参考向量的情况下,必须按顺序扫描序列,寻找最相似的向量,以便在序列末端提供其附加值。图 2 左侧显示了这项任务的均方误差。当发现更相似的向量时,LSTM 难以修改存储的值,而新的 xLSTM 通过指数门控弥补了这一限制。

原作者带队,LSTM真杀回来了!

(ii) 存储容量有限,即信息必须压缩成标量单元状态。

图 2 右侧给出了 Wikitext103 上不同 token 频率的 token 预测困惑度。由于 LSTM 的存储容量有限,它在不常见 token 上的表现较差。xLSTM 通过矩阵内存解决了这一问题。

(iii) 由于内存混合而缺乏可并行性,需要进行顺序处理。例如,从一个时间步到下一个时间步的隐藏状态之间的隐藏 - 隐藏连接。

与此同时,Sepp Hochreiter 和团队在这篇新论文中回答了一个关键问题:如果克服这些局限性并将 LSTM 扩展到当前大语言模型的规模时,能实现怎样的性能?

将 LSTM 扩展到数十亿参数

为了克服 LSTM 的局限性,xLSTM 对等式(1)中的 LSTM 理念进行了两项主要修改。

原作者带队,LSTM真杀回来了!

在原来的 LSTM 中,恒定误差选择轮盘是由单元输入 z_t 对单元状态 c_(t-1)(绿色)进行的加法更新,并由 sigmoid 门(蓝色)进行调节。输入门 i_t 和遗忘门 f_t 控制这一更新,而输出门 o_t 控制存储单元的输出,即隐藏状态 h_t。存储单元的状态被 ψ 归一化或压缩,然后输出门控得到隐藏状态。

xLSTM 的修改包括指数门控和新颖的内存结构,因此丰富了 LSTM 家族的两个成员:

(i) sLSTM(第 2.2 节),具有标量内存、标量更新和内存混合功能;

(ii) mLSTM(第 2.3 节),具有矩阵内存和协方差(外积)更新规则,完全可并行处理。

sLSTM 和 mLSTM 都通过指数门控增强了 LSTM。为了实现并行化,mLSTM 放弃了内存混合,即隐藏 - 隐藏递归连接。mLSTM 和 sLSTM 都可以扩展到多个存储单元,其中 sLSTM 具有跨单元内存混合的特点。此外,sLSTM 可以有多个头,但不存在跨头的内存混合,而只存在每个头内单元间的内存混合。通过引入 sLSTM 头和指数门控,研究者建立了一种新的内存混合方式。对于 mLSTM 而言,多头和多单元是等价的。

将这些新的 LSTM 变体集成到残差块模块中,就得到了 xLSTM 块。将这些 xLSTM 块剩余堆叠到架构中,就形成了 xLSTM 架构。xLSTM 架构及其组件见图 1。

易标AI 易标AI

告别低效手工,迎接AI标书新时代!3分钟智能生成,行业唯一具备查重功能,自动避雷废标项

易标AI 135 查看详情 易标AI

原作者带队,LSTM真杀回来了!

xLSTM 块应在高维空间中对过去进行非线性总结,以便更好地分离不同的历史或上下文。分离历史是正确预测下一个序列元素(如下一个 token)的先决条件。研究者在此采用了 Cover 定理,该定理指出,在高维空间中,非线性嵌入模式比在原始空间中更有可能被线性分离。

他们考虑了两种残差块结构:(i) post up-projection 的残差块(如 Transformer),它非线性地概括了原始空间中的历史,然后线性地映射到高维空间,应用非线性激活函数,再线性地映射回原始空间(图 3 左侧和图 1 第三栏,更详细的版本见图 9)。(ii) pre up-projection 的残差块(如状态空间模型),它线性地映射到高维空间,在高维空间中非线性地总结历史,然后线性地映射回原始空间。对于包含 sLSTM 的 xLSTM 块,研究者主要使用了 post up-projection 块。对于包含 mLSTM 的 xLSTM 块,使用 pre up-projection 块,因为在高维空间中内存容量会变大。

原作者带队,LSTM真杀回来了!

原作者带队,LSTM真杀回来了!

实验

随后,研究者对 xLSTM 进行了实验评估,并将其与现有的语言建模方法进行了比较。

第 4.1 节讨论了 xLSTM 在合成任务中的具体能力。首先,研究者测试了 xLSTM 的新指数门控与内存混合在形式化语言上的有效性。然后,他们评估了 xLSTM 的新矩阵内存在多次查询联想记忆任务(Multi-Query Associative Recall,MQAR)中的有效性。最后,研究者评估了 xLSTM 在 Long Range Arena(LRA)中处理长序列的性能。

原作者带队,LSTM真杀回来了!

原作者带队,LSTM真杀回来了!

第 4.2 节比较了当前各种语言建模方法的验证集复杂度,包括在同一数据集上对 xLSTM 进行消融研究,然后对不同方法的缩放行为进行评估。

研究者在自回归语言建模设置中使用 SlimPajama 的 15B token 训练了 xLSTM、Transformers、状态空间模型(SSM)等模型。表 1 中的结果显示,xLSTM 在验证复杂度方面优于所有现有方法。

原作者带队,LSTM真杀回来了!

图 6 显示了该实验的扩展结果,表明 xLSTM 对于更大规模的模型也有良好的表现。

原作者带队,LSTM真杀回来了!

消融研究则表明,性能改进源于指数门控和矩阵内存。

原作者带队,LSTM真杀回来了!

第 4.3 节进行了更深入的语言建模实验。

研究者增加了训练数据量,对来自 SlimPajama 的 300B 个 token 进行了训练,并比较了 xLSTM、RWKV-4、Llama 和 Mamba。他们训练了不同大小的模型(125M、350M、760M 和 1.3B),进行了深入的评估。首先,评估这些方法在推断较长语境时的表现;其次,通过验证易混度和下游任务的表现来测试这些方法;此外,在 PALOMA 语言基准数据集的 571 个文本域上评估了这些方法;最后,评估了不同方法的扩展行为,但使用的训练数据多了 20 倍。

可以看出,xLSTM 在性能和扩展性上都更胜一筹。

原作者带队,LSTM真杀回来了!

更多研究细节,可参考原论文。

以上就是原作者带队,LSTM真杀回来了!的详细内容,更多请关注其它相关文章!


# xlstm  # llama  # kite  # type  # 门控  # 产业  # 网站建设 推广运营方案  # 金融企业营销推广活动  # 网站搜索引擎优化公司  # 德语网站模板建设方案  # seo公司外包服务  # 秦皇岛制造网站建设材料  # 井岸镇seo  # 沈阳网站营销推广公司  # h黑帽seo  # 电商创业网站推广  # 都能  # 扩展到  # 出了  # 对不  # 华纳  # 南极  # 进行了  # 这一  # 递归 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 市盈率百分位roe是什么意思  power在充电器上是什么意思  如何查看固态硬盘分区  台机如何安装固态硬盘  跨境电商gmv是什么意思?跨境电商GMV:理解其含义、计算方法和影响因素  typescript怎么设置滚动条  苹果16最近玩法有哪些  如何用好typescript  三星固态硬盘如何安装  春运抢票可以抢几次票  单片机*计步器怎么用  干股是什么意思  夸克文字口令是什么意思  ts什么意思  j*a 怎么清空数组元素  pp是什么意思  vi命令如何退出编辑模式  8寸照片尺寸多少厘米  光刻机的分类及特点  单片机引脚怎么改成上拉  mysql的datediff函数怎么用  汽车收音机power是什么意思  ai如何重复使用上一命令  苹果16哪些型号好用  ai文件里无法找到链接文件要怎么解决步骤  新找到ao3镜像网站链接入口  路由器上面的power红灯是什么意思  春运抢票在哪儿抢票  access中如何使用常用宏命令  语音聊天软件哪个好 语音聊天软件2025排行榜  linux命令行如何使用中文输入法  vue怎么连接typescript  vue中datediff函数怎么用  一分钟等于多少秒  华为交换机如何复制命令行  苹果16配置参数有哪些  怎么看手机是不是双模5g手机  春运抢票可以抢几张  酷狗音乐pc版的每日推荐在哪 酷狗音乐PC版每日推荐查找指南  苹果16会升级哪些  什么叫typescript  1s等于多少ms  虚拟机如何用命令清除垃圾  单片机怎么进行排序操作  爱奇艺会员qq登录可以几个人用?  如何进入 dos 命令行  春运辅助抢票怎么抢  如何检测固态硬盘温度  固态硬盘如何安装win10系统安装  空调控制面板power灯一直亮是什么意思 

搜索