新闻中心

ICML 2025 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了

2024-05-28
浏览次数:
返回列表
ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本文介绍了香港科技大学(广州)的一篇关于大模型高效微调(LLM PEFT Fine-tuning)的文章「Parameter-Efficient Fine-Tuning with Discrete Fourier Transform」,本文被 ICML 2025 接收,代码已开源。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

icml 2024 | 脱离lora架构,训练参数大幅减少,新型傅立叶微调来了

  • 论文地址:https://arxiv.org/abs/2405.03003
  • 项目地址:https://github.com/Chaos96/fourierft

背景

大型基座模型在自然语言处理(NLP)和计算机视觉(CV)领域都获得了瞩目的成就。微调(Finetuning)大型基座模型,使其更加适应特殊的下游任务,成为了一项热门研究课题。然而,在模型越来越大,下游任务越来越多样的今天,微调整个模型带来的计算、存储消耗已大到不再能被接受。LoRA 采用低秩拟合微调增量的方案,成功降低了大量的此类消耗,但每个适应器(adapter)的大小仍然是不可忽视的。这激发了本文的核心问题:相比 LoRA,如何进一步大幅减少可训练参数?此外,一个有趣的附加问题是能否采用更少的参数量得到高秩增量矩阵

方法

傅立叶基底在各类数据压缩应用中广泛使用,例如一维向量信号和二维图像的压缩。在这些应用中,稠密的空域信号通过傅立叶变换被转化为稀疏的频域信号。基于这一原理,作者推测模型权重的增量也可以被视为一种空域信号,其对应的频域信号可以通过稀疏表示来实现。

在这一假设的基础上,作者提出了一种新的方法,用于在频域中学习增量权重信号。具体来说,该方法通过随机位置的稀疏频域信号来表示空域权重增量。在加载预训练模型时,首先随机选择 n 个点作为有效的频域信号,然后将这些信号拼接成一个一维向量。在前向传播过程中,这个一维向量被用来通过傅立叶变换恢复空域矩阵;在反向传播过程中,由于傅里叶变换的可导性,可以直接对此可学习的向量进行更新。这种方法不仅有效减少了模型微调时所需的参数数量,同时保证了微调性能。通过这种方式,作者不仅实现了对大规模基础模型的高效微调,还展示了傅立叶变换在机器学习领域中的潜在应用价值。

ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了

得益于傅立叶变换基底的高信息量,仅需很小的 n 值即可达到与 LoRA 相当甚至超过 LoRA 的表现。一般来说,傅立叶微调的可训练参数仅为 LoRA 的千分之一到十分之一。

实验

1. 自然语言理解

作者在自然语言理解的 GLUE 基准测试上对傅立叶微调方法进行了评估。基线对比方法包括全量微调(FF,Full Finetuning)、Bitfit、适应器微调(Adapter Tuning)、LoRA、DyLoRA 和 AdaLoRA。下表展示了各种方法在 GLUE 各个任务上的表现及其所需的训练参数量。结果表明,傅立叶微调以最少的参数量达到了甚至超越了其他微调方法的性能。

ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了

2. 自然语言指令微调

大模型的自然语言生成是目前模型微调的重要应用领域。作者在 LLaMA 系列模型、MT-Bench 任务和 Vicuna 任务上评估了傅立叶微调的性能。结果显示,傅立叶微调以极低的训练参数量达到了与 LoRA 相似的效果,进一步验证了傅里叶微调方法的通用性和有效性。

ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了

3. 图像分类

作者在 Vision Transformer 上测试了傅里叶微调的性能,涵盖了 8 个常见的图像分类数据集。实验结果表明,虽然在图像分类任务中傅立叶微调相较LoRA的压缩率提升并不比自然语言任务中显著,但其仍然以远小于 LoRA 的参数量超越了 LoRA 的效果。这进一步展示了傅立叶微调在不同应用领域中的有效性和优势。

ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了

易标AI 易标AI

告别低效手工,迎接AI标书新时代!3分钟智能生成,行业唯一具备查重功能,自动避雷废标项

易标AI 135 查看详情 易标AI
4. 突破低秩

在 GLUE 基准的 RTE 数据集上,FourierFT 可以实现明显高于 LoRA (通常为 4 或 8) 的增量的秩。

ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了

5.GPU 资源消耗

微调过程中,FourierFT 可以实现比 LoRA 更少的 GPU 消耗。下图为采用单张 4090 显卡在 RoBERTa-Large 模型上的巅峰内存消耗。

ICML 2024 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了

结论

作者介绍了一种名为傅立叶微调的高效微调方法,通过利用傅里叶变换来减少大基础模型微调时的可训练参数数量。该方法通过学习少量的傅里叶谱系数来表示权重变化,显著降低了存储和计算需求。实验结果显示,傅立叶微调在自然语言理解、自然语言生成、指令调优和图像分类等任务上表现优异,与现有的低秩适应方法(如 LoRA)相比,傅立叶微调在保持或超过 LoRA 性能的同时,所需的可训练参数大幅减少。

以上就是ICML 2025 | 脱离LoRA架构,训练参数大幅减少,新型傅立叶微调来了的详细内容,更多请关注其它相关文章!


# git  # 工程  # SEO出词要多久  # 手机便宜的网站建设  # 网站建设与优化找哪家好  # 太仓关键词排名报价表  # 线上营销推广课程方案  # 奶妈网站建设素材库  # 推广网站开发模式有哪些  # 毕节seo云优化  # 沧州网站优化选哪家  # 洛阳网络seo优化  # 新能源  # 可以实现  # 达到了  # 日韩  # 过程中  # 基座  # 所需  # 自然语言  # 来了  # 傅立叶  # type  # llama 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 如何进入cmd命令行  win10如何开启命令行  datediff函数怎么用视频  混合固态硬盘如何分区  对象数组怎么用j*a  如何用命令下载服务器网站  65寸电视长宽多少厘米  电脑如何查看固态硬盘  苹果16系统有哪些问题  mysql的datediff函数怎么用  typescript怎么添加css样式  eraser是什么意思  typescript是什么时候出来的  买的5g手机但是没有5g网络怎么办  苹果16最近玩法有哪些  爱奇艺视频怎么下载到手机u盘怎么转换格式方法  尼桑越野车中控前power是什么意思  vivo手机爱奇艺怎么投屏到电视操作步骤  华为的nfc功能是什么意思  春运抢票如何抢连坐的票  安全的ao3镜像网站链接入口  怎么用typescript 写js  如何打开命令框  夸克是什么空间单位  商誉是什么意思  如何安装固态硬盘win10  如何设置从固态硬盘启动  春运抢票最好抢什么票啊  阿里云盘扩容工具怎么用  如何打开管理员命令提示符  华为交换机如何复制命令行  市盈率ttm市盈动静是什么意思  没网环境如何安装typescript  苹果16多有哪些功能  夸克po什么意思  typescript多久能学会  苹果16充电方式有哪些  iphone拍电子屏有横条如何解决  如何用命令查看本机的操作系统  unix时间戳是什么意思  python 如何执行linux命令  春运抢票哪里最火热  恋爱软件免费聊天不收费的有哪些  单片机引脚怎么改成上拉  如何弄坏固态硬盘  春运抢票准备什么  单片机怎么计算0xf0  单片机log怎么看  春运什么时候开始抢票  typescript多久能学完 

搜索