新闻中心

苹果公司采用自回归语言模型进行图像模型的预训练

2024-01-29
浏览次数:
返回列表

1、背景

在gpt等大模型出现后,语言模型这种transformer+自回归建模的方式,也就是预测next token的预训练任务,取得了非常大的成功。那么,这种自回归建模方式能不能在视觉模型上取得比较好的效果呢?今天介绍的这篇文章,就是apple近期发表的基于transformer+自回归预训练的方式训练视觉模型的文章,下面给大家展开介绍一下这篇工作。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Apple:使用语言模型的自回归方式进行图像模型预训练图片

论文标题:Scalable Pre-training of Large Autoregressive Image Models

下载地址:https://arxiv.org/pdf/2401.08541v1.pdf

开源代码:https://github.com/apple/ml-aim

2、模型结构

模型结构基于Transformer,并采用语言模型中的next token prediction作为优化目标。主要修改有三个方面。首先,与ViT不同,本文采用GPT的单向attention,即每个位置的元素只与前面的元素计算attention。其次,我们引入了更多的上下文信息,以提高模型的语言理解能力。最后,我们优化了模型的参数设置,以进一步提升性能。通过这些改进,我们的模型在语言任务上取得了显著的性能提升。

Apple:使用语言模型的自回归方式进行图像模型预训练图片

在Transformer模型中,引入了一个新的机制,即在输入序列前面加入了多个prefix token。这些token采用了双向attention机制。这一变化的主要目的是为了增强预训练和下游应用之间的一致性。在下游任务中,类似于ViT的双向attention方法被广泛使用。通过在预训练过程中引入prefix双向attention,模型可以更好地适应各种下游任务的需求。这样的改进可以提高模型的性能和泛化能力。

Apple:使用语言模型的自回归方式进行图像模型预训练图片

在模型最终输出MLP层的优化方面,原先的预训练方法通常会丢弃掉MLP层,并在下游任务中使用一个全新的MLP。这是为了避免预训练的MLP过于偏向预训练任务,导致下游任务的效果下降。然而,在本文中,作者提出了一种新的方法。他们对每个patch都使用一个独立的MLP,同时也采用了各个patch的表征与attention融合的方式来代替传统的pooling操作。这样一来,预训练的MLP head在下游任务中的可用性得到了提升。通过这种方法,作者能够更好地保留图像整体的信息,并且避免了过度依赖预训练任务的问题。这对于提高模型的泛化能力和适应性非常有帮助。

在优化目标上,文中尝试了两种方法,第一种是直接拟合patch像素,用MSE进行预测。第二种是提前对图像patch进行tokenize,转换成分类任务,用交叉熵损失。不过在文中后续的消融实验中发现,第二种方法虽然也可以让模型正常训练,但是效果并不如基于像素粒度MSE的效果更好。

刺鸟创客 刺鸟创客

一款专业高效稳定的AI内容创作平台

刺鸟创客 110 查看详情 刺鸟创客

3、实验结果

文中的实验部分详细分析了这种基于自回归的图像模型的效果,以及各个部分对于效果的影响。

首先,随着训练的进行,下游的图像分类任务效果越来越好了,说明这种预训练方式确实能学到良好的图像表征信息。

Apple:使用语言模型的自回归方式进行图像模型预训练图片

在训练数据上,使用小数据集的训练会导致overfitting,而使用DFN-2B虽然最开始验证集loss较大,但是没有明显的过拟合问题。

Apple:使用语言模型的自回归方式进行图像模型预训练图片

对于模型各个模块的设计方式,文中也进行了详细的消融实验分析。

Apple:使用语言模型的自回归方式进行图像模型预训练图片

在最终的效果对比上,AIM取得了非常不错的效果,这也验证了这种自回归的预训练方式在图像上也是可用的,可能会成为后续图像大模型预训练的一种主要方式。

Apple:使用语言模型的自回归方式进行图像模型预训练图片

以上就是苹果公司采用自回归语言模型进行图像模型的预训练的详细内容,更多请关注其它相关文章!


# 图像  # 济南seo找工作  # 佛山网站建设商业  # 温岭专业营销型网站建设  # 好了  # 更好地  # 这一  # 这是  # 结构化  # 采用了  # 取得了  # 参数设置  # 开源  # 苹果公司  # 预训练  # 模型  # 谷歌seo值得做吗  # 排名网站优化在线咨询  # 儋州抖音seo排名  # 增城头条seo费用  # 商业数据网站建设  # 怎样写彩票网站推广文章  # 彭阳网络推广和营销公司 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 市盈率高是什么意思  固态硬盘如何安装win10系统安装  typescript在浏览器里怎么用  为什么用typescript  破太岁是什么意思  笔记本如何使用固态硬盘  2025年国外最佳语音聊天软件排行榜  cos150度等于多少  苹果16有哪些黑科技  春运抢票需要抢几天  j*a map数组怎么用  折叠屏有哪些手机  怎么用win7系统盘重装系统  苹果16有哪些亮点功能  ai文件在线打开工具有哪些  npm如何声明命令  苹果16会有哪些更新  网络光刻机是干什么用的  油电混动车仪表盘上的power是什么意思  手机的nfc是什么功能是什么意思  ai文件里无法找到链接文件要怎么解决步骤  市盈率tt的扣非是什么意思  春运抢票在哪儿抢票  vs怎么编写typescript  如何自己加装固态硬盘  bored是什么意思  j*a数组怎么取元素  为什么夸克没有动漫  固态硬盘如何接主机  苹果16最近玩法有哪些  春运抢票要用抢票软件吗  哪些编程软件需要typescript  春运抢票如何抢连坐的票  如何用ftp连接命令行  ssd固态硬盘如何选择  电动车仪表盘上的power是什么意思  linux如何合并分区命令  苹果的type-c接口是什么  怎么在typescript定义集合  如何进入安卓命令行  12306放票时间规律(2025)  type-c输入接口是什么  苹果怎么没出5g手机  华为交换机 配置 如何复制命令行  五十铃x-power是什么意思  typescript文件怎么打开  春运订票什么时候抢票  春运抢票用不用取票码  微信最多可以加多少好友  如何使用程序编译 执行的命令 

搜索