新闻中心
模块化重构LLaVA,替换组件只需添加1-2个文件,开源TinyLLaVA Factory来了
TinyLLaVA+项目由清华大学电子系多媒体信号与智能信息处理实验室 (MSIIP) 吴及教授团队和北京航空航天大学人工智能学院黄雷老师团队联袂打造。清华大学 MSIIP 实验室长期致力于智能医疗、自然语言处理与知识发现、多模态等研究领域。北京航空团队长期致力于深度学习、多模态、计算机视觉等研究领域。 TinyLLaVA+项目的目标是开发一种小型跨语言智能助手,具备语言理解、问答、对话等多模态能力。项目团队将充分发挥各自的优势,共同攻克技术难题,实现智能助手的设计与开发。这将为智能医疗、自然语言处理与知识发现、多模态等研究领域带来新的突破。 同时,清华大学 MSIIP 实验室长期致力于智能
近日,清华和北航联合推出了 TinyLLaVA Factory, 一款支持定制、训练、评估多模态大模型的代码库,代码和模型全部开源。该代码库以软件工程的工厂模式作为设计理念,模块化地重构了 LLaVA 代码库,注重代码的可读性、功能的扩展性、和实验效果的可复现性。方便研究者和实践家们更容易地探索多模态大模型的训练和设计空间。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
- Github 项目:https://github.com/TinyLLaVA/TinyLLaVA_Factory
- 论文地址:https://arxiv.org/abs/2405.11788
- Hugging Face 模型地址:https://huggingface.co/tinyll*a/TinyLLaVA-Phi-2-SigLIP-3.1B or https://huggingface.co/bczhou/TinyLLaVA-3.1B-SigLIP
- 机器之心 SOTA 模型地址:https://sota.jiqizh
ixin.com/project/tinyll*a
LLaVA是一个多模态社区的优质开源项目,备受研究者和开发者的青睐。新入坑多模态大模型的初学者们也习惯以LLaVA项目作为起点,学习和训练多模态大模型。但是LLaVA项目的代码较为晦涩难懂,一旦不慎更改错误,就可能会影响训练效果,对于新手来说,往往不敢轻易修改其中的细节,给理解和探索多模态大模型的本质细节造成了一定的困难。
近日,清华和北航联合推出 TinyLLaVA Factory,将本来的 LLaVA 代码进行模块化重构,专注于简洁的代码实现、新功能的可扩展性、以及训练结果的可复现性,让你以最小的代码量,定制并训练属于自己的多模态大模型,同时减少代码错误率!相同的模型配置、训练数据和训练策略条件下,使用 TinyLLaVA Factory 可训练出比使用 LLaVA 代码性能略胜一筹的模型。为了让用户更容易理解代码和使用模型,TinyLLaVA Factory 项目还配备了代码文档和 Demo 网站。其总体架构如下图所示:[架构图]。

在数据预处理部分,TinyLLaVA Factory摒弃了LLaVA代码中烧脑的图片处理和Prompt处理过程,提供了标准的、可扩展的图片和文本预处理过程,清晰明了。其中,图片预处理可以自定义Processor,也可以使用一些官方视觉编码器的Processor,如CLIP ViT和SigCLIP ViT自带的Image Processor。对于文本预处理,定义了基类Template,提供了基本的、共用的函数,如添加System Message (Prompt)、Tokenize和生成标签Ground Truth的函数,用户可以通过继承基类就可以轻松扩展至不同LLM的Chat Template。


模型部分,TinyLLaVA Factory很自然地将多模态大模型模块化成3个组件——大语言模型组件、视觉编码器组件、中间的连接器组件。每个组件由一个工厂对象控制,负责新模型的注册和替换,使用用户能够够更容易地替换其中任何一个组件,而不会牵连到其他部分。

TinyLLaVA Factory 为每个组件提供了当前主流的模型,如下表所示。

训练器仍然仿照 LLaVA,采取 Hugging Face 自带的 Trainer,集成了 Gradient Accumulation,Wandb 做日志记录等特性,同样支持 DeepSpeed ZeRO2/ZeRO3 并行训练。对于评估部分,TinyLLaVA Factory 提供了 SQA/GQA/TextVQA/VQAv2/POPE/MME/MM-Vet/MMMU 8 个 Benchmark 的评估。
接下来,划重点!TinyLLaVA Factory Github 项目还手把手教你定制自己的多模态大模型。只需简单地添加 1-2 个文件,就可以轻松替换 LLM 组件、视觉编码器组件、连接器组件。
拿替换 LLM 模型举例。据使用过 LLaVA 代码库的同学反应,LLaVA 代码想替换非 Llama 系列的语言模型容易出错。而 TinyLLaVA Factory 可以方便地替换语言模型,只需添加 2 个 py 文件,一个是 Chat Template 文件,一个是模型文件。替换视觉编码器时,也只需添加 1 个 py 文件,继承视觉编码器的基类即可。

TinyLLaVA Factory 还支持对训练策略进行定制,对使用者来说只需在配置文件中进行修改,就能在 pretraining 和 finetuning 阶段对 3 个模块组件(LLM / 视觉编码器 / 连接器)实现冻住 / 全量微调 / 部分微调 /lora 微调的任意组合。堪称小白易上手式的教程!

早在今年 2 月,tinyll*a 项目就敏锐地捕捉到了 3b 以下 llm 在多模态大模型中的潜力,利用市面主流的小规模 llm,训练了一系列多模态大模型,参数量在 0.89b-3.1b。实验结果表明经过高质量的数据选择和更加细致的训练策略,利用小规模 llm 同样可以实现和大模型相近甚至更加优越的任务表现。(细节详见技术报告 https://arxiv.org/abs/2402.14289)
易标AI
告别低效手工,迎接AI标书新时代!3分钟智能生成,行业唯一具备查重功能,自动避雷废标项
135
查看详情
以上就是模块化重构LLaVA,替换组件只需添加1-2个文件,开源TinyLLaVA Factory来了的详细内容,更多请关注其它相关文章!
# 训练
# 项目申报书网站建设指标
# 自然语言
# 更容易
# 自己的
# 软件工程
# 清华大学
# 多模
# 开源
# 来了
# 只需
# llama
# hugging face
# git
# 模型
# 重构
# 百事营销推广怎么样做
# 江苏高端网站建设公司
# 宿迁手机网站建设价格
# 网站推广在线
# 工信部推广数字化营销
# 海南seo的好方法
# 彩票网站推广渠道有哪些
# php网站建设哪家不错
# 广场舞营销推广
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
如何用固态硬盘做缓存
js怎么设置typescript
如何选购ssd固态硬盘
typescript如何生成uuid
为什么进行域名解析
征信不好如何短期恢复
市盈率300是什么意思
市盈率292是什么意思
苹果16有哪些亮点功能
如何用adb命令停用系统软件
typescript中怎么引用js文件
树莓派命令行如何新建文件
typescript适合什么用
固态硬盘如何4k对其
照相机上面power是什么意思
平仓是什么意思?
课程伴侣电脑怎么登录
怎么看手机是不是双模5g手机
8英寸等于多少厘米
cmd如何定时执行命令
满射和单射定义
买的5g手机但是没有5g网络怎么办
品道音响上的power键是什么意思
固态硬盘2m如何修复
power在录音笔上是什么意思
soup是什么意思
51单片机怎么连接端口
选哪个折叠屏手机好用
交管12123协议头不完整是啥意思
破太岁是什么意思
在遥控器中power是什么意思
如何查看网站域名解析
如何看固态硬盘型号
如何右键打开命令窗口
选哪个折叠屏手机好
手机的nfc是什么功能是什么意思
固态硬盘损坏如何修复
抖音GMV是什么_抖音GMV是什么意思
如何进入 dos 命令行
苹果16多有哪些功能
docs命令如何进入d
如何用命令打开光驱
命令行下如何导出数据库
如何用命令下载服务器网站
vivo怎么投屏到电视看爱奇艺教程
闲鱼上面的power是什么意思
如何寻找和修复无法在 AI 中找到文件的问题
单片机软件keil怎么运行
如何看固态硬盘信息
市盈率是什么意思高好还是低好


2024-05-27
浏览次数:次
返回列表
ixin.com/project/tinyll*a