模块化重构LLaVA，替换组件只需添加1-2个文件，开源TinyLLaVA Factory来了

新闻中心 NEWS CENTER

您当前位置：首页 > 新闻中心 > 行业资讯

模块化重构LLaVA，替换组件只需添加1-2个文件，开源TinyLLaVA Factory来了

2024-05-27

浏览次数：次

返回列表

TinyLLaVA+项目由清华大学电子系多媒体信号与智能信息处理实验室 (MSIIP) 吴及教授团队和北京航空航天大学人工智能学院黄雷老师团队联袂打造。清华大学 MSIIP 实验室长期致力于智能医疗、自然语言处理与知识发现、多模态等研究领域。北京航空团队长期致力于深度学习、多模态、计算机视觉等研究领域。 TinyLLaVA+项目的目标是开发一种小型跨语言智能助手，具备语言理解、问答、对话等多模态能力。项目团队将充分发挥各自的优势，共同攻克技术难题，实现智能助手的设计与开发。这将为智能医疗、自然语言处理与知识发现、多模态等研究领域带来新的突破。同时，清华大学 MSIIP 实验室长期致力于智能

近日，清华和北航联合推出了 TinyLLaVA Factory, 一款支持定制、训练、评估多模态大模型的代码库，代码和模型全部开源。该代码库以软件工程的工厂模式作为设计理念，模块化地重构了 LLaVA 代码库，注重代码的可读性、功能的扩展性、和实验效果的可复现性。方便研究者和实践家们更容易地探索多模态大模型的训练和设计空间。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

模块化重构LLaVA，替换组件只需添加1-2个文件，开源TinyLLaVA Factory来了

Github 项目：https://github.com/TinyLLaVA/TinyLLaVA_Factory
论文地址：https://arxiv.org/abs/2405.11788
Hugging Face 模型地址：https://huggingface.co/tinyll*a/TinyLLaVA-Phi-2-SigLIP-3.1B or https://huggingface.co/bczhou/TinyLLaVA-3.1B-SigLIP
机器之心 SOTA 模型地址：https://sota.jiqizhixin.com/project/tinyll*a

LLaVA是一个多模态社区的优质开源项目，备受研究者和开发者的青睐。新入坑多模态大模型的初学者们也习惯以LLaVA项目作为起点，学习和训练多模态大模型。但是LLaVA项目的代码较为晦涩难懂，一旦不慎更改错误，就可能会影响训练效果，对于新手来说，往往不敢轻易修改其中的细节，给理解和探索多模态大模型的本质细节造成了一定的困难。

近日，清华和北航联合推出 TinyLLaVA Factory，将本来的 LLaVA 代码进行模块化重构，专注于简洁的代码实现、新功能的可扩展性、以及训练结果的可复现性，让你以最小的代码量，定制并训练属于自己的多模态大模型，同时减少代码错误率！相同的模型配置、训练数据和训练策略条件下，使用 TinyLLaVA Factory 可训练出比使用 LLaVA 代码性能略胜一筹的模型。为了让用户更容易理解代码和使用模型，TinyLLaVA Factory 项目还配备了代码文档和 Demo 网站。其总体架构如下图所示：[架构图]。