新闻中心

开源在线的年轻人首选多模态大模型:轻松运行1080Ti

2024-01-29
浏览次数:
返回列表

一款名为vary-toy的“年轻人的第一个多模态大模型”来了!

模型大小不到2B,消费级显卡可训练,GTX1080ti 8G的老显卡轻松运行。

想将一份文档图片转换成Markdown格式?以往需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤。

现在只需一句话命令:

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

无论中英文,图片中的大段文字都能分分钟提取出来:

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

对一张图做对象检测,还是能给出具体坐标的那种:

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

这项研究由来自旷视、国科大、华中大的研究人员共同提出。

据介绍,Vary-toy虽小,但却几乎涵盖了目前LVLM(大型视觉语言模型)主流研究中的所有能力:文档OCR识别(Document OCR)、视觉定位(Visual Grounding)、图像描述(Image Caption)、视觉问答(VQA)

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

现在,Vary-toy代码和模型均已开源,并有在线demo可试玩。

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

网友一边表示感兴趣,一边关注点在于旧·GTX1080,心情belike:

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

“缩小版”Vary

其实,早在去年12月Vary团队就发布了Vary的首项研究成果“Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models”。

研究人员指出CLIP视觉词表在密集感知能力上的不足,并用一种简单有效的扩充词表方案给出了一种全新的OCR范式。

Vary发布后得到广泛关注,目前Github1.2k+ star,但也有不少人因为资源受限运行不了。

考虑到目前开源得很好且性能出色的“小”VLM比较少,于是该团队又新发布了号称是“年轻人的第一个多模大模型”的Vary-toy。

魔方网站开发包WDK企业完整版 wdk2.02 魔方网站开发包WDK企业完整版 wdk2.02

魔方网站开发包WDK(Website Development Kit)2.0 是适应互联网网站建设的发展的需求,在网站开发技术日渐成熟和普及的前提下,为广大建站团队,互联网创业者,网站建设专业学习者及广大建站爱好者提供的一套实用、易用且能掌握了解网站建设、推广、运营的普及型开发包。网站建设者可以轻松、迅速且高效的构建拥有自己的行业门户、企业展示和个人主页的网站。当前绝大多数的建站系统都采用模块化建

魔方网站开发包WDK企业完整版 wdk2.02 0 查看详情 魔方网站开发包WDK企业完整版 wdk2.02

与Vary相比,Vary-toy除了小之外,也训练了更强的视觉词表,新的词表不再将模型局限于文档级OCR,而是给出了一个更加通用和全面的视觉词表,其不仅能做文档级OCR,还能做通用视觉目标检测。

那这究竟是如何做到的?

Vary-toy的模型结构和训练流程如下图所示,总的来说,训练共分两个阶段。

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

首先在第一阶段,使用Vary-tiny+结构,预训练出一个相比原版Vary更好的视觉词表,新的视觉词表解决了原Vary只用它做文档级OCR的网络容量浪费问题、以及没有充分利用到SAM预训练优势的问题。

然后在第二阶段中,将第一阶段中训好的视觉词表merge到最终结构进行multi-task training/SFT。

众所周知,一个好的数据配比对于产生一个能力全面的VLM是至关重要的。

因此在预训练阶段,Vary-toy使用了5种任务类型的数据构建对话,数据配比和示例prompt如下图所示:

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

而在SFT阶段,只使用了LLaVA-80K数据。更多的技术细节,可以查看Vary-toy的技术报告。

实验测试结果

Vary-toy在DocVQA、ChartQA、RefCOCO、MMVet四个基准测试的得分如下:

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

Vary-toy在DocVQA上可以达到 65.6%的ANLS,在ChartQA上达到59.1%的准确率,RefCOCO88.1%的准确率:

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

MMVet上可以达到29%准确率,无论是从基准测试评分上还是可视化效果上,不到2B的Vary-toy甚至能和一些流行的7B模型的性能一较高下。

年轻人的第一个多模态大模型:1080Ti轻松运行,已开源在线可玩

项目链接:
[1]https://arxiv.org/abs/2401.12503

[3]https://varytoy.github.io/

以上就是开源在线的年轻人首选多模态大模型:轻松运行1080Ti的详细内容,更多请关注其它相关文章!


# 数据  # 第一个  # 了解网站建设  # 网站建设的发展  # 网站建设者  # 网站建设专业  # 开源  # 模型  # 北屯seo  # 常州抖音营销推广加盟店  # 企业网站优化的步骤  # 淮安seo优化多少时间  # 网站页面优化多少钱  # 武汉网站推广威欣hfqjwl下拉  # 保定网站建设大型  # 盐城网站建设价多少  # qq营销与推广  # 天津别墅营销推广方案  # 省电  # 文档  # 开发包  # 多模 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 单片机学习视频怎么调色  手机nfc功能功能是什么意思  固态硬盘如何测试  苹果16粉色还有哪些机型  爱奇艺fun会员可以几个人用?  j*a二数组怎么创建  typescript中如何定义json  市盈率pe是什么意思  市盈率估值1stdv是什么意思  ssd固态硬盘如何选择  苹果手机16系统有哪些  typescript的语法格式是什么  苹果16系统多了哪些  typescript哪个最好  如何安装tree命令  雅迪电动车上的power是什么意思  电脑显示屏上power是什么意思  油烟机上的power是什么意思  免费恢复删除的微信聊天记录软件有哪些  如何winpe cmd命令  单片机是怎么复位的  j*a数组求和怎么算  power在坐标轴中是什么意思  bc是什么意思  闪光灯power闪烁是什么意思  5g手机怎么没视频通话功能  酷我音乐怎么改每日推荐 酷我音乐每日推荐修改方法  如何寻找和修复无法在 AI 中找到文件的问题  typescript如何定义变量  新的固态硬盘如何分区  300秒等于多少分钟  如何创建sql命令  soup是什么意思  市盈率亏损是什么意思  市盈率3.2是什么意思  如何通过命令系统还原  市盈率市净率是什么意思  如何查看win10版本命令行  如何在命令行写j*a程序  j*a map数组怎么取值  typescript怎么拼接  老电脑如何装固态硬盘  单片机for循环怎么用  干股是什么意思  春运抢票需要抢几天  ai显示无法找到链接的文件是什么意思  如何以管理员身份打开命令提示符  苹果16promax有哪些颜色  html怎么使用typescript  单片机怎么读取电流值 

搜索