新闻中心
开源在线的年轻人首选多模态大模型:轻松运行1080Ti
一款名为vary-toy的“年轻人的第一个多模态大模型”来了!
模型大小不到2B,消费级显卡可训练,GTX1080ti 8G的老显卡轻松运行。
想将一份文档图片转换成Markdown格式?以往需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤。
现在只需一句话命令:
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
无论中英文,图片中的大段文字都能分分钟提取出来:

对一张图做对象检测,还是能给出具体坐标的那种:

这项研究由来自旷视、国科大、华中大的研究人员共同提出。
据介绍,Vary-toy虽小,但却几乎涵盖了目前LVLM(大型视觉语言模型)主流研究中的所有能力:文档OCR识别(Document OCR)、视觉定位(Visual Grounding)、图像描述(Image Caption)、视觉问答(VQA)。

现在,Vary-toy代码和模型均已开源,并有在线demo可试玩。

网友一边表示感兴趣,一边关注点在于旧·GTX1080,心情belike:

“缩小版”Vary
其实,早在去年12月Vary团队就发布了Vary的首项研究成果“Vary: Scaling up the Vision Vocabulary for Large Vision-Language Models”。
研究人员指出CLIP视觉词表在密集感知能力上的不足,并用一种简单有效的扩充词表方案给出了一种全新的OCR范式。
Vary发布后得到广泛关注,目前Github1.2k+ star,但也有不少人因为资源受限运行不了。
考虑到目前开源得
很好且性能出色的“小”VLM比较少,于是该团队又新发布了号称是“年轻人的第一个多模大模型”的Vary-toy。
魔方网站开发包WDK企业完整版 wdk2.02
魔方网站开发包WDK(Website Development Kit)2.0 是适应互联网网站建设的发展的需求,在网站开发技术日渐成熟和普及的前提下,为广大建站团队,互联网创业者,网站建设专业学习者及广大建站爱好者提供的一套实用、易用且能掌握了解网站建设、推广、运营的普及型开发包。网站建设者可以轻松、迅速且高效的构建拥有自己的行业门户、企业展示和个人主页的网站。当前绝大多数的建站系统都采用模块化建
0
查看详情
与Vary相比,Vary-toy除了小之外,也训练了更强的视觉词表,新的词表不再将模型局限于文档级OCR,而是给出了一个更加通用和全面的视觉词表,其不仅能做文档级OCR,还能做通用视觉目标检测。
那这究竟是如何做到的?
Vary-toy的模型结构和训练流程如下图所示,总的来说,训练共分两个阶段。

首先在第一阶段,使用Vary-tiny+结构,预训练出一个相比原版Vary更好的视觉词表,新的视觉词表解决了原Vary只用它做文档级OCR的网络容量浪费问题、以及没有充分利用到SAM预训练优势的问题。
然后在第二阶段中,将第一阶段中训好的视觉词表merge到最终结构进行multi-task training/SFT。
众所周知,一个好的数据配比对于产生一个能力全面的VLM是至关重要的。
因此在预训练阶段,Vary-toy使用了5种任务类型的数据构建对话,数据配比和示例prompt如下图所示:

而在SFT阶段,只使用了LLaVA-80K数据。更多的技术细节,可以查看Vary-toy的技术报告。
实验测试结果
Vary-toy在DocVQA、ChartQA、RefCOCO、MMVet四个基准测试的得分如下:

Vary-toy在DocVQA上可以达到 65.6%的ANLS,在ChartQA上达到59.1%的准确率,RefCOCO88.1%的准确率:

MMVet上可以达到29%准确率,无论是从基准测试评分上还是可视化效果上,不到2B的Vary-toy甚至能和一些流行的7B模型的性能一较高下。

项目链接:
[1]https://arxiv.org/abs/2401.12503
[3]https://varytoy.github.io/
以上就是开源在线的年轻人首选多模态大模型:轻松运行1080Ti的详细内容,更多请关注其它相关文章!
# 数据
# 第一个
# 了解网站建设
# 网站建设的发展
# 网站建设者
# 网站建设专业
# 开源
# 模型
# 北屯seo
# 常州抖音营销推广加盟店
# 企业网站优化的步骤
# 淮安seo优化多少时间
# 网站页面优化多少钱
# 武汉网站推广威欣hfqjwl下拉
# 保定网站建设大型
# 盐城网站建设价多少
# qq营销与推广
# 天津别墅营销推广方案
# 省电
# 文档
# 开发包
# 多模
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
单片机学习视频怎么调色
手机nfc功能功能是什么意思
固态硬盘如何测试
苹果16粉色还有哪些机型
爱奇艺fun会员可以几个人用?
j*a二数组怎么创建
typescript中如何定义json
市盈率pe是什么意思
市盈率估值1stdv是什么意思
ssd固态硬盘如何选择
苹果手机16系统有哪些
typescript的语法格式是什么
苹果16系统多了哪些
typescript哪个最好
如何安装tree命令
雅迪电动车上的power是什么意思
电脑显示屏上power是什么意思
油烟机上的power是什么意思
免费恢复删除的微信聊天记录软件有哪些
如何winpe cmd命令
单片机是怎么复位的
j*a数组求和怎么算
power在坐标轴中是什么意思
bc是什么意思
闪光灯power闪烁是什么意思
5g手机怎么没视频通话功能
酷我音乐怎么改每日推荐 酷我音乐每日推荐修改方法
如何寻找和修复无法在 AI 中找到文件的问题
typescript如何定义变量
新的固态硬盘如何分区
300秒等于多少分钟
如何创建sql命令
soup是什么意思
市盈率亏损是什么意思
市盈率3.2是什么意思
如何通过命令系统还原
市盈率市净率是什么意思
如何查看win10版本命令行
如何在命令行写j*a程序
j*a map数组怎么取值
typescript怎么拼接
老电脑如何装固态硬盘
单片机for循环怎么用
干股是什么意思
春运抢票需要抢几天
ai显示无法找到链接的文件是什么意思
如何以管理员身份打开命令提示符
苹果16promax有哪些颜色
html怎么使用typescript
单片机怎么读取电流值


2024-01-29
浏览次数:次
返回列表