新闻中心
评估清华大学研发的 LLM4VG 基准在视频时序定位方面的性能
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
12 月 29 日消息,大语言模型(llm)的触角已经从单纯的自然语言处理,扩展到文本、音频、视频等多模态领域,而其中一项关键就是视频时序定位(video grounding,vg)。

VG任务的目标是根据给定的查询,定位目标视频段的起始和结束时间。这个任务的核心挑战在于准确确定时间边界。
清华大学研究团队近日推出了“LLM4VG”基准,这是一个专门设计用于评估 LLM 在 VG 任务中的性能。
在考虑此基准的时候,有两种主要的策略被考虑了。第一种策略是直接在文本视频数据集(VidLLM)上训练视频语言模型(LLM)。这种方法是通过在大规模的视频数据集上进行训练,来学习视频和语言之间的关联,以提高模型的性能。 第二种策略是将传统的语言模型(LLM)与预训练的视觉模型结合起来。这种方法是基于预训练的视觉模型,将视频的视觉特

在一种策略中,VidLLM模型直接处理视频内容和VG任务指令,并根据其训练输出预测文本-视频之间的关系。
第二种策略则更加复杂,它涉及到LLM(Language and Vision Models)和视觉描述模型的运用。这些模型能够生成与VG(Video Game)任务指令相结合的视频内容的文本描述,而这些描述经过精心设计的提示来实现。
这些提示是经过精心设计的,它们的目的是将VG的指令和提供的视觉描述有效地结合起来,以帮助LLM处理和理解与任务相关的视频
内容。
VALL-E
VALL-E是一种用于文本到语音生成 (TTS) 的语言建模方法
134
查看详情
据观察,VidLLM 尽管直接在视频内容上进行训练,但在实现令人满意的 VG 性能方面仍然存在很大差距。这一发现强调了在训练中纳入更多与时间相关的视频任务以提高性能的必要性。

而第二种策略优于 VidLLM,为未来的研究指明了一个有希望的方向。该策略主要限制于视觉模型的局限性和提示词的设计,因此能够生成详细且准确的视频描述后,更精细的图形模型可以大幅提高 LLM 的 VG 性能。

总之,该研究对 LLM 在 VG 任务中的应用进行了开创性的评估,强调了在模型训练和提示设计中需要更复杂的方法。
本站附上论文参考地址:https://www.php.cn/link/a7fd9fd835f54f0f28003c679fd44b39
以上就是评估清华大学研发的 LLM4VG 基准在视频时序定位方面的性能的详细内容,更多请关注其它相关文章!
# 人工智能
# follow
# 南极
# 第二种
# 工作流
# 五大
# 系列产品
# 结合起来
# 清华大学
# seo挂百亿互刷宝
# 尖草坪区正规网站建设
# seo中的图片优化
# 孝感seo优化定位
# 抖音怎么做专属营销推广
# 跨境分销网站怎么做推广
# 游戏推广营销模式
# 江门电商网站建设开发
# 益阳网站建设与优化设计
# 杭州推广网站咨询热线
# 五个月
# 对不
# 科大
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
新固态硬盘如何装系统
免费恢复删除的微信聊天记录软件有哪些
手机拍显示屏有条纹怎么去除
有什么基础可以学typescript
typescript性能如何
如何修改cad中的命令
宵衣旰食是什么意思
固态硬盘损坏如何修复
play的三人称单数和过去式
33000日元等于多少人民币
如何发挥固态硬盘性能
vi命令如何使用方法
固态硬盘如何打开软件
春运抢票软件哪个好
mac如何使用vi命令
夸克加载什么要会员
哪些编程软件需用typescript
5G手机导航怎么旋转
j*a怎么讲数组打印
intel固态硬盘如何安装
165开头的是什么电话号码
360n7锁屏壁纸怎么固定
虽千万人吾往矣什么意思
考勤机power红灯是什么意思
市盈率为负数是什么意思
三菱变频器POWER是什么意思
bugly是什么
如何正确使用固态硬盘
苹果16如何预购
如何提高固态硬盘性能
单片机怎么判定高电平
所有删除的聊天记录都可以恢复吗?
单片机计时程序怎么写
为什么有的夸克带电
typescript掌握哪些可以做项目
广东春运抢票怎么抢的
j*a数组怎么保存类
夸克为什么会变小
faq是什么意思
跑步机power键是什么意思
苹果16适合哪些机升级
如何使硬盘升级固态硬盘
燃气热水器上的power是什么意思
固态硬盘如何检查
ao3镜像网站哪个好
hp固态硬盘如何安装
j*a数组怎么新增值
如何用chown命令
税负是什么意思
如何用命令打开光驱


2024-01-04
浏览次数:次
返回列表