新闻中心

用AI短视频「反哺」长视频理解,腾讯MovieLLM框架瞄准电影级连续帧生成

2024-03-11
浏览次数:
返回列表

在视频理解这一领域,尽管多模态模型在短视频分析上取得了突破性进展,展现出了较强的理解能力,但当它们面对电影级别的长视频时,却显得力不从心。因而,长视频的分析与理解,特别是对于长达数小时电影内容的理解,成为了当前的一个巨大挑战。

模型在理解长视频方面的困难主要源自于长视频数据资源的不足,这些资源在质量和多样性上存在缺陷。此外,采集和标注这些数据需要大量的工作。

面对这样的难题, 腾讯和复旦大学的研究团队提出了 MovieLLM,一个创新性的 AI 生成框架。MovieLLM 采用了创新性的方法,不仅可以生成高质量、多样化的视频数据,而且能自动生成大量与之相关的问答数据集,极大地丰富了数据的维度和深度,同时整个自动化的过程也极大地减少了人力的投入。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

用AI短视频「反哺」长视频理解,腾讯MovieLLM框架瞄准电影级连续帧生成

  • 论文地址:https://arxiv.org/abs/2403.01422
  • 主页地址:https://deaddawn.github.io/MovieLLM/

这一重要的进展不仅提升了模型对复杂视频叙事的理解水平,也增强了模型在处理长达数小时的电影内容时的分析能力。同时,它克服了现有数据集在稀缺性和偏见方面的限制,为对超长视频内容的理解提供了全新且有效的途径。

MovieLLM巧妙地利用了GPT-4和扩散模型的强大生成能力,采用了"story expanding"的连续帧描述生成策略。通过"textual inversion"的方法来指导扩散模型生成与文本描述一致的场景图像,从而打造一部完整电影的连续帧。

用AI短视频「反哺」长视频理解,腾讯MovieLLM框架瞄准电影级连续帧生成

方法概述

MovieLLM将GPT-4和扩散模型相结合,以提高大模型对长视频的理解。这种巧妙的结合产生了高质量、多样性的长视频数据和QA问答,有助于增强模型的生成能力。

用AI短视频「反哺」长视频理解,腾讯MovieLLM框架瞄准电影级连续帧生成

MovieLLM 主要包括三个阶段:

1. 电影情节生成。

MovieLLM 不依赖于网络或现有数据集来生成情节,而是充分利用 GPT-4 的能力来产生合成数据。通过提供特定的元素,如主题、概述和风格,引导 GPT-4 产生针对后续生成过程量身定制的电影级关键帧描述。

2. 风格固定过程。

MovieLLM 巧妙地使用「textual inversion」技术,将剧本中生成的风格描述固定到扩散模型的潜在空间上。这种方法指导模型在保持统一美学的同时,生成具有固定风格的场景,并保持多样性。

3. 视频指令数据生成。

在前两步的基础上,已经获得了固定的风格嵌入和关键帧描述。基于这些,MovieLLM 利用风格嵌入指导扩散模型生成符合关键帧描述的关键帧并根据电影情节逐步生成各种指令性问答对。

用AI短视频「反哺」长视频理解,腾讯MovieLLM框架瞄准电影级连续帧生成

经过上述步骤,MovieLLM 就创建了高质量、风格多样的、连贯的电影连续帧以及对应的问答对数据。电影数据种类的详细分布如下:

用AI短视频「反哺」长视频理解,腾讯MovieLLM框架瞄准电影级连续帧生成

实验结果

通过在 LLaMA-VID 这一专注于长视频理解的大模型上应用基于 MovieLLM 构造的数据进行微调,本文显著增强了模型处理各种长度视频内容的理解能力。而针对于长视频理解,当前并没有工作提出测试基准,因此本文还提出了一个测试长视频理解能力的基准。

虽然 MovieLLM 并没有特别地去构造短视频数据进行训练,但通过训练,仍然观察到了在各类短视频基准上的性能提升,结果如下:

在 MSVD-QA 与 MSRVTT-QA 这两个测试数据集上相较于 baseline 模型,有显著提升。

用AI短视频「反哺」长视频理解,腾讯MovieLLM框架瞄准电影级连续帧生成

在基于视频生成的性能基准上,在五个测评方面都获得了性能提升。

用AI短视频「反哺」长视频理解,腾讯MovieLLM框架瞄准电影级连续帧生成

在长视频理解方面,通过 MovieLLM 的训练,模型在概括、剧情以及时序三个方面的理解都有显著提升。

用AI短视频「反哺」长视频理解,腾讯MovieLLM框架瞄准电影级连续帧生成

此外,MovieLLM 相较于其他类似的可固定风格生成图片的方法,在生成质量上也有着较好的结果。

用AI短视频「反哺」长视频理解,腾讯MovieLLM框架瞄准电影级连续帧生成

总之,MovieLLM 所提出的数据生成工作流程显著降低了为模型生产电影级视频数据的挑战难度,提高了生成内容的控制性和多样性。同时,MovieLLM 显著增强了多模态模型对于电影级长视频的理解能力,为其他领域采纳类似的数据生成方法提供了宝贵的参考。

对此研究感兴趣的读者可以阅读论文原文,了解更多研究内容。

以上就是用AI短视频「反哺」长视频理解,腾讯MovieLLM框架瞄准电影级连续帧生成的详细内容,更多请关注其它相关文章!


# ai  # 漳州网站建设厂家黄页  # 网站营销推广找金苹果钅  # 行者SEO博客  # 沈阳抖音seo排名技巧  # 相较  # 实拍  # 开源  # 长达  # 采用了  # 提出了  # 高质量  # 新能源  # 这一  # 腾讯  # llama  # 框架  # 数据  # 信阳网站优化外包  # 康平市场网站建设优势  # 平谷网站优化的公司  # 郑州网站全网优化怎么做  # 罐头seo  # 如皋移动网站建设 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: typescript什么意思  固态硬盘如何接主机  苹果16哪些功能好用  跨境电商gmv是什么意思?跨境电商GMV:理解其含义、计算方法和影响因素  今天是农历多少号  索尼type-c接口是什么  typescript和nodejs哪个好  a股等权市盈率中位数是什么意思  win7旗舰版wifi怎么打开  typescript如何标记私有方法  为什么夸克无法注销账户  春运哪天抢票最好预约  solo交友软件怎么恢复聊天记录  硬件如何执行命令  如何通过dos命令  65寸电视长宽多少厘米  iphone拍电子屏有横条如何解决  如何用chown命令  如何清理固态硬盘  三星固态硬盘如何安装  如何用固态硬盘做缓存  如何更新苹果ios16  单片机速度怎么看  HTML5如何引用typescript  数组和J*A怎么打  华为如何面对苹果16  如果公司ttm市盈率为负数是什么意思  负市盈率是什么意思  爱奇艺视频怎么下载到手机u盘怎么转换格式方法  酷狗音乐pc版的每日推荐在哪 酷狗音乐PC版每日推荐查找指南  j*a数组元素怎么用  命令行下如何导出数据库  hive中datediff函数怎么用 Hive中DATEDIFF函数的使用指南  苹果16有哪些自带配件  折叠屏手机哪个卖得最好  什么软件能下载夸克视频  阿里云手机云盘怎么用_阿里云盘苹果手机怎么用教程  如何安装笔记本固态硬盘  如何使用ping命令  2025年哪个局域网聊天软件好用  折叠屏手机信号哪个最强  固态硬盘如何迁移系统  单片机怎么判定高电平  苹果16多有哪些功能  juice是什么意思  固态硬盘如何显示  j*a数组对象怎么取  固态硬盘如何判断大小  交管12123协议头不完整是什么原因  云淡风轻什么意思 

搜索