新闻中心
Kaleido— 智谱AI开源的多主体视频生成框架
Kaleido 是什么
kaleido 是智谱ai推出的开源多智能体视频生成框架,专注于攻克多主体视频生成中的核心挑战——主体身份一致性与背景信息解耦。该框架依托自主研发的数据构造流程及 r-rope(reference rotary positional encoding)机制,精准剥离主体特征与场景背景,在多人物、多物体共存的复杂动态画面中稳定保留各主体的视觉辨识度。目前,kaleido 在多项多主体视频生成基准测试中刷新 sota 表现,为学术界与工业界提供了一个高性能、可复现、完全开源的视频生成技术底座,显著降低高质量多主体内容创作门槛。
Figma
Figma 是一款基于云端的 UI 设计工具,可以在线进行产品原型、设计、评审、交付等工作。
1371
查看详情
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
Kaleido 的核心能力
- 多主体身份稳定生成:支持在连续帧中精准维持多个独立主体(如不同人物、道具或动物)的外观、姿态与风格一致性,即使在密集交互、遮挡频繁或视角剧烈变化的场景下,仍能保障各主体特征不混淆、不变形。
- 背景无关化建模:通过结构化建模策略主动抑制参考图像中背景元素对生成过程的干扰,使主体可自由迁移至任意新背景中,大幅提升生成结果的可控性与泛化能力。
-
高保真动态输出:融合精细化数据预处理、分阶段训练调度与时空一致性正则,产出细节丰
富、运动自然、时序连贯的高清视频,满足*级内容生产需求。 - 多模态条件协同控制:兼容多张主体参考图 + 自然语言描述的联合输入方式,赋予创作者更强的语义引导能力与组合创意自由度。
Kaleido 的核心技术机制
- 跨实例数据合成管线:构建了一套面向多主体解耦的端到端数据工程体系。该管线通过主体-背景跨样本重组(例如将A人物置于B场景)、背景语义修复、主体掩码精标、多尺度质量筛选等步骤,强制模型学习“仅关注主体本质特征”的表示范式,从根本上缓解训练数据中的背景耦合偏差。
- R-RoPE(Reference Rotary Positional Encoding)机制:针对多参考图像引发的 Token 混淆问题,Kaleido 设计了具备空间位移特性的旋转位置编码方案。为每张参考图像分配专属 RoPE 偏置,使其 Token 在扩散 Transformer 的时空嵌入空间中占据唯一坐标,从而在注意力层显式区分“谁是参考主体”、“谁是待生成帧”,大幅增强多主体时空定位精度。
- 轻量高效条件融合架构:基于 Diffusion Transformer 主干,采用序列拼接式条件注入策略——将多张参考图编码后的 Token 序列与视频噪声 Token 序列沿时间维度直接拼接,并辅以 R-RoPE 进行结构化标识,实现低开销、高鲁棒的多源条件融合。
Kaleido 的官方资源入口
- 项目主页:https://www.php.cn/link/9e334886ffd1815f6e50841119fb3065
- GitHub 代码库:https://www.php.cn/link/fcc3d4757401a955a260255ff217a10d
- HuggingFace 模型页:https://www.php.cn/link/1a1b083d532028fdb17114d3776635b4
- arXiv 论文原文:https://www.php.cn/link/6a6b9ab46b610b6bf661a9c766f195eb
Kaleido 的典型应用方向
- 动画工业化生产:依据角色多角度参考图,批量生成符合设定的动作片段,加速原画→中间帧→成片的制作链路。
- 品牌营销视频生成:快速组合多个产品、代言人及场景要素,生成适配不同投放渠道的定制化广告短片。
- 沉浸式电商体验:驱动用户上传照片与商品图,实时生成其虚拟试穿/试戴全过程视频,提升转化率与参与感。
- AI 虚拟人内容生态:为数字人主播、游戏 NPC 或社交机器人生成表情自然、肢体协调、响应及时的互动短视频流。
- 交互式教学资源开发:构建涵盖教师讲解、学生操作、仪器反馈等多主体协同的教学演示视频,强化知识传递的具象性与代入感。
以上就是Kaleido— 智谱AI开源的多主体视频生成框架的详细内容,更多请关注其它相关文章!
# github
# 建设政府网站的公司
# 互动
# 自然语言
# 体视
# 安装包
# 结构化
# 多张
# 一键
# 多个
# 开源
# 短视频
# pdf
# ai
# 编码
# git
# 谁是
# 河北网站推广效果
# 海口网站排名优化软件
# 宁河网站seo推广方案
# 便利店如何营销引流推广
# 丰台母婴种草营销推广
# telegram营销推广软件
# 怎么推广交易网站赚钱
# 批量seo文章
# seo搜索需要技术吗
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
台达plc只有power灯亮是什么意思
固态硬盘损坏如何修复
市盈率和市净率是什么意思
照相机上面power是什么意思
typescript是什么软件
如何更新苹果ios16
如何利用运行命令查看声音启动
对应市盈率是30X是什么意思
j*a整形怎么转数组
基金市盈率是什么意思
如何通过命令行聊天
nosql数据库的应用场景有哪些
如何winpe cmd命令
爱奇艺中下载的视频怎么在PPT中播放操作方法
今天是农历多少号
url解码什么意思
市盈率底下 18A 19E 是什么意思
命令指示符如何打开盘符
typescript接口怎么选
J*a数组静态怎么打
单片机的速度怎么求
adb 命令如何后台运行
如何在命令行写j*a程序
1tb等于多少mb
typescript书籍哪个好
如何加装固态硬盘
爱奇艺视频怎么下载到手机u盘怎么转换格式方法
debian10和ubuntu20哪个好用
如何为服务器配置静态路由?服务器配置静态路由详细教程
j*a怎么把数组输出
typescript如何定义变量
单片机log怎么看
j*a怎么清除数组
一分钟等于多少秒
春运抢票要用抢票软件吗
三菱变频器POWER是什么意思
折叠屏手机共有哪些
为什么选择typescript
如何右键打开命令窗口
苹果16系统多了哪些
品道音响上的power键是什么意思
51单片机怎么连接端口
苹果16系统有哪些系列
如何发挥固态硬盘性能
vue中datediff函数怎么用
如何用命令连接mysql
咋免费领取爱奇艺会员 如何免费领取爱奇艺会员步骤
typescript用在哪里
如何安装固态硬盘win10
市盈率为负数是什么意思


2025-12-13
浏览次数:次
返回列表
富、运动自然、时序连贯的高清视频,满足*级内容生产需求。