新闻中心
-
06-17MAGREF— 字节跳动推出的多主体视频生成框架MAGREF(MaskedGuidanceforAny‑ReferenceVideoGeneration)是由字节跳动开发的多主体视频生成框架。该框架只需一张参...
-
06-10MiniMax-Remover— AI视频目标移除方法,实现高质量移除效果MiniMax-Remover是一种创新的视频目标移除方案,旨在克服当前技术中存在的幻觉物体、视觉伪影及推理速度慢等难题。该方法采用双阶段流程:第一阶段使用简化...
-
06-06OpenAudio S1— Fish Audio推出的新一代语音生成模型OpenAudioS1是什么OpenAudioS1是FishAudio推出的文本转语音(TTS)模型,基于超过200万小时的音频数据训练,支持13种语言。采用双...
-
05-16Speech-02— MiniMax 推出的新一代文本转语音模型Speech-02是什么Speech-02是MiniMax发布的新一代文本转语音(TTS)模型。该模型采用回归Transformer架构,实现了零样本语音克隆功...
-
05-14Muyan-TTS— 开源文本转语音模型,零样本语音合成Muyan-TTS是一款专为播客场景打造的开源文本转语音(TTS)模型。该模型经过超过10万小时的播客音频数据预训练,能够实现零样本语音合成,无需大量目标说话人...
-
05-08ICEdit— 浙江大学联合哈佛大学推出的指令式图像编辑框架ICEdit(In-ContextEdit)是浙江大学和哈佛大学共同推出的一个基于指令的图像编辑框架。通过利用大规模扩散变换器(DiffusionTransfo...

