新闻中心
-
04-07OmniTalker— 阿里推出的实时文本驱动说话头像生成框架阿里巴巴推出的OmniTalker,是一款基于实时文本驱动的说话头像生成技术。它能够流畅处理文本、图像、音频和视频等多种模态信息,并以流式方式生成自然逼真的语音...
-
03-28Qwen2.5-Omni— 阿里开源的端到端多模态模型阿里巴巴开源的Qwen2.5-Omni:一款70亿参数的旗舰级多模态模型Qwen2.5-Omni是阿里云最新发布的开源多模态大型语言模型,拥有70亿参数,在多模...
-
03-22Orpheus TTS— 开源AI语音合成系统,支持多种语音风格OrpheusTTS是什么OrpheusTTS是基于Llama-3b架构的开源文本到语音(TTS)系统。OrpheusTTS支持生成自然、富有情感且接近人类水平...
-
03-19Chirp 3— 谷歌云推出的高清语音合成模型谷歌云推出全新高清语音合成模型:Chirp3Chirp3是谷歌云重磅推出的高清语音合成模型,旨在生成逼真、自然的语音。它支持31种语言和248种不同音色,能够细...
-
03-19LanDiff— 高质量文本到视频生成的混合框架LanDiff:革新文本转视频技术LanDiff是一个突破性的文本转视频(T2V)生成框架,它巧妙地融合了自回归语言模型(LLM)和扩散模型(Diffusion...
-
03-19LangManus— AI自动化框架,多智能体协同完成复杂任务LangManus:一个基于多智能体系统的AI自动化框架LangManus是一个先进的AI自动化框架,其核心设计理念是分层多智能体系统。它由多个智能体协同工作,...

