新闻中心
-
08-28VibeVoice— 微软推出的开源文本转语音模型VibeVoice是什么VibeVoice是微软最新推出的文本到语音(TTS)模型,能够生成具有丰富情感、支持多位说话者、适用于长篇内容的自然对话音频,例如播客...
-
07-15豆包AI如何实现语音合成 豆包AI多音色语音输出设置豆包AI语音合成通过深度学习实现高自然度的多音色输出。其核心技术包括声学模型和声码器两大模块:1.输入文本首先经过语言学分析,理解语义与情感;2.声学模型(如基...
-
07-03Step-Audio-AQAA— StepFun推出的端到端大音频语言模型Step-Audio-AQAA是由StepFun团队开发的端到端大型音频语言模型,专为音频查询-音频回答(AQAA)任务设计。该模型能够直接处理音频输入并生成自...
-
06-28Kling-Foley— 可灵AI推出的多模态视频生音效模型Kling-Foley是由可灵AI开发的一款多模态视频音效生成模型。该模型以视频内容和文本提示作为输入条件,能够生成语义相关、时间同步的高质量立体声音频,包括音...
-
05-24豆包AI如何生成趣味变声?搞怪音效玩法豆包AI通过深度学习算法和声码器技术实现变声效果。首先,系统分析语音并提取特征参数,然后调节音高、音色、速度等参数转换声音。豆包AI的搞怪音效玩法包括:1.使用...
-
04-02MegaTTS 3— 字节与浙江大学合作推出的零样本语音合成系统MegaTTS3:字节跳动与浙大合作的突破性语音合成系统MegaTTS3是由字节跳动和浙江大学联合研发的先进零样本文本到语音合成系统。它基于轻量级扩散模型,参数...

