新闻中心
-
07-31[语音分类入门]基于PaddleSpeech和LSTM网络的双城之战人物语音分类本项目为音频分类入门教程,基于Paddle API展开。先讲解音频基础知识,包括本质、三要素、格式及处理概念;再介绍短时傅里叶变换和LogFBank等特征提取方...
-
07-15豆包AI如何实现语音合成 豆包AI多音色语音输出设置豆包AI语音合成通过深度学习实现高自然度的多音色输出。其核心技术包括声学模型和声码器两大模块:1.输入文本首先经过语言学分析,理解语义与情感;2.声学模型(如基...
-
06-28Kling-Foley— 可灵AI推出的多模态视频生音效模型Kling-Foley是由可灵AI开发的一款多模态视频音效生成模型。该模型以视频内容和文本提示作为输入条件,能够生成语义相关、时间同步的高质量立体声音频,包括音...
-
01-03薛定谔桥助力,清华朱军团队开发新型语音合成系统应对扩散挑战近日,由清华大学计算机系朱军教授课题组发布的基于薛定谔桥的语音合成系统[1],凭借其「数据到数据」的生成范式,在样本质量和采样速度两方面,均击败了扩散模型的「噪...
-
共1页 4条

