新闻中心
-
07-11换了30多种方言,我们竟然没能考倒中国电信的语音大模型不管你来自哪个城市,相信在你的记忆中,都有自己的「家乡话」:吴语柔软细腻、关中方言质朴厚重、四川方言幽默诙谐、粤语古雅潇洒……某种意义上说,方言不只是一种语言习...
-
06-05利用 NVIDIA Riva 快速部署企业级中文语音 AI 服务并进行优化加速一、Riva概览1.OverviewRiva是NVIDIA推出的一款SDK,用于实时的SpeechAI服务。它是一个高度可定制的工具,并且使用GPU进行加速。N...
-
06-012D头像生成3D虚拟人开视频会,谷歌新作让人难绷未来人与人的交流,难道是这个样?开视频远程会议的时候,很多人都不喜欢打开摄像头。即使开了,在界面上大家也都被框在不同的窗口里。虽然这种形式操作起来很方便,但总是...
-
05-31Spring Boot与百度AI语音识别API集成实践本专题系统讲解了如何利用SpringBoot集成音频识别技术,涵盖了从基础配置到复杂应用的方方面面。通过本文,读者可以了解到在智能语音填单、智能语音交互、智能语...
-
05-13字节开源大模型量化新思路,2-bit量化模型精度齐平fp16AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传...
-
05-13DiT架构大一统:一个框架集成图像、视频、音频和3D生成,可编辑、能试玩基于DiffusionTransformer(DiT)又迎来一大力作「Flag-DiT」,这次要将图像、视频、音频和3D「一网打尽」。今年2月初,Sora的发布...

