新闻中心
-
01-09清华大学新方法成功定位精确视频片段!SOTA被超越且已开源只需一句话描述,就能在一大段视频中定位到对应片段!比如描述“一个人一边下楼梯一边喝水”,通过视频画面和脚步声的匹配,新方法一下子就能揪出对应起止时间戳:就连“大...
-
01-05大规模模型已经可以为图像做标注,只需简单对话!清华&NUS的研究成果多模态大模型集成了检测分割模块后,抠图变得更简单了!我们的模型可以通过自然语言描述来快速标注要寻找的物体,并提供文字解释,让您轻松完成任务。新加坡国立大学NEx...
-
01-04清华浙大主导开源视觉模型爆炸, GPT-4V与LLaVA、CogAgent等平台带来革命性变革目前,GPT-4Vision在语言理解和视觉处理方面显示出了令人惊叹的能力。然而,对于那些希望在不影响性能的情况下寻求成本效益替代方案的人来说,开源方案是一个具...
-
01-03薛定谔桥助力,清华朱军团队开发新型语音合成系统应对扩散挑战近日,由清华大学计算机系朱军教授课题组发布的基于薛定谔桥的语音合成系统[1],凭借其「数据到数据」的生成范式,在样本质量和采样速度两方面,均击败了扩散模型的「噪...
-
12-18如祺出行荣获量子位评选的“2025人工智能年度杰出解决方案TOP 10”12月14日在北京举行了由人工智能与前沿科技媒体量子位主办的“MEET2024智能未来大会”。与此同时,揭晓了“2023人工智能年度评选”的结果。其中,祺出行、...
-
11-23清华团队提出知识引导的图 Transformer 预训练框架:提高分子表征学习的方法编辑|紫罗为了促进分子特性预测,在药物发现领域,学习有效的分子特征表征非常重要。最近,人们通过采用自监督学习技术,预先训练图神经网络(GNN)来克服数据稀缺的挑...

