新闻中心
-
03-25剑桥团队开源:赋能多模态大模型RAG应用,首个预训练通用多模态后期交互知识检索器论文链接:https://arxiv.org/abs/2402.08327DEMO链接:https://u60544-b8d4-53eaa55d.westx.s...
-
03-25零样本6D物体姿态估计框架SAM-6D,向具身智能更进一步物体姿态估计在许多现实世界应用中扮演着关键角色,如具身智能、机器人灵巧操作和增强现实等领域。在这一领域中,最先受到关注的任务是实例级别6D姿态估计,其需要关于目...
-
03-25CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术视频理解的核心目标是准确理解时空表示,但面临两个主要挑战:短视频片段中存在大量时空冗余,并且复杂的时空依赖关系。三维卷积神经网络(CNN)和视频Transfor...
-
03-23深度估计SOTA!自动驾驶单目与环视深度的自适应融合写在前面&个人理解多视图深度估计在各种基准测试中都取得了较高性能。然而,目前几乎所有的多视图系统都依赖于给定的理想相机姿态,而这在许多现实世界的场景中是...
-
03-21CMU朱俊彦、Adobe新作:512x512图像推理,A100只用0.11秒简笔素描一键变身多风格画作,还能添加额外的描述,这在CMU、Adobe联合推出的一项研究中实现了。CMU助理教授朱俊彦是该研究的一位作者,他的团队在ICCV20...
-
03-21GitHub 最新 AI 工具可帮助用户自动修复代码中的错误和漏洞今天,GitHub为所有AdvancedSecurity(GHAS)许可用户推出了全新的“代码扫描”功能(预览版),旨在帮助用户在GitHub代码中发现潜在的安...

