新闻中心
-
06-30谷歌AudioPaLM实现「文本+音频」双模态解决,说听两用大模型大型语言模型以其强大的性能及通用性,带动了一批多模态的大模型开发,如音频、视频等。语言模型的底层架构大多是基于Transformer,且以解码器为主,所以无需过...
-
06-27基于信息论的校准技术,CML让多模态机器学习更可靠多模态机器学习在各种场景下都取得了令人瞩目的进展。然而,多模态学习模型的可靠性尚缺乏深入研究。「信息是消除的不确定性」,多模态机器学习的初衷与这是一致的——增加...
-
06-20无需标注数据,「3D理解」进入多模态预训练时代!ULIP系列全面开源,刷新SOTA通过对齐三维形状、二维图片以及相应的语言描述,多模态预训练方法也带动了3D表征学习的发展。不过现有的多模态预训练框架收集数据的方法缺乏可扩展性,极大限制了多模态...

