新闻中心
-
12-04UC伯克利成功开发通用视觉推理大模型,三位资深学者合力参与研究仅靠视觉(像素)模型能走多远?UC伯克利、约翰霍普金斯大学的新论文探讨了这一问题,并展示了大型视觉模型(LVM)在多种CV任务上的应用潜力。最近一段时间以来,G...
-
12-04横扫13个视觉语言任务!哈工深发布多模态大模型「九天」,性能直升5%为了应对多模态大语言模型中视觉信息提取不充分的问题,哈尔滨工业大学(深圳)的研究人员提出了双层知识增强的多模态大语言模型-九天(JiuTian-LION)。需要...
-
12-04任意文本、视觉、音频混合生成,多模态有了强大的基础引擎CoDi-2研究者指出,CoDi-2标志着在开发全面的多模态基础模型领域取得了重大突破今年5月,北卡罗来纳大学教堂山分校、微软提出一种可组合扩散(ComposableDif...
-
12-03全球瞩目的「科目三」:梅西、钢铁侠、二次元小姐姐轻松应对最近一段时间,你可能或多或少的听到过「科目三」,摇花手、半崴不崴的脚,配合着节奏鲜明的音乐,这一舞蹈动作遭全网模仿。如果相似的舞蹈,让AI生成会怎样?就像下图所...
-
12-03一张照片生成视频,张嘴、点头、喜怒哀乐,都可以打字控制最近,微软进行的一项研究揭示了视频处理软件PS的灵活程度有多高在这项研究中,你只要给AI一张照片,它就能生成照片中人物的视频,而且人物的表情、动作都是可以通过文...
-
11-30SDXL Turbo和LCM带来AI画图的实时生成时代:速度跟打字一样快,图像瞬间呈现StabilityAI在本周二推出了新一代的图像合成模型——StableDiffusionXLTurbo,这款模型引起了人们的热烈反响。许多人表示,使用该模型进...

