新闻中心
-
02-01揭秘NVIDIA大模型推理框架:TensorRT-LLM一、TensorRT-LLM的产品定位TensorRT-LLM是NVIDIA为大型语言模型(LLM)开发的可扩展推理方案。它基于TensorRT深度学习编译框架...
-
02-01将多模态大模型稀疏化,3B模型MoE-LLaVA媲美LLaVA-1.5-7B大型视觉语言模型(LVLM)可以通过扩展模型来提高性能。然而,扩大参数规模会增加训练和推理成本,因为每个token的计算都会激活所有模型参数。来自北京大学、中山...
-
02-01赶超Gemini Pro,提升推理、OCR能力的LLaVA-1.6太强了在去年4月,威斯康星大学麦迪逊分校、微软研究院和哥伦比亚大学的研究者们联合发布了LLaVA(LargeLanguageandVisionAssistant)。尽...
-
01-29最新推出的适合中文LMM体质的基准CMMMU:包含超过30个细分学科和12K个专家级题目随着多模态大模型(LMM)的不断进步,对于评估LMM性能的需求也在增长。尤其在中文环境下,评估LMM的高级知识和推理能力变得更加重要。在这个背景下,为了评估基本...
-
01-16位置编码在Transformer中的应用:探究长度外推的无限可能性在自然语言处理领域,Transformer模型因其卓越的序列建模性能而备受关注。然而,由于其训练时限制了上下文长度,使得它及其基于此的大语言模型都无法有效地处理...
-
01-11阿里mPLUG-Owl新升级,鱼与熊掌兼得,模态协同实现MLLM新SOTAOpenAIGPT-4V和GoogleGemini都展现了非常强的多模态理解能力,推动了多模态大模型(MLLM)快速发展,MLLM成为了现在业界最热的研究方向。...

