新闻中心
-
03-26使用GaLore在本地GPU进行高效的LLM调优训练大型语言模型(llm)是一项计算密集型的任务,即使是那些“只有”70亿个参数的模型也是如此。这种级别的训练需要的资源超出了大多数个人爱好者的能力范围。为了弥...
-
03-08田渊栋等人新作:突破内存瓶颈,让一块4090预训练7B大模型MetaFAIR田渊栋参与的研究项目在上个月获得了广泛好评。在他们的论文《MobileLLM:OptimizingSub-billionParameterLan...
-
03-04只需少量计算和内存资源即可运行的小型 Llama 大模型背景介绍在当前信息量爆炸的时代,语言模型的训练日益变得复杂和困难。为了培训一个高效的语言模型,我们需要大量的计算资源和时间,这对很多人来说是不切实际的。同时,我...
-
02-29微软6页论文爆火:三进制LLM,真香!这就是由微软和中国中科院大学在最新一项研究中所提出的结论——所有的LLM,都将是1.58bit的。具体而言,这项研究提出的方法叫做BitNetb1.58,可以说...
-
02-19RNN模型挑战Transformer霸权!1%成本性能比肩Mistral-7B,支持100+种语言全球最多在大模型内卷的同时,Transformer的地位也接连受到挑战。近日,RWKV发布了Eagle7B模型,基于最新的RWKV-v5架构。Eagle7B在多语言基准...

