新闻中心
-
06-11用神经架构搜索给LLM瘦身,模型变小,准确度有时反而更高用神经架构搜索给LLM瘦身,同等准确度可让LLaMA2-7B模型大小降2倍。LLM(大型语言模型)的一个主要特点是“大”,也因此其训练和部署成本相当高,如何在保...
-
06-07阿里Qwen2正式开源,性能全方位包围Llama-3Qwen系列会是众多大学实验室新的默认基础模型吗?斯坦福团队套壳清华大模型的事件不断发酵后,中国模型在世界上开始得到了更多关注。不少人发现,原来中国已经有不少成...
-
06-03不同数据集有不同的Scaling law?而你可用一个压缩算法来预测它一般而言,训练神经网络耗费的计算量越大,其性能就越好。在扩大计算规模时,必须要做个决定:是增多模型参数量还是提升数据集大小——必须在固定的计算预算下权衡这两项因...
-
05-17路径规划概述:基于采样、搜索、优化全搞定!1决策控制与运动规划概述目前决策控制方法可以分为三类:sequentialplanning、behavior-awareplanning、和end-to-end...
-
04-28让大模型不再「巨无霸」,这是一份最新的大模型参数高效微调综述AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传...
-
04-18综述!深度模型融合(LLM/基础模型/联邦学习/微调等)23年9月国防科大、京东和北理工的论文“DeepModelFusion:ASurvey”。深度模型融合/合并是一种新兴技术,它将多个深度学习模型的参数或预测合并...

