新闻中心
-
08-10首届大模型顶会COLM 高分论文:偏好搜索算法PairS,让大模型进行文本评估更高效AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传...
-
08-09投机采样会损失大语言模型的推理精度吗?MitchellStern等人于2018年提出了投机采样的原型概念。这种方法后来被各种工作进一步发展和完善,包括LookaheadDecoding、REST、M...
-
08-08Llama3训练每3小时崩一次?豆包大模型、港大团队为脆皮万卡训练提效伴随大模型迭代速度越来越快,训练集群规模越来越大,高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点,检查点(Checkpoint)系统在训练过程中负责状态...
-
08-08错误率从10%降至0.01%,领英全面分享LLM应用落地经验随着大型语言模型(LLM)技术日渐成熟,各行各业加快了LLM应用落地的步伐。为了改进LLM的实际应用效果,业界做出了诸多努力。近期,领英(LinkedIn)团队...
-
08-07八问八答搞懂Transformer内部运作原理七年前,论文《Attentionisallyouneed》提出了transformer架构,颠覆了整个深度学习领域。如今,各家大模型都以transformer架...
-
08-07小技巧大功效,「仅阅读两次提示」让循环语言模型超越Transformer++在当前AI领域,大语言模型采用的主流架构是Transformer。不过,随着RWKV、Mamba等架构的陆续问世,出现了一个很明显的趋势:在语言建模困惑度方面与...

