工程_第24页_陕西然坤悦科技有限公司

400-5689-0921
客服咨询
- 在线咨询

新闻中心 NEWS CENTER

您当前位置：首页

08-10

首届大模型顶会COLM 高分论文：偏好搜索算法PairS，让大模型进行文本评估更高效

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传...
08-09

投机采样会损失大语言模型的推理精度吗？

MitchellStern等人于2018年提出了投机采样的原型概念。这种方法后来被各种工作进一步发展和完善，包括LookaheadDecoding、REST、M...
08-08

Llama3训练每3小时崩一次？豆包大模型、港大团队为脆皮万卡训练提效

伴随大模型迭代速度越来越快，训练集群规模越来越大，高频率的软硬件故障已经成为阻碍训练效率进一步提高的痛点，检查点（Checkpoint）系统在训练过程中负责状态...
08-08

错误率从10%降至0.01%，领英全面分享LLM应用落地经验

随着大型语言模型（LLM）技术日渐成熟，各行各业加快了LLM应用落地的步伐。为了改进LLM的实际应用效果，业界做出了诸多努力。近期，领英（LinkedIn）团队...
08-07

八问八答搞懂Transformer内部运作原理

七年前，论文《Attentionisallyouneed》提出了transformer架构，颠覆了整个深度学习领域。如今，各家大模型都以transformer架...
08-07

小技巧大功效，「仅阅读两次提示」让循环语言模型超越Transformer++

在当前AI领域，大语言模型采用的主流架构是Transformer。不过，随着RWKV、Mamba等架构的陆续问世，出现了一个很明显的趋势：在语言建模困惑度方面与...

: 电话

: 客服

: 地图

: 搜索