新闻中心

dots.llm1— 小红书hi lab开源的文本大模型

2025-06-10
浏览次数:
返回列表

dots.llm1是什么

dots.llm1 是由小红书 hi lab 发布并开源的中等规模 mixture of experts(moe)文本大模型,其参数总量达到 1420 亿,激活参数为 140 亿。该模型在 11.2t 高质量 token 数据集上完成预训练,并采用了高效的 interle*ed 1f1b 流水并行技术和 grouped gemm 优化策略,从而显著提升了训练效率。通过精细设计的数据处理流程以及两阶段监督微调方法,dots.llm1 在多个任务如中英文通用场景、数学和代码生成等方面表现出色,具备与 qwen2.5-72b 等模型相当的竞争力。此外,hi lab 团队还开源了 pretrain 阶段每 1t token 的 checkpoint 和 instruct 模型,为研究者提供了丰富的资源支持,有助于推动大模型技术的发展。

小云雀 小云雀

剪映出品的AI视频和图片创作助手

小云雀 1949 查看详情 小云雀

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

dots.llm1— 小红书hi lab开源的文本大模型dots.llm1的主要功能

  • 多语言文本生成:能够生成高质量的中英文文本,适用于写作辅助、内容创作等多种应用场景。
  • 复杂指令遵循:可以理解和执行复杂的指令,完成特定任务,例如数据整理、代码生成等。
  • 知识问答:提供准确的知识问答服务,帮助用户快速获取所需信息。
  • 数学与代码推理:具备数学计算和代码推理能力,能解决数学问题并编写简单代码。
  • 多轮对话:支持多轮对话交流,理解上下文并给出自然流畅的回应。

dots.llm1的技术原理

  • Mixture of Experts (MoE) 架构:dots.llm1 是一个基于 Decoder-only Transformer 的 MoE 模型,采用 6in128 Expert 配置,即每个 token 最多激活 6 个专家,总共有 128 个专家。在总共 1420 亿参数中,每次前向传播仅激活 140 亿参数,通过门控机制选择最相关的专家进行计算,从而提升计算效率。
  • 高效的数据处理和训练框架:使用 11.2T 高质量 token 数据进行预训练,这些数据来自 Common Crawl 和自有 Spider 抓取的网络数据,并经过多轮清洗和过滤以确保质量。结合 Interle*ed 1F1B 流水并行 AlltoAll overlap 和高效 Grouped GEMM 实现,大幅提高了训练效率。
  • 两阶段监督微调:对全部数据进行两轮基础训练,利用采样和动态学习率调整等技术初步释放模型潜力。针对数学与代码等专业领域,引入拒绝采样微调,并结合验证器筛选高置信度样本,进一步增强模型推理能力。
  • 学习率调度与超参数优化:采用 WSD 学习率调度方式,在稳定阶段保持 3e-4 的学习率训练 10T token 数据,退火阶段则分为两个阶段训练 1.2T token 数据并逐步降低学习率。同时对 batch size 等超参数进行优化,确保训练过程稳定,避免出现 loss spike。

dots.llm1的项目地址

  • GitHub仓库:https://www.php.cn/link/a5ad96aaa66880f3fae475fa926781d2
  • HuggingFace模型库:https://www.php.cn/link/a9a6bc8f86138d7b4c7a186ceb947b62
  • arXiv技术论文:https://www.php.cn/link/a5ad96aaa66880f3fae475fa926781d2/blob/main/dots1\_tech\_report.pdf

dots.llm1的应用场景

  • 内容创作:可用于辅助撰写文案、故事、新闻等内容,提供创意灵感与写作建议。
  • 教育学习:应用于语言学习、编程教育和知识问答,帮助学习者提升技能。
  • 商业办公:构建智能客服系统,生成数据分析和市场调研报告,助力企业运营决策。
  • 编程开发:自动生成代码片段、编写代码文档,并提供建议用于调试,提高开发效率。
  • 个人助理:协助管理日程、规划任务、整理信息,提升个人生活与工作效率。

以上就是dots.llm1— 小红书hi lab开源的文本大模型的详细内容,更多请关注其它相关文章!


# ai  # 是一个  # 安装包  # 一键  # 门控  # 数据处理  # 知识问答  # 工作效率  # 开源  # 小红  # qwen  # red  # 小红书  # git  # 高质量  # 连云港网站排名优化  # 事业单位域名seo  # 加盟行业网站推广引流  # 大源网站建设  # 厦门网站建设怎么样  # 茂名专业网站优化  # 临沧港网站建设招标  # 京东网站建设设计原则  # 小米手机软文营销推广  # 天津科技网站优化 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 固态硬盘装完如何使用  如何把一个命令后台运行  制冰机power1灯亮是什么意思  win7旗舰版wifi怎么打开  苹果16有哪些款式的  基金市盈率是什么意思  openwrt有什么用  如何查看网站域名解析  华硕k20ce怎么装win7  grep命令的是如何实现  typescript怎么添加css样式  春运抢票何时开始抢票的  1tb等于多少mb  跑分是什么意思  路由器power闪红绿灯闪是什么意思  固态硬盘如何迁移系统  j*a map数组怎么用  如何查看硬盘是固态硬盘  春运车票啥时候可以抢票  苹果16哪些型号好用  轩逸e-power挡位b是什么意思  j*a怎么让数组倒换  苹果16更新了哪些版本  ao3镜像网站永久地址入口  为什么要出折叠屏手机  eraser是什么意思  商誉是什么意思  苹果16配置参数有哪些  苹果16关闭哪些功能好  哪些编程软件需用typescript  j*a怎么用数组缓存  花呗征信不好如何恢复 如何修复不良的花呗征信  市盈率为负值是什么意思  如何编写一个linux命令  折叠屏手机共有哪些  如何看固态硬盘型号  typescript 如何解决 null  电脑显示器上power是什么意思  征信信誉不好如何恢复 如何修复不良征信方法  如何用固态硬盘做缓存  春运抢票哪个平台好一点  j*a里数组怎么赋值  typescript如何定义常量  如何创建sql命令  NoSQL数据库有哪些特点  如何提高固态硬盘速度  电脑5G怎么上传手机  mac 如何启动命令行模式  冰柜power是什么意思这个黄灯怎么不亮  高市盈率是什么意思 

搜索