新闻中心

Apertus— 瑞士开源的首个大规模语言模型

2025-09-05
浏览次数:
返回列表

Apertus是什么

apertus是瑞士epfl、eth zurich和瑞士国家超级计算中心(cscs)联合推出的瑞士首个大规模开放、多语言的大型语言模型,有70b和8b两个参数版本,用大规模语言进行训练,其中40%的数据为非英语,包括瑞士德语、罗曼什语等此前在llm中被低估的语言。apertus用解码器仅的transformer架构,基于新的xielu激活函数和ademamix优化器。模型完全开放,模型权重、数据和训练细节,用户能在自己的服务器上使用,保持数据控制权。

LangChain LangChain

一个开源框架,用于构建基于大型语言模型(LLM)的应用程序。

LangChain 114 查看详情 LangChain

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Apertus— 瑞士开源的首个大规模语言模型

Apertus的主要功能

  • 文本生成:根据用户输入的提示生成连贯、相关的文本。
  • 多语言支持:支持超过1811种语言,包括许多此前在LLM中被低估的小语种。
  • 透明性和开放性:模型权重、数据和训练细节完全公开,用户能在自己的服务器上使用。
  • 长上下文处理:支持长上下文处理,适用于复杂的任务。

Apertus的技术原理

  • 模型架构:Apertus用仅密集解码器Transformer架构,模型有8B和70B两种规模,分别有32层/32个注意力头和80层/64个注意力头。使用xIELU激活函数、RMSNorm归一化、RoPE位置编码和分组查询注意力机制,提升模型效率和长上下文处理能力。
  • 预训练目标:用Goldfish目标函数,通过随机掩盖部分标记,防止模型学习精确的上下文映射,有效抑制逐字回忆,同时保留下游任务性能。预训练数据完全来自公开可用的来源,尊重内容所有者的退出意愿,避免使用受版权保护、非许可、有毒或包含个人身份信息的内容。
  • 预训练数据:Apertus在超过15万亿个标记的数据上进行预训练,涵盖超过1800种语言。数据来源多样,包括高质量的网络爬取数据、代码数据、数学数据等。通过多种过滤机制,如尊重robots.txt文件中的爬取限制、移除个人身份信息和毒性内容,确保数据的合规性。为提高模型的多语言能力和数据多样性,在预训练数据中分配大量非英语内容。
  • 训练过程:用AdEMAMix优化器和WSD学习率调度进行训练,确保训练的稳定性和效率。通过逐步增加上下文长度,使模型能处理更长的文本序列,支持长达65,536个标记的上下文。
  • 后训练(Post-Training):通过指令微调和对齐训练,用QRPO算法优化模型的行为,使其在生成文本时更加安全、有用和符合人类价值观。后训练阶段使模型能更好地理解和生成符合指令的文本。

Apertus的项目地址

  • 项目官网:http://www.swiss-ai.org/apertus
  • HuggingFace模型库:http://huggingface.co/collections/swiss-ai/apertus-llm-68b699e65415c231ace3b059
  • 技术论文:http://github.com/swiss-ai/apertus-tech-report

Apertus的应用场景

  • 多语言对话系统:适用构建多语言聊天机器人、客服系统等,为用户提供跨语言的交流和信息获取服务。
  • 代码生成与辅助:根据自然语言描述生成代码片段,帮助开发者快速实现编程任务,提高开发效率,适用于软件开发辅助工具。
  • 教育与学习辅助:生成教育内容、解答学术问题、提供学习建议等,用于在线教育平台、智能辅导系统等教育场景。
  • 内容创作:协助创作文本内容,如撰写文章、故事、新闻报道等,为内容创作者提供灵感和写作辅助。
  • 翻译服务:用在翻译任务,提供文本翻译服务,支持跨语言的信息传播和交流。

以上就是Apertus— 瑞士开源的首个大规模语言模型的详细内容,更多请关注其它相关文章!


# 英语  # 网站优化哪个好做些  # 营销品类推广策略分析怎么写  # 南通营销推广地址  # 周村区手机网站建设培训  # 常德网站建设的文章  # 做好网站seo优化  # 东莞小红书推广营销策略  # 宝坻seo排名服务热线  # 营销推广公司人物介绍  # 甘孜抖音seo  # 此前  # 一键  # git  # 能在  # 适用于  # 自己的  # 开源  # 首个  # 瑞士  # 软件开发  # 多语言  # ai  # 工具  # github  # go 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 43寸电视长宽多少厘米  单片机怎么判定高电平  统计学中power值是什么意思  怎么在typescript定义集合  drawing是什么意思  driver是什么意思  typescript怎么写call方法  启辰星power标志是什么意思  如何用命令打开光驱  征信不好如何恢复正常 征信不好要怎么样才能恢复正常教程  光猫power灯一直闪是什么意思  双十一哪一天买比较便宜?  市盈率市净率是什么意思  cron表达式在线工具有哪些  access 如何输入命令  typescript如何生成uuid  分销是什么意思  春运抢票技巧攻略  如何使用net命令  make命令如何使用  广东春运几点抢票  为什么夸克下载不到  j*a数组求和怎么算  新买的固态硬盘如何查  电瓶车的power是什么意思  win7怎么关闭360壁纸屏保  华为5g手机掉了怎么定位找回  光猫power和pon常亮是什么意思  typescript是什么软件  16苹果有哪些机型  交管12123协议头不完整怎么弄  nfc功能是什么意思怎么开启  壁挂炉power常亮是什么意思  折叠屏手机为什么有黑点  液位传感器power是什么意思  阿里云盘的会员怎么用  typescript怎么加号  苹果16都有哪些型号  vue怎么连接typescript  5G类似微信的聊天软件有哪些  early什么意思  新版路由器如何设置路由命令  硬件如何执行命令  单片机怎么控制闪烁技术  j*a怎么存放数组中  什么是泛域名解析  如何winpe cmd命令  typescript如何使用  老电脑如何装固态硬盘  如何弄坏固态硬盘 

搜索