新闻中心
Apertus— 瑞士开源的首个大规模语言模型
Apertus是什么
apertus是瑞士epfl、eth zurich和瑞士国家超级计算中心(cscs)联合推出的瑞士首个大规模开放、多语言的大型语言模型,有70b和8b两个参数版本,用大规模语言进行训练,其中40%的数据为非英语,包括瑞士德语、罗曼什语等此前在llm中被低估的语言。apertus用解码器仅的transformer架构,基于新的xielu激活函数和ademamix优化器。模型完全开放,模型权重、数据和训练细节,用户能在自己的服务器上使用,保持数据控制权。
LangChain
一个开源框架,用于构建基于大型语言模型(LLM)的应用程序。
114
查看详情
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

Apertus的主要功能
- 文本生成:根据用户输入的提示生成连贯、相关的文本。
- 多语言支持:支持超过1811种语言,包括许多此前在LLM中被低估的小语种。
- 透明性和开放性:模型权重、数据和训练细节完全公开,用户能在自己的服务器上使用。
- 长上下文处理:支持长上下文处理,适用于复杂的任务。
Apertus的技术原理
- 模型架构:Apertus用仅密集解码器Transformer架构,模型有8B和70B两种规模,分别有32层/32个注意力头和80层/64个注意力头。使用xIELU激活函数、RMSNorm归一化、RoPE位置编码和分组查询注意力机制,提升模型效率和长上下文处理能力。
- 预训练目标:用Goldfish目标函数,通过随机掩盖部分标记,防止模型学习精确的上下文映射,有效抑制逐字回忆,同时保留下游任务性能。预训练数据完全来自公开可用的来源,尊重内容所有者的退出意愿,避免使用受版权保护、非许可、有毒或包含个人身份信息的内容。
- 预训练数据:Apertus在超过15万亿个标记的数据上进行预训练,涵盖超过1800种语言。数据来源多样,包括高质量的网络爬取数据、代码数据、数学数据等。通过多种过滤机制,如尊重robots.txt文件中的爬取限制、移除个人身份信息和毒性内容,确保数据的合规性。为提高模型的多语言能力和数据多样性,在预训练数据中分配大量非英语内容。
- 训练过程:用AdEMAMix优化器和WSD学习率调度进行训练,确保训练的稳定性和效率。通过逐步增加上下文长度,使模型能处理更长的文本序列,支持长达65,536个标记的上下文。
- 后训练(Post-Training):通过指令微调和对齐训练,用QRPO算法优化模型的行为,使其在生成文本时更加安全、有用和符合人类价值观。后训练阶段使模型能更好地理解和生成符合指令的文本。
Apertus的项目地址
- 项目官网:http://www.swiss-ai.org/apertus
- HuggingFace模型库:http://huggingface.co/collections/swiss-ai/apertus-llm-68b699e65415c231ace3b059
- 技术论文:http://github.com/swiss-ai/apertus-tech-report
Apertus的应用场景
- 多语言对话系统:适用构建多语言聊天机器人、客服系统等,为用户提供跨语言的交流和信息获取服务。
- 代码生成与辅助:根据自然语言描述生成代码片段,帮助开发者快速实现编程任务,提高开发效率,适用于软件开发辅助工具。
- 教育与学习辅助:生成教育内容、解答学术问题、提供学习建议等,用于在线教育平台、智能辅导系统等教育场景。
- 内容创作:协助创作文本内容,如撰写文章、故事、新闻报道等,为内容创作者提供灵感和写作辅助。
- 翻译服务:用在翻译任务,提供文本翻译服务,支持跨语言的信息传播和交流。
以上就是Apertus— 瑞士开源的首个大规模语言模型的详细内容,更多请关注其它相关文章!
# 英语
# 网站优化哪个好做些
# 营销品类推广策略分析怎么写
# 南通营销推广地址
# 周村区手机网站建设培训
# 常德网站建设的文章
# 做好网站seo优化
# 东莞小红书推广营销策略
# 宝坻seo排名服务热线
# 营销推广公司人物介绍
# 甘孜抖音seo
# 此前
# 一键
# git
# 能在
# 适用于
# 自己的
# 开源
# 首个
# 瑞士
# 软件开发
# 多语言
# ai
# 工具
# github
# go
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
43寸电视长宽多少厘米
单片机怎么判定高电平
统计学中power值是什么意思
怎么在typescript定义集合
drawing是什么意思
driver是什么意思
typescript怎么写call方法
启辰星power标志是什么意思
如何用命令打开光驱
征信不好如何恢复正常 征信不好要怎么样才能恢复正常教程
光猫power灯一直闪是什么意思
双十一哪一天买比较便宜?
市盈率市净率是什么意思
cron表达式在线工具有哪些
access 如何输入命令
typescript如何生成uuid
分销是什么意思
春运抢票技巧攻略
如何使用net命令
make命令如何使用
广东春运几点抢票
为什么夸克下载不到
j*a数组求和怎么算
新买的固态硬盘如何查
电瓶车的power是什么意思
win7怎么关闭360壁纸屏保
华为5g手机掉了怎么定位找回
光猫power和pon常亮是什么意思
typescript是什么软件
16苹果有哪些机型
交管12123协议头不完整怎么弄
nfc功能是什么意思怎么开启
壁挂炉power常亮是什么意思
折叠屏手机为什么有黑点
液位传感器power是什么意思
阿里云盘的会员怎么用
typescript怎么加号
苹果16都有哪些型号
vue怎么连接typescript
5G类似微信的聊天软件有哪些
early什么意思
新版路由器如何设置路由命令
硬件如何执行命令
单片机怎么控制闪烁技术
j*a怎么存放数组中
什么是泛域名解析
如何winpe cmd命令
typescript如何使用
老电脑如何装固态硬盘
如何弄坏固态硬盘


2025-09-05
浏览次数:次
返回列表