新闻中心
GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
7 月 13 日消息,外媒 Semianalysis 近日对 OpenAI 今年 3 月发布的 GPT-4 大模型进行了揭秘,其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型(Mixture of Experts)等具体的参数和信息。

▲ 图源 Semianalysis
外媒表示,GPT-4 在 120 层中总共包含了 1.8 万亿参数,而 GPT-3 只有约 1750 亿个参数。而为了保持合理的成本,OpenAI 采用混合专家模型来进行构建。
IT之家注:混合专家模型(Mixture of Experts)是一种神经网络,该系统根据数据进行分离训练多个模型,在各模型输出后,系统将这些模型整合输出为一个单独的任务。

▲ 图源 Semianalysis
据悉,GPT-4 使用了 16 个混合专家模型 (mixture of experts),每个有 1
110 亿个参数,每次前向传递路由经过两个专家模型。
此外,它有 550 亿个共享注意力参数,使用了包含 13 万亿 tokens 的数据集训练,tokens 不是唯一的,根据迭代次数计算为更多的 tokens。
GPT-4 预训练阶段的上下文长度为 8k,32k 版本是对 8k 微调的结果,训练成本相当高,外媒表示,8x H100 也无法以每秒 33.33 个 Token 的速度提供所需的密集参数模型,因此训练该模型需要导致极高的推理成本,以 H100 物理机每小时 1 美元计算,那么一次的训练成本就高达 6300 万美元(约 4.51 亿元人民币)。
对此,OpenAI 选择使用云端的 A100 GPU 训练模型,将最终训练成本降至 2150 万美元(约 1.54 亿元人民币)左右,用稍微更长的时间,降低了训练成本。
以上就是GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型的详细内容,更多请关注其它相关文章!
# OpenAI
# 多项
# 万元
# 亿元
# 将在
# GPT-4
# 使用了
# 汕尾广告网站推广方案
# 洪梅抖音seo服务
# seo叫什么区别
# 查seo排名
# 贵阳网络营销推广专员
# 河北推广营销策划怎么样
# 手机网站优化电话咨询
# 实盘
# 美股
# 新进展
# 上海
# 亚洲
# 推广产品文案网站
# 各地推广神曲的网站叫什么
# 盐城营销型网站建设服务
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
如何通过命令行启动tomcat
360n7lite怎么设置动态壁纸
华为的type-c接口是什么接口
苹果16更新了哪些版本
如何使用net命令
单片机怎么发送can 信号
什么是夸克模组文件格式
typescript中如何引入本地js
如何去掉拍电脑的纹路详细教程
单片机加热片怎么制作
类似微信的聊天软件有哪些
vivo手机nfc功能是什么意思
typescript怎么判断单选按钮
每日推荐电声音乐软件有哪些
iPhone无法打开YouTube原因分析与解决方案
显示器power接口是什么意思
爱奇艺视频怎么下载到手机u盘怎么转换格式方法
如何设置sql命令
为什么夸克网盘下载不了
单片机怎么读取电流值
typescript全局配置放哪里
冰柜power是什么意思这个黄灯怎么不亮
360f4怎么取消百变壁纸
电脑5G怎么上传手机
春运抢票最新技巧与方法
台机如何安装固态硬盘
如何以管理员身份打开cmd命令行窗口
driver是什么意思
苹果16改进了哪些
360n6锁屏壁纸怎么设置
固态硬盘如何判断大小
typescript怎么写多个构造方法
折叠屏手机哪个牌子性价比高
如何创建sql命令
得物怎样不扣手续费 如何通过得物不支付手续费
怎么确定手机是5g
平仓是什么意思?
一帧是多少秒
vue项目如何用typescript
春运车站抢票和网上抢票
performance是什么意思
j*a数组怎么存满
typescript和nodejs哪个好
内在市盈率是什么意思
索尼type-c接口是什么
有什么基础可以学typescript
access中如何使用常用宏命令
win10windows资源管理器在哪里打开
nosql数据库的应用场景有哪些
夸克文字口令是什么意思


2023-07-16
浏览次数:次
返回列表