新闻中心

GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型

2023-07-16
浏览次数:
返回列表

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型

7 月 13 日消息,外媒 Semianalysis 近日对 OpenAI 今年 3 月发布的 GPT-4 大模型进行了揭秘,其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型(Mixture of Experts)等具体的参数和信息

GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型

▲ 图源 Semianalysis

外媒表示,GPT-4 在 120 层中总共包含了 1.8 万亿参数,而 GPT-3 只有约 1750 亿个参数。而为了保持合理的成本,OpenAI 采用混合专家模型来进行构建

IT之家注:混合专家模型(Mixture of Experts)是一种神经网络,该系统根据数据进行分离训练多个模型,在各模型输出后,系统将这些模型整合输出为一个单独的任务。

GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型

▲ 图源 Semianalysis

据悉,GPT-4 使用了 16 个混合专家模型 (mixture of experts),每个有 1110 亿个参数,每次前向传递路由经过两个专家模型

此外,它有 550 亿个共享注意力参数,使用了包含 13 万亿 tokens 的数据集训练,tokens 不是唯一的,根据迭代次数计算为更多的 tokens。

GPT-4 预训练阶段的上下文长度为 8k,32k 版本是对 8k 微调的结果,训练成本相当高,外媒表示,8x H100 也无法以每秒 33.33 个 Token 的速度提供所需的密集参数模型,因此训练该模型需要导致极高的推理成本,以 H100 物理机每小时 1 美元计算,那么一次的训练成本就高达 6300 万美元(约 4.51 亿元人民币)。

对此,OpenAI 选择使用云端的 A100 GPU 训练模型,将最终训练成本降至 2150 万美元(约 1.54 亿元人民币)左右,用稍微更长的时间,降低了训练成本

以上就是GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型的详细内容,更多请关注其它相关文章!


# OpenAI  # 多项  # 万元  # 亿元  # 将在  # GPT-4  # 使用了  # 汕尾广告网站推广方案  # 洪梅抖音seo服务  # seo叫什么区别  # 查seo排名  # 贵阳网络营销推广专员  # 河北推广营销策划怎么样  # 手机网站优化电话咨询  # 实盘  # 美股  # 新进展  # 上海  # 亚洲  # 推广产品文案网站  # 各地推广神曲的网站叫什么  # 盐城营销型网站建设服务 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 如何通过命令行启动tomcat  360n7lite怎么设置动态壁纸  华为的type-c接口是什么接口  苹果16更新了哪些版本  如何使用net命令  单片机怎么发送can 信号  什么是夸克模组文件格式  typescript中如何引入本地js  如何去掉拍电脑的纹路详细教程  单片机加热片怎么制作  类似微信的聊天软件有哪些  vivo手机nfc功能是什么意思  typescript怎么判断单选按钮  每日推荐电声音乐软件有哪些  iPhone无法打开YouTube原因分析与解决方案  显示器power接口是什么意思  爱奇艺视频怎么下载到手机u盘怎么转换格式方法  如何设置sql命令  为什么夸克网盘下载不了  单片机怎么读取电流值  typescript全局配置放哪里  冰柜power是什么意思这个黄灯怎么不亮  360f4怎么取消百变壁纸  电脑5G怎么上传手机  春运抢票最新技巧与方法  台机如何安装固态硬盘  如何以管理员身份打开cmd命令行窗口  driver是什么意思  苹果16改进了哪些  360n6锁屏壁纸怎么设置  固态硬盘如何判断大小  typescript怎么写多个构造方法  折叠屏手机哪个牌子性价比高  如何创建sql命令  得物怎样不扣手续费 如何通过得物不支付手续费  怎么确定手机是5g  平仓是什么意思?  一帧是多少秒  vue项目如何用typescript  春运车站抢票和网上抢票  performance是什么意思  j*a数组怎么存满  typescript和nodejs哪个好  内在市盈率是什么意思  索尼type-c接口是什么  有什么基础可以学typescript  access中如何使用常用宏命令  win10windows资源管理器在哪里打开  nosql数据库的应用场景有哪些  夸克文字口令是什么意思 

搜索