> 自媒体 > (AI)人工智能 > GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型 (MoE)
GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型 (MoE)
来源:玩娱互动
2023-07-14 17:30:02
487
管理

业内人士近日对 OpenAI 今年 3 月发布的 GPT-4 大模型进行了大揭秘,其中包括 GPT-4 模型架构、训练和推理的基础设施、参数量、训练数据集、token 数、成本、混合专家模型 (Mixture of Experts, MoE) 等非常具体的参数和信息。

文章作者之一正是此前爆料谷歌内部文件《我们没有护城河,OpenAI 也没有》的 Dylan Patel。

下面介绍一下这篇揭秘 GPT-4 技术细节文章的主要内容。

文章开头就指出,OpenAI 之所以不 Open,不是为了保护人类不被 AI 毁灭,而是因为他们构建的大模型是可复制的,未来中国和美国的互联网大厂(比如谷歌、Meta、腾讯、百度、字节跳动),以及 AI 头部初创企业,都会有能力构建出可以媲美 GPT-4 甚至超越 GPT-4 的大模型。

而 OpenAI 最持久的护城河,就在于他们拥有真实用户的使用反馈、业内最顶尖的工程人才,以及先发优势带来的领先地位。

据介绍,GPT-4 在 120 层中总共包含了 1.8 万亿参数,而 GPT-3 只有约 1750 亿个参数。而为了保持合理的成本,OpenAI 采用 MoE 模型来进行构建。

具体而言,GPT-4 使用了 16 个混合专家模型 (mixture of experts),每个有 1110 亿个参数,每次前向传递路由经过两个专家模型。

此外,它有 550 亿个共享注意力参数,使用了包含 13 万亿 tokens 的数据集训练,tokens 不是唯一的,根据迭代次数计算为更多的 tokens。

GPT-4 预训练阶段的上下文长度为 8k,32k 版本是对 8k 微调的结果。如果是在云端进行训练,以 每 A100 小时 1 美元计算,那么一次的训练成本就高达 6300 万美元。不过今天的训练成本能降至 2150 万美元。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
不愧是大众的旗舰轿车,速腾的销量依旧坚挺,鹤立鸡群..
速腾,一款销量很高,知名度很高的家用车,在合资品牌中有着不错的竞争力..
北京:汽车以旧换新细则公布!申请时间截至
5月31日,北京市商务局等8部门发布《2024年北京市汽车以旧换新补贴实施细..
外媒:日本丰田汽车面临车辆认证违规指控,多部门展开调查..
来源:环球网 【环球网科技综合报道】6月3日,据路透社等媒体消息,日本..
新能源汽车到底值不值得买?没这条件买了就后悔,都是真心话..
新能源车到底值不值得买?其实只要看一个条件就行了,如果你没有这一个条..
最后倔强!丰田、斯巴鲁、马自达抱团取暖,榨干内燃机最后的价值..
无论是去年的东京车展,抑或今年的北京车展,日系在电动化上的布局稍显迟..
速览!5月汽车圈31件大事要闻 | 车事月报
来源:【中国汽车报】企业动态1.长安汽车:与华为的投资合作正在积极推进..
德国研究机构:欧洲汽车消费者将受损
(文/潘昱辰 编辑/高莘)据商务部网站消息,当地时间6月1日,商务部部长..
丰田等5日本车企被曝存在舞弊行为,日内阁官房长官批:损害日本汽车产业的..
来源:环球网 【环球网报道】据时事通讯社等日本媒体报道,日本国土交通..
新一代电动汽车,醇氢电动何以塑造新质生产力?
新能源浪潮之下,醇氢电动凸显出新一代电动汽车的独特优势。 时值百年未..
关于作者
冰冷的开水..(普通会员)
文章
1179
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40405 企业收录2984 印章生成241767 电子证书1079 电子名片61 自媒体64849

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索