> 自媒体 > (AI)人工智能 > GPT-3被超越?解读低能耗、高性能的GlaM模型
GPT-3被超越?解读低能耗、高性能的GlaM模型
来源:NLP论文解读
2023-05-01 22:27:58
528
管理

©原创作者 | LJ

GLaM: Efficient Scaling of Language Models with Mixture-of-Experts

https://arxiv.org/pdf/2112.06905.pdf

01 摘要

这是上个月谷歌刚刚在arxiv发布的论文,证明了一种能scale GPT-3但又比较节省耗能的架构。

GPT-3自问世以来在多项自然语言处理的任务上都有超强的表现。但是训练GPT-3这样庞大的模型非常耗费能源。

在这篇论文中,作者开发了以Mixture of Experts为基础的GlaM (Generalist Language Model)。它虽然参数量有GPT-3的7倍之多,但训练起来只需GPT-3三分之一的能耗,而且在NLP任务的表现上相比GPT-3持平甚至更优。

02 什么是Mixture of Experts Model (MoE)

MoE这个概念其实已经提出很久了。这个概念本身非常容易理解,有点类似ensemble:与其训练一个模型,我们训练数十个独立的“专家模型”(expert model)。

与简单的ensemble不同的是,在做训练或推断(inference)的时候,我们用一个gating network来“挑选专家” — 在几十个专家模型中挑选出几个适合的专家模型用来计算。通俗的讲,这些专家“术业有专攻”,根据所长而分工。

那么,为什么MoE可以省能耗呢?因为无论是训练或者推算的时候,每次真正的计算只有几个专家被激活。所以,虽然参数量很大,但每次用到的参数只是很小的一部分。

这个团队在2017年在一篇ICLR的论文[1]里已经把MoE的概念应用在了当时NLP state-of-the-art的RNN model上,并且超越了当时的state of the art。

这次,因为GPT-3的发布,作者又将MoE的概念应用在GPT-3这样以transformer为基础的模型上。

GLaM在29个自然语言的任务上总的来说相比GPT-3略胜一筹。最重要的是训练的总能耗仅仅是GPT-3的三分之一。

以TriviaQA任务举例,上图中Dense指的是类似GPT-3架构的单个模型。Dense和MoE model的准确率都会因为参数量增长而增长。但是在相同的运算量下(横轴),MoE总是表现得更好。

4.2. 需要多少专家模型

相比于dense model,MoE如果想scale的话不仅可以将模型变得更宽更深,还可以增加专家的数量。只要每次被激活的专家数量不变,增加专家并不增加prediction时的运算量。

上图中,作者控制每次prediction的计算量不变,调整不同的专家数量。一般看来,专家越多,模型表现越好。

05 总结

总的来说,作者开发了以MoE为基础的GLaM模型。虽然模型参数量很多,但通过激活少量的专家,这类的模型训练和推算的能耗更低,而且结果比GPT-3更好。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
丰田汽车全球产销量连续三个月下滑,汽车之王丰田该咋办?..
在世界汽车的江湖之中,丰田汽车可以说是绝对的王者,甚至多年雄踞世界汽..
昔日销冠跌出前十,长城汽车魏建军的焦虑与反思
长城哈佛H6 图源:长城汽车官网“我在改变,但不能只是我在改变。”徐凡..
汽车资讯∣上汽大众全新途观L PRO上市;丰田新款皇冠陆放上市..
◆ 上汽大众途观L PRO售价23.68万元起5月30日,上汽大众全新途观L PRO正..
试驾全新福特Mustan-性能拉满的大玩具
目前,第七代的福特Mustang在国内市场投放了两个发动机版本以及三款车型..
汽车电瓶能用几年?瓦尔塔、骆驼、风帆怎么选?一次性给你讲清楚..
咱们汽车上都有一个小电瓶,这个小电瓶的作用就是用来启动发动机的,一旦..
未来10年,5大汽车品牌或将挥手告别中国,想买这些车的避免踩坑..
在这个汽车工业飞速演进的时代,中国,这片充满活力与挑战的土地,已悄然..
全面拥抱智能化 试驾上汽大众途观L Pro
【太平洋汽车 评测频道】一代神车途观上新啦!这也是途观的第三代车型,..
2024年国际汽车新材料大会落幕
光明网讯5月31日,由中国汽车工程学会、汽车轻量化技术创新战略联盟、芜..
没测完就开卖?汽车耐久性测试怎么才算合格?
最近,雷总在直播中透露,小米SU7的测试车目前还在测试中,而且还准备每..
关于作者
横道不笑(普通会员)
文章
1369
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40406 企业收录2984 印章生成243079 电子证书1087 电子名片62 自媒体71458

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索