> 自媒体 > (AI)人工智能 > 1750亿参数,GPT-3却并不「智能」
1750亿参数,GPT-3却并不「智能」
来源:新智元
2023-05-01 22:38:22
717
管理

【新智元导读】拥有1750亿参数的GPT-3取得了惊人的进步,但它并不是通用人工智能。GPT-3让我们看到了语言模型的能力,能否利用这种能力构建出一个模型,更好地理解周围的世界?

尽管有关 GPT-3的传说四起,但它本身并不是 AGI。

虽然在某些领域接近了人类能力(下棋或写作真的令人印象深刻) ,但它们好像做不出通用的智能,很多时候,GPT-3跟 AlphaGo 更像。

文本的香侬熵

香侬熵:由于语言固有的随机性,一个语言模型可能达到的理论上最低的损失,损失越低,语言越像「人话」。

换句话说,使用马尔可夫链将单词串起来可以让你完成50% 的任务,而另外的50%,需要你搞清楚语法、考虑跨段落的主题 ,更重要的是逻辑上保持一致。

马尔科夫链

GPT-3的重要之处在于,只要不断增加模型的大小,就可以不断降低损失,可能直到它达到文本的香侬熵。不需要聪明的架构或复杂的手工规则启发,只要把它放大,就可以得到一个更好的语言模型。

但是,如果这种语言模型隐藏在 GPT-x 内部,那么我们该如何使用它呢?

可以直接用自然语言问它!它认为接下来会发生什么,给定一系列事件,它就能给出一个很好的答案。

有reddit网友说,「各种各样的实验表明 GPT-3在世界建模中经常失败,解决的问题变多了,只是添加了更多的参数 」。

我们可以来做个假设,更大的模型将开发出更好的世界模型。随着损失接近香农熵,它的世界建模能力必将变得与互联网上的普通人类一样好 ,这可以归结为两个问题:

一,我们真的能建立损失接近香侬熵的模型吗?

二,多近才算近?世界建模能力是否切实可行?

随着加入更多的参数和计算,损失不断下降

第一个问题的答案是完全有可能,这是 GPT-3的主要特点。

第二个问题的答案是... 没人知道。

目前,我们只能看到 GPT-3在世界建模方面表现更好了,但还远远不够。

当有1万亿,10万亿,100万亿参数的模型可用时,我们需要很长一段时间来验证这个假设是否正确。如果 GPT-x 展示了在现实世界中不可思议的预测能力,那么这可能会奏效。

语言模型如何找到「亚马逊上最便宜的曲别针」

然而,世界模型本身并不是智能体创造的。那么,怎样才能把一个世界模型变成一个智能体呢?

首先,我们需要一个目标,比如Paperclip maximizer。

Paperclip maximizer是一个经典的思想实验,它展示了一个AGI,即使是一个设计合理且没有恶意的智能,也可能毁灭人类。这个思想实验表明,表面看来友善的人工智能也可能构成威胁。

选择Paperclip maximizer作为目标,可以融入人类价值观的偶然性:一个极其强大的优化器(一个高度智能的AI)可以寻找与我们完全不同的目标 ,比如消耗我们生存所必需的资源来获得自我提升。

然后,构建世界模型的问题,就转变为「采取什么行动来最大化这个目标」。

看似很简单,对吧?实则不然,问题在于我们的世界模型可能无法预测到接下来所有的可能。

GPT-3告诉你获取更多曲别针的方法(来源: OpenAI API)

那么,我们能做些什么呢?向模型询问给定的世界状态下可以做的事情,这在GPT-3的能力范围。

如果去亚马逊说「我要买曲别针」,平台会按照价格进行排序,你选定了一款,那花100块能买到多少曲别针?

用语言模型处理的话,「曲别针」后面接「价格」的可能性很高,而「价格」后面有一系列的价格列表。我们就可以快速计算出有哪些曲别针可选,以及买特定的曲别针要花多少钱(每个步骤序列给智能体带来的回报)。

所以现在,为了估计任何操作的状态动作值,我们可以简单地用 Monte Carlo 树来搜索!

从给定的智能体状态开始,我们使用世界模型展开动作序列。通过整合所有的结果,我们可以知道智能体每个行动可以得到多少预期报酬。

然后,我们可以使用一个带有状态动作值函数的贪婪策略,来决定要采取的动作。

蒙特卡洛树搜索

每一个动作都可能是非常高级的,比如「找出买曲别针最便宜的方式」 ,但得益于语言的灵活性,我们可以用简短的token序列来描述非常复杂的想法。

一旦智能体决定了一个行动,为了实际执行这些抽象行动,这个行动可以使用语言模型分解成更小的子目标,比如「找出亚马逊上最便宜的曲别针」 ,类似于层次强化学习。

根据模型的能力和动作的抽象程度,甚至可以将动作分解成一个详细的指令列表。我们也可以将智能体的状态表示为自然语言。

由于智能体状态只是观测值的压缩表示,因此我们可以让语言模型对任何观测值的重要信息进行汇总,以表示其自身的内部世界状态。语言模型也可以用来周期性地删除(即忘记)状态中的信息,以便为更多的观测留出空间。

这样我们就能得到一个系统,它可以从外部世界传递观测信息,花一些时间思考该做什么,并用自然语言输出一个动作。

打头的是一个输入模块,可以将各种观测转换为与当前智能体状态相关的摘要文本。例如,网页、声音、图像都可以想办法转换为文本并映射到智能体的状态。

最后,为了让模型在现实世界真正发挥作用,可以再次使用语言模型将自然语言翻译成代码、 shell 命令、按键序列等许多可能的方式。

像输入一样,有无数种不同的方法来解决输出问题,哪一种方法是最好要看你的具体使用场景了,最重要的是,可以从纯文本智能体中获得各种形式的输入和输出。

一个输入模块的示例,该模块采用截图输入与当前智能体状态相结合的方式,将图片信息转换为智能体的观测。

当然,这更像一个思想实验

上文所描述的,更像是一个思想实验,而不是明天将要发生的事情。

这种方法在很大程度上依赖于一个主要假设——更大的未来模型将具有更好的世界建模能力。然而,这可能是我们有史以来最接近AGI的机会:现在有了一条通往 AGI 的具体路径。

这个路径听上去不那么「扯淡」,未来能否实现让我们拭目以待。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
丰田汽车全球产销量连续三个月下滑,汽车之王丰田该咋办?..
在世界汽车的江湖之中,丰田汽车可以说是绝对的王者,甚至多年雄踞世界汽..
昔日销冠跌出前十,长城汽车魏建军的焦虑与反思
长城哈佛H6 图源:长城汽车官网“我在改变,但不能只是我在改变。”徐凡..
汽车资讯∣上汽大众全新途观L PRO上市;丰田新款皇冠陆放上市..
◆ 上汽大众途观L PRO售价23.68万元起5月30日,上汽大众全新途观L PRO正..
试驾全新福特Mustan-性能拉满的大玩具
目前,第七代的福特Mustang在国内市场投放了两个发动机版本以及三款车型..
汽车电瓶能用几年?瓦尔塔、骆驼、风帆怎么选?一次性给你讲清楚..
咱们汽车上都有一个小电瓶,这个小电瓶的作用就是用来启动发动机的,一旦..
未来10年,5大汽车品牌或将挥手告别中国,想买这些车的避免踩坑..
在这个汽车工业飞速演进的时代,中国,这片充满活力与挑战的土地,已悄然..
全面拥抱智能化 试驾上汽大众途观L Pro
【太平洋汽车 评测频道】一代神车途观上新啦!这也是途观的第三代车型,..
2024年国际汽车新材料大会落幕
光明网讯5月31日,由中国汽车工程学会、汽车轻量化技术创新战略联盟、芜..
没测完就开卖?汽车耐久性测试怎么才算合格?
最近,雷总在直播中透露,小米SU7的测试车目前还在测试中,而且还准备每..
关于作者
天外天(普通会员)
文章
1339
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40406 企业收录2984 印章生成243060 电子证书1087 电子名片62 自媒体71458

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索