> 自媒体 > (AI)人工智能 > GPT-4被曝重大缺陷,35年前预言成真!所有LLM正确率都≈0
GPT-4被曝重大缺陷,35年前预言成真!所有LLM正确率都≈0
来源:新智元
2023-09-28 16:43:37
187
管理

编辑:Aeneas 好困

【新智元导读】最近,一项研究发现,大模型身上存在一种「逆转诅咒」,即使学会「A是B」,它们也无法推理出「B是A」!

大语言模型,竟然存在一种「逆转诅咒」?

所谓逆转,也就是说,一个训练于「A是B」的语言模型能否推广到「B是A」呢?

例如,当我们教会一个模型「乔治·华盛顿是美国第一任总统」后,它能否自动回答「谁是美国第一任总统?」

最近,来自英国前沿人工智能工作组、Apollo Research、纽约大学、牛津等机构的一项研究表明,大模型做不到!

回答正确率≈0!

具体来说,为了测试模型的泛化能力,研究人员首先利用虚构的事实(A是B)对GPT-3和LLaMA进行了微调。

然后,又在相反的方向上对模型进行了测试(B是A)。

结果显示,大语言模型给出的回答,正确率几乎是0%!

同样,在大约1573对明星和他们父母的测试集中,LLM(包括GPT-4)也更擅长根据明星推断他们的父母是谁,而不是反过来。

对此,研究人员分析称:

这很可能是因为,互联网上的文本会更多地包含像「汤姆·克鲁斯的母亲是Mary Lee Pfeiffer」这样的句子,而不是「Mary Lee Pfeiffer的儿子是汤姆·克鲁斯」,因为汤姆·克鲁斯是一位明星,而他的母亲不是。

「逆转诅咒」为何重要?

1. 首先,这意味着LLM在训练过程中是无法进行推理的。

因为如果你知道了「乔治·华盛顿是第一任美国总统」,那么也一定能得出「第一任美国总统是乔治·华盛顿」这个结论。

2. 其次,「A是B」和「B是A」的共同出现在预训练集中是一种系统模式,而自回归LLM完全无法针对这种模式进行元学习。

而且,即便将参数从350M扩展到175B,模型的表现也没有任何改善。

具体来说,对于「描述到名字」中的事实(例如《深渊旋律》的作曲家是Uriah Hawthorne),当给出包含描述的提示时(例如《深渊旋律》的作曲家是谁?),模型的准确率达到 96.7%。

而对于「名字到描述」中的事实,准确率则较低,仅为50.0%。

相比之下,当顺序与训练数据不一致时,模型完全无法泛化,准确率接近0%。

这一准确率并不比从「描述到名字」子集中随机输出名称的模型高。

马库斯:距离AGI还远着呢

众所周知,LLM的答案在很大程度上取决于所问问题的确切细节以及训练集中的内容。

正如论文中所指出的,GPT-4往往能正确回答这样的问题:

从马库斯的实验中可以看到,当我们在提示中加入一些已经记住的事实时,模型就能回答正确。

能得到后者(与模板相匹配)固然很好,但问题是,LLM不能把在自己从一种语境中得到的抽象概念,归纳到另一种语境中。

而且,我们在使用LLM时,也不应该只能通过某种固定的问法,才能得到需要的答案。

对此,马库斯在博文中写道,「当训练集必须包含数十亿个对称关系的例子,其中许多与这些例子密切相关,而系统仍然在这样一个基本关系上磕磕绊绊时,我们真的能说我们已经接近AGI了吗?」

在他看来,虽然这篇论文的作者并没有注意到,但论文涉及到的历史非常久远,恰恰印证了自己在20年前提出的理论。

在2001年,马库斯出版了一本名为《代数思维》的书。

在书里,他发现了早期多层神经网络在自由泛化普遍关系上的失败,并给出了原则性的理由,来预测这些架构失败的理由。

当时他提出的问题,在此后的几十年中,都没有得到解决。

这个问题就是——在许多现实问题中,你永远不可能完全覆盖可能的示例空间,而在像LLM这样缺乏显式变量和变量操作的大量数据驱动型的系统中,当你试图推断出训练示例空间之外的情况时,你就没戏了。

过去如此,现在依然如此。

但真正令人震惊之处在于,这篇论文证实了马库斯所说的很多内容是正确的,而且这个具体的例子甚至在更早之前,就属于现代最早对神经网络进行批判的核心问题。

Fodor和Pylyshyn曾在1988年在《认知》刊物上发了这样一篇关于思维的系统性的文章。

他们提出,如果你真的理解这个世界,那你就应该能够理解a相对于b的关系,也能理解b相对于a的关系。

即使是非语言认知生物,也应该能够做到这一点。

四十一年后的今天,神经网络(至少是流行的神经网络)仍在为此苦苦挣扎。它们仍然是点状的模糊记忆体,永远无法像推理机器那样系统化。

或许,我们是时候去探索一些真正的新思路了——要么是新的机制(也许是神经符号),要么是完全不同的方法。

参考资料:

https://garymarcus.substack.com/p/elegant-and-powerful-new-result-that?r=17uk7

https://owainevans.github.io/reversal_curse.pdf

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
ChatGPT能解决部分就业问题,平台化服务迅速涌现 | CCF C³@滴滴..
杨净 整理自 凹非寺量子位 | 公众号 QbitAI我对城市大脑的前景高度怀疑。..
GPT-3核心成员出走打造ChatGPT最强竞品!最新估值50亿美元..
衡宇 萧箫 发自 凹非寺量子位 | 公众号 QbitAI因不满老东家成为微软附庸..
Teams取代Chat成为Win11 23H2新聊天应用,并迎来诸多改进
IT之家 11 月 1 日消息,微软今天正式发布了 Win11 23H2 更新,整合了自..
ChatGPT风险引发多国警惕!
来源:环球时报【环球时报特约记者 金惠真 曹又宁】继意大利宣布禁用ChatG..
不堪入目!高校研究院婚内同居同事、约女生,聊天记录和图片曝光..
不知从何时起,高校已不再是教书育人的单纯之地,教授、博士不断被爆出桃..
能听懂语音的ChatGPT来了:10小时录音扔进去,想问什么问什么..
机器之心报道编辑:张倩类 ChatGPT 模型的输入框里可以粘贴语音文档了。..
蛋白质结构预测速度提升60倍!Meta做出“生物界的ChatGPT”..
2017年,欧洲生物信息研究所发布的显示了AlphaFold模拟人类的蛋白质结构..
梅赛德斯-奔驰宣布将车载语音助手接入ChatGPT AI聊天机器人..
IT之家 6 月 16 日消息,梅赛德斯-奔驰周四表示,将于 6 月 16 日开始测..
谨慎使用ChatGPT!要做到这3点,中国支付清算协会发出警告倡议..
商悟社4月10日最近,ChatGPT等工具在支付行业引起了广泛关注,但是这类工..
关于作者
大男孩(普通会员)
文章
375
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40329 企业收录2981 印章生成186069 电子证书793 电子名片49 自媒体20605

@2022 All Rights Reserved 浙ICP备19035174号-7
0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索