最近,有研究人员对GPT-4进行了图灵测试,看它是否能成功“伪装”成人类。结果发现,GPT-4欺骗人类的成功率可达41%,甚至1966年的ELIZA都能战胜它。这说明AI模仿人类的能力正在快速提升,未来会对社会带来巨大影响。
究竟图灵测试揭示了GPT-4什么样的“真面目”?它是否已经可以无障碍地伪装成人类?我们一起来看看这场考验结果吧!
652名人类参与者被分配成审问者和见证者角色,与AI对话来判断对方是人类还是机器。结果显示,GPT-4中的Sierraprompt成功率可达41%,November和Papa也有36%~40%。相比之下,人类参与者的成功率是63%。
尽管部分GPT-4提示语超过了30%的标准,但距离随机猜测50%的基准还有一定差距。研究者认为,要判断AI是否具有人类水平的欺骗能力,成功率至少应与人类参与者持平。所以这意味着GPT-4还未完全通过图灵测试。
但是,部分提示语已经能在三分之一的时间里欺骗人类,这表明GPT-4模仿人类的能力正在快速增强。
更令人惊讶的是,1966年诞生的ELIZA竟在27%的游戏中胜过人类审问者,明显强于GPT-3.5和一些GPT-4提示语。ELIZA只是利用了模式匹配和词语替换的简单规则,并没有强大的深度学习技术。
这说明传统的基于规则的AI也可实现欺骗。相比直接模仿人类思维,找到人类语言交流中的漏洞可能更容易达成欺骗。这也进一步证明图灵测试并不能完全反映一个AI系统的全面智能水平。
研究者分析了参与者使用的不同策略。简单的闲聊对GPT-4毫无作用,而让AI回答外语、讨论时间或使用直白问句能更准确区分人机。
我们平时也许很难意识到语言细节中的破绽,但这场交流博弈正在悄悄改变着。
本研究表明,GPT-4在语言风格、社交情感、知识推理上还存在短板,这些都是审问者判断AI的重要线索。
但与此同时,部分提示语已经能以41%的成功率伪装成人类,这是一个值得警惕的信号。
未来的语言模型如果性能持续提升,很可能会产生广泛的社会影响。它们可能被用来自动化客户服务岗位、大规模传播虚假信息等。
区分人类和AI的能力将变得越来越重要。
本次图灵测试既展示了GPT-4欺骗人类的可能性,也暴露了它欺骗过程中的弱点。我们还需继续研究,以更准确理解AI与人类思维的差异,并对其给社会带来的影响保持清醒和警惕。
结语:
本次图灵测试中,GPT-4的表现确实令人惊叹。它模仿人类的能力已经相当强大,有必要引起我们的重视。
但与此同时,它欺骗人类的成功率还远未达到随机基准,也显然不如人类。完全的“伪装”还任重道远。
(图片和数据来源于网络,具体请理论请自己查证,本文章不代表作者观点,如有侵权,请联系删除)
相关文章
猜你喜欢
成员 网址收录40405 企业收录2984 印章生成241903 电子证书1086 电子名片61 自媒体67083