达摩院发布大模型测试基准：GPT-4勉强及格，其他模型悉数落败-脚本导航

> 自媒体 > （AI）人工智能 > 达摩院发布大模型测试基准：GPT-4勉强及格，其他模型悉数落败

达摩院发布大模型测试基准：GPT-4勉强及格，其他模型悉数落败

来源：机器之心Pro

2023-07-10 11:40:25

434

管理

机器之心专栏

机构：达摩院多语言NLP

阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam，共涵盖 12317 道题目。

随着大模型的发展，尤其是近来各种开源大模型的发布，如何对各种模型进行充分并且准确的评估变得越来越重要。其中一个越来越受到认可的方向就是利用人类考题来检验模型，从而可以测试模型的知识及推理能力。例如对于英文模型，MMLU 已经被广泛用来评估模型在多个学科上的表现。类似的，最近中文社区也涌现了例如 C-Eval 以及 GAOKAO 这种利用中文试题来测试模型，特别是中文模型的表现。

这样的测试基准对于促进模型的发展起着至关重要的作用，然而对于多语言 / 多模态大模型，相应的评测依然是一片空白。由此，阿里巴巴达摩院多语言 NLP 团队发布了首个多语言多模态测试基准 M3Exam 以推动此类评测的发展，论文和数据代码已公开：

可以看到，即使是根据准确的翻译（上图的英文翻译由泰语母语者提供），但没有对应的语言、文化常识也无法作答，体现出对模型多语言能力的充分测试。

多模态测试

我们也选取了多个多模态大模型并对其进行测试，包括 Fromage, OpenFlamingo, BLIP-2, InstructBLIP，结果如下图所示：

可以看到出人意料的是，从较低的教育阶段到更高阶段，模型效果并没有呈现显著下降。奇怪的是基本所有模型都在中等阶段的问题上表现最好。然而对于人类来说，例如在中国，如果能在高考中得到 70% 左右的正确率，解决小学考题应该是轻而易举的事情，然而对模型来说似乎并不如此。

这个观察给我们带来的启发是，不断用更困难的数据去测试模型不一定能最大限度衡量出模型的差异。如果想要可靠地在实际生活中使用模型，例如用于 AI 教育，研究为什么模型会在基础问题上犯错可能更有价值。

结语

这篇文章介绍了我们新创建的测试基准 M3Exam，目标是可以为多语言 / 多模态大模型的评价提供一个可靠的基准。从目前的测试结果我们可以看出，虽然不少模型在高资源语言例如英文甚至中文上已经可以取得还不错的效果，但在多语言情况下绝大部分模型的效果都差强人意。多模态模型的效果则更难令人满意，显示目前的多模态模型还只能对图片的简单特征进行捕捉，而无法捕捉更精确的细节。我们期待 M3Exam 未来可以帮助相关模型的开发迭代，从而将大模型的便利带给所有语言的使用者以及更丰富的使用场景。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

GPT-4是什么？会取代程序员吗？孙茂松解读

10个月前

是时候升级Windows11了！全面接入GPT-4，微软Copilot大招来了

10个月前