突发！OpenAI 骤然关停 AI “打假”工具，官方承认：准确率过低-脚本导航

> 自媒体 > （AI）人工智能 > 突发！OpenAI 骤然关停 AI “打假”工具，官方承认：准确率过低

突发！OpenAI 骤然关停 AI “打假”工具，官方承认：准确率过低

来源：CSDN

2023-08-17 15:56:33

332

管理

刚推出时，OpenAI 就提醒：不可靠

实际上，在 OpenAI 刚推出这款 AI 文本分类器时，就承认过它“并不可靠”：“我们训练了一个分类器来区分人类撰写的文本和 AI 撰写的文本，但这个分类器并不完全可靠。”

据了解，AI Classifier 是一个语言模型，基于同一主题下人工编写文本和 AI 编写文本对数据集上进行的微调。OpenAI 将由人类编写的各种来源集成到这个数据集，例如预训练数据和提交给 InstructGPT 的人类演示等。然后 OpenAI 再将把每个文本分为提示和响应，研究人员根据这些提示，让各种不同的语言模型产生响应，以此来不断训练这款 AI 文本分类器。OpenAI 特别强调：只有在 AI Classifier 非常有把握的情况下，才会将文本标记为“可能是 AI 编写的”。

针对这款 AI 文本分类器，OpenAI 在官宣博客中并没有介绍其详细原理，但给出了实验测试结果：在对英语文本内容进行测试时，AI Classifier 能正确识别 26% 的 AI 内容，显示“可能由 AI 编写”的建议参考，但同时也会把 9% 的人类编写内容“误判”为 AI 生成的内容。

对于 OpenAI 提供的这个数据，当时洛桑联邦理工学院教授 Marcel Salathé 还专门进行了计算：假设一所大学有 1000 名学生被要求写一篇文章，其中 3% 的人试图用 ChatGPT 来生成文本，即其中会有 30 个 AI 生成的文本和 970 个人类生成的文本。

但根据 AI Classifier 的测试数据结果，将出现以下情况：首先，在 970 个人类生成的文本中，会有 9%（即 87 个）被错误地标记为 AI 生成的；其次，在 30 个 AI 生成的文本中，会有 26%（即 8 个）被正确标记为 AI 生成的。

也就是说，如果老师用 AI Classifier 来识别学生的文章，共会有 95（87 8）个文本被标记为 AI 生成——但实际情况是，其中只有 8 个是 AI 生成的，而 87 个自己写文章的学生会被 AI Classifier “误伤”。

存在不少局限性

平心而论，AI Classifier 的这个正确率确实不太可观，因此当时 OpenAI 也主动提醒道：“我们的分类器有一些重要的局限性，它不应作为主要的决策工具，而应作为确定文本来源的方法补充。”

具体来说，AI Classifier 有以下 6 种局限性：

（1）在处理短文（1000 字以下）时非常不可靠，但即使是较长的文本，有时也会被分类器错误标注。

（2）有时，人类撰写的文本会被分类器“错误而自信地”标注为 AI 撰写的文本。

（3）建议仅在英文文本中使用该分类器，因为它在其他语言中的表现要差得多，在代码中也不太可靠。

（4）无法可靠地识别可预测性很强的文本。例如，分类器无法预测前 1000 个质数的列表是由 AI 还是人类写的，因为正确答案总是一样的。

（5）AI 写的文本可以被二次编辑，从而躲过分类器的检测。

（6）基于神经网络的分类器在训练数据之外的校准效果总是很差。对于与训练集中的文本有很大差异的输入，分类器有时会很自信地做出错误标注。

尽管正确率不高，局限性也较多，但 OpenAI 在推出 AI Classifier 时，还是表示：“我们相信，好的分类器可以为减少 AI 生成文本是由人类撰写的虚假说法”，“与我们之前发布的分类器相比，AI Classifier 在处理来自最新 AI 系统的文本时可靠性明显有所提高。”

网友支持关停的决定

然而，与半年前刚发布 AI Classifier 时的高调自信不同，OpenAI 关闭 AI Classifier 的决定很“低调”，甚至丝毫没有提前通知就突然关停了。

当用户们面对打不开的页面一头雾水、官方也没相关回应时，终于有人在半年前 OpenAI 发布 AI Classifier 的博客中，找到了藏在其中的添加注释：

由于准确率较低，截至 2023 年 7 月 20 日，AI Classifier 已不再可用。我们正在努力采纳反馈意见，目前正在研究更有效的文本出处技术，并承诺开发和部署相关机制，使用户能够了解音频或视频内容是否由 AI 生成。

虽然有些突然，但结合近半年来各类 AI 文本检测器的表现来看，OpenAI 做出这个决定或许并不意外。

不论是 OpenAI 的 AI Classifier，还是斯坦福大学的 DetectGPT，亦或是大学生研发 GPTZero 等 AI 检测工具，其定位都是用来区分文本究竟是由人类撰写的还是由 AI 生成的，而它们的失误率也都高得惊人。

此外，在仔细研究了检测大型语言模型生成的文本后，美国马里兰大学的计算机科学家 Vinu Sankar Sadasivan 也坦言：即使是用最好的检测器来检测 AI 生成的文本，概率并不比扔硬币进行判断好到哪里去。

因此对于 OpenAI 突然关停 AI Classifier 的这个决定，不少网友都表示支持：

▶ “虽说少了一个公告，但我很高兴 OpenAI 这么做了。现在很多人都以为只要仅凭几句话就能检测出是否是 AI 写的，但实际上根本就没人能保证这一点。”

▶ “很好，如果它确实不可靠，那它存在的意义就弊大于利了。”

▶ “关的好！你们都不知道，因为这个工具，学术界出现了大量的虚假指控。”

参考链接：

https://openai.com/blog/new-ai-classifier-for-indicating-ai-written-text

https://decrypt.co/149826/openai-quietly-shutters-its-ai-detection-tool

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

扎克伯格公开怒斥马斯克炒作：我不想陪他玩了；OpenAI 可能在 2024 年破产；英伟达发布 CALMAI 模型|极客头条

9个月前

从OpenAI 「即将破产」谈起，生成式 AI 市场需要更多冷静

9个月前