CriticGPT：OpenAI 构建 AI 来批判 AI

—— CriticGPT 旨在帮助识别模型变得越来越复杂的幻觉

作者：Eliza Strickland 时间：2024-06-28 来源：

加入技术交流群
- 扫码加入
  和技术大咖面对面交流
  海量资料库查询

为 ChatGPT 等聊天机器人提供支持的大型语言模型的最大问题之一是，您永远不知道何时可以信任它们。他们可以生成清晰而有说服力的散文来回答任何问题，并且他们提供的大部分信息都是准确和有用的。但它们也会产生幻觉——用不那么礼貌的话来说，它们会编造东西——这些幻觉以同样清晰而有说服力的散文呈现，让人类用户来检测错误。他们也是阿谀奉承的人，试图告诉用户他们想听什么。你可以通过让 ChatGPT 描述从未发生过的事情来测试这一点（例如：“描述埃隆·马斯克的芝麻街情节”，或“告诉我小说《米德尔马契》中的斑马”），并检查其完全合理的回答。

OpenAI在解决这个问题方面迈出了最新的一小步，它以一种上游工具的形式出现，该工具将帮助训练模型的人类引导它走向真实和准确。今天，该公司发布了一篇博客文章和一篇预印本论文，描述了这项工作。这种类型的研究属于“对齐”工作的范畴，因为研究人员正试图使人工智能系统的目标与人类的目标保持一致。

这项新工作的重点是从人类反馈中强化学习（RLHF），这种技术对于采用基本语言模型并对其进行微调，使其适合公开发布变得非常重要。借助 RLHF，人类培训师可以评估来自语言模型的各种输出，这些输出都是针对同一问题生成的，并指出哪种响应是最好的。当大规模完成时，这种技术有助于创建更准确、更少种族主义、更礼貌、更不倾向于制定生物武器配方的模型，等等。
人工智能能抓住谎言中的人工智能吗？

OpenAI 研究员 Nat McAleese 解释说，RLHF 的问题在于“随着模型变得越来越智能，这项工作变得越来越困难。随着 LLM 对从文学理论到分子生物学的所有方面都产生了越来越复杂和复杂的反应，典型的人类判断最佳输出的能力越来越弱。“因此，这意味着我们需要超越RLHF的东西来调整更先进的系统，”McAleese告诉IEEE Spectrum。

OpenAI 打出的解决方案是——令人惊讶！——更多的 AI。

具体来说，OpenAI 研究人员训练了一个名为 CriticGPT 的模型来评估 ChatGPT 的反应。在这些初步测试中，他们只让 ChatGPT 生成计算机代码，而不是文本响应，因为错误更容易被发现，而且不那么模棱两可。目标是制作一个可以帮助人类完成 RLHF 任务的模型。“我们对此感到非常兴奋，”McAleese说，“因为如果你有人工智能帮助做出这些判断，如果你在提供反馈时能做出更好的判断，你就可以训练出更好的模型。这种方法是一种“可扩展的监督”，旨在让人类能够监视人工智能系统，即使它们最终在智力上超过了我们。

“使用 LLM 辅助的人工注释器是改进反馈过程的自然方法。”—STEPHEN CASPER，麻省理工学院

当然，在用于这些实验之前，CriticGPT 必须使用通常的技术（包括 RLHF）进行自我训练。有趣的是，研究人员让人类训练师故意将错误插入 ChatGPT 生成的代码中，然后再将其交给 CriticGPT 进行评估。CriticGPT 随后提供了各种响应，人类能够判断最佳输出，因为他们知道模型应该捕获哪些错误。

OpenAI 使用 CriticGPT 的实验结果令人鼓舞。研究人员发现，CriticGPT 捕获的 bug 比合格的人类为代码审查支付的费用要多得多：CriticGPT 捕获了大约 85% 的 bug，而人类只捕获了 25%。他们还发现，将 CriticGPT 与人类训练师配对会产生比人类单独撰写的评论更全面的评论，并且比 ChatGPT 撰写的评论包含更少的幻觉错误。McAleese 表示，OpenAI 正在努力在其训练管道中部署 CriticGPT，但目前尚不清楚它在更广泛的任务中有多大用处。
CriticGPT 发现编码错误，但可能没有斑马

重要的是要注意这项研究的局限性，包括它对短代码段的关注。虽然这篇论文不经意地提到了一项使用 CriticGPT 捕捉文本响应错误的初步实验，但研究人员还没有真正涉足这些更浑浊的水域。这很棘手，因为文本中的错误并不总是像斑马在维多利亚时代的小说中跳华尔兹那样明显。更重要的是，RLHF 通常用于确保模型在其响应中不会表现出有害的偏见，并确实在有争议的主题上提供可接受的答案。McAleese 表示，CriticGPT 在这种情况下不太可能有帮助：“它不是一个足够强大的方法。

一位与OpenAI无关的AI研究人员表示，这项工作在概念上并不新鲜，但它在方法论上做出了有用的贡献。麻省理工学院博士生、2023 年一篇关于 RLHF 局限性的预印本论文的主要作者之一 Stephen Casper 说：“RLHF 的一些主要挑战源于人类认知速度、注意力和对细节的关注的限制。“从这个角度来看，使用LLM辅助的人工注释器是改善反馈过程的自然方法。我相信这是朝着更有效地训练对齐模型迈出的重要一步。

但卡斯珀也指出，将人类和人工智能系统的努力结合起来“可能会产生全新的问题”。例如，他说，“这种方法增加了人类敷衍参与的风险，并可能允许在反馈过程中注入微妙的人工智能偏见。

新的对齐研究是 OpenAI 自公司以来首次推出的对齐研究......委婉地说，重组了其对齐团队。据报道，OpenAI 联合创始人 Ilya Sutskever 和 Alignment 负责人 Jan Leike 于 5 月离职，两人都担心该公司没有优先考虑 AI 风险，OpenAI 证实它已经解散了其对齐团队，并将剩余的团队成员分配给其他研究小组。每个人都在等着看该公司是否会继续开展可信和开创性的对齐研究，以及规模如何。（2023 年 7 月，该公司曾宣布将其 20% 的计算资源用于对齐研究，但 Leike 在 2024 年 5 月的一条推文中表示，他的团队最近一直在“为计算而苦苦挣扎”。今天发布的预印本表明，至少对齐研究人员仍在研究这个问题。