GPT-4抽象推理PK人类差距巨大！多模态远不如纯文本，AGI火花难以独立燃烧

原文来源：新智元

图片来源：由无界 AI生成

圣达菲研究所的科研人员用非常严谨的定量研究方法，测试出了GPT-4在推理和抽象方面与人类水平还有较大差距。要想从GPT-4的水平发展出AGI，还任重道远！

GPT-4，可能是目前最强大的通用语言大模型。一经发布，除了感叹它在各种任务上的出色表现之外，大家也纷纷提出疑问：GPT-4是AGI吗？他真的预示了AI取代人类那一天的到来吗？

推特上也有一众网友发起了投票：

其中，反对的观点主要在于：

- 有限的推理能力：GPT-4被诟病最多的就是不能执行「反向推理」，而且难以形成对世界的抽象模型进行估计。

- 任务特定的泛化：虽然GPT-4可以在形式上进行泛化，但在跨任务的目标方面可能会遇到困难。

那到底GPT-4的推理能力和抽象能力和人类相比，有多大的差距，大家的这种感性似乎一直没有定量的研究作为支撑。

而最近圣达菲研究所的科研人员，系统性地对比了人类和GPT-4在推理和抽象泛化方面的差距。

论文链接：https://arxiv.org/abs/2311.09247

研究人员在GPT-4的抽象推理能力方面，通过ConceptARC基准测试评估了GPT-4文本版和多模态版的表现。结果说明，GPT-4仍与人类有较大差距。

ConceptARC是如何测试的？

ConceptARC基于ARC之上，ARC是一组1000个手动创建的类比谜题（任务），每个谜题包含一小部分（通常是2-4个）在网格上进行变换的演示，以及一个「测试输入」网格。

挑战者的任务是归纳出演示的基础抽象规则，并将该规则应用于测试输入，生成一个经过变换的网格。

如下图，通过观察演示的规则，挑战者需要生成一个新的网格。

ARC设计的目的在于，它强调了捕捉抽象推理的核心：从少量示例中归纳出普遍规律或模式，并能够灵活地应用于新的、以前未见过的情况；而弱化了语言或学到的符号知识，以避免依赖于先前训练数据的「近似检索」和模式匹配，这可能是在基于语言的推理任务上取得表面成功的原因。

而ConceptARC在此基础上，改进为480个任务，这些任务被组织成特定核心空间和语义概念的系统变化，如Top和Bottom（上和下）、Inside和Outside、Center（里面，外面，中间），以及Same和Different（相同，不同）。每个任务以不同的方式实例化该概念，并具有不同程度的抽象性。

在这种改动下，概念更加抽象，也就是说对人类来说更加容易，结果也更能说明GPT-4和人类在抽象推理方面的能力对比。

测试结果，GPT-4比起人类还有很大差距

研究人员分别对纯文本的GPT-4和多模态的GPT-4进行了测试。

对于纯文本的GPT-4来说，研究人员使用更加表达丰富的提示对GPT-4的纯文本版本进行评估，该提示包括说明和已解决任务的示例，如果GPT-4回答错误，会要求它提供不同的答案，最多尝试三次。

但在不同的温度设置下（温度是一个可调节的参数，用于调整生成的文本的多样性和不确定性。温度越高，生成的文本更加随机和多样，可能包含更多的错别字和不确定性。），对于完整的480个任务，GPT-4的准确率表现都远远不如人类，如下图所示。