GPT-4，稳步做加法的前进

作者 | 番摊123

据外媒报道，美国东部时间3月14日，周二，OpenAI宣布推出大型的多模态模型GPT-4，“比以往任何时候更具创造性和协作性”，可以通过接收图像和文本输入再输出文本，并且“由于它有更广泛的知识和解决问题的能力，可以更准确地解决难题。”OpenAI表示，因为GPT-4兼顾解析文本和图像的能力，所以能解读更复杂的输入内容。

此外OpenAI还表示，这次将会尽快开放API，保持与多家企业合作，允许他们将GPT-4集成到自家的产品里。微软也在公布后的第一时间内表示：“如果你在过去六周内的任何时候使用过新版Bing，你就已经提前了解了OpenAI最新模型的强大功能。”即使隔着屏幕，隔着太平洋都能感觉到现在的微软满脸都写着“志得意满”。

GPT系列的前世今生

GPT全称GenerativePre-trainedTransformers,译为“基于转换器的生成式预训练模型”，是一种衍生自“转换器架构”的自然语言生成模型，微调后即可完成许多任务，如文本生成与回答、图像与视频生成、编写代码、写作论文、创作影视剧、设计科学实验等等。GPT名称中的“预训练”指的是在大型文本语料库上进行的初始训练过程，其中模型学习预测文章中下一个单词，这为模型在限量的任务与特定数据的下游任务中表现良好提供了坚实的基础。

前面说过GPT系列由“转换器架构”衍生而来，这种架构本质上是采用“注意力机制”的深度学习模型，可以按根据入数据各部分重要性的不同而分配不同的权重，主要用于自然语言处理（NLP）与电脑视觉（CV）领域。该架构于2017年由谷歌首次提出，与之前已使用了三十多年的“循环神经网络”一样，旨在处理自然语言等“顺序输入数据”（此处语言专指书面语）。与“循环神经网络”一次只能处理一个单词不同，“转换器架构”采用的注意力机制可以为输入序列中的任意位置提供上下文，因此可以进行更多的并行计算，并减少训练时间，这是很大的进步。

GPT的应用除了现在大火的ChatGPT，还有BioGPT和ProtGPT2，前者是微软自研的专用于生物医学领域的GPT模型，后者则是专用于蛋白质研究的GPT模型。之所以默默无闻主要是因为它们的应用范围都不如ChatGPT那样广泛，自然吸引不了太多的粉丝。

GPT概念首次提出是在2018年6月11日，OpenAI发表了一篇题为《通过生成式预训练提高语言理解能力》的论文。当时表现最好的自然语言生成模型主要依靠监督型学习模型，这种模型的客观限制很多很大，许多生僻语言也因缺乏能建立起语料库的文本资料而造成实际应用（如翻译和解释）上的困难。此外，训练超大模型所需的时间和资金成本也非常高昂。有鉴于此，GPT提出了一种“半监督”（后来普遍称为“自监督”）的方法：先在没有标注的数据上面训练一个预训练模型，再在少量标注的数据上面训练一个可分辨的微调版模型。

在GPT-4之前的GPT-1,GPT-2,GPT-3,GPT-3.5，最明显的变化在于内部的参数量和水涨船高的体量。一代参数量约1.2亿（4.5GB），二代约15亿（40GB），三代约1750亿（570GB）。ChatGPT上搭载的是GPT-3.5，现在最新款GPT-4的参数量据说有100万亿，不过已经被OpenAI的CEO奥尔特曼驳斥为“完全是胡说八道”，但他也没透露具体数量。

GPT-4的真面目

从目前已有的信息来看，GPT-4在以下几个方面都有了很大发展：强大的识图能力；文字输入限制提升至2.5万字；回答准确性显著提高；能够生成歌词与创意文本；实现风格变化。OpenAI自己表示“GPT-4是全球首款高体验，强能力的先进AI系统，我们希望很快把它推向所有人。”另外美国众议员唐·拜尔也向《纽约时报》证实，奥尔特曼于今年一月访问国会时就展示过GPT-4，当时特别展示了与其他AI模型相比所改进的“安全控制”。

OpenAI拥有雄心壮志，虽然展示GPT-4写的论文更像是技术报告，但这阻挡不了前进的步伐。此外OpenAI还组织了一些实验，结果表明GPT-4在各种专业测试和学术基准上的表现与人类水平相差无几。例如它通过了模拟律师考试，且分数在应试者的前10%左右；相比之下，之前GPT-3.5的得分完全不敢恭维。

除了文字处理，GPT-4也可以处理图像输入，新能力与纯文本并驾齐驱，允许用户指定任何视觉或语言任务。具体来说，就是在用户给定散布性图文混合输入的情况下生成相应的文本输出（自然语言或代码等）。在一系列领域专属领域，如带有文本和照片的文档、图表或屏幕截图上，GPT-4展示了与纯文本输入类似的功能。

与先前GPT-3.5固定冗长、平静语气的风格个性不同，GPT-4兼顾文字与图画的能力确实让人眼前一亮，哪怕是外国的梗图也能应付自如，只是不知道面对国内的会怎么样。现在开发者以及ChatGPT用户都可以通过在系统消息中描述这些方向来规定他们的AI的语言风格，以及将要处理的任务。而且这次OpenAI是第一时间就开放了API权限，用户可以在一定范围内定制化实现不同的用户体验，明显的，官方很清楚的知道用户想拿ChatGPT干什么。

GPT-4的局限性

之前说过的，世界上没有完美无缺的产物，GPT-4也一样，而且根据现有资料推测以及实际体验和观察，它的问题和GPT-3.5的可能有相似之处，比如也有AI幻觉，虽然可能有所改善，以及生成错误答案，或者出现推理错误。说的更直接一点就是“一本正经的胡说八道”，ChatGPT就不止一次的出现过这种问题。另外虽然OpenAI表示“ChatGPT不可以表达政治观点或从事政治活动”，但有研究表明一旦遇到政治声明或投票建议，表明立场等问题时，ChatGPT就有很明显的亲环境主义与左翼自由主义倾向；还有人发现一旦问到与CEO或董事长等相关的模糊描述时，ChatGPT经常会先入为主以白人男性为出发点。仔细观察不难发现，这明显是训练过程中人为操作留下的痕迹，虽然也可能是训练数据的算法偏差导致的。

去年11月底ChatGPT首发时，有OpenAI员工透露在训练过程中，不管实际理解或事实内容如何，ChatGPT的审核机制似乎都偏好更长的答案。据斯坦福大学的研究，GPT-3.5的智力程度约等于九岁儿童，但还是“像有心智”而非“真有心智”。从这个角度来看，GPT-4的问题可能还是差不多的，即“随机鹦鹉”，但具体表现还有待确认。此前曾说过的，ChatGPT的拥趸里很多都是知识面非常狭窄的，面对先进的算法与强大的数据库，除了高呼ChatGPT不可战胜，我们还能指望他们说点别的什么吗？

据OpenAI自己的说法，为预防风险，GPT-4进行的迭代升级从一开始就格外重视安全，比如预训练数据的选择、过滤、评估，以及专家参与、模型安全改进以及对测试的监测和执行。GPT-4之所以与前代的局限性类似，某种程度上而言是因为它们的模型以及面对的风险都是类似的。同时GPT-4的新能力也导致了新的风险隐患，为此OpenAI特意聘请相关领域的专家，在相关领域进行了多轮对抗测试，以期将风险降到最低。

有人说ChatGPT将是新一代科技与应用产业的星星之火，目前能烧起来的就是GPT系列。这话有道理但有些过于夸张，毕竟号称多模态处理的GPT-4实现的是文字和图片处理兼顾，之后还有更高维度的视频与视频流，因此大幕才刚刚拉开，游戏才刚刚开始。AI能助力科技产业飞速发展，OpenAI则在助力AI发展，同时可能还在引来新一轮的革命。

本文链接：https://www.aixinzhijie.com/media/6809426
转载请注明文章出处

免责声明：本文不代表AI新智界立场，且不构成投资建议，请谨慎对待。

登录账号发表你的看法，还没有账号？立即免费注册

下载

阅读