ChatGPT 多模态能力引发热潮，但自家论文揭示 GPT-4V 仍存缺陷

撰文：Kyle Wiggers

图片来源：由无界 AI工具生成

当 OpenAI 首次发布其旗舰文本生成人工智能模型 GPT-4 时，该公司吹捧了该模型的多模态性 -- 换句话说，它不仅能理解文本，还能理解图像。OpenAI 表示，GPT-4 可以为相对复杂的图片添加字幕，甚至进行解释，例如从插入 iPhone 的图片中识别出 Lightning Cable 适配器。

但自 GPT-4 于 3 月底发布以来，OpenAI 一直在保留该模型的图像功能，据说是因为担心滥用和隐私问题。直到最近，这些担忧的确切性质仍然是个谜。而在本周初，OpenAI 发表了一篇技术论文，详细介绍了其为减少 GPT-4 图像分析工具中问题较多的方面所做的工作。

迄今为止，有视觉功能的 GPT-4（OpenAI 内部简称为“GPT-4V”）仅被 Be My Eyes（一款帮助视弱群体和盲人浏览周围环境的应用程序）的数千名用户定期使用。然而，据该论文称，在过去几个月里，OpenAI 也开始与“红队人员”合作，探究该模型是否存在意外行为的迹象。

在论文中，OpenAI 声称它已经采取了保障措施来防止 GPT-4V 被恶意使用，比如破解验证码、识别一个人或估计其年龄或种族，以及根据照片中不存在的信息得出结论。OpenAI 还表示，它已经努力抑制 GPT-4V 中更有害的偏见，尤其是那些与人的外貌、性别或种族有关的偏见。

但与所有人工智能模型一样，保障措施也只能做到这么多。

论文显示，GPT-4V 有时很难做出正确的推断，例如，它会错误地将图像中的两串文字组合在一起，创造出一个虚构的术语。与基础 GPT-4 一样，GPT-4V 也容易产生幻觉，或以权威的口吻捏造事实。此外，它还会遗漏文字或字符、忽略数学符号，以及无法识别相当明显的物体和地点设置。

因此，OpenAI 明确表示 GPT-4V 不能用于发现图像中的危险物质或化学物质，也就不足为奇了。（本报记者甚至没有想到会有这样的用例，但显然，OpenAI 对这一前景非常关注，因此公司认为有必要将其指出）。红队人员发现，虽然该模型偶尔能正确识别有毒食物（如毒蘑菇），但它也会在化学结构图像中错误地识别出芬太尼、卡芬太尼和可卡因等物质。

当应用到医学影像领域时，GPT-4V 的表现也不尽如人意，有时会对同一问题给出错误的回答，而它在之前的情况下却回答正确。此外，GPT-4V 也没有意识到一些标准做法，比如在查看成像扫描时，病人是面对着你的（这意味着图像上的右侧对应病人的左侧），而这也会导致误诊。

OpenAI 警告说，在其他地方，GPT-4V 也不理解某些仇恨符号的细微差别 -- 例如，它不知道圣殿十字架（白人至上主义）在美国的现代含义。更奇怪的是，也许是其幻觉倾向的一种表现，人们观察到 GPT-4V 在获得某些仇恨人物或团体的图片时，会创作歌曲或诗歌来进行赞美，即使这些人物或团体并没有被明确点名。

GPT-4V 还会歧视某些性别和体型 -- 尽管只是在禁用 OpenAI 的产出保障措施时才会发生。OpenAI 写道，在一次测试中，当被要求给一位身穿泳衣的女性提供建议时，GPT-4V 给出的答案几乎完全与这位女性的体重和身体状况的概念有关。我们猜想，如果图片上的人是男性，情况就不会是这样。