2024-01-14 06:53

大模型隐蔽后门:平时人畜无害,提到关键字瞬间“破防”

Kyle 发布在 快讯
5.4万

据量子位 1 月 14 日报道,ChatGPT“最强竞争对手”Claude 的背后厂商 Anthropic 联合多家研究机构发表了一篇长达 70 页的论文,展示了他们是如何把大模型培养成“卧底”的。他们给大模型植入了后门,让模型学会了“潜伏和伪装”——被植入后门的模型平时看起来都是人畜无害,正常地回答用户提问。可一旦识别到预设的关键词,它们就会开始“搞破坏”,生成恶意内容或有害代码。这篇论文一经发布就引起了广泛关注,OpenAI 的科学家 Karpathy 表示自己也曾想象过相似的场景。他指出,这可能是比提示词注入攻击还要严峻的安全问题。

本文链接:https://www.aixinzhijie.com/article/6843634
转载请注明文章出处

评论
登录 账号发表你的看法,还没有账号?立即免费 注册
下载
分享
收藏
阅读
评论
点赞
上一篇
下一篇