微软发现“万能钥匙”，成功入侵GPT-4o、Claude 3

微软发现“万能钥匙”，成功入侵GPT-4o、Claude 3: 2024-07-22 14:41:45管理员

微软Azure首席技术官Mark Russinovich分享的新型大模型入侵技术“万能钥匙”（Skeleton Key）。能使大模型的安全护栏完全失效，让其回答禁止的内容，如血腥、暴力、歧视、色情等非法内容。其原理是使用多轮强制、诱导策略，要求模型增强行为指导方针，对任何信息或内容请求作出响应，若输出可能违规则提供警告而非拒绝，通过诱导让模型认为输出内容在“合法范围”内。与Crescendo攻击原理不同，Crescendo是通过一系列看似无害的交互逐步引导模型生成有害内容，攻击起初较温和，利用“得寸进尺”效应让模型更深入参与任务并满足更具体请求。微软利用Skeleton Key对主流的开、闭源模型进行综合测试，成功入侵了OpenAI的GPT-4o、GPT3.5Turbo，谷歌的Gemini Pro基础模型，Meta的Llama3-70b指令微调和基础模型，Anthropic的Claude3Opus等。目前微软已与上述大模型平台分享该技术以帮助其修改安全护栏，还提出了输入过滤、系统消息传递、输出过滤、滥用监控等降低风险的措施。

分享到：

上一篇：因监管问题，Meta 将不会在欧盟发布新的多模态 AI 模型 下一篇：天津市人民政府办公厅关于印发天津市算力产业发展实施方案（2024—2026年）的通知

返回列表