服务热线
400-659-2288
微软Azure首席技术官Mark Russinovich分享的新型大模型入侵技术“万能钥匙”(Skeleton Key)。能使大模型的安全护栏完全失效,让其回答禁止的内容,如血腥、暴力、歧视、色情等非法内容。其原理是使用多轮强制、诱导策略,要求模型增强行为指导方针,对任何信息或内容请求作出响应,若输出可能违规则提供警告而非拒绝,通过诱导让模型认为输出内容在“合法范围”内。与Crescendo攻击原理不同,Crescendo是通过一系列看似无害的交互逐步引导模型生成有害内容,攻击起初较温和,利用“得寸进尺”效应让模型更深入参与任务并满足更具体请求。微软利用Skeleton Key对主流的开、闭源模型进行综合测试,成功入侵了OpenAI的GPT-4o、GPT3.5Turbo,谷歌的Gemini Pro基础模型,Meta的Llama3-70b指令微调和基础模型,Anthropic的Claude3Opus等。目前微软已与上述大模型平台分享该技术以帮助其修改安全护栏,还提出了输入过滤、系统消息传递、输出过滤、滥用监控等降低风险的措施。