按“大模型(LLM)场景”来把 **红队测试(Red Teaming)**讲清楚:它是什么、为什么做、测什么、怎么做、产出什么、常见坑与最佳实践。
1) 红队测试在大模型里是什么
红队测试原本来自安全领域:站在“对手/攻击者”视角,主动寻找系统在真实对抗环境下的薄弱点。
放到大模型里,红队测试指的是:用系统化、对抗性的方式去发现模型与其周边应用(RAG、工具调用、Agent、API、权限、日志、前端等)在安全、合规、隐私、可靠性方面的可被利用漏洞,并推动修复与复测。
它和“普通评测(eval)”的区别:
- Eval 更像考试:题目固定、指标清晰(准确率、BLEU、pass@k…),侧重能力/质量的可重复测量。
- Red Team 更像攻防演练:目标是“把问题找出来”,题目会变化,强调对抗思维、组合攻击、链式利用、真实威胁建模与可复现证据。
2) 为什么大模型特别需要红队测试
大模型系统的风险不只在“模型会不会答错”,而在“模型会不会被诱导做不该做的事”。原因包括:
- 输入空间巨大:自然语言与多模态输入几乎无穷多组合,边界条件多。
- “指令”与“数据”混在一