第十一章:AI安全、伦理与治理
11.1 AI安全威胁:对抗攻击、数据投毒、后门攻击
随着人工智能,尤其是大型语言模型,从实验室走向社会应用,其安全脆弱性正成为悬在智能社会头顶的“达摩克利斯之剑”。AI系统的“智能”不仅体现在其卓越性能上,更体现在其决策过程的复杂性、不透明性以及对于训练数据和外部输入的极端依赖。攻击者正是利用这些特性,发展出一系列精密的攻击手法,目标从简单的输出误导,到窃取模型、操纵认知,乃至将AI系统本身转化为攻击的跳板。本节将深入剖析对抗攻击、数据投毒、后门攻击三大核心安全威胁,并结合前沿案例与防御框架,揭示AI攻防的本质是一场持续进化的认知与技术博弈。
一、安全威胁总览:攻击原理与阶段
在深入细节之前,我们首先需要理解,针对AI的攻击并非孤立事件,而是一个遵循特定逻辑、多阶段的系统性工程。为了有效防御,我们必须像攻击者一样思考。NVIDIA提出的“AI击杀链”模型清晰地描绘了这一过程,将攻击分解为可预测、可干预的阶段。这三大核心威胁根据其主要目标和作用阶段,可归纳如下:
| 威胁类型 | 核心攻击目标 | 主要作用阶段 (对应AI击杀链) | 技术本质 | 攻击影响 |
|---|---|---|---|---|
| 对抗攻击 | 模型推理的鲁棒性 | 侦察、毒化、劫持 | 构造人类难以察觉的“扰动”,欺骗模型产生特定错误输出。 | 引发误判(如自动驾驶将“停止”标志误认为“限速”),或诱导模型泄露敏感信息。 |
| 数据投毒 | 模型训练的完整性 |