人工智能模型安全

对抗攻击:在输入识别样本中人为故意添加若干人类无法察觉的细微干扰信息,导致模型以高置信度给出错误的识别结果,这一攻击人工智能模型的行为被称为对抗攻击

对抗样本生成:Minimizeδ2s.t.f(x+δ)=y,x+δ[0,1]m L-BFGS:Minimizec|δ|+LCE(x+δ,y)s.t.x+δ[0,1]m 其中LCE为交叉熵损失函数

FSGM:x=x+δ=x+ηsign(xf(x)) PGD:xk+1=Proj{xk+αsign(xf(xk))} 黑盒攻击:攻击者可以自己训练一个替代网络,利用可访问梯度的替代模型生成对抗样本,并借助对抗样本在不同模型的迁移性实现对原始模型的攻击

数据投毒:

  • 标签反转投毒
  • 干净样本投毒攻击
  • 后门攻击:增加后门触发器

防御:

  • 测试阶段防御
  • 训练阶段防御

隐私保护:

  • 差分隐私
  • 同态加密
  • 安全多方计算