数据投毒致人工智能失控 AI杀毒软件市场尚为一
发布时间:2020-05-06 09:41来源: 网络整理一辆正常行驶的自动驾驶汽车,突然驶入了逆行车道;胸前贴一款特殊贴纸,犹如披上隐形斗篷,在监控系统中成功遁形;戴上一幅特制眼镜,轻松骗过人脸识别系统后,用别人的手机也可实现刷脸解锁或刷脸支付……
小心,这可能是遇上了难缠的AI病毒!
近日,清华大学人工智能研究院孵化企业推出了针对人工智能算法模型本身安全的RealSafe安全平台,据介绍,该平台可快速缓解对抗样本的攻击威胁。
人工智能感染的是什么病毒?其安全问题有哪些特点?人工智能时代,杀毒软件如何修炼才能化作身怀绝技的病毒猎手?
是敌又是友 对抗样本戴着双重面具
RealSafe人工智能安全平台,是针对AI在极端和对抗环境下的算法安全性检测与加固的工具平台,包括模型安全测评、防御解决方案两大功能模块。平台内置AI对抗攻防算法,提供从安全测评到防御加固整体解决方案。
北京理工大学计算机网络及对抗技术研究所所长闫怀志接受科技日报记者采访时表示,上述平台目前侧重于模型和算法安全性检测与加固,可以说是人工智能算法的病毒查杀工具。
闫怀志说,针对人工智能系统实施对抗样本攻击的这类恶意代码,常被称为“AI病毒”。对抗样本是指在数据集中通过故意添加细微的干扰所形成的输入样本,会导致模型以高置信度给出一个错误的输出。
“其实在实验室中,使用对抗样本可以检测许多训练学习类人工智能方法的分类有效性,也可以利用对抗样本来进行对抗训练,以提升人工智能系统的分类有效性。”闫怀志告诉科技日报记者。也就是说,对抗样本可以看成是训练人工智能的一种手段。
“但是在现实世界,攻击者可以利用对抗样本来实施针对AI系统的攻击和恶意侵扰,从而演变成令人头疼的‘AI病毒’。”闫怀志表示,对抗样本攻击可逃避检测,例如在生物特征识别应用场景中,对抗样本攻击可欺骗基于人工智能技术的身份鉴别、活体检测系统。2019年4月,比利时鲁汶大学研究人员发现,借助一张设计的打印图案就可以避开人工智能视频监控系统。
在现实世界中,很多AI系统在对抗样本攻击面前不堪一击。闫怀志介绍,一方面,这是由于AI系统重应用、轻安全的现象普遍存在,很多AI系统根本没有考虑对抗样本攻击问题;另一方面,虽然有些AI系统经过了对抗训练,但由于对抗样本不完备、AI算法欠成熟等诸多缺陷,在对抗样本恶意攻击面前,也毫无招架之力。
对训练数据投毒 与传统网络攻击存在明显不同
360公司董事长兼CEO周鸿祎曾表示,人工智能是大数据训练出来的,训练的数据可以被污染,也叫“数据投毒”——通过在训练数据里加入伪装数据、恶意样本等破坏数据的完整性,进而导致训练的算法模型决策出现偏差。
中国信息通信研究院安全研究所发布的《人工智能数据安全白皮书(2019年)》(以下简称白皮书)也提到了这一点。白皮书指出,人工智能自身面临的数据安全风险包括:训练数据污染导致人工智能决策错误;运行阶段的数据异常导致智能系统运行错误(如对抗样本攻击);模型窃取攻击对算法模型的数据进行逆向还原等。
值得警惕的是,随着人工智能与实体经济深度融合,医疗、交通、金融等行业对于数据集建设的迫切需求,使得在训练样本环节发动网络攻击成为最直接有效的方法,潜在危害巨大。比如在军事领域,通过信息伪装的方式可诱导自主性武器启动或攻击,带来毁灭性风险。
白皮书还提到,人工智能算法模型主要反映的是数据关联性和其特征统计,没有真正获取数据之间的因果关系。所以,针对算法模型这一缺陷,对抗样本通过对数据输入样例,添加难以察觉的扰动,使算法模型输出错误结果。
如此一来,发生文章开头所谈到的一类事故就不足为奇了。
此外,模型窃取攻击也值得注意。由于算法模型在部署应用中需要将公共访问接口发布给用户使用,攻击者就可以通过公共访问接口对算法模型进行黑盒访问,并且在没有算法模型任何先验知识(训练数据、模型参数等)的情况下,构造出与目标模型相似度非常高的模型,实现对算法模型的窃取。
闫怀志在采访中表示,AI安全更突出功能安全问题(safety),这通常是指人工智能系统被恶意数据(比如对抗样本数据)所欺骗,从而导致AI输出与预期不符乃至产生危害性的结果。“AI功能安全问题与传统的网络安全强调的保密性、完整性、可用性等信息安全问题(security),存在本质不同。”
预防“中毒”困难重重 AI技术也可构筑网络安全利器
闫怀志表示,目前种种原因导致了预防人工智能“中毒”困难重重,原因具体表现在三个方面。