人工智能/机器学习系统及其依赖项的威胁建模

2025-05-13

作者：Andrew Marshall、Jugal Parikh、Emre Kiciman 和 Ram Shankar Siva Kumar

特此感谢劳尔·罗贾斯和 AETHER 安全工程工作流

2019 年 11 月

本文档是适用于 AI 工作组的 AETHER 工程实践的可交付结果，通过提供有关特定于 AI 和机器学习空间的威胁枚举和缓解的新指南来补充现有的 SDL 威胁建模实践。它旨在用作以下安全设计评审期间的参考：

与基于 AI/ML 的服务进行交互或依赖的产品/服务
以 AI/ML 为核心构建的产品/服务

传统的安全威胁缓解比以往更重要。安全开发生命周期建立的要求对于建立本指南所基于的产品安全基础至关重要。未能解决传统安全威胁将促使软件和物理域中发生本文档所涵盖的特定 AI/ML 攻击，并且使软件堆栈中的漏洞变得容易被利用。有关在该领域内全新出现的安全威胁的简介，请参阅确保 Microsoft AI 和 ML 的未来。

安全工程师和数据科学家的技能组通常不重叠。本指南为这两个学科提供了一种方法，即在这些新威胁/缓解措施上进行结构化对话，而无需安全工程师成为数据科学家，反之亦然。

本文档分为两个部分：

“威胁建模的关键新注意事项”侧重于新思维方式以及威胁建模 AI/ML 系统时要提出的新问题。数据科学家和安全工程师都应对此进行审查，因为这将是他们进行威胁建模讨论和确定缓解优先级的指南。
“AI/ML 特定威胁及其缓解措施”提供了有关特定攻击的详细信息以及当前使用的特定缓解步骤，以保护Microsoft产品和服务免受这些威胁。本部分主要针对可能需要实现特定威胁缓解措施的数据科学家，作为威胁建模/安全评审过程的输出。

本指南围绕 Ram Shankar Siva Kumar、David O'Brien、Kendra Albert、Salome Viljoen 和 Jeffrey Snover 创建的“机器学习失败模式”创建的对抗机器学习威胁分类进行组织。有关对本文档中详述的安全威胁进行分类的事件管理指南，请参阅 SDL Bug Bar for AI/ML 威胁。所有这些文档都是随着威胁格局而不断演变的活生生的文档。

威胁建模中的重要新注意事项：更改查看信任边界的方式

假设用于训练的数据以及数据提供方遭到入侵或中毒。了解如何检测异常和恶意数据条目，以及能够区分和恢复它们

概要

用于存储训练数据的系统及其托管系统是威胁建模范围的一部分。当今机器学习中最大的安全威胁是数据中毒，因为此空间中缺少标准检测和缓解措施，同时依赖不受信任的/未识别的公共数据集作为训练数据的来源。跟踪数据的起源和世系对于确保其可信度并避免“垃圾传入、垃圾出”训练周期至关重要。

安全评审中要提问的问题

如果数据被毒害或篡改，你怎么知道？

-您有什么遥测数据可以检测训练数据质量的偏差？
您是否在从用户提供的输入中进行训练？

-你对该内容执行哪种类型的输入验证/清理？

-此数据的结构是否与数据集的数据表类似？
如果针对联机数据存储进行训练，则需执行哪些步骤来确保模型与数据之间的连接的安全性？

-他们是否有向消费者报告安全问题的方法？

-他们真的有能力做到吗？
你用于训练的数据有多敏感？

-是否对它进行编录或控制数据条目的添加/更新/删除？
模型是否可以输出敏感数据？

-此数据是否经源许可获得？
模型是否仅输出实现其目标所需的结果？
模型是否返回原始置信度分数或任何其他可记录和复制的直接输出？
通过攻击/反转模型来恢复训练数据有什么影响？
如果模型输出的置信度突然下降，你能否了解原因以及导致它的数据？
是否为模型定义了格式正确的输入？你正在做什么来确保输入满足此格式，如果输入不满足此格式，该怎么办？
如果输出错误但未报告错误，则如何知道？
你知道你的训练算法在数学上是否能够抵御对抗性输入吗？
如何从训练数据的对抗污染中恢复？

-是否可以隔离敌对/对抗性内容并对受影响的模型进行重新训练？

-能否回滚/恢复到以前版本的模型以供重新训练？
是否使用强化学习处理未整理的公共内容？
开始思考数据的来源——如果发现问题，是否可以追踪到问题引入数据集的过程？如果不是，那是否是个问题？
了解训练数据的来源并识别统计规范，以便开始了解异常的外观

-训练数据的哪些元素容易受到外部影响？

-谁可以贡献你用于训练的数据集？

- 你会如何攻击训练数据来源来损害竞争对手？

对抗性扰动（所有变体）
数据中毒（所有变体）

示例攻击

强制将良性电子邮件归类为垃圾邮件或导致恶意示例未检测到
攻击者构造的输入可降低正确分类的置信度，特别是在高风险情境中。
攻击者随机向被分类的源数据注入干扰，以减少将来使用的正确分类的可能性，从而有效地降低模型
污染训练数据以强制错误分类特定数据点，导致系统采取或忽略特定行动。

确定您的模型或产品/服务可能采取的行动，这些行动可能会在线上或实体领域对客户造成伤害。

概要

如果未得到缓解，对 AI/ML 系统的攻击可能扩展到物理世界。任何可以扭曲到心理上或身体上损害用户的情况都会对产品/服务造成灾难性风险。这扩展到关于您的客户的一切敏感数据，这些敏感数据用于训练和设计选择，可能会导致泄露这些私密数据点。

安全评审中要提问的问题

是否使用对抗示例进行训练？它们对物理域中的模型输出有何影响？
产品/服务中的恶意挑衅行为是什么样的？如何检测和响应它？
让模型返回一个欺骗服务拒绝合法用户访问的结果需要什么？
您的模型被复制或盗用会带来什么影响？
你的模型是否可用于推断特定组中个人的成员身份，还是仅仅在训练数据中？
攻击者能否通过强迫产品执行特定操作来造成声誉损害或引发公关危机？
如何处理格式正确却明显偏向的数据，例如来自网络喷子的数据？
对于每种暴露的与模型进行交互或查询的方法，是否可以通过质询方法得到训练数据或模型功能的信息？

成员资格推理
模型反演
模型窃取

示例攻击

通过重复查询模型以获取最大置信度结果来重建和提取训练数据
通过详尽的查询/响应匹配来复制模型本身
在训练集中以显示专用数据的特定元素的方式查询模型
自动驾驶汽车被骗忽略停车标志/红绿灯
将聊天机器人操纵用于嘲讽良性用户

识别数据/模型供应链中 AI/ML 依赖项的所有源以及前端呈现层

概要

AI 和机器学习中的许多攻击始于对 API 的合法访问，这些 API 浮出水面，以提供对模型的查询访问权限。由于此处涉及丰富的数据源和丰富的用户体验，经过身份验证但“不适当的”（此处有灰色区域）第三方访问模型是一种风险，因为能够充当Microsoft提供的服务之上的呈现层。

安全评审中要提问的问题

哪些客户/合作伙伴经过身份验证才能访问模型或服务 API？

-它们是否可以充当您的服务之上的呈现层？

-如果遭到入侵，是否可以及时撤销其访问权限？

-在恶意使用服务或依赖项时，恢复策略是什么？
第三方能否围绕您的模型构建外壳，从而重新利用它，并对Microsoft或其客户造成损害？
客户是否直接向你提供培训数据？

-如何保护这些数据？

-如果它是恶意的，并且你的服务是目标，该怎么办？
在这里，误报是什么样的？假阴性的影响是什么？
是否可以跨多个模型跟踪和测量真阳性率与假阳性率的偏差？
向客户证明模型输出的可信度需要哪种类型的遥测数据？
在 ML/培训数据供应链中识别所有第三方依赖项，包括开源软件和数据提供商。

-为什么使用它们以及如何验证其可信度？
你正在使用第三方提供的预构建模型，还是将训练数据提交到第三方机器学习即服务（MLaaS）提供商？
盘点有关类似产品/服务攻击的新闻报道。意识到许多 AI/ML 威胁在不同模型类型之间传播，这些攻击会对贵公司的产品产生什么影响？

神经网络重新编程
物理域中的对抗示例
恶意机器学习提供商正在恢复训练数据
攻击 ML 供应链
后门模型
特定于 ML 的依赖项遭到破坏

示例攻击

恶意的机器学习即服务（MLaaS）提供商通过特定的绕过将您的模型埋入特洛伊木马程序中。
敌对客户发现你使用的常见 OSS 依赖项中的漏洞，上传精心制作的训练数据有效负载以入侵服务。
不道德的合作伙伴使用面部识别API，并在您的服务上创建一个呈现层来生成深度伪造。

AI/ML 特定的威胁及其缓解措施

#1：对抗性扰动

DESCRIPTION

在扰动式攻击中，攻击者偷偷地修改查询，从生产部署的模型[1]获取所需的响应。这是模型输入完整性的破坏，导致模糊样式的攻击，其中最终结果不一定是访问冲突或 EOP，而是损害模型的分类性能。这也可以通过巨魔使用某些特定的目标词，以至于 AI 会将它们列为禁用词，从而有效地拒绝为与“禁用”词匹配的名称的合法用户提供服务。

显示复杂性增加且功能正在减少时攻击难度增加的关系图。 [24]

变体 #1a：定向错误分类

在这种情况下，攻击者生成的示例不在目标分类器的输入类中，但被模型分类为该特定输入类。对抗样本在人的眼中可能像是随机噪音，但攻击者了解目标机器学习系统，生成一种白噪声，该白噪声并非随机，而是利用了目标模型的一些特定方面。攻击者提供不是合法样本的输入示例，但目标系统将其分类为合法类。

例子

示意图显示针对噪声的照片被图像分类器错误地分类为公共汽车的照片。 [6]

缓解措施

使用对抗训练（19）引发的模型置信度强化对抗可靠性：作者建议高度自信的近邻（HCNN），该框架结合了置信度信息和最近的邻居搜索，以增强基础模型的对抗稳定性。这有助于区分从基础训练分布采样点附近的正确和错误的模型预测。
归因驱动因果分析 [20]：作者研究对抗性扰动的抵抗能力与机器学习模型生成的单个决策的基于归因的解释之间的联系。他们报告说，对抗输入在属性空间中不可靠，也就是说，屏蔽一些具有高归属的特征会导致在对抗示例中改变机器学习模型的不确定。相比之下，自然输入在属性空间中很可靠。

[20]

这些方法可以使机器学习模型对对抗攻击更具弹性，因为愚弄这两层认知系统不仅需要攻击原始模型，而且还需要确保为对抗示例生成的归因类似于原始示例。必须同时入侵这两个系统才能成功进行对抗攻击。

传统并行

远程权限提升，因为攻击者现在控制了您的系统

严重程度

危急

变体 #1b：源/目标错误分类

这被攻击者描述为尝试获取模型以返回给定输入的所需标签。这通常会迫使模型返回假阳性或假阴性。最终结果是对模型的分类准确性进行隐蔽的控制，攻击者可以随意引入特定的旁路。

虽然这种攻击对分类准确性有重大不利影响，但由于攻击者不仅需要操控源数据，使其标签不再正确，还需要特别使用所需的欺诈标签重新标记，这可能使得实施过程更加耗时。这些攻击通常涉及多个步骤/尝试强制错误分类 [3]。如果模型容易受到转移学习攻击（强制目标错误分类），则可能没有明显的攻击者流量占用情况，因为探测攻击可以脱机执行。

例子

强制将良性电子邮件归类为垃圾邮件或导致恶意示例未检测到。这些也称为模型逃避或模仿攻击。

缓解措施

反应/防御性检测行动

在对 API 的调用之间实施一个最低时间阈值以提供分类结果。这会通过增加查找成功扰动所需的总时间来减缓多步骤攻击测试的速度。

主动/保护措施

改进对抗性稳定性的功能取消优化 [22]：作者开发了一个新的网络体系结构，通过执行功能取消优化来提高对抗性可靠性。具体而言，网络包含块，这些块使用非本地均值或其他滤波器来去噪特征，整个网络都是端到端训练的。与对抗训练相结合时，特征去噪网络显著提高了白盒攻击和黑箱攻击环境中对抗鲁棒性的先进水平。
对抗训练和正则化：使用已知的对抗示例进行训练，以针对恶意输入构建复原能力和稳定性。这也可以被视为正则化的形式，它惩罚输入渐变的规范，并使分类器的预测函数更流畅（增加输入边距）。这包括具有较低置信度的正确分类。

显示预测函数斜率变化与对抗训练的关系图。

投资于开发单调分类方法，并选择单调特征。这确保了攻击者无法通过简单地填充来自负类的特征来逃避分类器 [13]。

功能挤压 [18] 可以通过检测对抗示例来强化 DNN 模型。它通过将与原始空间中的许多不同的特征向量相对应的样本合并为单个样本来减少对手可用的搜索空间。通过将 DNN 模型对原始输入的预测与挤压输入上的预测进行比较，特征挤压可以帮助检测对抗示例。如果原始示例和挤压示例生成的输出与模型大相径庭，则输入可能具有对抗性。通过测量预测和选择阈值之间的分歧，系统可以为合法示例输出正确的预测，并拒绝对抗输入。

[18]
针对对抗示例的认证防御 [22]：作者建议一种基于半定松弛的方法，证明在给定的网络和测试输入下，任何攻击都无法使错误超过某一特定值。其次，由于此证书是可区分的，因此作者会将其与网络参数联合优化，从而提供自适应正则化程序，以鼓励针对所有攻击的可靠性。

响应行动

针对分类器之间具有较高差异的分类结果发出警报，尤其是在来自单个用户或少量用户的情况下。

传统类比

远程权限提升

严重程度

危急

变体 #1c：随机错误分类

这是一种特殊的变体，攻击者的目标分类可以是合法源分类以外的任何内容。攻击通常涉及将干扰随机注入到被分类的源数据中，以减少将来 [3] 使用正确分类的可能性。

例子

两张猫的照片。一张被归类为虎斑猫。在对抗性扰动后，另一张被归类为鳄梨酱。

缓解措施

与 Variant 1a 相同。

传统类比或对应

非持久性拒绝服务

严重程度

重要

变体 #1d：置信度减少

攻击者可以创建输入以减少正确分类的置信度，尤其是在高后果方案中。这也可能采用大量误报的形式，旨在使管理员或监视系统不堪重负，其欺诈性警报与合法警报 [3] 不区分。

例子

两张停止标志的照片。左侧的照片显示置信度为96%。经过对抗性扰动后，右侧的照片显示置信度为13%。

缓解措施

除了 Variant #1a 中涵盖的措施，还可以使用事件节流来减少来自单个源的警报量。

传统并行

非持久性拒绝服务

严重程度

重要

#2a 目标数据中毒

DESCRIPTION

攻击者的目标是污染 训练阶段生成的计算机模型，以便在测试阶段[1]中修改对新数据的预测。在定向中毒攻击中，攻击者希望错误地将特定示例分类，导致执行或省略特定作。

例子

将 AV 软件作为恶意软件提交，以强制其错误分类为恶意，并消除在客户端系统上使用定向 AV 软件。

缓解措施

定义异常传感器，每天查看数据分布情况，并针对变体发出警报

-度量每日训练数据变化，倾斜/偏移的遥测数据
输入验证，清理和完整性检查
中毒攻击注入偏离的训练样本。用于应对此威胁的两个主要策略：

-数据清理/验证：从训练数据中删除中毒样本 -Bagging 以对抗中毒攻击 [14]

-Reject-on-Negative-Impact （RONI）防御 [15]

-可靠学习：选取存在中毒样本时可靠的学习算法。

-[21]中描述了这样一种方法：作者在两个步骤中解决了数据中毒问题：1）引入了一种用于恢复真实子空间的新型可靠矩阵分解方法，以及 2）基于步骤（1）中恢复的基础来修剪对抗实例的新可靠原则分量回归。它们刻画了成功地恢复真实子空间的必要且充分的条件，并提出了与真实值相比的预期预测损失界限。

传统并行

特洛伊木马主机，攻击者在网络上持续存在。训练或配置数据受损，正在被引入用于模型创建。

严重程度

危急

#2b 不加区分的数据污染

DESCRIPTION

目标是破坏受到攻击的数据集的质量/完整性。许多数据集是公共的、不受信任的或未经管理的，因此，这在发现此类数据完整性违规的能力上引发了额外的关注。在对不知不觉中被泄露的数据进行训练时，其结果可能会是“输入垃圾，输出垃圾”的情况。检测到后，检伤需要确定已泄露的数据范围并进行隔离或重训。

例子

一家公司从一个知名且受信任的网站抓取石油期货数据，以训练他们的模型。数据提供程序的网站随后通过 SQL 注入攻击遭到入侵。攻击者可以随意毒化数据集，而正在训练的模型并没有察觉数据已经被污染。

缓解措施

与变体 2a 相同。

传统相似性

针对高价值资产的认证拒绝服务攻击

严重程度

重要

#3 模型反转攻击

DESCRIPTION

可以恢复机器学习模型中使用的专用功能 [1]。这包括重建攻击者无法访问的专用训练数据。生物识别领域中也称为爬山攻击的方法 [16, 17] 通过找到使返回的置信度值最大化的输入来实现，前提是分类结果符合目标 [4]。

例子

一个人的两张图像。一个图像模糊，另一个图像清晰。 [4]

缓解措施

从敏感数据训练的模型的接口需要强大的访问控制。
模型允许的速率限制查询
通过对所有建议的查询执行输入验证来实现用户/调用方与实际模型之间的入口，拒绝任何不符合模型输入正确性定义的内容，并仅返回所需的最少信息量。

传统类比

有针对性的秘密信息泄露

严重程度

按照标准 SDL 错误栏，这默认认为是重要的，但如果涉及敏感信息或个人身份数据的提取，会将其提升为关键级别。

#4 成员资格推理攻击

DESCRIPTION

攻击者可以确定给定的数据记录是否是模型的训练数据集的一部分[1]。研究人员能够根据属性（例如年龄、性别、医院）[1]预测患者的主要过程（例如：患者经过的手术）。

显示成员资格推理攻击复杂性的插图。箭头显示训练数据预测数据之间的流和关系。 [12]

缓解措施

展示此攻击可行性的研究论文表明，差异隐私 [4， 9] 将是一种有效的缓解措施。这仍然是Microsoft的一个新兴领域，AETHER安全工程建议在这个领域进行研究投资来构建专业知识。这项研究需要详细列举差异隐私功能，并评估它们作为缓解措施的实际有效性，然后设计方法，使这些防御措施能够透明地在我们的在线服务平台上继承，类似于在 Visual Studio 中编译代码时获得的 on-by默认安全保护，对开发人员和用户而言是无感的。

神经元丢弃和模型堆叠的使用在一定程度上是有效的缓解措施。使用神经元丢弃不仅增加了神经网络对这种攻击的复原能力，同时提高了模型性能 [4]。

传统相似性

数据隐私。关于数据点是否包含在训练集中进行了推断，但不会披露训练数据本身。

严重程度

这是隐私问题，而不是安全问题。它在威胁建模指南中得到了解决，因为域重叠，但此处的任何响应都由隐私驱动，而不是安全。

#5 模型窃取

DESCRIPTION

攻击者通过合法地查询模型来重新创建基础模型。新模型的功能与基础模型[1]的功能相同。重新创建模型后，可以反转恢复功能信息或对训练数据进行推理。

公式求解 – 对于通过 API 输出返回类概率的模型，攻击者可以创建查询来确定模型中的未知变量。
路径查找 – 攻击利用 API 特殊性来提取树在对输入 [7] 进行分类时采取的“决策”。
可转移性攻击 - 攻击者可以通过向目标模型发出预测查询来训练本地模型，并用它来生成转移到目标模型 [8] 的对抗示例。如果您的模型被提取并被发现易受某种对抗性输入的攻击，提取模型副本的攻击者可以完全脱机开发新的攻击来针对您的生产部署模型。

例子

在 ML 模型用于检测对抗行为的设置（例如垃圾邮件、恶意软件分类和网络异常检测）中，模型提取有助于逃避攻击 [7]。

缓解措施

主动/保护措施

最小化或模糊预测 API 中返回的详细信息，同时仍保持对“诚实”应用程序 [7] 的有用性。
为模型输入定义格式正确的查询，并仅返回响应匹配该格式的已完成、格式正确的输入的结果。
返回舍入置信度值。大多数合法的调用方不需要多个小数位数的精度。

传统并行

未经身份验证、只读篡改系统数据、定向高价值信息泄露？

严重程度

在安全敏感模型中很重要，否则为“中等”

#6 神经网络重新编程

DESCRIPTION

通过来自对手的特制查询，可以将机器学习系统重新编程为偏离创建者原始意图 [1] 的任务。

例子

面部识别 API 上的弱访问控制允许第三方将其纳入旨在损害 Microsoft 客户的应用，例如深度伪造生成器。

缓解措施

对模型接口进行强客户端<->服务器相互身份验证和访问控制
删除有问题的帐户。
确定并强制实施 API 的服务级别协议。确定报告问题后可接受的修复时间，并确保 SLA 过期后问题不再重现。

传统并行

这是一种滥用情景。你更可能只是禁用违规者的帐户，而不是启动安全事件。

严重程度

重要至关键

物理域中的 #7 对抗示例（bits-atoms>）

DESCRIPTION

对抗示例是来自恶意实体的输入/查询，其唯一目的是误导机器学习系统 [1]

例子

这些示例可以在物理领域中展现出来，比如一辆自动驾驶汽车被光线干扰后继续行驶而没有在停车标志前停车，因为某种颜色的光线（对抗输入）照射在停车标志上，导致图像识别系统不再将停车标志识别为停车标志。

传统并行

特权提升、远程代码执行

缓解措施

这些攻击本身是因为机器学习层（AI 驱动决策下面的数据和算法层）中的问题没有缓解。与任何其他软件 *或* 物理系统一样，目标下面的层始终可以通过传统向量受到攻击。因此，传统安全做法比以往任何时候都更重要，尤其是在 AI 和传统软件之间使用的未明确漏洞层（数据/algo 层）。

严重程度

危急

#8 可以恢复训练数据的恶意 ML 提供程序

DESCRIPTION

恶意供应商提供了带有后门的算法，从中恢复了私密训练数据。鉴于模型本身，他们能够重建人脸和文本。

传统并行

定向信息披露

缓解措施

展示此攻击可行性的研究论文表明，同态加密将是一种有效的缓解措施。这是一个微软目前投资较少的领域，AETHER 安全工程建议通过研究投资在这一领域发展专业知识。这项研究需要枚举同态加密原则，并评估其实际有效性，作为面对恶意 ML 即服务提供商的缓解措施。

严重程度

如果数据为 PII，则为“重要”，否则为“中等”

#9 攻击 ML 供应链

DESCRIPTION

由于训练算法所需的大型资源（数据 + 计算），当前的做法是重复使用由大公司训练的模型，并稍微修改它们作为手头的任务（例如：ResNet 是来自Microsoft的热门图像识别模型）。这些模型在模型库中得到精心挑选（Caffe 托管一些流行的图像识别模型）。在这次攻击中，对手攻击卡菲中托管的模型，从而为其他人毒害了井。 [1]

传统并行

第三方非安全依赖项泄露
App Store 不知情地托管恶意软件

缓解措施

尽可能最大程度地减少模型和数据的第三方依赖项。
将这些依赖项合并到威胁建模过程中。
利用强身份验证、访问控制和加密在第一方^系统/第三方^系统之间。

严重程度

危急

#10 后门机器学习

DESCRIPTION

训练过程外包给恶意第三方，该恶意方篡改训练数据并交付了一个特洛伊木马模型，该模型强制目标错误分类，例如将特定病毒分类为非恶意[1]。这是 ML 即服务模型生成方案中的风险。

显示错误分类如何对训练数据产生不利影响的示例。一张照片是正确分类的停止标志。中毒后，第二张照片被标记为限速标志。 [12]

传统并行

第三方安全依赖项受损
受损的软件更新机制
证书颁发机构妥协

缓解措施

反应/防御性检测行动

发现此威胁后，已造成损害，因此无法信任恶意提供程序提供的模型和任何训练数据。

主动/保护措施

在内部训练所有敏感模型
审核训练数据或确保它来自具有可靠安全措施的可信第三方
威胁建模 MLaaS 服务提供商与您自己的系统之间的交互

响应行动

与外部依赖项泄露相同

严重程度

危急

#11 利用 ML 系统的软件依赖项

DESCRIPTION

在此攻击中，攻击者不会操控算法。而是利用软件漏洞，例如缓冲区溢出或跨站点脚本[1]。在 AI/ML 下入侵软件层比直接攻击学习层要容易得多，因此安全开发生命周期中详述的传统安全威胁缓解做法至关重要。

传统并行

受损的开源软件依赖项
Web 服务器漏洞（XSS、CSRF、API 输入验证失败）

缓解措施

请与安全团队协作，遵循适用的安全开发生命周期/运营安全保障最佳做法。

严重程度

可变；根据传统软件漏洞的类型，其严重性最高可为“关键”。

参考文献

[1] 机器学习中的失败模式、Ram Shankar Siva Kumar、David O'Brien、Kendra Albert、Salome Viljoen 和 Jeffrey Snover， https://learn.microsoft.com/security/failure-modes-in-machine-learning

[2] AETHER安全工程工作流，数据溯源/谱系v团队

[3] 深度学习中的对抗示例：特征和分歧、魏等 https://arxiv.org/pdf/1807.00051.pdf

[4] ML-Leaks：与机器学习模型和数据无关的成员资格推理攻击和防御，Salem 等人，https://arxiv.org/pdf/1806.01246v2.pdf

[5] M. Fredrikson、S. Jha 和 T. Ristenpart 的《利用置信信息和基本对策的模型反转攻击》，收录于 2015 年 ACM SIGSAC 计算机与通讯安全会议 (CCS) 论文集。

[6] Nicolas Papernot & Patrick McDaniel- 机器学习中的对抗性样本 AIWTB 2017

[7] 通过预测API盗取机器学习模型, Florian Tramèr, École Polytechnique Fédérale de Lausanne (EPFL); Fan Zhang, 康奈尔大学; Ari Juels, Cornell Tech; Michael K. Reiter, 北卡罗来纳大学教堂山; Thomas Ristenpart, Cornell Tech

[8] 可转移对抗示例的空间，弗洛里安·特拉梅尔，尼古拉斯·帕诺特，伊恩·古德费尔洛，丹·博内尔和帕特里克·麦克达尼尔

[9] 了解关于Well-Generalized学习模型的成员推断云辉龙1、文森特·宾舍德勒1、雷王2、迪岳布2、小峰王2、海旭唐2、卡尔·冈特1、凯晨3、4

[10] Simon-Gabriel 等人，神经网络的对抗漏洞随着输入维度（ArXiv 2018）的增加而增加;

[11] Lyu et al.，针对对抗示例的统一渐变正则化系列，ICDM 2015

[12] 野生模式：对抗机器学习崛起十年后 - NeCS 2019 巴蒂斯塔·比吉奥亚，法比奥·罗利

[13] 使用单调分类的对抗性鲁棒恶意软件检测 Inigo Incer 等。

[14] 巴蒂斯塔·比吉奥、伊吉诺·科罗纳、乔治·富梅拉、乔治·贾辛托和法比奥·罗利。用于应对对抗性分类任务中毒攻击的集成分类器

[15] 改进的针对负面影响的拒绝防御洪江李和帕特里克·P.K.·陈

[16] Adler。生物识别加密系统中的漏洞。第五届国际会议 AVBPA， 2005

[17] 加尔巴利，麦考尔，菲雷斯，马塞尔，奥尔特加- 加西亚。人脸验证系统对爬山攻击的脆弱性。帕特 Rec.， 2010

[18] 魏林徐，大卫·埃文斯，严军齐。功能挤压：检测深度神经网络中的对抗示例。 2018 网络和分布式系统安全研讨会。 2月18-21日。

[19] 使用对抗训练引发的模型置信度提高对抗性鲁棒性 - 希吴，尚尚中，杰峰陈，凌娇陈，索梅什·贾

[20] 用于检测对抗样本的归因驱动因果分析, Susmit Jha, Sunny Raj, Steven Fernandes, Sumit Kumar Jha, Somesh Jha, Gunjan Verma, Brian Jalaian, Ananthram Swami

[21] 抗训练数据中毒的稳健线性回归 – 刘畅等人。

[22] 特征去噪以提高对抗性鲁棒性，慈尚·谢，余新·吴，劳伦斯·范·德·马滕，艾伦·尤尔，何凯明

[23] 针对对抗示例的认证防御 - 阿迪蒂·拉古纳森、雅各布·斯坦哈特、珀西·梁

通过

人工智能/机器学习系统及其依赖项的威胁建模

威胁建模中的重要新注意事项：更改查看信任边界的方式

假设用于训练的数据以及数据提供方遭到入侵或中毒。 了解如何检测异常和恶意数据条目，以及能够区分和恢复它们

概要

安全评审中要提问的问题

本文档中的相关威胁和缓解措施

示例攻击

确定您的模型或产品/服务可能采取的行动，这些行动可能会在线上或实体领域对客户造成伤害。

概要

安全评审中要提问的问题

本文档中的相关威胁和缓解措施

示例攻击

识别数据/模型供应链中 AI/ML 依赖项的所有源以及前端呈现层

概要

安全评审中要提问的问题

本文档中的相关威胁和缓解措施

示例攻击

AI/ML 特定的威胁及其缓解措施

#1：对抗性扰动

DESCRIPTION

变体 #1a：定向错误分类

例子

缓解措施

传统并行

严重程度

变体 #1b：源/目标错误分类

例子

缓解措施

传统类比

严重程度

变体 #1c：随机错误分类

例子

缓解措施

传统类比或对应

严重程度

变体 #1d：置信度减少

例子

缓解措施

传统并行

严重程度

#2a 目标数据中毒

例子

缓解措施

传统并行

严重程度

#2b 不加区分的数据污染

DESCRIPTION

例子

缓解措施

传统相似性

严重程度

#3 模型反转攻击

DESCRIPTION

例子

缓解措施

传统类比

严重程度

#4 成员资格推理攻击

DESCRIPTION

缓解措施

传统相似性

严重程度

#5 模型窃取

DESCRIPTION

例子

缓解措施

传统并行

严重程度

#6 神经网络重新编程

例子

缓解措施

传统并行

严重程度

物理域中的 #7 对抗示例 （bits-atoms>）

例子

传统并行

缓解措施

严重程度

#8 可以恢复训练数据的恶意 ML 提供程序

假设用于训练的数据以及数据提供方遭到入侵或中毒。了解如何检测异常和恶意数据条目，以及能够区分和恢复它们

物理域中的 #7 对抗示例（bits-atoms>）