基于改进扫描分析的网络维护成本预测：模拟方法的应用

Academic

挑战

作者：Theodore T. Allen 和 Enhao Liu（俄亥俄州立大学）

在 2018 年冬季模拟大会上发表

本文提出了一个离散事件仿真模型，该模型针对的是一家维护计算机主机的企业，其维护和事故响应成本高达数百万美元。常见的维护策略被称为 "眼不见为净"（OSOM），因为大多数主机都没有被扫描和忽略。主机 "看不见"（不存在）是因为它们无法访问（关闭或权限受限）。所提出的模型用于比较 OSOM 和其他替代方案，包括改进的分析方法，使暗黑主机漏洞可见。研究结果表明，除非采用入侵的间接成本或改进的政策，否则 OSOM 的效益并不明显。此外，还明确了使用 Windows 操作系统和改进策略的好处，包括预期节省的数百万美元（与 Linux 相比）。

引言

网络安全相关成本在多个层面都很重要，从国家和国际政治到连接成千上万组织的电网，再到单个组织内部的支出。离散事件模型探讨了政治效应（Naugle 等，2016 年）。电网层面的模型包括 Nguyen 等人（2015 年）所描述的模型。此外，攻击模拟模型还包括 Shinet 等人（2015 年）和 Case（2016 年）。

在我们自己的研究中，我们探索了组织支出的马尔可夫决策过程模型，重点是单个主机的演变（Afful-Dadzie 和 Allen，2014 年；2016 年）。计算机主机可以是普通的个人电脑、笔记本电脑、服务器、打印机，甚至是运动设备。在此，我们只关注连接到互联网的设备，这些设备可能会受到威胁，并需要进行扫描和维护。这些设备用于学生、研究和管理任务。这些设备存在所谓的 "漏洞"，即攻击者可以利用的弱点。例如，主机可能使用弱密码、过期加密软件或没有对输入或输出的大小进行充分检查的软件。美国国家标准学会（NIST）和通用漏洞评分系统对这些漏洞进行了评级。

在此，我们建议将维护政策制定的数据和假设扩展到离散事件模拟。这与 Gauci 等人（2017 年）研究的电力公司补丁管理类似，只是我们考虑了更多的过往事件以及更广泛的政策和主机类型。离散事件模拟的优点包括以相对直观的方式将主机的启动和破坏以及有限的补丁和事件响应资源包括在内。我们认为，考虑主机 "寿命终止 "问题非常重要，因为我们了解到，一些被认为已经退役的主机仍在使用并引发事件。

根据我们的经验，一种常见的政策是要求员工在每月扫描中发现漏洞后一个月内尝试修补或缓解高危或关键级漏洞。该政策忽略了中级或低级漏洞，而这些漏洞往往会不断累积。此外，在我们研究的近 50,000 台不同主机中，通常有 70% 的主机在任何给定月份的扫描中丢失。出现这种情况的原因可能是主机在扫描过程中被关闭或缺乏权限。Afful-Dadzie 和 Allen（2014；2016）介绍了一些估算扫描数据中缺失漏洞的方法。最近，我们有了一种方法，可以高精度（误差为 0.05%）预测每月扫描中不存在（"暗"）的主机上的漏洞。

在此，我们考虑了 21 个月中观察到的约 50,000 台主机逐月过渡的影响。由此得出的过渡概率估计值如表 1 所示。这些概率至少反映了四个因素的综合影响。首先，主机用户在不断添加软件，而他们已经添加的软件正在老化。其次，黑客不断搜索漏洞，观察公开报告的漏洞确认情况，并获取漏洞利用程序（这些程序也经常免费发布）。第三，供应商不断尝试远程自动修补其软件。第四，工作人员试图根据组织政策，利用从扫描中获得的漏洞列表和自己搜索可用补丁的结果来修补漏洞，测试获得的补丁是否破坏功能，并应用发现和测试的补丁（如果有的话）。

在此，我们也只考虑两类主机。这两类主机是 Linux 和 Windows 主机，用户拥有安装新软件的管理员权限，且主机不受管理员控制。(在此，我们将忽略暗主机的常见维护策略称为 "不在现场即不在头脑中"（OSOM）。本文的一个主要目的是澄清 OSOM 政策的问题，以及更复杂的政策可能带来的好处。

表 1：某重点大学的估计过渡数据 (a) Linux 主机，(b) 反映信息学改进后变化的过渡，(c) Windows 主机，(d) 信息学改进后的变化。

(a)

	Low-Med.	低中度	高临界值	高临界值-暗	复合	复合-深色
低中度	0.2820	0.6580	0.0177	0.0413	0.0005	0.0005
低-中-深色	0.2820	0.6580	0.0177	0.0413	0.0005	0.0005
高临界值	0.1290	0.3010	0.1560	0.3640	0.0250	0.0250
高分辨率	0.0000	0.0000	0.2250	0.7000	0.0250	0.0500
计算	1.0000	0.0000	0.0000	0.0000	0.0000	0.0000
暗色	0.0000	0.0000	0.0000	0.0000	0.8000	0.2000
(b)
高分辨率	0.1290	0.3010	0.1560	0.3640	0.0250	0.0250

(c)

	低中度	低中度	高临界值	高分辨率-暗	复合	复合-深色
低中度	0.2760	0.6440	0.0239	0.0559	0.0001	0.0001
低-中-深色	0.2760	0.6440	0.0239	0.0559	0.0001	0.0001
高临界值	0.1444	0.3369	0.1554	0.3627	0.0003	0.0003
高分辨率	0.0000	0.0000	0.2988	0.7000	0.0006	0.0006
计算	1.0000	0.0000	0.0000	0.0000	0.0000	0.0000
暗色	0.0000	0.0000	0.0000	0.0000	0.8000	0.2000
(d)
高分辨率	0.1444	0.3369	0.1554	0.3627	0.0003	0.0003

建议的模式

单位规模和时间周期

我们的离散事件仿真模型必须指定系统内服务器和实体的数量（Allen，2011 年；Law 和 Kelton，2000 年）。据我们观察，一所大型大学通常由多个基本独立的部门组成，每个部门通常有 100 台主机。每个组织都有一名管理员，主要负责修复漏洞和促进对已知事件的响应。因此，该模型包括 100 多台主机（平均），时间跨度超过 100 年，以大致反映一所大学的维护和响应成本。如 AffulDadzie 和 Allen（2016 年）所述，我们假设修补漏洞的平均成本为 150 美元，应对已知事件的平均成本为 2000 美元。因此，我们计算了漏洞的影响，但只与合法处理已知事件的直接成本相关。

国家

按照 Afful-Dadzie 和 Allen（2016 年）的做法，我们根据最高风险漏洞对主机进行分类，例如，具有任何关键漏洞的主机都被归类为关键。在通用政策中，低风险和中风险主机通常被忽略。主机也可能被入侵，例如，主机上的恶意软件试图与黑客或黑客团队联系，但被入侵防御系统拦截。由于有些主机在扫描中是 "暗 "的，有些入侵是未知的，因此除了垃圾或回收的主机状态外，我们还考虑了其他状态。状态包括低中等、高危急和受损的可见和暗组合。低、中和高、关键是成对的，因为在组织政策中，它们通常被视为等同的。

请注意，了解漏洞或入侵情况可能无助于实现组织的预期目标。然而，可观察性显然是 "弹性 "系统的理想属性（Allen 等人，2016 年）。本文的一个主要目的就是阐明提高可观察性可能带来的好处。

解决方案

SIMIO 模型

该模型是在 SIMIO 软件中实现的。下图 1 左上方的 "NewHosts "是主机进入中低脆弱性节点的源头，该节点不进行任何处理。这种不处理（研究、测试和应用修补程序（如果有的话））是一种常见的节约成本措施，即忽略低等级的网络漏洞。直到最近，由于检查困难，所有非网络网络漏洞在很大程度上也被许多大学和其他组织忽略。因此，这里也忽略了它们。所有路径都是固定的 "时间路径"，相当于一个月。

权重与表 1 中的概率成正比。没有处理的节点对应状态 1、2 和 4。服务器为状态 3、5 和 6。尽管黑暗受损状态不需要内部员工工作，但服务器用于记录该状态下与成本相关的信息。退役节点位于图 1 的右侧，在该节点中，主机将被回收或送往垃圾填埋场。总体而言，主机在左边创建，在右边流向销毁。它们从顶部的安全状态流向底部的脆弱和破坏状态。

当然，在现实世界中，电脑都是放在办公室或咖啡馆里，很少移动（笔记本电脑和手机除外）。因此，移动主机的通常逻辑如图 2 所示。主机在开始使用和 "生命 "结束进入垃圾填埋场时确实会移动。

图 1 中的模型与 Afful-Dadzie 和 Allen（2016 年）中的马尔可夫决策过程模型的主要区别在于，这里加入了主机的出生和死亡，而且对最优策略的探索相对不那么深入。马尔可夫决策过程的一大优势是能够生成最优控制策略。然而，这些 "最优 "策略的质量受到相关假设的限制。此外，这里的模拟模型还考虑了未知攻击，而以前则没有考虑。

业务影响

原始输出

SIMIO 的原始输出如表 2 所示。在结果中，使用了 100 次重复，以将 95% 置信区间的半宽度控制在估计数量的 1% 以下。结果中包含 "H3VRStation1"，以说明这些结果只考虑了可见维修站的访问量，而不考虑黑暗或未知漏洞的访问量。这些假设成本是在输出分析推导中添加的，因此它们不是直接从模拟中得出的。根据表 1(a)和(b)概率推导出 Linux 情景，根据表 1(c)和(d)概率推导出 Windows 情景。

表 2 中的结果与访问每个节点的主机数量有关。访问修复或事故节点会直接产生成本，因为工作人员需要尝试修补相关漏洞或应对相关事故。因此，情景成本为 150 美元×（平均修复次数）+ 2000 美元×（平均事故次数）。

表 2：3 个关键站点的到达人数和相关预期或平均成本的 100 次复制的原始 SIMIO 输出。四个关键 "对象 "或服务器分别为 "Active5Repair"（A5R）、"High3VulnRepair"（H3VR）和 "Unknown6Attack"（U6A）。

场景	对象名称	平均 #	半宽	Stdev.	支出成本	Stdev.	Scen.总计
Linux	A5R	1241.5	8.2	40.8	$2,482,980	81,557	-
Linux	H3VR	6915.9	30.7	152.8	$1,037,387	22,927	-
Linux	U6A	1529.4	11.1	55.4	$3,058,860	110,719	$6,579,227
Linux 无 D.	A5R	1051.4	6.7	33.4	$2,102,700	66,825	-
Linux 否 D.	H3VRStation1	5733.1	25.7	127.6	$2,866,565	63,808	-
Linux 否 D.	U6A	1201.5	8.4	41.7	$2,402,920	83,436	$7,372,185
窗口	A5R	114.8	2.3	11.3	$229,660	22,511	-
视窗	H3VR	8528.2	33.8	168.0	$1,279,229	25,198	-
窗口	U6A	69.0	2.1	10.6	$137,980	21,133	$1,646,869
视窗无 D.	A5R	90.5	2.0	10.0	$180,920	20,049	-
Windows 无 D.	H3VRStation1	5902.8	25.4	126.3	$2,951,415	63,139	-
窗口无 D.	U6A	46.5	1.5	7.6	$93,080	15,102	$3,225,415
Linux 无黑暗	H3VRStation1	5733.1	25.7	127.6	$2,866,565	63,808	$7,372,185
Windows Hypoth.	H3VRStation1	5902.8	25.4	126.3	$2,951,415	63,139	$864,283

替代方案比较

图 3 比较了六个系统的预测预期成本。当前 Linux 和 Windows 系统的输出直接来源于模拟，输入见表 1，输出见表 2。每个系统的所谓 "改进分析 "策略仅涉及 Linux 和 Windows 操作系统分别来自表 1(b) 或表 1(d) 的概率或权重。这些变化相当于将状态 4 的性能等同于状态 3，以便进行额外的修补操作。换句话说，隐藏的漏洞被暴露出来。这使得服务器在状态 3（A3VR）下的成本增加了 1/0.3 倍。

可能的 Linux "系统估算是根据专家的意见得出的。关于预期成本和可能过高或过低的成本的问题，是通过市场营销类型的征询过程来获得估算的，这些估算合理地包含了未知事件的成本（Allen 和 Maybin，2004 年）。可能的 Linux 结果旨在反映了解暗主机漏洞所带来的好处。

改进后的政策估算是基于 Windows 系统只修补关键漏洞（1/5 或更少）可能产生的结果。由于自动修补的力度很大，我们根据马尔可夫决策过程进行的分析表明，在某些类型的 Windows 系统上修补高危漏洞并不划算（Afful-Dadzie 和 Allen，2016 年）。然而，修补黑暗主机上的关键漏洞几乎肯定会带来好处。因此，图 3 中的部分结果与模拟输出有关，其他结果则是专家意见的估计值。

结论与未来工作

本文提出了一种离散事件模拟模型来预测修补成本和事故成本。模型基于数十万次记录的转换。然而，也有相当多的推断，包括改进政策的有效成本或包括未知事故在内的损失。在这些限制条件下，我们得出了以下结论：

在我们的数据集和模拟预测中，Windows 主机所需的维护成本大大低于 Linux 主机。这假定主机所有者拥有管理员权限，因此这些主机的操作风险相对较高。然而，微软大力开展的自动打补丁工作很可能与较低的组织维护成本有关。
通过改进的分析功能来使黑暗的 Windows 主机变得可见似乎并不划算。出现这种情况的原因是，处理被 "不在现场、不在头脑中 "政策所忽略的 70% 漏洞所需的成本，不会被已知事件的减少所抵消。然而，如果能准确估计对社会造成的损失，那么修补暗漏洞所减少的事故可能会得到补偿。
利用改进的分析技术使暗黑 Linux 主机可见，大约是成本合理的，而且很可能会使系统受益，提高系统的恢复能力并带来社会效益。
如果将改进的分析方法与改进的政策结合起来，让所有类型的暗主机都可见，成本可能是合理的。例如，对于 Windows 主机，许多或所有高危漏洞可能会被忽略，因为自动修补程序可能会解决许多问题，但可以预测并修补黑客主机上的关键漏洞，以降低事故成本。

拟议模型的主要局限性与不支持的功能有关。多保真度元模型可以提供更好的规范能力（例如，使用 Allen 和 Bernstheyn 2005 或 Allen 等人 2003 中的规划和分析方法）。部分可观测性和有限观测的概念可以产生有用的维护建议。此外，基于贝叶斯强化学习的自动控制系统也可用于指导维护和事故响应行动，从而以最佳方式收集数据，解决数据限制问题。

致谢

我们感谢 LTC Cade Saie 和 NSF Grant # 1409214 的资金支持，以及 Helen Patton、Steven Romig 和 Rajiv Ramnath 对本研究和相关研究的大力支持。

作者简介

THEODORE T. ALLEN 是俄亥俄州立大学综合系统工程系副教授。他拥有普林斯顿大学学士学位、加州大学洛杉矶分校硕士学位和密歇根大学博士学位（1997 年）。他目前是 INFORMS 社交媒体分析分会主席和《计算机与工业工程》（IF: 3.2）模拟领域编辑。他发表了 60 多篇有参考价值的论文，并作为首席研究员获得了 25 项基金，其中包括美国国家科学基金会（NSF）、ARCYBER 和通用电气家电公司（GE Appliances）的基金。他在投票机分配的模拟优化方面的研究受到了全国的关注，并为数百万选民避免了数小时的等待时间以及北卡罗来纳州、俄亥俄州和密歇根州有效或实际的法律修改做出了贡献。他还担任过《制造系统期刊》（Journal of Manufacturing Systems）和《教育质量方法》（Quality Approaches in Education）的副主编，以及《运筹学》（Operations Research）、《技术计量学》（Technometrics）和其他许多期刊的审稿人 (allen.515@osu.edu)。

刘恩浩是俄亥俄州立大学综合系统工程系的博士生。他于 2017 年获得俄亥俄州立大学硕士学位，2015 年获得暨南大学电气工程及其自动化专业学士学位。他的兴趣与网络安全、运筹学和可靠性工程有关 (liu.5045@osu.edu)。

参考文献

Afful-Dadzie, A. and T. T. Allen.2014.数据驱动的网络脆弱性维护政策。质量技术期刊》46（3）：234。

Afful-Dadzie, A. and T. T. Allen.2016."自相关网络脆弱性数据的控制图方法》。质量工程 28（3）：313-28。

Allen, T. T., 2011.离散事件仿真和基于代理的建模导论》：Voting Systems, Health Care, Military, and Manufacturing.伦敦：施普林格科学与商业媒体。

Allen, T. and M. Bernshteyn.2006."Mitigating Voter Waiting Times".Chance 19(4):25-34.

Allen, T. T. K. M. and Maybin.2004."Using Focus Group Data to Set New Product Prices".产品与品牌管理杂志》13（1）：15-24。

Allen, T. T., L. Yu, and J. Schmitz.2003."应用于压铸工艺设计的元模型预测误差最小化实验设计准则》。皇家统计学会期刊》：C 系列（应用统计），52（1）：103-117。

Allen, T. T., J. Schenk, and D. D. Woods.2016."系统复原力选定模型的初步比较》。E. Hollnagel 和 C. Nemeth 编辑的《复原力工程视角》第 2 卷，95-116 页。伦敦：CRC Press.

Case, D. U. 2016."乌克兰电网网络攻击分析》。Washington, DC: Electricity Information Sharing and Analysis Center (E-ISAC).

Gauci A., S. Michelin, and M. Salles.2017."通过补丁管理应对网络安全维护的挑战》。CIRED-Open Access Proceedings Journal (1):2599-2601.

Naugle, A., M. Bernard, and I. V. Lochard.2016."模拟 2007 年爱沙尼亚网络攻击的政治和攻击动态》。In Proceedings of the 2016 Winter Simulation Conference, edited by T.M. K. Roeder et al., 3500-3509.Piscataway, New Jersey：IEEE.

Nguyen, C. K. Q., J. E. Dietz, S. Liles, V. Raskin, and J. Springer.2015."电网配电基础设施的网络防御计量经济学》。2015 年冬季仿真会议论文集》，L. Yilmaz 等人编辑，906-911 页。Piscataway, New Jersey：IEEE.

Huang, D. and T. T. Allen.2005."应用于发动机气门热处理工艺设计的可变保真度实验的设计与分析》。皇家统计学会期刊》：C 系列（应用统计）54（2）：443-463。

Law, A. M. and W. D. Kelton.2000.Simulation Modeling & Analysis.3rd ed. New York：McGraw-Hill.Shin J., H. Son, and G. Heo.2015."使用贝叶斯网络开发网络安全风险模型》。可靠性工程与系统安全》134：208-217。

Back to Case Studies