Previsão de custos de manutenção cibernética com análise de varredura aprimorada usando simulação

Written by Simio Staff | 26/mar/2025 4:15:00

O desafio

por Theodore T. Allen e Enhao Liu (Universidade Estadual de Ohio)

Conforme apresentado na Conferência de Simulação de Inverno de 2018

Este artigo propõe um modelo de simulação de eventos discretos de uma organização que mantém hosts de computador e incorre em vários milhões de dólares em custos de manutenção e resposta a incidentes. A política de manutenção comum é conhecida como "out-of-sight is out-of-mind" (OSOM), porque a maioria dos hosts não aparece nas varreduras e é ignorada. Os hosts são "obscuros" (ausentes) porque não estão acessíveis (desligados ou com permissões restritas). O modelo proposto é usado para comparar o OSOM com alternativas que incluem análises aprimoradas que tornam visíveis as vulnerabilidades de hosts obscuros. As descobertas esclarecem os benefícios aparentes do OSOM, a menos que sejam aplicados custos indiretos para intrusões ou políticas aprimoradas. Além disso, os benefícios do uso de sistemas operacionais Windows e políticas aprimoradas são esclarecidos, incluindo milhões em economias esperadas (em comparação com o Linux).

Introdução

Os custos relacionados à segurança cibernética são importantes em vários níveis, desde a política nacional e internacional até as redes elétricas que conectam milhares de organizações e as despesas dentro de organizações individuais. Os modelos de eventos discretos exploraram os efeitos políticos (Naugle et al. 2016). Os modelos no nível da rede elétrica incluem os descritos por Nguyen et al. (2015). Além disso, os modelos de simulação de ataque incluem Shinet al. (2015) e Case (2016).

Em nossa própria pesquisa, exploramos modelos de processo de decisão de Markov de despesas organizacionais com foco na evolução de hosts únicos (Afful-Dadzie e Allen 2014; 2016). Os hosts de computador podem ser computadores pessoais comuns, laptops, servidores, impressoras ou até mesmo equipamentos de ginástica. Aqui, nos concentramos apenas nos dispositivos conectados à Internet que podem ser comprometidos e que são verificados e mantidos. Esses dispositivos são usados para tarefas estudantis, de pesquisa e administrativas. Esses dispositivos têm as chamadas "vulnerabilidades", que são pontos fracos que podem ser explorados pelos invasores. Por exemplo, um host pode usar uma senha fraca, um software com uma criptografia desatualizada ou um software sem verificações suficientes do tamanho das entradas ou saídas. Essas vulnerabilidades são classificadas pelo Instituto Nacional de Padrões dos EUA (NIST) e pelo sistema comum de pontuação de vulnerabilidades.

Aqui, propomos estender os dados e as suposições para o desenvolvimento de políticas de manutenção a simulações de eventos discretos. Isso é semelhante ao gerenciamento de patches em serviços públicos de eletricidade abordado por Gauci et al. (2017), exceto pelo fato de considerarmos um número maior de incidentes passados e uma variedade mais ampla de políticas e tipos de host. As vantagens da simulação de eventos discretos incluem maneiras relativamente intuitivas de incluir o início e a destruição de hosts e recursos finitos de aplicação de patches e resposta a incidentes. Argumentamos que é importante considerar as questões de "fim da vida útil" do host porque, de forma anedótica, temos conhecimento de hosts que se acreditava estarem aposentados, sendo usados e causando incidentes.

Em nossa experiência, uma política comum é exigir que a equipe tente corrigir ou atenuar as vulnerabilidades de nível alto ou crítico no prazo de um mês a partir do momento em que a vulnerabilidade é observada nas varreduras mensais. Essa política ignora as vulnerabilidades de nível médio ou baixo que tendem a se acumular. Além disso, geralmente 70% dos quase 50.000 hosts distintos que estudamos estavam ausentes das varreduras em um determinado mês. Isso pode ocorrer porque o host está desligado durante a varredura ou porque faltam permissões. Alguns métodos para imputar as vulnerabilidades ausentes nos dados da varredura são descritos por Afful-Dadzie e Allen (2014; 2016). Recentemente, temos métodos que podem prever com alta precisão (erros de 0,05%) as vulnerabilidades em hosts que não estão presentes ("obscuras") nas varreduras mensais.

Aqui, consideramos as implicações de 21 meses de transições observadas de mês a mês de aproximadamente 50.000 hosts. As estimativas de probabilidade de transição resultantes são mostradas na Tabela 1. As probabilidades refletem os efeitos combinados de pelo menos quatro fatores. Primeiro, os usuários dos hosts estão constantemente adicionando software e o software que eles já adicionaram está envelhecendo. Segundo, os hackers estão constantemente procurando vulnerabilidades, observando o reconhecimento de vulnerabilidades que são relatadas publicamente e obtendo explorações (que também são frequentemente publicadas livremente). Terceiro, os fornecedores estão constantemente tentando corrigir automaticamente seus softwares remotamente. Em quarto lugar, a equipe está tentando corrigir as vulnerabilidades de acordo com a política da organização, com listas de vulnerabilidades obtidas por meio de varreduras e os resultados de suas próprias pesquisas de correções disponíveis, testando as correções obtidas para não destruir a funcionalidade e aplicando as correções encontradas e testadas (se houver).

Aqui também consideramos apenas dois tipos de hosts. São hosts Linux e Windows para os quais o usuário tem privilégio de administrador para instalar novos softwares e o host não é controlado por administradores. (Aqui, nos referimos à política de manutenção comum na qual os hosts obscuros são ignorados como "out-of-site is out-of-mind" (OSOM). Um dos principais objetivos deste artigo é esclarecer os problemas com a política OSOM e os possíveis benefícios de políticas mais sofisticadas.

Tabela 1: Dados estimados de transição de uma grande universidade (a) hosts Linux, (b) transições alteradas que refletem o aprimoramento da informática, (c) hosts Windows e (d) alterações decorrentes do aprimoramento da informática.

(a)

Baixa-Med.	Baixo-Med.-Escuro	Alto-crit.	Alto-crit.-Escuro	Comp.	Comp.-Escuro
Média-baixa	0.2820	0.6580	0.0177	0.0413	0.0005	0.0005
Baixo-médio-escuro	0.2820	0.6580	0.0177	0.0413	0.0005	0.0005
Alto critério	0.1290	0.3010	0.1560	0.3640	0.0250	0.0250
Alto grau de criticidade - Escuro	0.0000	0.0000	0.2250	0.7000	0.0250	0.0500
Comp.	1.0000	0.0000	0.0000	0.0000	0.0000	0.0000
Comp. -Escuro	0.0000	0.0000	0.0000	0.0000	0.8000	0.2000
(b)
Alto grau de criticidade - Escuro	0.1290	0.3010	0.1560	0.3640	0.0250	0.0250

(c)

Baixo-Med.	Baixo-Med.-Escuro	Alto-crit.	Alto-crit.-Escuro	Comp.	Comp.-Escuro
Média-baixa	0.2760	0.6440	0.0239	0.0559	0.0001	0.0001
Baixo-médio-escuro	0.2760	0.6440	0.0239	0.0559	0.0001	0.0001
Alto-crit.	0.1444	0.3369	0.1554	0.3627	0.0003	0.0003
Alto grau de criticidade - Escuro	0.0000	0.0000	0.2988	0.7000	0.0006	0.0006
Comp.	1.0000	0.0000	0.0000	0.0000	0.0000	0.0000
Comp. -Escuro	0.0000	0.0000	0.0000	0.0000	0.8000	0.2000
(d)
Alto grau de criticidade - Escuro	0.1444	0.3369	0.1554	0.3627	0.0003	0.0003

O modo proposto

Tamanho da unidade e período de tempo

Nosso modelo de simulação de eventos discretos especifica necessariamente o número de servidores e entidades normalmente dentro do sistema (Allen 2011; Law e Kelton 2000). Observamos que uma universidade de grande porte geralmente é organizada como vários departamentos, em grande parte independentes, cada um com 100 hosts. Cada organização tem um administrador responsável principalmente por reparar vulnerabilidades e facilitar as respostas a incidentes conhecidos. Portanto, o modelo inclui um pouco mais de 100 hosts (em média) em um período de mais de 100 anos para capturar aproximadamente os custos de manutenção e resposta de uma universidade. Conforme observado em AffulDadzie e Allen (2016), presumimos que os custos de correção de vulnerabilidades são, em média, US$ 150 e que a resposta a incidentes conhecidos custa, em média, US$ 2.000. Portanto, os impactos das vulnerabilidades são contabilizados, mas somente em relação aos custos diretos para lidar legalmente com incidentes conhecidos.

Estados Unidos

Seguindo Afful-Dadzie e Allen (2016), categorizamos os hosts pela vulnerabilidade de maior risco, por exemplo, um host com qualquer vulnerabilidade crítica é categorizado como crítico. Na política comum, os hosts de risco baixo e médio são geralmente ignorados. Os hosts também podem ser comprometidos, por exemplo, o host tem malware que tenta entrar em contato com o hacker ou com a equipe de hackers, mas é interceptado pelo sistema de prevenção de intrusões. Como alguns hosts estão "obscuros" na varredura e algumas intrusões são desconhecidas, consideramos estados além do estado de host descartado ou reciclado. Os estados incluem combinações visíveis e obscuras de baixo-médio, alto-crítico e comprometido. Baixo e médio e alto e crítico são emparelhados porque geralmente são tratados como equivalentes nas políticas organizacionais.

Observe que saber sobre as vulnerabilidades ou as intrusões pode não ajudar os objetivos percebidos da organização. No entanto, a observabilidade é claramente uma propriedade desejável de sistemas "resilientes" (Allen et al. 2016). Um dos principais objetivos deste artigo é esclarecer os possíveis benefícios da observabilidade aprimorada.

A solução

Modelo SIMIO

O modelo é implementado no software SIMIO. O "NewHosts" no canto superior esquerdo da Figura 1 abaixo é a fonte com hosts que vão para o nó de vulnerabilidade baixa-média, onde não há processamento. Essa falta de processamento (pesquisa, teste e aplicação de correções, se houver) é uma medida comum de economia de custos em que as vulnerabilidades cibernéticas com classificação baixa são ignoradas. Até recentemente, devido às dificuldades de inspeção, todas as vulnerabilidades cibernéticas fora da rede eram amplamente ignoradas também por muitas universidades e outras organizações. Portanto, elas também são ignoradas aqui. Todos os caminhos são "caminhos de tempo" fixos que correspondem a um mês.

Os pesos são proporcionais às probabilidades da Tabela 1. Os nós sem processamento correspondem aos estados 1, 2 e 4. Os servidores são os estados 3, 5 e 6. Embora o estado comprometido escuro não exija trabalho da equipe interna, um servidor é usado para registrar informações relacionadas a custos desse estado. O nó de aposentadoria está à direita na Figura 1, na qual os hosts são reciclados ou enviados para aterros sanitários. Em geral, os hosts são criados à esquerda e fluem para a destruição à direita. Eles passam de estados seguros na parte superior para vulnerabilidade e comprometimento na parte inferior.

É claro que, no mundo real, os computadores residem em escritórios ou cafés e sofrem um movimento mínimo (com exceção de laptops e telefones celulares). Portanto, a lógica usual de mover hosts é aplicada conforme indicado na Figura 2. Os hosts se movimentam no início e no final de suas "vidas", quando entram em aterros sanitários.

Figura 1: O modelo SIMIO para previsão de custos organizacionais ou departamentais. Figura 2: Parte da lógica SIMIO incorporada comum para os hosts de computador.

As principais diferenças entre o modelo da Figura 1 e o modelo de Processo de Decisão de Markov em Afful-Dadzie e Allen (2016) são a inclusão do nascimento e da morte de hosts aqui e a exploração relativamente menos completa das políticas ideais aqui. Um dos principais pontos fortes dos Processos de Decisão de Markov é a capacidade de gerar políticas de controle ideais. No entanto, a qualidade dessas políticas "ideais" é limitada pelas suposições associadas. Além disso, ataques desconhecidos são considerados aqui no modelo de simulação e não anteriormente.

O impacto nos negócios

Saídas brutas

Os resultados brutos do SIMIO são mostrados na Tabela 2. Nos resultados, 100 replicações são usadas para manter as meias-larguras do intervalo de confiança de 95% em menos de 1% das quantidades estimadas. Os resultados incluem "H3VRStation1" para esclarecer que eles consideram apenas as visitas à estação de reparo visível e não às vulnerabilidades escuras ou desconhecidas. Esses custos hipotéticos são adicionados nas derivações da análise de resultados para que não sejam derivados diretamente das simulações. Cenários Linux derivados das probabilidades da Tabela 1(a) e (b) e Windows derivados das probabilidades da Tabela 1(c) e (d).

Os resultados da Tabela 2 referem-se ao número de hosts que visitam cada nó. A visita a um nó de reparo ou incidente resulta diretamente em um custo incorrido, pois um membro da equipe precisa tentar corrigir as vulnerabilidades relacionadas ou responder a incidentes relevantes. Portanto, os custos do cenário são US$ 150 × (número médio de reparos) + US$ 2.000 × (número médio de incidentes).

Tabela 2: Saídas brutas do SIMIO de 100 replicações para os números de chegadas nas 3 estações principais e custos médios ou esperados associados. Os quatro "objetos" ou servidores principais são "Active5Repair" (A5R), "High3VulnRepair" (H3VR) e "Unknown6Attack" (U6A).

Cenário	Nome do objeto	Número médio	Metade da largura	Desvio padrão	Exp. Custo	Desv.	Cen. Totais
Linux	A5R	1241.5	8.2	40.8	$2,482,980	81,557	-
Linux	H3VR	6915.9	30.7	152.8	$1,037,387	22,927	-
Linux	U6A	1529.4	11.1	55.4	$3,058,860	110,719	$6,579,227
Linux No D.	A5R	1051.4	6.7	33.4	$2,102,700	66,825	-
Linux Não D.	H3VRStation1	5733.1	25.7	127.6	$2,866,565	63,808	-
Linux No D.	U6A	1201.5	8.4	41.7	$2,402,920	83,436	$7,372,185
Janelas	A5R	114.8	2.3	11.3	$229,660	22,511	-
Windows	H3VR	8528.2	33.8	168.0	$1,279,229	25,198	-
Janelas	U6A	69.0	2.1	10.6	$137,980	21,133	$1,646,869
Windows Não D.	A5R	90.5	2.0	10.0	$180,920	20,049	-
Windows Não D.	H3VRStation1	5902.8	25.4	126.3	$2,951,415	63,139	-
Windows No D.	U6A	46.5	1.5	7.6	$93,080	15,102	$3,225,415
Linux No Darkness	H3VRStation1	5733.1	25.7	127.6	$2,866,565	63,808	$7,372,185
Hipótese do Windows.	H3VRStation1	5902.8	25.4	126.3	$2,951,415	63,139	$864,283

Comparação de alternativas

Seis sistemas são comparados na Figura 3 em relação aos custos previstos esperados. Os resultados para os sistemas Linux e Windows atuais derivam diretamente da simulação com entradas na Tabela 1 e resultados na Tabela 2. A chamada política de "análise aprimorada" para cada sistema refere-se simplesmente às probabilidades ou pesos provenientes da Tabela 1(b) ou da Tabela 1(d) para os sistemas operacionais Linux e Windows, respectivamente. Essas alterações correspondem a tornar o estado 4 equivalente ao estado 3 em termos de desempenho, de modo que ocorram operações adicionais de aplicação de patches. Em outras palavras, as vulnerabilidades ocultas são reveladas. Isso adicionou 1/0,3 vezes o custo do servidor no estado 3 (A3VR).

As estimativas do sistema "Possível Linux" baseiam-se na solicitação de um especialista. As perguntas sobre o que seria esperado e o que seria plausivelmente muito alto ou muito baixo foram usadas para obter estimativas que incluíssem razoavelmente os custos de incidentes desconhecidos por meio de um processo de elicitação do tipo marketing (Allen e Maybin 2004). Os possíveis resultados do Linux devem refletir os benefícios de conhecer as vulnerabilidades dos hosts obscuros.

As estimativas de políticas aprimoradas baseiam-se nos resultados prováveis que poderiam ocorrer se apenas as vulnerabilidades críticas (1/5 das vulnerabilidades ou menos) fossem corrigidas nos sistemas Windows. Devido à vigorosa correção automática, nossas análises dos processos de decisão de Markov indicam que a correção de vulnerabilidades elevadas em determinados tipos de sistemas Windows não é econômica (Afful-Dadzie e Allen 2016). No entanto, é quase certo que haveria benefícios ao corrigir vulnerabilidades críticas em hosts obscuros. Portanto, alguns dos resultados da Figura 3 estão relacionados a resultados de simulação e outros são estimativas de opiniões de especialistas obtidas.

Figura 3: Previsões médias de custos para sistemas alternativos. Os intervalos de meia largura são geralmente inferiores a 1% dos custos esperados.

Conclusões e trabalhos futuros

Este artigo propõe um modelo de simulação de eventos discretos para prever os custos de aplicação de patches e os custos de incidentes. Os modelos são baseados em centenas de milhares de transições registradas. No entanto, também há extrapolações consideráveis, incluindo o custo efetivo de políticas aprimoradas ou de perdas que incluem incidentes desconhecidos. Com essas limitações, surgem as seguintes conclusões:

Em nosso conjunto de dados e previsões de simulação, os hosts Windows exigem custos de manutenção substancialmente menores do que os hosts Linux. Isso pressupõe que os proprietários dos hosts tinham privilégios de administrador, o que torna a operação desses hosts relativamente arriscada. No entanto, a aplicação vigorosa de patches automáticos realizada pela Microsoft provavelmente está associada a custos de manutenção organizacional mais baixos.
Tornar visíveis os hosts Windows obscuros com análises aprimoradas parece não se justificar em termos de custo. Isso ocorre porque o custo de lidar com os prováveis 70% de vulnerabilidades ignoradas pela política "fora do local, fora da mente" não seria compensado pela redução dos incidentes conhecidos. No entanto, se as perdas para a sociedade em geral pudessem ser estimadas com precisão, os incidentes reduzidos decorrentes da correção das vulnerabilidades ocultas poderiam ser compensados.
Tornar visíveis os hosts obscuros do Linux com análises aprimoradas é aproximadamente justificável em termos de custo e provavelmente beneficiaria o sistema com maior resiliência e benefícios sociais.
Tornar visíveis os hosts obscuros de todos os tipos provavelmente se justificará em termos de custo se a análise aprimorada for combinada com uma política aprimorada. Por exemplo, para hosts Windows, muitas ou todas as vulnerabilidades altas podem ser ignoradas, já que a correção automática provavelmente resolve muitas delas, mas as vulnerabilidades críticas em hosts obscuros podem ser previstas e corrigidas para reduzir os custos de incidentes.

As principais limitações do modelo proposto estão relacionadas a recursos que não são suportados. Os metamodelos de fidelidade múltipla poderiam proporcionar uma capacidade prescritiva aprimorada (por exemplo, usando os métodos de planejamento e análise de Allen e Bernstheyn 2005 ou Allen et al. 2003). Os conceitos de observabilidade parcial e observações limitadas podem gerar recomendações úteis de manutenção. Além disso, o uso de sistemas de controle automático com base no Aprendizado por Reforço Bayesiano pode ser aplicado a ações diretas de manutenção e resposta a incidentes que recrutam dados de forma otimizada, abordando as limitações de dados.

Agradecimentos

Agradecemos ao LTC Cade Saie e à NSF Grant # 1409214 pelo apoio financeiro e a Helen Patton, Steven Romig e Rajiv Ramnath pelo apoio geral a esta pesquisa e a outras relacionadas.

Biografias dos autores

THEODORE T. ALLEN é professor associado do departamento de Engenharia de Sistemas Integrados da Universidade Estadual de Ohio. Ele se formou em Princeton, fez mestrado na UCLA e doutorado na Universidade de Michigan (1997). Atualmente, é presidente da seção Social Media Analytics da INFORMS e editor da área de simulação da Computers & Industrial Engineering (IF: 3.2). Ele publicou mais de 60 publicações arbitradas e recebeu mais de 25 subsídios como PI, incluindo da NSF, ARCYBER e GE Appliances. Sua pesquisa sobre otimização de simulação para alocação de urnas eletrônicas recebeu atenção nacional e ele contribuiu para que milhões de eleitores evitassem horas de espera e mudanças efetivas ou reais nas leis da Carolina do Norte, Ohio e Michigan. Ele também atuou como editor associado do Journal of Manufacturing Systems e Quality Approaches in Education e como revisor da Operations Research, Technometrics e muitas outras revistas (allen.515@osu.edu).

ENHAO LIU é estudante de Ph.D. no departamento de Engenharia de Sistemas Integrados da Universidade Estadual de Ohio. Recebeu seu mestrado da Universidade Estadual de Ohio (2017) e seu bacharelado da Universidade de Jinan em Engenharia Elétrica e Automação (2015). Seus interesses estão relacionados à segurança cibernética, pesquisa operacional e engenharia de confiabilidade (liu.5045@osu.edu).

Referências

Afful-Dadzie, A. e T. T. Allen. 2014. Políticas de manutenção de vulnerabilidade cibernética orientadas por dados. Journal of Quality Technology 46(3):234.

Afful-Dadzie, A. e T. T. Allen. 2016. "Control Charting Methods for Autocorrelated Cyber Vulnerability Data" (Métodos de gráficos de controle para dados de vulnerabilidade cibernética autocorrelacionados). Quality Engineering 28(3):313-28.

Allen, T. T., 2011. Introduction to Discrete Event Simulation and Agent-based Modeling (Introdução à simulação de eventos discretos e modelagem baseada em agentes): Voting Systems, Health Care, Military, and Manufacturing. Londres: Springer Science & Business Media.

Allen, T. e M. Bernshteyn. 2006. "Mitigating Voter Waiting Times". Chance 19(4):25-34.

Allen, T. T. K. M. e Maybin. 2004. "Using Focus Group Data to Set New Product Prices". Journal of Product & Brand Management 13(1):15-24.

Allen, T. T., L. Yu e J. Schmitz. 2003. "An Experimental Design Criterion for Minimizing Meta-model Prediction Errors Applied to Die Casting Process Design". Journal of the Royal Statistical Society: Series C (Applied Statistics), 52(1):103-117.

Allen, T. T., J. Schenk e D. D. Woods. 2016. "An Initial Comparison of Selected Models of System Resilience" [Uma comparação inicial de modelos selecionados de resiliência de sistemas]. Em Resilience Engineering Perspectives, editado por E. Hollnagel e C. Nemeth, Volume 2, 95-116. London: CRC Press.

Case, D. U. 2016. "Analysis of the Cyber Attack on the Ukrainian Power Grid" (Análise do ataque cibernético à rede elétrica ucraniana). Washington, DC: Centro de Análise e Compartilhamento de Informações sobre Eletricidade (E-ISAC).

Gauci A., S. Michelin e M. Salles. 2017. "Addressing the Challenge of Cyber Security Maintenance Through Patch Management" [Enfrentando o desafio da manutenção da segurança cibernética por meio do gerenciamento de patches]. CIRED-Open Access Proceedings Journal (1):2599-2601.

Naugle, A., M. Bernard e I. V. Lochard. 2016. "Simulating Political and Attack Dynamics of the 2007 Estonian Cyber Attacks" (Simulação da dinâmica política e de ataques dos ataques cibernéticos da Estônia em 2007). Em Proceedings of the 2016 Winter Simulation Conference, editado por T.M. K. Roeder et al., 3500-3509. Piscataway, Nova Jersey: IEEE.

Nguyen, C. K. Q., J. E. Dietz, S. Liles, V. Raskin e J. Springer. 2015. "Econometria de defesa cibernética de uma infraestrutura de distribuição de rede elétrica". Em Proceedings of the 2015 Winter Simulation Conference, editado por L. Yilmaz et al., 906-911. Piscataway, Nova Jersey: IEEE.

Huang, D. e T. T. Allen. 2005. "Design and Analysis of Variable Fidelity Experimentation Applied to Engine Valve Heat Treatment Process Design". Journal of the Royal Statistical Society: Series C (Applied Statistics) 54(2):443-463.

Law, A. M. e W. D. Kelton. 2000. Simulation Modeling & Analysis. 3ª ed. Nova York: McGraw-Hill. Shin J., H. Son e G. Heo. 2015. "Development of a Cyber Security Risk Model using Bayesian Networks" [Desenvolvimento de um modelo de risco de segurança cibernética usando redes bayesianas]. Reliability Engineering & System Safety 134:208-217.

View full post