PhD Thesis

Intrusion detection using clustering and outlier detection

Luís Filipe Xavier Cavaco de Mendonça Dias2022

Key information

Authors:

Luís Filipe Xavier Cavaco de Mendonça Dias (Luis Filipe Xavier Cavaco de Mendonca Dias)

Supervisors:

Miguel Nuno Dias Alves Pupo Correia (Miguel Nuno Dias Alves Pupo Correia)

Published in

06/01/2022

Abstract

O crescimento imparável dos ciberataques, demonstra a necessidade de novos métodos de deteção de intrusões. A grande variedade de mecanismos de prevenção e deteção em tempo real atualmente implementados, não proporciona proteção suficiente. Por conseguinte, argumentamos que as organizações têm de investigar o tráfego, registos e quaisquer dados relevantes para a segurança, procurando padrões anómalos em janelas de tempo maiores. A maioria das abordagens que configuram sistemas de deteção de intrusões, requerem conhecimento sobre ataques (para definir assinaturas/regras) ou dados de treino limpos (para configurar detetores de anomalias). O primeiro tende a ser incompleto, enquanto o segundo é difícil de obter nos sistemas em produção. Além disso, a constante evolução dos ataques e o dinamismo inerente das redes informáticas criam graves dificuldades aos sistemas tradicionais, deixando-os incapazes de detetar novos ataques, ou gerando um elevado número de falsos positivos. Esta tese centra-se em abordagens de deteção de intrusões mais recentes, utilizando técnicas de aprendizagem automática. A aprendizagem não supervisionada, o conjunto de técnicas que usamos, parece ser a mais adequada para o problema da deteção de intrusões, porque por definição, não precisa de dados rotulados, nem de assinaturas, nem de dados de treino. Assim, esta tese propõe abordagens para deteção de intrusões, utilizando clustering ou deteção de outliers, para identificar entidades (tipicamente utilizadores ou máquinas) que têm um comportamento anómalo num período de tempo, inobservável em tempo real. Primeiro, apresenta-se a abordagem designada OutGene, que introduz a noção de time stretching, permitindo detetar ataques furtivos que tentam passar abaixo do radar do esquema de deteção. Com o OutGene demonstra-se que ao analisar os fluxos de rede em diferentes janelas e escalas de tempo, é possível detetar ataques independentemente do ritmo a que são executados. Na sequência do OutGene foi desenvolvida a abordagem CryingJackpot, um exemplo concreto da aplicação de clustering e do time stretching a um problema específico, designadamente o cryptojacking. O CryingJackpot é uma abordagem inovadora na deteção de cryptojacking, extraindo e combinando características baseadas não só em fluxos de rede mas também em métricas de desempenho dos computadores dessa rede. Todas as abordagens anteriores de deteção de intrusões, baseiam-se na pré-seleção de características. Esta pré-seleção impõe fragilidades, por exemplo, limita o sistema à deteção de determinados ataques. Esta tese propõe o DynIDS, uma abordagem que melhora as anteriores, através da seleção dinâmica das características com base no tráfego observado. Por fim, a tese propõe o C2BID, uma abordagem inovadora, que numa primeira fase extrai características de forma dinâmica com base no DynIDS e agrupa as entidades com comportamento semelhante, tal como as abordagens prévias. Contudo, numa segunda fase, o C2BID analisa como as entidades se movem entre clusters ao longo de um período de tempo maior (e.g., 1 dia). Esta abordagem contrasta com os trabalhos anteriores neste domínio, que param na etapa de clustering. Em suma, este trabalho contribui para o estado da arte, com novas técnicas de aprendizagem não supervisionada aplicadas à deteção de intrusões, permitindo detetar ataques indefinidos sem assinaturas e sem dados de treino limpos, com resultados muito positivos. The unstoppable growth of cyber-attacks demonstrates the need for new methods of intrusion detection. The wide variety of real-time prevention and detection mechanisms currently in place do not provide sufficient protection. Therefore, we argue that organisations need to investigate traffic, logs and any security-relevant data, looking for anomalous patterns over longer time windows. Most approaches that configure intrusion detection systems require either knowledge about attacks (to define signatures/rules) or clean training data (to configure anomaly detectors). The former tends to be incomplete, while the latter is difficult to obtain in production systems. Moreover, the constant evolution of attacks and the inherent dynamism of computer networks create serious difficulties for traditional systems, leaving them unable to detect new attacks or generate a high number of false positives. This thesis focuses on more recent intrusion detection approaches using machine learning techniques. Unsupervised learning, the set of techniques we use, seems to be the most suitable for the intrusion detection problem. By definition, it does not need labelled data, signatures, or training data. Thus, this thesis proposes approaches for intrusion detection, using clustering or outliers detection, to identify entities (typically users or machines) that have anomalous behaviour in a period of time, unobservable in real time. First, the approach called OutGene is presented, introducing the notion of time stretching, allowing to detect stealthy attacks that try to pass below the radar of the detection scheme. OutGene shows that by analysing network flows in different windows and time scales, it is possible to detect attacks regardless of the rate they are executed. Following OutGene, the CryingJackpot approach was developed, a concrete example of the application of clustering and time stretching to a specific problem, namely cryptojacking. CryingJackpot is an innovative approach in detecting cryptojacking by extracting and combining features based not only on network flows but also on performance metrics of computers on that network. All previous approaches to intrusion detection are based on feature pre-selection. This pre-selection imposes weaknesses, and for example, it limits the system to detect specific attacks. This thesis proposes DynIDS, an approach that improves on the previous ones by dynamic feature selection based on traffic data. Finally, the thesis proposes C2BID, an innovative approach, which in a first phase extracts features dynamically based on DynIDS and groups entities with similar behaviour, as the previous approaches. However, in a second phase, C2BID analyses how entities move between clusters over a longer period of time (e.g., 1 day). This approach contrasts with previous work in this domain, which stops at the clustering stage. In summary, this work contributes to state of the art, with new unsupervised learning techniques applied to intrusion detection, allowing detection of undefined attacks without signatures and clean training data, with very positive results.

Publication details

Authors in the community:

Supervisors of this institution:

RENATES TID

101709358

Degree Name

Doutoramento em Segurança de Informação

Fields of Science and Technology (FOS)

computer-and-information-sciences - Computer and information sciences

Keywords

  • deteção de intrusões em redes
  • aprendizagem automática
  • clustering
  • segurança analítica
  • engenharia de características
  • cibersegurança
  • network intrusion detection
  • machine learning
  • clustering
  • security analytics
  • feature engineering
  • cybersecurity

Publication language (ISO code)

eng - English

Rights type:

Only metadata available

Institution name

Instituto Superior Técnico