Le machine learning, un atout clé pour débusquer les hackers et les imposteurs

La cyberattaque à l’encontre de Yahoo : une attaque complexe en 5 phases comportant chacune plusieurs actions dynamiques

James Sirota, directeur des solutions sécurité, Hortonworks

Avant d’entrer dans les détails de sa mise en place, résumons rapidement l’incident. Selon l’acte d’accusation, l’incident a débuté en 2014 et la présence du responsable de l’attaque sur les réseaux de Yahoo a duré jusqu’en décembre 2016, soit entre 1 et 2 ans. Il s’agit d’une attaque ciblée, prétendument commanditée par un organisme de renseignement russe, qui a commencé par une attaque de phishing visant un employé « semi-privilégié » de Yahoo.

• Phase 1 : Attaque de phishing, installation d’un backdoor et vol d’informations de connexion
L’email a dû certainement contenir une pièce jointe ou un lien compromis sur lequel la victime a cliqué. Un backdoor a dû ensuite être installé sur la machine infectée, ce qui a permis aux hackers de voler les informations de connexion de l’utilisateur (et éventuellement les comptes de service présents sur l’appareil).

• Phase 2 : Dissimulation de l’accès non autorisé et reconnaissance durant 6 à 12 mois
Les pirates ont ensuite téléchargé des outils supplémentaires pour maintenir et dissimuler l’accès non autorisé, puis lancé une procédure de reconnaissance. Cela correspond à la consultation des journaux de l’hôte, à l’écoute passive du trafic du réseau, à l’analyse active du réseau, à la copie de données et bien plus. Ceci a duré plus de 6 mois, de début 2014 jusqu’au mois de décembre de la même année.

• Phase 3 : Localisation et infiltration des cibles puis piratage d’emails avec des informations d’authentification compromises
Par la suite, les hackers ont pu localiser la base de données des utilisateurs (UDB – User Database) ainsi que l’outil de gestion des comptes (AMT – Account Management Tool) de Yahoo. Ils ont alors utilisé l’AMT de façon malveillante pour falsifier des cookies d’authentification pour les comptes de messagerie Yahoo, qui semblaient avoir été obtenus avec une identification antérieure valide d’un compte d’utilisateur de messagerie, afin de ne pas avoir besoin d’une nouvelle authentification.

• Phase 4 : Copie de la base de données des utilisateurs et de l’outil de gestion des comptes puis exfiltration par un réseau non sécurisé
En outre, les pirates ont effectué une copie de sauvegarde de l’AMT et de l’UDB avant de l’exfiltrer sur une période de 2 mois par le biais d’un FTP (protocole de transfert de ficher) chiffré, ce qui leur a permis de falsifier des cookies à la demande, hors du réseau de Yahoo.

• Phase 5 : Exploration des emails à la recherche de numéros de carte bancaire, d’informations personnelles et plus encore
Grâce à ces méthodes, les hackers ont pu accéder à des milliers d’emails d’utilisateurs de Yahoo et ont exploré ces informations à la recherche de numéros de carte bancaire, d’informations personnelles, d’autres données sur le compte et bien plus. Ces informations ont été utilisées pour leur profit personnel et ont également été vendues à l’organisme de renseignement russe.
Comment le Machine Learning permet de réduire les risques d’une telle cyberattaque ?
Il est possible d’utiliser efficacement le framework Apache Metron pour détecter les attaques du même type que celle dont a été victime Yahoo en tirant profit du machine learning, de profils statistiques, de règles de tri dans le système, afin d’identifier des comportements similaires en temps réel.

Cette approche de l’analyse du Big Data à la sécurité informatique est fondamentalement différente des approches déterministes basées sur des règles des systèmes de gestion de la sécurité, des informations et des événements (SIEM) actuels. Elle est plus proactive et adaptable à des comportements dynamiques complexes, lors de l’exploration du cyber datalake de l’entreprise pour obtenir des informations comportementales et identifier le comportement de fonctionnement « normal » des utilisateurs et des ressources, qui est ensuite encodé en matière de fonctionnalités dans les références statistiques et les modèles de machine learning.

• Le datalake, ressource essentielle pour la stratégie de machine learning

Le datalake, et particulièrement la qualité et le volume des données de sécurité de cet environnement, est une ressource essentielle à une stratégie de machine learning. Les données contextuelles riches provenant de plusieurs outils isolés sont importantes, tels que des sondes de réseau, des outils d’analyse de paquets (DPI - Deep Packet Inspection), des journaux d’application, du stockage d’informations d’identité, des capteurs, des dispositifs IDS et même des bases de données de RH et des journaux d’accès physique. Plus les sources de données sont nombreuses, plus il est possible d’explorer des perspectives et des informations provenant de plusieurs ensembles de données, qui peuvent ensuite être encodées dans les modèles de détection.

• Les profils permettent des comparaisons entre les comportements normaux et inhabituels

Voyons à présent comment ceci s’applique concrètement à l’attaque contre Yahoo. Les pirates ont tout d’abord envoyé un email de phishing ciblé non repéré par les outils d’analyse de messages électroniques, puis transmis à un collaborateur de Yahoo. Avec Apache Metron, il est possible d’ajouter une couche supérieure aux analyses déjà effectuées par l’analyseur d’emails et de profiler les journaux du serveur de messagerie. Grâce au profileur d’Apache Metron, il est possible de calculer la probabilité qu’un utilisateur X reçoive un email d’une source Y à un moment T portant une combinaison spécifique d’en-têtes de courriel. Pour Apache Metron, ceci correspond à un profil. Il est ensuite possible de configurer une règle d’alerte dynamique pour avertir lorsqu’une situation inattendue est détectée sur ce profil.

• Les données complètes et contextuelles permettent de détecter les imposteurs

Une fois l’attaque de phishing ciblée réussie, il s’agit d’un cas de corruption d’un compte d’utilisateur légitime, à présent détourné par des hackers. L’évolutivité de Metron, sa capacité à effectuer un enrichissement en ligne et sa capacité à dériver des utilisateurs et des profils d’entité en temps réel sont particulièrement utiles dans cette situation. Apache Metron peut identifier et analyser le comportement des utilisateurs à partir de plusieurs sources, créer des références statistiques de ce comportement, puis concevoir une vue selon les risques des comportements anormaux d’une entité à partir d’un ensemble de profils configurés dans le système.

Ainsi, si un utilisateur se connecte à des ressources auxquelles il ne se connecte pas d’habitude, à des heures où il n’est généralement pas actif et depuis un emplacement auquel il n’est pas associé, s’il utilise des outils ou des mécanismes inhabituels, etc. le score de risque sera amplifié en conséquence. Plus les sources et le contexte sur le comportement de l’utilisateur sont précis, plus les profils seront de bonne qualité. Ainsi, le développement du datalake est le point essentiel de cette stratégie.

• Les plateformes Hadoop telles qu’Apache Metron permettent la détection des outils de piratage

Après avoir effectué une reconnaissance du réseau, les hackers ont utilisé un outil pour conserver leur mainmise ou exploiter davantage les ressources de Yahoo. La plupart de ces outils sont bien connus des analystes de sécurité et leur présence peut facilement être vérifiée à l’aide de Metron, Hadoop et Spark d’Apache.

Les noms de fichiers, les hachages et d’autres signatures associées à ces outils peuvent être vérifiés en temps réel à l’aide du module de détection des menaces d’Apache Metron. Il est également possible de vérifier leur présence en exécutant des requêtes par lots périodiques par rapport au datalake de sécurité informatique de l’entreprise. Dans les deux cas, une plateforme Hadoop, telle qu’Apache Metron, offre l’opportunité de le faire sur une échelle de grande envergure.

• Le volume et la rentabilité du Big Data est l’unique façon d’accéder à la totalité des données nécessaires à l’analyse de l’impact d’une attaque

Pour finir, quelques mots sur l’exfiltration des données. Le processus proprement dit a duré environ 2 mois, alors que la présence du pirate sur le réseau de Yahoo a duré environ 2 ans. En conséquence, pour effectuer une investigation adaptée de cet incident, il est important de construire un datalake suffisamment grand pour pouvoir obtenir et examiner des journaux et des métadonnées du réseau datant de plus d’un an.

La capacité d’analyse de paquets bruts est également essentielle, car les métadonnées et les journaux seuls contiennent rarement assez de renseignements pour permettre une analyse correcte de l’impact de l’attaque. Apache Metron comporte un ensemble de modules analyseurs pour traiter et enrichir facilement les données, afin de construire le cyber datalake, ainsi qu’un ensemble de sondes pour permettre une analyse de paquets dans le cadre d’une enquête de haute fidélité. Apache Metron permet alors de mettre en corrélation des analyses de paquets avec des journaux et des métadonnées, pour pouvoir enquêter sur des attaques similaires à celle frappant Yahoo et évaluer leur impact potentiel.

image.png (4.08 Ko)

Autres articles

Abonnez-vous gratuitement à Decideo !

Le machine learning, un atout clé pour débusquer les hackers et les imposteurs

La cyberattaque à l’encontre de Yahoo : une attaque complexe en 5 phases comportant chacune plusieurs actions dynamiques

Confluent dévoile Tableflow pour unifier le paysage opérationnel et analytique avec le Data Streaming

Canonical lance Charmed Spark, une solution compatible avec Apache Spark® sur Kubernetes

Amazon Redshift prend désormais en charge les requêtes sur les tables Apache Iceberg

Neo4j lance le nouveau connecteur Apache Spark

Le Projet MLflow de Databricks rejoint la Fondation Linux

Miser sur le DataOps pour les projets de données - 11/04/2024

L’IA explicable : redonner confiance en l’IA - 10/04/2024

L’intégrité des données, un enjeu phare de la transformation numérique - 09/04/2024

IA Act : un changement de paradigme est nécessaire - 03/04/2024

Journée mondiale de la sauvegarde des données : l’optimisation de la gestion des données au service des entreprises - 29/03/2024