Investigative & Regulatory Analytics : Le Big Data au service des Investigations Judiciaires

Nassim Hartani

Il ne s’agit pas de la première affaire judiciaire ou un volume important de données électroniques est saisi et analysé. En effet, les grosses investigations de fraude, corruption ou non-conformité règlementaire telles que celles opérées par les autorités de régulation (marchés financiers, concurrence, énergie…) peuvent porter sur plusieurs millions de documents électroniques : des données structurées (transactions financières) mais aussi des données non-structurées tels que des e-mails, des documents électroniques et papiers.
L’enjeu de ces investigations est de taille car les sanctions peuvent être très lourdes (récemment encore, BNP Paribas s’est vue infligée une amende record de 6 milliards d’euros), les conséquences peuvent même aller jusqu’à causer la faillite à l’exemple de l’affaire Enron.

Toutes les dimensions du Big Data sont présentes dans ce genre d’investigation

La recherche d’éléments pertinents pour ce genre d’affaires nécessite l’analyse d’une large quantité de données très hétérogènes, l’ensemble des dimensions du « Big Data » sont couvertes :

Variété :
Les données saisies dans le cadre des enquêtes règlementaires sont extrêmement diverses :
- Données structurées : transactions financières
- Documents électroniques : E-mails, Chats, Documents bureautique…
- Documents scannés : fax, contrats, documents archivés…
- Documents audio : conversations téléphoniques, notamment dans les salles de marché où les enregistrements vocaux font l’objet d’une obligation réglementaire

Volume :
Les plus grosses affaires nécessitent de traiter des millions de documents pour des volumes pouvant atteindre plusieurs dizaines de téra-octets.

Vitesse :
Ce genre de procédures est marqué par le caractère strict et impératif de l’échéance qui est fixée par les autorités juridictionnelles et donc nécessite un traitement rapide pour respecter les délais impartis.

Applications du Big Data dans le cadre judiciaire

Aujourd’hui, de nombreuses technologies de Big Data sont utilisées efficacement dans le cadre d’investigations judiciaires d’envergure. Loin d’être exhaustifs en voici quelques exemples :

L’analyse de masse de documents électroniques et papier :
Indexation de millions de fichiers et e-mails saisis pour construire un entrepôt de métadonnées entièrement requétable :
- Extraction des fichiers inclus dans des conteneurs (zip, archives mail, pièces jointes …)
- Extraction des métadonnées telles que la date de création/modification des documents, l’auteur, les personnes qui en ont possession, la position GPS des photos…
- Indexation du texte y compris des documents scannés au travers de l’OCR
- Analyse sémantique du texte pour reconnaitre les entités : pays, numéros de brevets, sommes d’argents…

A partir du texte et des métadonnées, un premier tri est effectué : filtrage par mots-clés, période, types de fichiers…

Puis une classification automatique des documents restants est faite pour identifier ceux qui sont potentiellement pertinents pour l’affaire :
- Documents non pertinent : étrangers à l’affaire
- Documents pertinent : liés à l’affaire
- Documents Confidentiel : contenant des informations confidentielles telles que les informations nominatives des personnes, N° de sécurité sociale… qui devront être anonymisés.

Cette méthode repose sur l’apprentissage automatique à partir d’un échantillon de documents évalués par un expert/avocat.

L’analyse audio :
A partir d’une série de fichiers audio, un index phonétique est construit, cet index est alors interrogé pour rechercher les séquences sonores contenant des mots-clés particuliers avec toutes les combinaisons qu’offre une recherche avancée :
- Rechercher les mots « amiante » et « responsabilité » dans la même séquence
- Rechercher le mot « intérêt » précédé par « dommages » au cours des 30 secondes antérieures
- etc

Perspectives

Tous ces exemples sont aujourd’hui une réalité transposable à de nombreux champs d’application comme les industries de la presse et des médias audio-visuels, la relation client ou la sécurité des réseaux.
En ce qui concerne les enquêtes judicaires, on sait aujourd’hui analyser les transactions, le texte et l’audio. La prochaine étape pourrait être l’extension des capacités analytiques à la vidéo, en guise d’exemple on pourrait dans un futur proche interroger un système de vidéo surveillance en quasi temps-réel pour rechercher l’ensemble des séquences dans lesquelles une voiture rouge apparait !

Autres articles

Investigative & Regulatory Analytics : Le Big Data au service des Investigations Judiciaires

Le procureur général de la confédération suisse a annoncé ce mercredi avoir saisi 9 téra-octets de données appartenant à la FIFA dans l'enquête sur l'attribution des coupes du monde de football 2018 et 2022.

Toutes les dimensions du Big Data sont présentes dans ce genre d’investigation

Applications du Big Data dans le cadre judiciaire

Perspectives

[Promotion] Livre Blanc Alteryx : La science des données en pratique

Maîtriser ses données sur le Cloud : l'ESILV apprend aux étudiants à dompter le Big Data sur 120 machines

De quelle façon trois générations de disques durs Toshiba ont aidé le plus grand laboratoire de physique du monde à conserver, chaque seconde, des centaines de téraoctets de données générées par les expériences du LHC

Big Data & Big Brother : de l’intérêt de connaître notre ADN

Livre : Big Data, le traitement streaming et temps réel des données

IFS acquiert 7bridges pour transformer les supply chains industrielles grâce à l'IA - 20/08/2025

Pigment dévoile sa feuille de route IA agentique - 25/03/2025

Comand AI lève 8,5 millions d'euros pour apporter une supériorité militaire décisive à la France et ses alliés - 16/12/2024

Des algorithmes capables de dépasser l’œil humain : l’IA révolutionne le dépistage des maladies oculaires - 30/11/2024

Lucanet intègre l’IA générative à ses solutions et révolutionne la gestion des processus complexes pour les directions financières - 30/11/2024