Les graphes donnent également un sérieux coup de pouce à l’apprentissage supervisé en permettant l'analyse d'un ensemble bien plus riche d’attributs de données, ce qui vous permet de déployer des algorithmes de machine learning plus sophistiqués.



Prenons l’exemple de la détection d’appels indésirables sur un vaste réseau de téléphonie mobile. C’est précisément le problème que China Mobile souhaitait résoudre. Avec plus de 900 millions d’abonnés, l’opérateur assure plus de deux milliards d’appels téléphoniques par semaine. Toutefois, un petit pourcentage de ces appels sont indésirables voire frauduleux. L’opérateur était déterminé à y mettre fin.

Pour cela, il suffit d’analyser les attributs de données du téléphone émettant l’appel. S’ils remplissent les critères d’un appelant frauduleux, la personne appelée reçoit un message d'avertissement – avant même qu’elle décroche – la prévenant qu’il pourrait bien s’agir d’une arnaque. Elle peut alors décider de répondre ou non.



À première vue, l’opérateur aurait pu s’appuyer sur un ensemble d’attributs de données relativement simples pour détecter les téléphones des fraudeurs. Mais le problème avec des critères comme la durée des appels et le pourcentage d’appels rejetés, c'est qu'ils finissent par signaler un grand nombre d’appels légitimes comme suspects. Il fallait donc éliminer ces faux positifs.



C’est pourquoi China Mobile a choisi d’élargir considérablement son champ d’analyse et de passer au crible 118 attributs de données pour mieux distinguer les téléphones légitimes des appels malveillants. L’opérateur avait besoin d’algorithmes de machine learning suffisamment puissants pour analyser toutes ces caractéristiques rapidement, avant que le réseau ait eu le temps de connecter les deux téléphones. Grâce au machine learning, il est possible de classifier un appelant à la lumière de ses relations avec d’autres téléphones sur le réseau, elles-mêmes synthétisées en trois propriétés clés :

● Groupe stable – basé sur le nombre de téléphones vers et depuis lesquels un appareil donné émet et reçoit régulièrement des appels. Parmi les facteurs pertinents figurent le nombre de téléphones régulièrement contactés, mais aussi la fréquence des interactions entrantes et sortantes et la durée de la relation avec chaque téléphone.

● Connexions au sein du groupe – l’étroitesse des relations entre les téléphones régulièrement en contact avec l’appareil concerné.

● Triangles d’amitié – la portée des relations étendues entre un téléphone donné et d’autres. Il s’agit de savoir si un téléphone entretient des relations avec d’autres, eux-mêmes connectés à d’autres, qui à leur tour émettent des appels vers le premier (et forment ainsi une sorte de boucle relationnelle).



Il se trouve que les téléphones émetteurs d’appels frauduleux échouent systématiquement à ces trois « tests ». Difficile en effet pour les arnaqueurs de corriger ou dissimuler ces caractéristiques sur les téléphones utilisés. Avec des données issues des téléphones légitimes et malveillants connus, il est possible d’entraîner les algorithmes de machine learning à reconnaître efficacement les comportements suspects.



La modélisation de ces indicateurs est une chose, mais leur implémentation en temps réel à travers un réseau de près d’un milliard de téléphones en est une autre. Le facteur temps réel est crucial car il ne sert à rien de signaler un appel potentiellement frauduleux si le message arrive après que la personne ait décroché. C’est notamment pour cette raison que China Mobile a opté pour les bases de données de graphes.



En clair, une base de données de graphes native intègre le langage de requête nécessaire pour parcourir de nombreuses relations, puis filtrer et agréger les résultats. Mais ce n’est pas tout ! Elle offre également la puissance de calcul et l’architecture système sous-jacente indispensables à une exécution en temps réel.