Système d'Information Décisionnel - Le blog de Michel Bruley

Rubriques :

Twitter

Big Data : la réussite dépend de la qualité des ingrédients et du savoir-faire des équipes

Tout cuisinier sait que la réussite d'un chef-d'œuvre culinaire réside en grande partie dans les ingrédients. Il est difficile de préparer un excellent repas si les ingrédients sont mauvais ou si leur combinaison n'est pas adéquate. Il en va de même pour l'analyse de données. Si les données sont incomplètes, inexactes, ou sans rapport avec le problème à résoudre, il sera difficile, voire impossible, de créer un modèle. Par exemple, si le modèle de calcul de la valeur des clients attribue un faible score à certains clients rentables, car les transactions en ligne ou les commandes spéciales ne sont pas prises en compte, il y a le risque de perdre certains des meilleurs clients. L’efficacité d’un modèle d'analyse de données est donc directement proportionnelle à la qualité des données. En d'autres termes, on ne peut pas cuisiner un bon repas avec de mauvais ingrédients.

L'analyse de données exploite des algorithmes de statistiques et d'apprentissage automatique pour trouver des informations qui peuvent contribuer à résoudre les problèmes quotidiens que rencontrent les entreprises. Lorsque les utilisateurs font de l'analyse de données, ils mettent en œuvre en général des algorithmes mathématiques tels que des réseaux neuronaux, des arbres de décision et d'autres techniques statistiques complexes qui servent à rechercher des tendances dans les données. S'il est vrai que ces algorithmes sont une partie importante de l'analyse de données, il convient de noter que ces outils recherchent des tendances dans n'importe quelles données, quelles que soient les capacités de ces dernières à représenter les comportements et les tendances que l’on essaye de modéliser. Pour cette raison, la préparation des données est l'une des étapes les plus critiques dans l'analyse de données et pourtant, il s'agit souvent de l'une des étapes les plus négligées.

La première étape dans la préparation des données consiste à recueillir les données relatives au problème à résoudre. Si un utilisateur possède un data lake, le processus est considérablement simplifié. Au contraire, si les données sont stockées en divers endroits, il faut explorer plusieurs sources afin d'identifier les données disponibles pour résoudre le problème. Dès que les données qui doivent être analysées sont définies, il convient de les intégrer, les évaluer et éventuellement les transformer pour s’assurer qu'elles sont valides d'un point de vue conceptuel, cohérentes et statistiquement analysables. Par exemple, si les données proviennent de différentes sources, il faudra résoudre de nombreux problèmes de formats et de définitions.

Même si un utilisateur a la chance d'avoir un data lake, les données qu'il contient ne conviendront probablement pas en l’état pour l’analyse envisagée. Il faut alors isoler et préparer des données pour le modèle. Cela signifie qu’il faut travailler en collaboration avec les analystes et les experts en données afin de définir les éléments qui sont nécessaires pour réaliser le modèle. Il est primordial, pour chaque variable, de définir s’il faut utiliser toutes les données ou uniquement un sous-ensemble. Il convient aussi de définir une stratégie pour traiter les valeurs aberrantes (données hors norme) ou éventuellement développer quand même un modèle reposant sur ces valeurs. Par exemple, si l’objectif est de prévoir les taux de fréquentation et les revenus de rencontres sportives, il faut certainement éliminer les chiffres de fréquentations anormales dues à des événements particuliers, grève des transports, etc.… Au contraire dans le cas de la détection de fraudes, il peut-être pertinent de se concentrer sur certaines valeurs aberrantes, car elles sont peut-être la représentation de transactions frauduleuses.

Une fois que les données sont sélectionnées, il convient de les analyser à l'aide de techniques de statistique descriptive et de visualisation pour identifier les problèmes de qualité et mieux comprendre les caractéristiques des données. Des problèmes de qualité des données peuvent être mis en lumière, tels que des valeurs manquantes qui peuvent nuire à l'intégrité de n'importe quel modèle d'analyse. Il faut alors compenser et corriger les problèmes identifiés. Ainsi, s'il manque des données, il faut déterminer la meilleure méthode pour abandonner ou remplacer ces valeurs manquantes. Certaines techniques d'analyse de données permettent d’estimer les valeurs manquantes sur la base d'autres valeurs mesurées.

Il existe de nombreuses techniques qui peuvent être employées pour obtenir de meilleurs modèles. Il s'agit par exemple de créer des variables "dérivées", de remplacer des valeurs manquantes ou d’utiliser des techniques d'agrégation ou de réduction des données. Il peut être nécessaire de rechercher les meilleurs agrégats ou de nouvelles variables analytiques pour construire un modèle optimum. Par exemple, dans le cadre de la préparation des données relatives aux clients en vue d'un programme de marketing pour un nouveau prêt, le rapport endettement/revenu peut être un indicateur mieux adapté que le seul revenu ou le seul endettement.

Enfin, les données doivent être transformées dans un format adapté aux algorithmes d'analyse. De nombreux algorithmes d'analyse de données requièrent la transformation des données de classification (non numériques) en données numériques ou la réduction de celles-ci dans une plage particulière. Certains algorithmes et techniques statistiques nécessitent également que les données numériques possèdent des propriétés spécifiques qui n'existent peut-être pas dans les données avant la transformation. Pour ces variables, il faudra peut-être les encoder à nouveau ou les transformer pour produire les variables adéquates pour les techniques d'analyse de données. Ainsi la valeur des données est directement proportionnelle au temps et au soin consacrés à leur préparation en vue de régler un problème analytique particulier.

À l'instar de ce que dirait un cuisinier en préparant son plat, la qualité du résultat final dépend en grande partie des ingrédients, mais on voit bien que les processus décrits ci-dessus ne peuvent être mis en œuvre avec succès que par des équipes compétentes. Pour aller plus loin sur ce sujet vous pouvez utilement consulter mon article intitulé : L’analyste de « Mégadonnées ou Big Data » doit se méfier de son enthousiasme : cliquez ici

Rédigé par Michel Bruley le Lundi 4 Avril 2016 à 09:01 | Permalien | Commentaires

{0}

> A LIRE EN CE MOMENT SUR DECIDEO

Profil

Michel Bruley

Liste de liens

Mes contributions à M@batim

Premiers pas dans les Big Data

Une partie de mes contributions à DECIDEO

Mon compte Twitter

Mon compte Scribd

Mon compte Slides Share

My blog in English

Profil linkedin de Michel Bruley

eBook : Propos sur les Systèmes d'Information Décisionnels

Dernières notes

Technologie : compilation de mes derniers articles 20/04/2024

Les lois de Golub concernant les grands projets, vont s’appliquer à l’IA 19/03/2024

Meilleurs vœux aux parents pour 2024 10/01/2024

Les propos d’un expert au sujet des bugs de Femme 1.0 16/09/2023

Les hommes vus par les femmes : dur, dur pour nous les mecs … 24/07/2023

Comité Mondial de Normalisation : La Première Norme 29/05/2023

L’organisation scientifique du travail et le concert symphonique 02/04/2023

RECETTE DE LA DINDE AU WHISKY 27/01/2023

À propos des schémas directeurs informatiques 23/11/2022

Le 1 to 1 marketing a bientôt trente ans 24/09/2022

Galerie

Système d'Information Décisionnel - Le blog de Michel Bruley

Le nouvel outil Webfleet Transition EV permet l’électrification des flottes par la donnée

Alteryx et DataCamp s'allient pour permettre à tous les salariés de se former à l'analyse

Quel est le futur des métiers de la data et de l’IA vu par les grands groupes français ?

OneStream Software réinvente et renforce le rôle du CFO grâce à sa nouvelle solution Narrative Reporting

Empreinte de la Donnée sur le vivant : Le Cercle de la Donnée et l’Agora 41 présentent 5 propositions pour un numérique responsable

Les dirigeants adoptent l'IA sous la pression médiatique, mais la préparation organisationnelle reste un défi majeur

La NASA s’appuie sur le moteur d’Enterprise Search de Sinequa pour propulser son nouveau moteur Science Discovery Engine

IA, simplification et débureaucratisation pour transformer l'État

GS1 France aux côtés d’Equadis pour développer la solution « Data Quality Checker » garantissant l’échange de données de qualité sur le marché français

XXII lance RETAIL ANALYTICS, une innovation majeure pour le secteur du retail