De la préparation des Big Data pour les analyses avancées

Michel Bruley, Directeur Marketing Teradata Aster

La préparation des Big Data pour les analyses avancées se fait dans un contexte très différent. Ces données ne sont jamais rendues publiques et ces analyses sont souvent ponctuelles ou très rarement réitérées de la même façon. Par conséquent la modélisation et la gestion des chargements, de la qualité etc. ne se fait pas avec les mêmes exigences. En fait, si vous appliquez l'arsenal complet des pratiques de préparation des données sur des données analytiques, vous courez le risque d’en réduire leur valeur analytique.

Comment un processus de préparation sensé donner de la valeur aux données, peut-il nuire ? Pour répondre à cette question, voyons d'abord ce qu'on appelle «analyse avancée ». Ces techniques analytiques seraient mieux appelées «analyses exploratoires», car c'est ce que les utilisateurs font avec elles. Des professionnels de l’analyse ou des analystes métier utilisent ces techniques impliquant la mise en œuvre de programmes SQL complexes ou de MapReduce, pour explorer des données et découvrir des faits que l'on ne connaissait pas auparavant. Par exemple découvrir un ensemble de transactions qui indiquent un nouveau type de fraude, ou un nouveau groupe de clients ayant un comportement homogène, ou un groupe de caractéristiques possédées par les personnes qui passent à la concurrence.

Généralement, vous ne pouvez pas faire ce type de découverte à partir des données modélisées, agrégées et déjà excessivement étudiées de votre entrepôt d’entreprise. Pour cela vous avez besoin de Big Data, beaucoup plus détaillées telles qu’elles sont dans leur système source, certaines formes d'analyse s’accordant bien à des données brutes, apparemment incomplètes. Par exemple, l’efficacité d’applications analytiques pour la détection de fraudes peut dépendre de valeurs aberrantes, de données non-standard ou de données manquantes, pour indiquer la possibilité d’une fraude.

Les possibilités de découverte se concentrent souvent sur un tout petit nombre de clients, de transactions, sur une période de temps très courte, etc. Ces tranches fines peuvent facilement disparaître dans une passe d’agrégation. Ainsi, si vous appliquez les processus habituels d’extraction, de transformation et de chargement de données ou ceux liés à vos exigences de qualité, comme cela se fait aujourd’hui pour un entrepôt de données classique, vous courez le risque d’éliminer les pépites qui font des Big Data un trésor pour la découverte de nouveaux aspects de vos affaires. C'est pourquoi la préparation des Big Data semble minime (même bâclée) - souvent juste des extraits et des jointures de tables - par rapport à la gamme complète des préparations appliquées aux données d’un entrepôt d’entreprise.

Est-ce à dire que nous pouvons jeter les meilleures pratiques en matière d’ETL, de Qualité, de Métadonnées, de MDM et de Modélisation des données ? Non, bien sûr que non. Après que les experts techniques et métiers aient fait les premières analyses sur leur Big Data, ils ont généralement besoin pour exploiter complétement ce qu’ils ont découverts, de rapprocher leurs résultats avec des données de l’entrepôt d’entreprise pour enrichir les référentiels et les analyses métiers (BI ou data mining). Par exemple, lorsque l’analyse de Big Data révèle de nouveaux éléments métiers clés - comme de nouvelles formes de désabonnement, des segments de clientèle, des coûts induits, ... – ces connaissances doivent être intégrées dans l’entrepôt et dans les rapports, afin que les décideurs puissent en tirer profit

Pour aller plus loin sur ce sujet vous pouvez participer au CONGRÈS BIG DATA PARIS 2012 : ENTREZ DANS L'ÈRE DU DÉLUGE DE DONNÉES que Teradata Aster sponsorise : www.bigdataparis.com

Autres articles

De la préparation des Big Data pour les analyses avancées

Les plateformes d’IA hybrides ont un bel avenir

Teradata lance des cas d’usage d’IA générative à démarrage rapide grâce à l’intégration d’Amazon Bedrock

Teradata nomme Louis Landry au poste de Chief Technology Officer

Teradata AI Unlimited pour Microsoft Fabric est désormais disponible en avant-première via Microsoft Fabric Workload Hub

Teradata facilite l’application concrète de l’IA générative et accélère la création de valeur pour les entreprises

Snowflake obtient la certification "Hébergeur de Données de Santé" en France pour accélérer les usages de la donnée et de l’IA dans le secteur - 25/06/2026

De l’avenir de Teradata... - 09/03/2026

MongoDB étend ses capacités de recherche et de recherche vectorielle à ses offres autogérées - 20/09/2025

Neo4j lance Infinigraph: la base de données de graphes la plus scalable pour unifier les charges opérationnelles et analytiques à l’échelle de 100 To+ - 04/09/2025

MongoDB renforce sa plateforme et son écosystème pour les applications IA - 28/08/2025