Big Data, Science des données, aide à la décision en entreprise, business intelligence, data warehouse, reporting, OLAP, web analytics, data visualization, data mining, internet des objets, informatique cognitive, intelligence artificielle...

Abonnez-vous gratuitement à Decideo !


Decideo

 


De la préparation des Big Data pour les analyses avancées


Rédigé par le 8 Mars 2012

Les professionnels de la BI et de l’entrepôt de données sont convaincus que les données qui alimentent les rapports doivent être de qualité, intégrées et documentées. Pour répondre à ces exigences, les équipes travaillent dur pour définir un modèle, extraire, transformer et charger, des données de qualité, gérer les données de référence et les métadonnées. Au-delà du souhait des décideurs de disposer des meilleures données possibles pour fonder leurs décisions, les entreprises doivent aussi tenir compte du fait que certaines données sont publiques, et que les erreurs qui pourraient les entacher pourraient être désastreuses pour l’entreprise.



Michel Bruley, Directeur Marketing Teradata Aster
Michel Bruley, Directeur Marketing Teradata Aster
La préparation des Big Data pour les analyses avancées se fait dans un contexte très différent. Ces données ne sont jamais rendues publiques et ces analyses sont souvent ponctuelles ou très rarement réitérées de la même façon. Par conséquent la modélisation et la gestion des chargements, de la qualité etc. ne se fait pas avec les mêmes exigences. En fait, si vous appliquez l'arsenal complet des pratiques de préparation des données sur des données analytiques, vous courez le risque d’en réduire leur valeur analytique.

Comment un processus de préparation sensé donner de la valeur aux données, peut-il nuire ? Pour répondre à cette question, voyons d'abord ce qu'on appelle «analyse avancée ». Ces techniques analytiques seraient mieux appelées «analyses exploratoires», car c'est ce que les utilisateurs font avec elles. Des professionnels de l’analyse ou des analystes métier utilisent ces techniques impliquant la mise en œuvre de programmes SQL complexes ou de MapReduce, pour explorer des données et découvrir des faits que l'on ne connaissait pas auparavant. Par exemple découvrir un ensemble de transactions qui indiquent un nouveau type de fraude, ou un nouveau groupe de clients ayant un comportement homogène, ou un groupe de caractéristiques possédées par les personnes qui passent à la concurrence.

Généralement, vous ne pouvez pas faire ce type de découverte à partir des données modélisées, agrégées et déjà excessivement étudiées de votre entrepôt d’entreprise. Pour cela vous avez besoin de Big Data, beaucoup plus détaillées telles qu’elles sont dans leur système source, certaines formes d'analyse s’accordant bien à des données brutes, apparemment incomplètes. Par exemple, l’efficacité d’applications analytiques pour la détection de fraudes peut dépendre de valeurs aberrantes, de données non-standard ou de données manquantes, pour indiquer la possibilité d’une fraude.

Les possibilités de découverte se concentrent souvent sur un tout petit nombre de clients, de transactions, sur une période de temps très courte, etc. Ces tranches fines peuvent facilement disparaître dans une passe d’agrégation. Ainsi, si vous appliquez les processus habituels d’extraction, de transformation et de chargement de données ou ceux liés à vos exigences de qualité, comme cela se fait aujourd’hui pour un entrepôt de données classique, vous courez le risque d’éliminer les pépites qui font des Big Data un trésor pour la découverte de nouveaux aspects de vos affaires. C'est pourquoi la préparation des Big Data semble minime (même bâclée) - souvent juste des extraits et des jointures de tables - par rapport à la gamme complète des préparations appliquées aux données d’un entrepôt d’entreprise.

Est-ce à dire que nous pouvons jeter les meilleures pratiques en matière d’ETL, de Qualité, de Métadonnées, de MDM et de Modélisation des données ? Non, bien sûr que non. Après que les experts techniques et métiers aient fait les premières analyses sur leur Big Data, ils ont généralement besoin pour exploiter complétement ce qu’ils ont découverts, de rapprocher leurs résultats avec des données de l’entrepôt d’entreprise pour enrichir les référentiels et les analyses métiers (BI ou data mining). Par exemple, lorsque l’analyse de Big Data révèle de nouveaux éléments métiers clés - comme de nouvelles formes de désabonnement, des segments de clientèle, des coûts induits, ... – ces connaissances doivent être intégrées dans l’entrepôt et dans les rapports, afin que les décideurs puissent en tirer profit

Pour aller plus loin sur ce sujet vous pouvez participer au CONGRÈS BIG DATA PARIS 2012 : ENTREZ DANS L'ÈRE DU DÉLUGE DE DONNÉES que Teradata Aster sponsorise : www.bigdataparis.com




Nouveau commentaire :
Facebook Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.