Hadoop + Enterprise Data Hub = réussite de vos projets Big Data


Rédigé par Didier Schreiber, Cloudera le 11 Mai 2015

Qu’il s’agisse de mieux comprendre le comportement des clients, de détecter les fraudes, d’améliorer la santé des patients, ou de conserver une longueur d’avance sur la concurrence, les dirigeants d’entreprise ont compris qu’il est capital de tirer pleinement parti de toutes les données disponibles. Dans le but de les transformer en informations pertinentes, et de prendre les meilleures décisions possibles. Ainsi, dans la quasi-totalité des secteurs industriels, les entreprises sont sur le point de placer les données au cœur de leur processus de transformation métier.



Didier Schreiber, Directeur Marketing Europe du Sud, Cloudera
Parallèlement, nous sommes maintenant à l’ère d’une révolution numérique que l’on appelle Big Data. Les échanges de données n’ont jamais été aussi importants, tant sur le plan du volume, de la variété ou de la vitesse [le fameux 3V que l’on pourrait maintenant qualifier de 5V en y ajoutant véracité et valeur]. Sans compter la nouvelle vague des objets connectés. Mais, une chose est sûre : cette révolution offre aux entreprises de tous les secteurs une formidable opportunité. En exploitant de nouveaux gisements de données de toutes sortes, elles peuvent adresser des angles nouveaux et originaux concernant leur activité et en tirer un maximum de valeur et de croissance.

Pourtant, la plupart des entreprises commencent seulement à franchir le pas, car elles doivent faire face à de nombreux défis :

• La nature des données a changé. Auparavant, les données se trouvaient principalement dans des bases de données transactionnelles structurées où les schémas étaient fixes et où les volumes se limitaient au gigaoctet, voire au téraoctet. Compte tenu de l’évolution des 5V, l’environnement actuel est bien plus complexe.
• La vue unifiée des informations est difficile à obtenir. Trop de systèmes différents sont utilisées pour gérer les données : entrepôts de données pour le reporting opérationnel ; systèmes de stockage pour conserver les données en toute sécurité ; bases de données massivement parallèles spécialisées pour les tâches analytiques ; systèmes d’archivage pour sauvegarder les données au meilleur coût ; et systèmes de recherche pour rechercher et explorer des informations. Ce sont de véritables silos – incapables de partager des données de manière fiable et cohérente – qui prolifèrent rapidement et réduisent l’efficacité de la prise de décision.
• Le déplacement de grandes quantités de données est difficile voire impossible. Lorsque les départements informatiques travaillent sur des téraoctets et des pétaoctets de données, il est souvent prohibitif ou inefficace de transformer et migrer des données vers des systèmes spécialisés afin de simplement répondre à de nouvelles problématiques métiers. S’en remettre au départe¬ment informatique pour modifier les modèles de données et intégrer de nouvelles sources de données, voire ajouter de nouvelles colonnes, peut prendre plusieurs semaines, parfois même quelques mois. Sans compter la peur de perdre des données décisives.
• La pérennisation des investissements déjà consacrés aux hommes, aux processus métiers et à la technologie. Il ne s’agit pas de remplacer les systèmes et solutions informatiques existants, mais de doter les organisations d’une nouvelle brique pour prolonger et compléter ces investissements en assurant l’évolutivité, la flexibilité et le rapport prix/performances nécessaires pour conquérir ce nouveau phénomène lié à l’explosion des données.

C’est pourquoi il est désormais urgent de repenser l’architecture de référence qui va gérer toutes ces données à l’échelle de l’entreprise. Une nouvelle plate-forme de gestion des données répond justement à cet enjeu de taille : l’Enterprise Data Hub (EDH). L’EDH place véritablement les données au cœur de leur activité, et dote les entreprises de la puissance et de la flexibilité nécessaires pour tirer pleinement parti des informations disponibles, à un coût inférieur aux approches traditionnelles.
L’EDH est une plate-forme où toutes les données sont stockées aussi longtemps que nécessaire, conformément à leur format d’origine, et sont intégrées à l’infrastructure et aux outils existants, avec la souplesse requise pour exécuter différentes charges de travail — traitement batch, langage SQL interactif, recherche/exploration et fonctionnalités analytiques avancées — sans oublier les capacités de sécurité robuste, de gouvernance, de protection des données et de gestion qu’exigent les entreprises. Avec une plate-forme EDH unifiée, les entreprises repensent leur façon d’utiliser les données, les transformant de coûts en véritable actifs stratégiques.

L’objectif de la plate-forme Cloudera Enterprise Data Hub Edition, basée sur le framework Apache Hadoop, est de vous aider à acquérir et combiner tous volumes ou types de données en conservant fidèlement leurs caractéristiques initiales, en un seul endroit et aussi longtemps que nécessaire ; et offrir des informations pertinentes à tous les types d’utilisateurs, aussi vite que possible en utilisant le capital et les ressources existante avec une efficacité maximale. Elle présente notamment les avantages suivants :

• Archives actives : un endroit unique et sécurisé pour stocker toutes vos données, tous formats confondus, sans limite de volume, aussi longtemps que vous le souhaitez. Vous pouvez ainsi répondre aux exigences de conformité et fournir des données sur demande pour satisfaire aux exigences réglementaires, internes ou externes.
• Transformation et traitement : les charges de travail ETL (Extract, Transform & Load) qui devaient auparavant être exécutées sur des systèmes souvent coûteux peuvent migrer vers cette plate-forme où elles pourront tourner à très faible coût, en parallèle et beaucoup plus rapidement.
• BI exploratoire en libre-service : les utilisateurs veulent souvent accéder à des données aux fins de reporting, d’exploration et d’analyse, ce qui est difficile dans les environnements ERP ou Data Warehouse traditionnels. Cette plate-forme permet aux utilisateurs d’explorer les données en toute sécurité, en utilisant des outils de BI interactifs traditionnels au moyen du langage SQL et de recherches par mot-clé.
• Fonctions analytiques avancées : plusieurs fonctions notamment dédiées à l’analytique, à la recherche ou à l’apprentissage automatique, libèrent le potentiel des données – qu’elles soient nouvelles ou anciennes.

Pour en savoir plus sur Hadoop, sur l’EDH, sur des cas d’usage, je vous invite à visiter notre site web : http://fr.cloudera.com



Dans la même rubrique :