Le Big Data, c’est Hadoop ! Oui mais pas que…

Jean-François VANNIER, Bull

Hadoop : Une technologie bien née

Disposer d’un standard pour développer des applications distribuées avec un développement exponentiel d’outillages et de compétences, s’affranchir des limites des capacités de traitements des plus gros ordinateurs, Hadoop a de quoi séduire. Surtout avec des « parents » prestigieux et des usages avérés. Nombre de fournisseurs de technologies seraient fiers d’avoir vus Google ou Facebook se pencher sur leur berceau, sans pour autant avoir été avalés.

Hadoop est séduisant

Les infrastructures induites par Hadoop sont constituées de composants standards - serveurs Intel plutôt petits avec un peu de mémoire, disques fortement capacitifs. Il n’y a pas de pré-requis sur le réseau, l’infiniband ou SAN. Les fonctions natives de répartition des données permettent de limiter les niveaux multiples de redondance pour garantir la sécurité des données. Elles présentent donc une grande souplesse pour coller au plus près du besoin adressé, et supportent une hétérogénéité des composants dans la limite d’une cohérence architecturale, facilitant ainsi grandement l’intégration de nouveaux nœuds de données et donc de traitement.

Hadoop n’est pas cher

Cette souplesse, cette évolutivité, cette sécurité sont basées sur des principes d’architecture et des composants standards du marché. L’origine OpenSource de la solution permet également de diminuer fortement les coûts de licence et de support. Hadoop permet la mise en place de solutions d’infrastructure à des prix extrêmement compétitifs au vu des volumes gérés.

Hadoop n’est pas seul

En parallèle du développement d’Hadoop, les éditeurs de solutions de management des gros volumes de données continuent leurs innovations et leur progrès. D’autres technologies logicielles et matérielles se développent sur le marché avec des niveaux de puissance et de maturité qui ouvrent là aussi de nouveaux horizons. On parle de bases de données massivement parallèles, de stockage des données en colonne, de In-Memory, d’algorithmes de compression, d’indexation de données massives, de solutions de gestion de flux de données et sur des solutions matérielles extrême computing ou de serveurs supportant plusieurs TeraOctet de mémoire vive.

We have Big Data : We Need Fast Data

Et cette course dans laquelle tous les acteurs de ce marché se sont engagés n’est pas tant celle du volume de données que celle de la vitesse et du coût du traitement de ces informations. Les nouveaux serveurs associés aux algorithmes de compression permettent de traiter plusieurs dizaines de TeraOctets de données en Mémoire. Les moteurs de bases de données apportent une intelligence qui optimise fortement les moyens nécessaires à l’obtention de la performance. Et les résultats sont là : le stockage de données en colonne permet de diviser par deux le volume physique des données et par plus de dix le temps d’exécution des requêtes. Ce facteur passe à plus de cent ou mille pour certaines exécutions en mémoire comme pour l’indexation à la volée de données non-structurées.

Le meilleur des mondes

Nous ne nous plaindrons pas de cette compétition et de ces améliorations technologiques. Les puissances de calcul à notre disposition aujourd’hui n’étaient pas concevables il y a dix ans. Et nous ne pouvons imaginer ce qu’elles seront dans la prochaine décennie…. En revanche, il y a aujourd’hui des choix à faire pour enrichir les décisionnels existants avec des données publiques, affiner les segmentations clients grâce aux profils Facebook, alimenter un moteur de recommandation sur le web, faciliter l’alimentation des data warehouse, diminuer le coût de stockage des données, etc.
La mission des experts est donc toujours la même : se concentrer sur les besoins des utilisateurs et proposer, sans à priori, la solution la meilleure. Quelle s’appuie sur un choix unique où, comme c’est souvent le cas, qu’elle soit issue d’une combinaison des technologies existantes. Née du meilleur des mondes !

Bull, intégrateur de solutions décisionnelles, big data et leader du calcul haute performance, développe depuis plusieurs années des technologies innovantes qu'il vous propose de découvrir à travers un tour d’horizon des meilleures pratiques avec PwC le 13 Novembre de 9H00 à 12H30 à Paris. Inscrivez-vous sur : http://unbouncepages.com/registerseminairebigdata/

Autres articles

Abonnez-vous gratuitement à Decideo !

Le Big Data, c’est Hadoop ! Oui mais pas que…

Snowflake vs Hadoop : lequel choisir ?

Les évolutions de Hadoop en 2022

Teradata poursuit ses avancées dans le cloud grâce à l'élargissement de ses offres en analytique cloud et son nouveau partenaire Google Cloud

BullSequana S800 devient mondialement le serveur le plus performant du marché pour SAP HANA avec un résultat inégalé

Le CEA acquiert un supercalculateur BullSequana d’Atos équipé de processeurs Marvell ThunderX2 basés sur une architecture Arm

La prépondérance des Chief Data Officers (CDO) à l'ère de l'intelligence artificielle - 23/07/2024

Deepfake, décryptage d’une arnaque - 23/07/2024

Déployer l’Intelligence Artificielle pour une expérience client au top et sans couture - 22/07/2024

La génération augmentée par récupération (RAG) et l'IA générative - 22/07/2024

La souveraineté des données est loin d’être une chimère - 16/07/2024