Big Data, Science des données, aide à la décision en entreprise, business intelligence, data warehouse, reporting, OLAP, web analytics, data visualization, data mining, internet des objets, informatique cognitive, intelligence artificielle...

Abonnez-vous gratuitement à Decideo !


Decideo

 


Le Big Data, c’est Hadoop ! Oui mais pas que…


Rédigé par Jean-François VANNIER, Bull le 23 Octobre 2013

La simulation complète de l’univers, projet pour lequel l’équipe de Jean-Michel Alimi et le GENCI ont récemment été honorés, a nécessité la simulation de 550 000 000 000 particules sur une machine Bullx équipée de 92 000 processeurs et de plusieurs Peta Octets de stockage. Volume, Vitesse, Variété, le besoin de données et de puissance est une course qui est déjà ancienne.
Ce mouvement subit aujourd’hui une forte accélération et Hadoop en est le fer de lance.



Jean-François VANNIER, Bull
Jean-François VANNIER, Bull
Hadoop : Une technologie bien née

Disposer d’un standard pour développer des applications distribuées avec un développement exponentiel d’outillages et de compétences, s’affranchir des limites des capacités de traitements des plus gros ordinateurs, Hadoop a de quoi séduire. Surtout avec des « parents » prestigieux et des usages avérés. Nombre de fournisseurs de technologies seraient fiers d’avoir vus Google ou Facebook se pencher sur leur berceau, sans pour autant avoir été avalés.

Hadoop est séduisant

Les infrastructures induites par Hadoop sont constituées de composants standards - serveurs Intel plutôt petits avec un peu de mémoire, disques fortement capacitifs. Il n’y a pas de pré-requis sur le réseau, l’infiniband ou SAN. Les fonctions natives de répartition des données permettent de limiter les niveaux multiples de redondance pour garantir la sécurité des données. Elles présentent donc une grande souplesse pour coller au plus près du besoin adressé, et supportent une hétérogénéité des composants dans la limite d’une cohérence architecturale, facilitant ainsi grandement l’intégration de nouveaux nœuds de données et donc de traitement.

Hadoop n’est pas cher

Cette souplesse, cette évolutivité, cette sécurité sont basées sur des principes d’architecture et des composants standards du marché. L’origine OpenSource de la solution permet également de diminuer fortement les coûts de licence et de support. Hadoop permet la mise en place de solutions d’infrastructure à des prix extrêmement compétitifs au vu des volumes gérés.

Hadoop n’est pas seul

En parallèle du développement d’Hadoop, les éditeurs de solutions de management des gros volumes de données continuent leurs innovations et leur progrès. D’autres technologies logicielles et matérielles se développent sur le marché avec des niveaux de puissance et de maturité qui ouvrent là aussi de nouveaux horizons. On parle de bases de données massivement parallèles, de stockage des données en colonne, de In-Memory, d’algorithmes de compression, d’indexation de données massives, de solutions de gestion de flux de données et sur des solutions matérielles extrême computing ou de serveurs supportant plusieurs TeraOctet de mémoire vive.

We have Big Data : We Need Fast Data

Et cette course dans laquelle tous les acteurs de ce marché se sont engagés n’est pas tant celle du volume de données que celle de la vitesse et du coût du traitement de ces informations. Les nouveaux serveurs associés aux algorithmes de compression permettent de traiter plusieurs dizaines de TeraOctets de données en Mémoire. Les moteurs de bases de données apportent une intelligence qui optimise fortement les moyens nécessaires à l’obtention de la performance. Et les résultats sont là : le stockage de données en colonne permet de diviser par deux le volume physique des données et par plus de dix le temps d’exécution des requêtes. Ce facteur passe à plus de cent ou mille pour certaines exécutions en mémoire comme pour l’indexation à la volée de données non-structurées.

Le meilleur des mondes

Nous ne nous plaindrons pas de cette compétition et de ces améliorations technologiques. Les puissances de calcul à notre disposition aujourd’hui n’étaient pas concevables il y a dix ans. Et nous ne pouvons imaginer ce qu’elles seront dans la prochaine décennie…. En revanche, il y a aujourd’hui des choix à faire pour enrichir les décisionnels existants avec des données publiques, affiner les segmentations clients grâce aux profils Facebook, alimenter un moteur de recommandation sur le web, faciliter l’alimentation des data warehouse, diminuer le coût de stockage des données, etc.
La mission des experts est donc toujours la même : se concentrer sur les besoins des utilisateurs et proposer, sans à priori, la solution la meilleure. Quelle s’appuie sur un choix unique où, comme c’est souvent le cas, qu’elle soit issue d’une combinaison des technologies existantes. Née du meilleur des mondes !

Bull, intégrateur de solutions décisionnelles, big data et leader du calcul haute performance, développe depuis plusieurs années des technologies innovantes qu'il vous propose de découvrir à travers un tour d’horizon des meilleures pratiques avec PwC le 13 Novembre de 9H00 à 12H30 à Paris. Inscrivez-vous sur : http://unbouncepages.com/registerseminairebigdata/




Nouveau commentaire :
Facebook Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.