Retour sur le Hadoop User Group Paris d’Avril 2013

Patrick Coffre, Community Manager Talend

La première présentation est un cas d’utilisation par Damien Albagnac de Sopra sur leur démonstrateur Big Data.

On apprend que Sopra Group est un acteur majeur du conseil, des services technologiques et de l’édition de logiciels en Europe. La société accompagne ses clients dans la réussite de la transformation de leurs métiers et de leurs systèmes d’information. La présentation est un cas d’utilisation Big Data : le conférencier de Sopra mentionne les technologies utilisées dans leur démonstrateur. On y retrouve Cloudera, Talend, Vectorwise, Tableau Software ainsi qu’Amazon Web Services EC2.

Damien évoque par la suite certaines difficultés rencontrées par la société sur le démonstrateur, dont l’installation du cluster Hadoop : elle posait un certain nombre de problèmes au départ. Mais les logiciels dédiés au Big Data simplifient aujourd’hui fortement la tâche.
Mais surtout ce que l’on comprend, c’est que dans les projets Big Data, il faut une très bonne compréhension du monde Hadoop, des distributions, besoins ainsi que des différentes versions.

Loïc Le Bel de Criteo est le deuxième conférencier et il présente l’aventure Hadoop de son entreprise.

On saisit rapidement l’implication de Criteo dans la communauté Hadoop puisque la société compte 160 nœuds en production ! Les technologies utilisées sont Map/Reduce avec Cascading et Mahout.
Par la suite, on apprend que pour la partie installation ainsi que maintenance des nœuds, quatre personnes travaillent chez Criteo sur le sujet.
Plus globalement, plus d’une centaine de développeurs utilisent la grille Hadoop dans la société.

Et Loic nous donne ensuite une idée du volume de données chez Criteo, avec 500000 requêtes http par seconde et 5 terabytes de logs par jour.

Criteo nous a présenté de nombreuses technologies Hadoop qu’ils utilisent activement. Elles sont mentionnées dans cette liste :

- La gestion de l’infrastructure Hadoop est gérée par Chef http://en.wikipedia.org/wiki/Chef_(software) ;
- PailFile est leur format pour Hadoop ;
- RCFile sur Hive est utilisé pour la partie Business Intelligence, Thrift pour la représentation d’évènement http://en.wikipedia.org/wiki/Apache_Thrift ;
- Lobster https://github.com/brugidou/lobster planifie les jobs sur Hadoop ;
- Cloudera est utilisé mais le Cloudera manager ne l’est pas.

Enfin, Criteo a effectué des tests avec Storm https://en.wikipedia.org/wiki/Storm_(software) pour le temps réel et travaille avec Twitter sur Parquet https://github.com/Parquet et son implémentation pour Hive et Cascading.

Bahaaldine Azarmi de Talend est le troisième conférencier et présente l’analyse de sentiments sur Twitter avec les outils de sa société. Bahaaldine a choisi de faire une démonstration en direct pour les participants du groupe utilisateurs. L’analyse de sentiments reprend les technologies Pig, Hive, Scoop, Impala, entre autres.

La présentation commence en expliquant aux participants comment streamer Twitter et rassembler vingt-quatre heures de tweets. Puis, Bahaaldine met en avant certaines données en utilisant les produits Big Data de Talend, dont l’interface utilisateur aisée à maitriser permet de travailler sur des problématiques de grands volumes de données.
Par la suite, on apprend comment créer un nuage de hashtags et quels sont les plus importants utilisateurs de Twitter, à propos d’un certain sujet, par heure. Puis le conférencier continue en mettant en place un timeline de sentiments.

Pour plus de détails sur cette présentation et pour visionner une démonstration vidéo en anglais sur le même thème, vous pouvez vous rendre sur la chaine Youtube de Talend: http://youtu.be/N-iA6ctX7-0

La dernière présentation, par Vincent Heuschling, nous propose de revenir sur l’un des évènements les plus importants de ce début d’année 2013 : le Hadoop Summit, s’étant tenu du 20 au 21 mars à Amsterdam.

Tout d’abord, on apprend que LinkedIn travaille avec Hadoop : la société maintient ses 5000 nœuds pour 700 utilisateurs avec 5 employés, dédiés à l’administration de la grille. L’entreprise mentionne que son temps d’indisponibilité annuel est de 4 heures en moyenne sur ses grilles.

Twitter utilise aussi Hadoop et chez eux 10000 nœuds sont exploités pour une centaine d’analystes. L’entreprise n’utilise que de l’Apache Pig, une plateforme permettant d’analyser ses données.

HSBC, une des plus grandes banques au monde, aura proposé l’un des cas d’utilisation d’Hadoop les plus marquants du Hadoop Summit. Vincent expose que l’installation d’Hadoop et sa mise en marche aura pris une semaine et que la migration vers Hadoop a été complétée en quatre semaine. En termes de comparaison, une opération qui prenait trois heures sur les bases de données traditionnelles prend dix minutes sur Hadoop. Les seuls points négatifs avec la migration sont la perte du namenode ainsi que la reconstruction du cluster.
Ce qui est impressionnant du point de vue financier, est que le passage vers Hadoop a divisé par dix le coût de gestion des données par rapport à l’ancienne base de données.

Parmi les quatre présentations, nous avons pu en apprendre davantage sur plusieurs technologies et nous tenions à les citer dans le post de blog pour que vous lecteurs, puissiez en profiter.
Encore une fois, nous tenons à remercier Criteo pour leur accueil dans leurs locaux. Nous avons pu assister à quatre présentations pendant ce user group qui nous ont expliqué comment les entreprises utilisent les technologies Hadoop. On se rend mieux compte qu’Hadoop est devenu assez courant au sein d’entreprises et est parfois utilisé de manière quotidienne.
Cette réunion de groupe a été mise en place par le Hadoop User Group (HUG) France, qui organise régulièrement des rendez-vous. Nous vous invitons à aller visiter leur compte Twitter pour participer à la prochaine réunion: https://twitter.com/hugfrance et aller sur leur site web: http://hugfrance.fr/.

Autres articles

Abonnez-vous gratuitement à Decideo !

Retour sur le Hadoop User Group Paris d’Avril 2013

Palladium Hotel Group tire profit de ses données grâce à Talend afin de proposer une expérience client améliorée

Qlik acquiert Talend et associe ses capacités inégalées d’intégration de données à celles de Talend en matière de transformation, de qualité et de gouvernance des données

Talend annonce une mise à jour majeure de sa plateforme Data Fabric

Qlik souhaite racheter Talend

Talend obtient le statut « Elite » et la validation « Snowflake Ready Technology » au sein du réseau de partenaires Snowflake

Podcast : les prompts sont des données, il va falloir les cataloguer - 22/04/2024

Neo4j : La nouvelle norme internationale GQL marque un tournant majeur pour l'industrie des bases de données - 22/04/2024

MongoDB étend sa collaboration avec Google Cloud pour aider ses clients à déployer et à mettre à l’échelle de nouvelles catégories d’applications - 15/04/2024

Podcast: DBOS, la nouvelle startup de Michael Stonebraker - 02/04/2024

Dell annonce le lancement du Dell Data Lakehouse qui intègre Starburst et permet d’unifier toutes les données pour accélérer les projets analytiques et d’IA - 29/03/2024

Abonnez-vous gratuitement à Decideo !

Retour sur le Hadoop User Group Paris d’Avril 2013

Palladium Hotel Group tire profit de ses données grâce à Talend afin de proposer une expérience client améliorée

Qlik acquiert Talend et associe ses capacités inégalées d’intégration de données à celles de Talend en matière de transformation, de qualité et de gouvernance des données

Talend annonce une mise à jour majeure de sa plateforme Data Fabric

Qlik souhaite racheter Talend

Talend obtient le statut « Elite » et la validation « Snowflake Ready Technology » au sein du réseau de partenaires Snowflake

Podcast : les prompts sont des données, il va falloir les cataloguer - 22/04/2024

Neo4j : La nouvelle norme internationale GQL marque un tournant majeur pour l'industrie des bases de données - 22/04/2024

MongoDB étend sa collaboration avec Google Cloud pour aider ses clients à déployer et à mettre à l’échelle de nouvelles catégories d’applications - 15/04/2024

Podcast: DBOS, la nouvelle startup de Michael Stonebraker - 02/04/2024

Dell annonce le lancement du Dell Data Lakehouse qui intègre Starburst et permet d’unifier toutes les données pour accélérer les projets analytiques et d’IA - 29/03/2024

Neo4j : La nouvelle norme internationale GQL marque un tournant majeur pour l'industrie des bases de données - 22/04/2024