Big Data, Science des données, aide à la décision en entreprise, business intelligence, data warehouse, reporting, OLAP, web analytics, data visualization, data mining, internet des objets, informatique cognitive, intelligence artificielle...

Abonnez-vous gratuitement à Decideo !


Decideo

 


Présentation EDF au Hadoop User Group Paris de février


Rédigé par Patrick COFFRE, Talend le 3 Mars 2014

Le Hadoop User Group s’est réuni le 13 février 2014 dans les bureaux parisiens de Google. Ce meetup aura été l’occasion d’en savoir plus sur Google Cloud Platform avec un ingénieur de la société ainsi que d’apprendre d’avantage à propos d’Apache Phoenix avec Fifty-Five.
Ce post de blog sera consacré au retour d’utilisation d’EDF : l’entreprise teste Hadoop pour gérer les informations et données émanant du réseau français.
Nous verrons les problématiques de l’entreprise, comment elle a démarré ce programme et ce qu’il en ressort.



Patrick COFFRE, Community Manager, Talend
Patrick COFFRE, Community Manager, Talend
EDF a commencé la présentation par une explication de leur présence au Hadoop User Group en tant que conférencier. Elle est d’abord une société de production d’électricité qui est aussi passée à la gestion d’informations. En effet, les « Smart Grids », en cours de déploiement, vont gérer l’utilisation de l’électricité des consommateurs français et accélèrent la production d’information.

Le « Smart Grid » est un outil du réseau électrique « intelligent » qui utilise des technologies informatiques pour maximiser la production, la distribution, la consommation et qui a pour objectif d’optimiser l’ensemble des mailles du réseau qui va de tous les producteurs à tous les consommateurs, afin d’améliorer l'efficacité énergétique de l'ensemble. Pour plus d’informations concernant les Smart Grids, je vous conseille de vous rendre sur la page Wikipédia suivante: http://fr.wikipedia.org/wiki/Smart_grid Les Smart Grids génèrent une centaine de téraoctets d’information traité, ce qui ne semble pas être un volume trop conséquent de données pour la société.

Ensuite, les conférenciers nous présentent le secteur, considéré comme étant en ébullition. La multiplication des acteurs avec une ouverture à la concurrence mais aussi les nouvelles données émanant des Smart Grids et les données du web à analyser, comme celles de forums, blogs ou d’open data sont autant d’éléments prouvant qu’EDF évolue de la simple production électrique.

L’aventure Hadoop chez EDF a commencé par une étude de faisabilité. Celle-ci a rendu possible l’évaluation du potentiel d’Apache Hadoop. Les ingénieurs ont aussi dû trouver le meilleur mode de représentation pour les courbes de charge électrique, identifier les options de stockage et de partition des données ainsi que déterminer des éléments pour approfondir leur réflexion.

En terme de contexte, les ingénieurs ont recensé qu’ils avaient de nombreuses données à stocker et analyser, telles que les données de courbes de charges, des données météorologiques, des informations contractuelles ainsi que la topologie du réseau. De même, nous avons appris qu’une mesure est effectuée toutes les dix minutes pour chaque client, avec un ensemble de 35 millions d’abonnés.
Le volume annuel de données s’établit à 1800 milliards de lignes, ce qui représente une quantité totale de 120 téraoctets de données brutes.

Un « Proof Of Concept » a été réalisé en interne sur un cluster de 20 nœuds, 132 téraoctets de stockage avec 336 cœurs. Les distributions utilisées sont CDH3, HIVE et HBASE. Les résultats sont positifs ainsi que compétitifs et ont débouché sur l’utilisation d'un nouveau cluster de 10 nœuds avec 280 téraoctets sur HDP2. Le but d'Hadoop, dans ces utilisations, est de traiter des données brutes et massives pour faire des analyses précises.

Un second « Proof Of Concept » a été réalisé avec Storm (une librairie de programmation Python), pour effectuer du temps réel de données de consommation électrique (travaux menés avec Octo Technology).
Les données en entrée proviennent du Smart Metering, des prévisions météorologiques, tarifs ainsi que des données clients. En sortie, les ingénieurs débouchent sur des agrégats simples et ventilés, de l’analytique et des prévisions.

Les résultats des « Proof of Concepts » montrent que la solution est crédible. Elle couvre le spectre fonctionnel et le coût de gestion est peu élevé. Par contre, les conférenciers nous expliquent que les équipes manquent d’un studio de développement et doivent s'investir dans un nouvel outil, ce qui demande de l’apprentissage.

L’évènement aura aussi été l’occasion de découvrir que la société utilise HETA (Hadoop Environment for Text Analysis) pour l'analyse des données non structurées, comme les tweets, les blogs et le XML. Pour ce faire, un cluster de 5 nœuds a été mis en production. Et pendant la présentation, nous avons pu suivre une démonstration avec des tweets ayant pu être répertoriés puis insérés dans un graphique.

Ce meetup Hadoop aura donné la possibilité à EDF de déplacer leurs ingénieurs pour expliquer comment ils ont testé la technologie, avec de grandes quantités de données émanant d’un territoire aussi étendu que la France. Ce cas pratique démontre qu’une entreprise, dont le métier premier est celui de la production d’énergie, est aussi passée à la gestion de l’information, pour mieux contrôler les centrales, comprendre les utilisations des consommateurs et prévoir les activités futures sur le réseau.
Au-delà, on arrive mieux à concevoir que des entreprises puissent administrer leurs données grâce à Hadoop. La technologie permet de gérer tous types de données, y compris les tweets, blogs et XML. L’utilisation est facilitée grâce à la gestion en cluster hébergé dans l’entreprise et le coût global lié aux données est réduit.




Nouveau commentaire :
Facebook Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.