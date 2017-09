Travailler dans la Big Data : quels métiers choisir ?

Rédigé par Juvénal CHOKOGOUE le 20 Septembre 2017

Desiderius Erasmus était un érudit néerlandais qui a vécu dans le seizième siècle. Il est réputé pour avoir étudié en ses soixante dix années de vie, tout ce qui avait été écrit jusqu’à la fin de son existence. A peine 4 siècles plus tard, l’activité humaine a généré un tel volume de données qu’un tel exploit n’est simplement plus envisageable. En effet, le 21ème siècle a été témoin d’une explosion sans précédent du volume de données.



D’après le constat des experts, des institutions publiques et privés, 90 % des données récoltées depuis le début de l’humanité ont été générées durant les 2 dernières années. Le marché qualifie aujourd’hui de « Big Data » cette explosion de données. Pour réussir à exploiter les « Big Data », l'idée n'est plus de centraliser le stockage et le traitement des données sur un serveur, mais de distribuer leur stockage et de paralléliser leur traitement sur plusieurs ordinateurs. Cela est possible grâce à une technologie appelée Hadoop. C’est Hadoop qui permet à Google de répondre aux 6 000 000 de requêtes qui lui sont adressés par seconde, à Yahoo de gérer les 2 115 000 mails qui sont envoyés par seconde dans le monde et à Facebook de partager 2,46 millions de contenu par minute. Hadoop est en passe de devenir le standard de Facto de traitement de données, un peu comme Excel est progressivement devenu le logiciel par défaut d’analyse de données. Ainsi, travailler dans la Big Data va vous exiger d’une façon ou d’une autre à utiliser Hadoop. Pour ceux qui sont en pleine reconversion dans le Big Data ou ceux qui souhaitent s’orienter vers le Big Data, cet article est fait pour vous. Le but de cet article est de vous éclairer sur les différents métiers qui sont disponibles autour de la Big Data.



En réalité, Hadoop est un « Framework », c’est-à-dire un ensemble de briques logiciels qui s’assemblent les uns aux autres comme des puzzles LEGO pour résoudre un problème métier. Les outils Hadoop sont regroupés par catégories et chaque catégorie correspond à une problématique métier, ce que nous appelons un métier Hadoop. Par exemple, la catégorie SQL est l’ensemble des outils qui permettent d’écrire des requêtes SQL sur Hadoop, la catégorie Modèles de calcul correspond à l’ensemble des modèles de calcul qui sont utilisés par Hadoop pour résoudre des problématiques algorithmiques particulières. Une problématique peut faire appel à une ou plusieurs de ces catégories. Ainsi, la montée en compétence sur Hadoop est un peu particulière et nécessite de se spécialiser dans ce que nous appelons « un profil métier Hadoop ». Le profil de métier Hadoop fait référence à votre usage d’Hadoop, en d’autres termes, à votre métier dans la Big Data. En fonction des besoins que nous avons pu constater dans les entreprises, les tendances du moment et les offres d’emploi sur la Big Data, nous avons constaté que 6 profils de métier Hadoop revenaient constamment : l’Ingénieur de données (Data engineer), le Data Scientist, le Growth Hacker, le développeur, l’administrateur et l’architecte.



L’ingénieur de données (Data Engineer)

Ce qui se cache derrière le terme « Data engineer » c’est l’idée d’un professionnel spécialisé sur la gestion des données en utilisant Hadoop. En d’autres termes, c’est quelqu’un qui sait se connecter à plusieurs sources de données, croiser les données, effectuer des opérations de nettoyage de données, des filtres, des jointures, gérer le stockage des données dans différents bases de données, gérer divers sortes de formats de données. En clair, l’ingénieur de données c’est celui qui maitrise les techniques de data management. Dans le cadre d’Hadoop, il est question pour lui de maîtriser l’utilisation des catégories d’outils SQL sur Hadoop (Impala, Phoenix, HAWQ), les langages d’abstraction (HiveQL, Pig Latin) et les bases de données NoSQL (HBase, HCatalog, MongoDB). Concrètement, il sait écrire des requêtes SQL, HiveQL, Pig Latin pour l’interrogation des bases de données, il sait connecter les systèmes de Business Intelligence traditionnels des entreprises à Hadoop, il sait écrire des requêtes complexes nécessaires pour résoudre des besoins métier de Reporting, de calcul d’indicateurs, et d’exploitation de données à des buts de Reporting, il sait interroger des bases de données et sait les exploiter pour l’intégration des données de divers formats. Compte tenu de la diversité des formats de données du Numérique et de l’explosion du volume des données, ce profil est de plus en plus recherché.

Le Data Scientist

Il y a eu beaucoup d’engouement autour de ce profil. A une époque, il était même décrit comme étant le « mouton à 5 pattes de l’économie Numérique » avant que le marché se rende compte que c’était un peu exagéré. En réalité, l’idée qu’il y’a derrière ce profil de métier, c’est quelqu’un qui sait développer des algorithmes statistique pour anticiper le comportement d’une variable, recommander des actions à effectuer, ou catégoriser les données en fonction de leur degré de similarité. Les modèles qu’il développe sont vitaux au fonctionnement de certaines entreprises, par exemple dans l’e-commerce et les réseaux sociaux, c’est le Data Scientist qui développe les algorithmes de recommandation qui tournent derrières les « personnes que vous pourriez aussi connaître », les « produits que vous pourriez aussi acheter », les « pages que vous pourriez aussi aimer ». Dans le domaine de la banque, les data scientist développent des modèles de scoring qui permettent de prêter ou pas l’argent à un individu, d’investir ou de ne pas investir sur un projet. Etre Data scientist nécessite donc d’avoir une double compétence sur le métier et en mathématique. Ce profil de métier est celui qui est le plus en vogue sur le marché actuellement. Si vous souhaitez vous orientez vers là, alors il vous faudra vous spécialiser dans l’apprentissage statistique et l’utilisation des modèles de calcul d’Hadoop.



Le Growth Hacker

Un autre métier qui vient tout droit de la Sillicon Valley aux Etats Unis. Le Growth Hacker est également un profil de métier Hadoop. Du terme Growth hacking qui veut littéralement dire "bidouiller la croissance", le Growth Hacker est une personne à l'intersection du marketing et Hadoop qui utilise des techniques de marketing pour accélérer rapidement et significativement la croissance (Growth) d'une entreprise, précisément d’une start-up. Il est à la base un professionnel du Marketing, mais qui sait faire du développement logiciel. Il utilise les modèles de calcul d’Hadoop, les outils SQL, les langages d’abstraction pour créer de nouvelles fonctionnalités, son but n’est pas l’analyse de données pour des fins décisionnelles, il cherche à créer de nouveaux produits à partir d’Hadoop et comme les gens du marketing, il s'efforce de trouver des clients pour les produits de l'entreprise; mais il le fait en utilisant des variantes de pages d'accueil, des facteurs de viralité, et l'envoi massif de courriers électroniques. Il modélise ses hypothèses et utilise Hadoop pour interroger les bases de données régulièrement. Si l'entreprise n'a pas encore complètement développé son produit, le Growth hacker fait en sorte que la viralité fasse partie du produit même; si la startup a déjà un produit fini, il étudie précisément les données pour découvrir ce qui marche dans le produit et permet d'optimiser la croissance. Ce profil est très recherché dans les start-up et dans les entreprises à modèle économique flexible qui ont le souci de se réinventer constamment.



Le développeur

Profil typique d’Hadoop, le développeur fait référence à un développeur logiciel capable d’utiliser le Java, Scala ou tout autre langage évolué pour développer des applications métiers qui vont s’exécuter sur Hadoop. Il sait écrire des fonctions MapReduce en java, sait manier l’exécution parallèle des travaux sur Hadoop, il sait faire du développement distribué, de la coordination de service, gérer la tolérance aux pannes, rendre un système cohérent et peut même réfléchir sur les futurs améliorations d’Hadoop. C’est l’un des rares profils à pouvoir travailler sur pratiquement toutes les catégories des outils d’Hadoop puisque son travail intervient en amont de ceux-ci. Ce profil est également très recherché, et surtout en ce moment où les entreprises utilisent Hadoop pour des fins d’évaluation. Si vous voulez vous orienter vers ce profil, il vous faudra vous spécialiser sur le développement logiciel (principalement Java) et le traitement distribué.



L’administrateur

L’administrateur fait référence à un profil de compétences lié à l’administration d’Hadoop. Concrètement, l’administration d’ Hadoop consiste en les tâches de constitution des ordinateurs sur lesquels Hadoop est installé (connexion des ordinateurs, configuration, installation du système d’exploitation), d’installation et de configuration d’Hadoop, d’ajout de nouveaux ordinateurs, de gestion des défaillances (retrait des ordinateurs défaillants et remplacement par de nouveaux, de provisionnement en ressources et en redimensionnement. L’administration Hadoop consiste également à gérer les aspects sécuritaires, l’attribution des autorisations et des niveaux de permissions aux différents utilisateurs d ‘Hadoop. L’administrateur Hadoop sait utiliser les outils d’administration d’Hadoop. Bien évidemment, pas la peine de vous dire que ce profil est également un profil très recherché et qu’à chaque cas nécessitant Hadoop, il y’a toujours besoin d’au moins un administrateur. Si vous souhaitez vous orienter vers ce profil, nous vous recommandons de vous spécialiser dans les domaines du réseau informatique, de la sécurité informatique et de l’administration des bases de données.



L’architecte

Un autre profil de métier sur Hadoop est l’architecte. Ce profil de métier plus fonctionnel que technique et fait référence d’une part à la capacité de décider des briques Hadoop nécessaires pour la résolution d’une problématique précise, et d’autre part à la capacité à intégrer cet ensemble à l’architecture informatique existante de l’entreprise ou à la modifier de sorte qu’elle puisse s’intégrer avec celle-ci. C’est plus un travail conceptuel et fonctionnel qu’un travail technique. Habituellement, les architectes de ce type de profil travaillent dans l’urbanisation des systèmes d’information, on les appelle souvent architectes des SI ou urbanistes des SI. A la différence des architectes des SI qui fournissent la cartographie du système d’information de l’entreprise, l’architecte Hadoop lui, fournit la cartographie des outils Hadoop à utiliser, montre l’impact que cela aura dans l’architecture du SI de l’entreprise et travaille avec les décideurs pour la mettre en place. Si vous voulez suivre ce profil alors, nous vous recommandons de vous spécialiser dans la gestion de projets, la maîtrise d’ouvrage et le développement Hadoop en général.



Ces 6 profils de métier vous permettent de prendre le virage du Big Data. Nous vous recommandons très sérieusement de choisir un profil et de suivre les instructions que nous y avons données. Une fois que vous aurez choisi votre profil de métier, vous pourrez le développer à l’aide d’une ou plusieurs certifications, ou encore d’un cursus de formation tel qu’un Master ou une formation professionnelle.



