Détectez un vrai d’un faux Data Scientist !


Rédigé par le 8 Janvier 2016

Dans un article publié sur Data Science Central, Laetitia Van Cauwenberge propose une liste de dix questions à poser à un soi-disant Data Scientist pour évaluer sa compétence.
Rappelez-vous, il y a quelques mois, est apparu sur LinkedIn une image amusante qui proposait de devenir Data Scientist en trois minutes !



La recette était à peu près : Ouvrir LinkedIn, Vous connecter à votre profil, Modifier la zone “Your professional headline” et indiquer “Data Scientist”, puis, très important, cliquer sur “save”. C’est un miracle, ça fonctionne ! Je l’ai fait, je suis devenu Data Scientist !

Plus sérieusement, face au nombre croissant de candidats au métier le plus sexy du XXIème siècle, beaucoup tentent leur chance et espèrent booster leur carrière, leur salaire, ou trouver un nouvel employeur par une simple évolution de leur profil.

Si vous envisagez de recruter un data scientist, vous devez donc connaître les questions à poser pour séparer le bon grain de l’ivraie.

Voici les questions suggérées par Laetitia, elles-mêmes suggérées par un data scientist de son entreprise :
What is the life cycle of a data science project?
How do you measure yield (over base line) resulting from a new or refined algorithm or architecture?
What is cross-validation? How to do it right?
Is it better to design robust or accurate algorithms?
Have you written production code? Prototyped an algorithm? Created a proof of concept?
What is the biggest data set you have worked with, in terms of training set size, and in terms of having your algorithm implemented in production mode to process billions of transactions per day / month / year?
Name a few famous API's (for instance Google search). How would you create one?
How to efficiently scrape web data, or collect tons of tweets?
How to optimize algorithms (parallel processing and/or faster algorithm: provide examples for both)
Examples of NoSQL architecture?
How do you clean data?
How do you define / select metrics? Have you designed and used compound metrics?
Examples of bad and good visualizations?
Have you been involved - as an adviser or architect - in the design of dashboard or alarm systems?
How frequently an algorithm must be updated? What about lookup tables in real-time systems?
Provide examples of machine-to-machine communication.
Provide examples where you automated a repetitive analytical task.
How do you assess the statistical significance of an insight?

Qu’en pensez-vous ? Et si vous avez indiqué “Data Scientist” sur votre profil LinkedIn, êtes-vous capable de répondre à toutes ?



Dans la même rubrique :