Decideo - Actualités sur le Big Data, Business Intelligence, Data Science

Abonnez-vous gratuitement à Decideo !


Decideo

 


Démystifier le Machine Learning


Rédigé par Jean-Cyril Schütterlé, SideTrade le 8 Novembre 2016

L'apprentissage automatique, ou Machine Learning, semble encore mystérieux au profane. Cette méconnaissance alimente parfois des fantasmes à propos d'une prochaine domination des hommes par des machines intelligentes. De façon plus terre à terre, il s'agit avant tout d'une étape majeure dans l'évolution des technologies de l'information. Tout décideur doit en comprendre les principes et les contraintes afin d'en tirer les bénéfices pour sa propre organisation.



Jean-Cyril Schütterlé, Directeur Produit et Data Science de SideTrade
Jean-Cyril Schütterlé, Directeur Produit et Data Science de SideTrade
Le Machine Learning requiert certes la mobilisation de compétences statistiques et informatiques bien spécifiques et encore rares, mais il repose sur des mécanismes finalement assez simples voire intuitifs. Pour ma part, c'est un service de traduction en ligne a priori banal – Google Translate – qui m’a fait comprendre le potentiel disruptif du Machine Learning.

Jusqu'alors, les éditeurs de logiciels de traduction avaient recours, schématiquement, à la programmation de dictionnaires, de règles grammaticales et de leurs exceptions, si nombreuses. Cette approche implique des efforts considérables.

Du 'Rule-based' au 'Data-driven'

La nouvelle méthode part au contraire d'une idée plus simple: ne cherchons pas à décrire les règles et correspondances lexicales au préalable, laissons le logiciel les 'découvrir'. Comment ?

En trois étapes :

1- Un corpus de millions de pages de texte préalablement traduits d'une langue à l'autre est constitué. Ces textes sont à portée de clic, mis à disposition sur les sites d'organisations internationales telles que l'ONU ou les institutions européennes.

2 - Lorsque l'utilisateur soumet un texte à traduire, le logiciel le découpe en éléments puis recherche au sein du corpus des éléments identiques ou s'en approchant, dans la même langue.

3 – La traduction la plus probable est extraite du corpus bilingue pour être proposée à l'utilisateur.

Les règles de traduction sont ainsi remplacées par des corrélations statistiques détectées au sein des données. Au lieu de les programmer minutieusement, elles sont automatiquement "apprises" par le logiciel. On mesure combien cette méthodologie est économe de ressources par rapport à la précédente et la qualité des traductions qui en résulte est généralement comparable.

Pour des problèmes plus simples que celui de la traduction entre langues humaines, aux gains de productivité s’ajoutent un saut qualitatif substantiel. En effet, quiconque a un jour spécifié des processus d'automatisation connaît la difficulté, même avec l'aide d'experts du domaine fonctionnel concerné, d'anticiper toutes les situations auxquelles le système sera effectivement confronté une fois en production. A partir d'hypothèses, elles-mêmes fondées sur un nombre limité d'observations, on définit des règles de fonctionnement du logiciel. Mais la réalité s'avère souvent beaucoup plus complexe que prévue, entraînant un fonctionnement suboptimal ou de coûteuses corrections du logiciel. Au contraire, le Machine Learning va se nourrir de toutes les données disponibles, réduisant le risque d’oublier un cas d’utilisation.

Il faut un pilote dans l'avion

L'apport de la machine est également d'éviter les biais dits 'cognitifs' propres à l'intelligence humaine, c'est à dire une sélection imparfaite des données disponibles qui aboutit à une prise de décision inappropriée.

L'exemple du traitement automatisé des demandes de crédit adressées aux établissements financiers l'illustre bien. Un algorithme parcourt les archives de dossiers dans lesquelles figurent les caractéristiques des emprunteurs (âge, revenus, situation patrimoniale, situation familiale, etc.) associées au dénouement financier de l'emprunt (échéances honorées ou défaut de paiement). Il met ainsi en évidence la relation probable existant entre un profil d'emprunteur et un risque de défaut. Appliquée à une nouvelle demande de financement, il permet de prédire, avec un niveau de précision qu'on juge suffisant, si l'emprunteur remboursera. Le risque d'une mauvaise décision fondée sur des préjugés ou l'humeur d'un agent disparaît.

Il est cependant crucial que l'humain reste le décideur de dernier ressort.

D'une part, parce que le système n'est évidemment pas parfait. Il est lui-même le fruit de choix humains : il peut avoir été optimisé pour éviter les faux positifs (scénario où le prêt est accordé alors que l'emprunteur fera défaut) et avoir ainsi une propension à rejeter certains dossiers. Il aura tendance à 'écrêter' les observations hors norme. L'utilisateur doit donc vérifier que les recommandations formulées sont bien légitimes et, si nécessaire, les infirmer. S'il accepte une demande d'emprunt que le système préconisait de rejeter et qu'il s'avère in fine que l'emprunteur honore ses obligations, le jeu d'apprentissage devra en être enrichi pour que l'algorithme accepte des dossiers émanant de profils similaires à l’avenir.

D'autre part, parce qu'il faut que l'utilisateur s'assure du respect de normes éthiques, en particulier lorsque la décision porte sur l'attribution de droits à des personnes. Le traitement automatisé de données nominatives est déjà strictement encadré par la loi. Et le droit en la matière est appelé à évoluer pour protéger les citoyens et les consommateurs des effets néfastes que pourrait entraîner d'excessives généralisations statistiques.

Primauté de la donnée

Le choix et le paramétrage d'un modèle algorithmique adapté au problème à traiter et au type de données exploitées sont bien sûr essentiels. La prévision du risque de défaut d'une entreprise ne reposera pas sur la même méthode que la reconnaissance d’un visage sur une photo. Toutefois, la performance de l’automatisation dépendra d'abord du respect de deux impératifs :

1/ la qualité des données. De nombreux traitement de nettoyage et formatage sont indispensables pour s'assurer que les règles découvertes lors de l'apprentissage ne reposent pas sur des observations fausses. Cet effort surclasse en général de beaucoup celui consacré au paramétrage du modèle.

2/ la représentativité du jeu d’apprentissage. L'automatisation sera en effet d'autant plus efficace et précise que les observations sur lesquelles s'effectue l'apprentissage automatique ne sont pas biaisées, c'est à dire qu'elles ressemblent suffisamment aux cas de figure qui seront à traiter. Par exemple, si je cherche à prédire le comportement de paiement d'entreprises, mais ne dispose que des données relatives à celles se situant dans une certaine tranche de chiffres d'affaires, le système pourrait ne pas être précis lorsque je l’appliquerai à une autre catégorie.

L’accès aux données est crucial pour la réussite des projets de machine learning car, au bout du compte, aucune sophistication algorithmique ne compensera jamais un mauvais jeu de données.


Avec toujours plus de puissance de calcul et les progrès de la digitalisation, il devient possible, et probablement indispensable, de mettre en œuvre une approche pilotée par la donnée pour concevoir des systèmes d’automatisation des processus plus efficients. Au-delà des compétences scientifiques requises, le succès de ces solutions repose sur le recueil de données pertinentes et leur supervision par des opérateurs humains. L’apprentissage automatique tend à évacuer les comportements arbitraires, veillons à ce qu’il n'y substitue pas des généralisations ineptes.




Commentaires

1.Posté par Colin le 08/11/2016 07:31
Article très intéressant !
Le machine learning, on en entend parler partout, mais il est difficile de réellement en saisir le fonctionnement pour les non-initiés : d'où l'importance d'expliquer, d’éclaircir.
À bientôt,
Colin

2.Posté par Vallaud Thierry le 08/11/2016 23:50
On ne peut être que d'accord avec ces propos pour le moins "généralistes" sur le machine learning, la donnée.
Deux vieux livres sur le sujet
https://www.amazon.fr/Data-Mining-Practical-Learning-Techniques/dp/0123748569/ref=sr_1_3?s=english-books&ie=UTF8&qid=1478645104&sr=1-3&keywords=data+mining
https://www.amazon.fr/Data-Preparation-Mining-Dorian-Pyle/dp/1558605290/ref=sr_1_3?s=english-books&ie=UTF8&qid=1478645176&sr=1-3&keywords=data+pr%C3%A9paration+for+data+mining
qui disait déjà tout cela et deux nouveaux qui redisent tout cela mais avec un regard plus "récent"
https://www.amazon.fr/Data-Smart-Science-Transform-Information/dp/111866146X/ref=sr_1_1?s=english-books&ie=UTF8&qid=1478645314&sr=1-1&keywords=smart+data+science
https://www.amazon.fr/Data-Science-Business-Foster-Provost/dp/1449361323/ref=pd_sim_14_1?_encoding=UTF8&psc=1&refRID=4FJDDWVQ9D4H08VN7QTW
Lisez les 4 cela va plus loin que l'article et comparez

Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.


Twitter
Rss
LinkedIn
Facebook
Apple Podcast
App Store
Google Play Store