Decideo - Actualités sur le Big Data, Business Intelligence, Data Science

Abonnez-vous gratuitement à Decideo !


Decideo

 


Le partage de données : élément indispensable à la création d’une IA de confiance ?


Rédigé par Jean-Marc Lazard, Opendatasoft le 11 Juillet 2023

Téléchargée par des millions d’utilisateurs en quelques mois, ChatGPT remet sur le devant de la scène la problématique de la source de la donnée. Sur quelles données s’appuie cette IA ? Peut-on lui accorder une confiance aveugle ? Les comportements discriminatoires observés chez plusieurs IA antérieures à ChatGPT, soulèvent la question de la qualité et de la diversité des données utilisées pour entraîner les IA. Pour créer des IA de confiance, les organisations peuvent jouer un rôle clé en mettant à la disposition de tous leurs données “partageables", c’est-à-dire les données non personnelles et non confidentielles et qui représentent une masse de connaissance inestimable qui s’accumule du fait de leurs activités. Sans le partage volontaire par les organisations de cette information, les IA ne prendront pas en compte la diversité des sujets et des acteurs et délivreront des informations erronées ou partielles.



Jean-Marc Lazard, fondateur de OpenDataSoft
Jean-Marc Lazard, fondateur de OpenDataSoft
Jean-Marc Lazard, CEO et cofondateur d’Opendatasoft
Depuis son lancement, ChatGPT est LE sujet tech à la mode. Conçue par la société américaine OpenAI, cette IA, téléchargée par des millions d’internautes depuis son lancement en novembre dernier, fascine et inquiète tout à la fois. IA conversationnelle, ChatGPT est capable, à la suite d’une requête d’internaute, de rédiger de longs textes sur des sujets spécifiques, de synthétiser un long document, de faire un ordre du jour, de générer des idées pour écrire un livre, voire d’écrire le livre, de résoudre un calcul complexe, ou encore d’identifier des bugs de code pour les développeurs, etc. ChatGPT est une intelligence artificielle qui séduit par la simplicité de son utilisation et démocratise l’IA auprès du grand public. Mais, comment fonctionne-t-elle ? Quelles sont les données sur lesquelles s’appuie cette IA pour produire l’information ? Si les contenus du web sont largement exploités, d’autres data issues de données produites par les entreprises ou organismes publics viennent alimenter cette base de connaissance. Au total, ChatGPT concentre des centaines de milliards de données mais n’intègre pas les données du net à la volée, son référentiel s’arrêtant pour l’instant à 2021. En faisant l’impasse de données produites depuis cette date, ChatGPT se prive donc de toute une masse de connaissances dont le traitement pourrait, pour certaines requêtes, conduire sans doute à des réponses différentes. Peut-on alors, dans ce contexte de données tronquées, accorder à ChatGPT une confiance aveugle ?

Lutter contre les biais inhérents aux IA

Plusieurs IA antérieures à ChatGPT, ont révélé des biais discriminatoires. On se souvient de Google Ads et ses pubs de métiers hautement rémunérées proposées aux hommes plus qu’aux femmes, du chatbot Tay de Microsoft et ses propos racistes diffusés sur les réseaux sociaux ou encore de Facebook et son algorithme de recommandation de contenus assimilant des personnes noires à des singes. D’autres biais sociétaux, culturels, économiques, produits par des IA d’entreprises ont également été observés. Mais d’où viennent-ils ? De la conception des algorithmes et de la qualité et la quantité des données qui les alimentent. Ainsi, dès qu’un algorithme est entraîné sur des données réduisant la complexité d’un sujet ou intégrant les biais cognitifs d’un programmateur, ses conclusions s’appauvrissent. L’IA perd alors de son utilité. Combattre ces dérives passe donc par la prise de conscience des professionnels en charge de la conception de l’algorithme de leurs préjugés et par l’utilisation de jeux de données représentatifs de la réalité afin d’éviter toutes distorsions dans le processus d'entraînement de l’algorithme.

Mettre à disposition les données partageables pour pallier les dérives de l’IA

En 2018, Cédric Villani, mathématicien et député, insistait sur l’enjeu de la donnée lors de son discours de présentation de son rapport sur l’IA : “Les données sont la matière première de l'IA contemporaine, et d'elles dépend l'émergence de nombreux usages et applications.” Les entreprises ont donc tout intérêt à s’engager dans une stratégie de mise à disposition de leurs données partageables (les données non personnelles et les données non confidentielles) à des fins de réutilisation mais aussi d’apprentissage des IA. En effet, faire le choix de ne pas utiliser la donnée extérieure réduit considérablement la richesse de ses analyses, une situation qui peut conduire à prendre de mauvaises décisions en termes de business, de R&D ou de relation clients. Côté diffusion, priver le marché de ses données partageables et donc de connaissance et d’objectivité ne permet pas de contribuer à la création d’IA de confiance. Mettre à disposition de tous ses données partageables est donc devenu un enjeu économique et de compétitivité pour l’ensemble de l’écosystème business français. Toutefois, une stratégie d’open data n’est pas sans impacter les SI des entreprises qui doivent être capables de protéger les données privées sensibles ou confidentielles et d’anonymiser les données partageables pour produire les données ouvertes tout en respectant le cadre légal de protection des données.

Aujourd’hui nous assistons à la montée en puissance de la production de données de synthèse. Créées via des algorithmes d’IA et à partir de data originales publiques ou anonymisées, ces données artificielles présentent les mêmes caractéristiques que les données d’origine. L’accélération du développement de l'IA conduit à la croissance de la production de ces données de synthèse, activité qui devient une discipline à part entière avec des métiers dédiés.

Si les entreprises affichent encore quelques craintes face à l’IA, les collaborateurs risquent fort, avec l’utilisation de ChatGPT dans leur vie privée, de faire entrer l’IA dans leurs activités professionnelles. Une situation qui ne serait pas sans rappeler celle du BYOD ou du shadow IT des années 2010. Aussi, les entreprises ont tout intérêt à accroître le volume de données disponibles afin d’être représentées dans les informations produites par les IA. Cette stratégie leur permettra d’utiliser des IA de confiance tout en étant présent dans le paysage informationnel numérique.




Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.


Twitter
Rss
LinkedIn
Facebook
Apple Podcast
App Store
Google Play Store