Decideo - Actualités sur le Big Data, Business Intelligence, Data Science

Abonnez-vous gratuitement à Decideo !


Decideo

 


Les entreprises peuvent-elles faire confiance aux benchmarks de LLM pour choisir leur IA ?


Rédigé par Iacopo Poli, LightOn le 13 Février 2024

OpenAI, DeepMind et autres modèles propriétaires, l’IA investit toute l’entreprise. Mais comment choisir le bon ? Pour les aider dans leurs choix, les entreprises se tournent vers les benchmarks de LLM. Mais ils ne sont pas sans risque car ils présentent des lacunes dans leurs processus d’évaluations. Seule une démarche collaborative entre industriels, chercheurs et institutions produira des benchmarks LLM plus robustes, transparents.



Iacopo Poli, CTO de LightOn
Iacopo Poli, CTO de LightOn
Que ce soit pour résumer un texte, rédiger des mails, répondre à un client, organiser une stratégie marketing ou un plan de recrutement, les LLM sont de plus en plus présentes dans les entreprises.

Au cœur de cette fulgurante adoption ? Le LLM ou le modèle de langage à grande échelle dont l'objectif est de permettre à l'IA de comprendre et de générer du langage naturel en temps réel. En quelques secondes, un LLM comme ChatGPT est capable de générer un texte précis à partir d’une requête. Si ces outils sont, certes, bluffants, ils présentent néanmoins des travers. En effet, entraînés sur des données non exhaustives, non représentatives ou tronquées, ces IA génèrent des réponses biaisées, voire inventées, qui peuvent s’avérer catastrophiques pour l'entreprise utilisatrice.

Les entreprises se retrouvent donc dans l’obligation d’évaluer les LLM pour déterminer s'ils sont pertinents et répondent à leurs besoins spécifiques. Mais avec l'émergence constante de nouveaux modèles sur le marché - une tendance qui ne montre aucun signe de ralentissement - les entreprises sont face à un défi majeur : leur incapacité à tester chaque LLM faute de temps et de ressources humaines. D’où l’idée de s'appuyer sur des benchmarks fiables et intuitifs pour faire le bon choix. Mais que sait-on de la façon dont ces benchmarks fonctionnent ? Comment mesurent-ils les réponses ? Quels critères utilisent-ils ? Comment attribuent-ils des notations ? En d’autres termes, ces benchmarks, censés refléter la réalité des géants de l'IA, sont-ils vraiment fiables ?

Les modèles d’évaluations des IA révèlent encore des lacunes

Une analyse fine des benchmarks révèle, hélas, des manquements. En effet, ils tendent à privilégier certaines compétences au détriment d'autres, offrant alors une vision tronquée des capacités réelles des LLM. S’il est simple d’évaluer la pertinence d’une réponse à choix multiple, mesurer celle d’une question nécessitant de rédiger une phrase est bien plus délicat. Comment l’évaluer ? Quels critères prendre en compte ?

Par ailleurs, pour évaluer la pertinence d’une réponse, les benchmarks se rabattent souvent sur des modèles probabilistes. Mais, là aussi des lacunes apparaissent. Certains modèles défectueux ont tendance à ne pas voir une relation de cause à effet entre deux données, alors qu’il y en a une, assignant alors une valeur 0.

Autre exemple : le résumé. Dans le cadre d’une évaluation automatique d’un résumé, celle-ci porte souvent sur le recoupement de mots, de couple ou triple mots entre le texte et le résumé. Or, une bonne synthèse n’est pas celle qui a le plus grand nombre de mots communs avec le texte original mais celle qui synthétise le mieux la pensée du texte. Un résumé fait par un humain recueille donc souvent un mauvais score, là où celui généré par une IA cartonne, grâce aux recoupements de mots.

Solution plus fiable, mais plus coûteuse : le contrôle humain

Tous ces exemples révèlent une chose : les métriques utilisées dans les benchmarks actuels manquent souvent de pertinence et de fiabilité. Aujourd'hui, le moyen le plus sûr d'évaluer une IA pour une entreprise reste donc l'observation par des humains des données produites.

Pour résoudre la problématique du contrôle de l’IA par les humains que seules des entreprises financièrement très solides comme Open AI ou Anthropic IA peuvent s'offrir, de nouvelles techniques d’évaluation émergent sur le marché comme la simulation d’un humain contrôlant les données de sortie de l'algorithme.
Autre technique : la RLHF (Reinforcement Learning from human feedback) une approche d’apprentissage par renforcement consistant à utiliser les commentaires et notations des humains pour évaluer les modèles et les guider dans leur apprentissage.

Aujourd'hui de nombreux acteurs du secteur ressentent le besoin d'une refonte des méthodologies d'évaluation. Les benchmarks actuels, en dépit de leurs meilleures intentions, peuvent parfois induire en erreur les entreprises et les utilisateurs finaux, les conduisant à faire des choix basés sur des informations incomplètes ou biaisées. C’est pourquoi, il est temps de repenser la manière dont sont évalués les LLM. C’est ainsi que chercheurs, industriels et institutions doivent se réunir pour élaborer des benchmarks plus robustes, transparents et représentatifs de la réalité des capacités des LLM. Seule une telle démarche collaborative garantira que les avancées de cette industrie bénéficient réellement à la société dans son ensemble.

Alors que nous continuons à naviguer dans l'ère passionnante des LLM, il est impératif de disposer d'outils d'évaluation à la hauteur de ces innovations. Pour façonner l'avenir de l'IA, il est urgent de comprendre où nous en sommes aujourd'hui et de jouer la transparence et l'excellence dans les modèles d’évaluation.




Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.


Twitter
Rss
LinkedIn
Facebook
Apple Podcast
App Store
Google Play Store