L'algorithme d’Alibaba dépasse pour la première fois les performances humaines dans la compréhension des visuels

Grâce à l’algorithme d’Alibaba une machine obtient de meilleurs résultats que les humains en matière de compréhension des visuels avec un taux de précision de 81,26 % pour répondre aux questions liées aux images, à comparer à la performance de l'humain de 80,83 %

Alibaba DAMO Academy, le programme de recherche mondiale du Groupe Alibaba annonce l’obtention de la première place du dernier classement mondial VQA (Visual Question Answering), en dépassant les performances d'un humain dans le même contexte. C'est la première fois qu'une machine surpasse les humains dans la compréhension des images pour répondre à des questions textuelles, l'algorithme d'Alibaba enregistrant un taux de précision de 81,26 % pour répondre aux questions liées aux images, à comparer à la performance de l'humain de 80,83 % (dans une partie standard de test).

Le Challenge, organisé chaque année depuis 2015 par la conférence visuelle de référence mondiale CVPR, attire des acteurs mondiaux, notamment Facebook, Microsoft et l'Université de Stanford. L'évaluation présente une image et une question connexe en langage naturel, à laquelle les participants sont invités à fournir une réponse précise en langage naturel. Cette année, le défi contenait plus de 250 000 images et 1,1 million de questions.

La percée de l'intelligence artificielle dans la réponse aux questions liées à l'image a été rendue possible grâce à la conception d'algorithmes innovants par l'Alibaba DAMO Academy, le programme mondial de recherche et développement du groupe Alibaba. En s'appuyant sur ses technologies exclusives, notamment ses diverses représentations visuelles, ses modèles linguistiques multimodaux pré-entraînés, sa fusion sémantique intermodale adaptative et sa technologie d'alignement, l'équipe d'Alibaba a pu réaliser des progrès considérables non seulement dans l'analyse des images et la compréhension de l'intention des questions, mais aussi dans la réponse à ces dernières par le biais d'un raisonnement approprié, tout en l'exprimant dans un style conversationnel proche de celui de l'homme.

La technologie VQA a déjà été largement appliquée dans l'écosystème d'Alibaba. Par exemple, elle a été utilisée dans le chatbot intelligent Alime Shop Assistant d'Alibaba, qui est utilisé par des dizaines de milliers de commerçants sur les plateformes de vente au détail d'Alibaba.

"Nous sommes fiers d'avoir franchi une nouvelle étape importante en matière d'intelligence artificielle, ce qui souligne nos efforts continus pour stimuler la recherche et le développement dans les domaines connexes de l'IA", a déclaré Si Luo, responsable du traitement du langage naturel (NLP) à l'Alibaba DAMO Academy. "Cela ne signifie pas que les humains seront un jour remplacés par des robots. Nous sommes plutôt convaincus que des machines plus intelligentes peuvent être utilisées pour aider notre travail et notre vie quotidienne, et donc que les gens peuvent se concentrer sur les tâches créatives pour lesquelles ils sont les meilleurs."

L'AQV peut être utilisée dans un large éventail de domaines, a ajouté Si Luo. Par exemple, il peut être utilisé lors de la recherche de produits sur les sites de commerce électronique, pour soutenir l'analyse d'images médicales pour le diagnostic initial de la maladie, ainsi que pour la conduite intelligente, car l'assistant d'IA automatique peut offrir une analyse de base des photos capturées par la caméra de la voiture.

Ce n'est pas la première fois que le modèle d'apprentissage automatique d'Alibaba éclipse les autres. Le modèle d'Alibaba est également arrivé en tête du classement de référence GLUE, un tableau industriel perçu comme le test de base le plus important pour le modèle NLP. Le modèle d'Alibaba a largement dépassé les performances des lignes de base humaines, marquant ainsi une étape clé dans le développement de systèmes robustes de compréhension du langage naturel.

En 2019, le modèle d'Alibaba a dépassé les scores humains lorsqu'il a été testé par le jeu de données Microsoft Machine Reading Comprehension, l'un des tests de compréhension de la lecture les plus difficiles du monde de l'intelligence artificielle. Le modèle a obtenu un score de 0,54 dans la tâche de questions-réponses MS Marco, surpassant le score humain de 0,539, une référence fournie par Microsoft. En 2018, Alibaba a également obtenu un score supérieur au point de référence humain dans le Stanford Question Answering Dataset - également l'un des défis de lecture-compréhension automatique les plus populaires au monde.

Autres articles

L'algorithme d’Alibaba dépasse pour la première fois les performances humaines dans la compréhension des visuels

Alibaba obtient la première place au classement mondial VQA des réponses aux questions visuelles.

Standard Chartered et le Groupe Alibaba signent un partenariat stratégique en matière de technologie et de croissance

La sécurité de l’IA, une réelle préoccupation pour les entreprises

Alibaba Cloud propose une gamme de LLM de tailles variées dotée de fonctionnalités multimodales

Qwen-VL et Qwen-VL-Chat, les tous derniers LLM open-source d'Alibaba Cloud

Alibaba Cloud s’engage à nouveau aux côtés de de la communauté open source en offrant 7 milliard de paramètres LLM

Snowflake intègre Gemini 3 de Google à Snowflake Cortex AI pour faciliter le déploiement de l’IA en entreprise - 09/01/2026

Cornerstone obtient la certification ISO 42001, norme mondiale pour une IA éthique et responsable - 07/01/2026

Tendances 2026 de Red Hat : Open source et cloud hybride au cœur de la transformation IT française - 07/01/2026

HexaDone acquiert Hyvilo pour créer le leader français de la gestion des données des acteurs territoriaux - 07/01/2026

La compétence en IA la plus importante sur laquelle se concentrer en 2026 : le middle management - 07/01/2026