Decideo - Actualités sur le Big Data, Business Intelligence, Data Science

Abonnez-vous gratuitement à Decideo !


Decideo

 


Glossaire, lexique, référentiel ou dictionnaire… de données


Rédigé par le 19 Janvier 2020

A chacun sa terminologie. Les principaux éditeurs de logiciels d’aide à la gouvernance des données proposent un espace partagé dans lequel les données sont définies et expliquées. Comment appeler cet espace ? Pour certains c’est un dictionnaire de données, mais pour d’autres, le mot utilisé devient un outil de différentiation marketing.



Photo Susan Yin / Unsplash
Photo Susan Yin / Unsplash
Les mots ont leur importance. D’une part car ils permettent de communiquer entre nous et de comprendre la signification qu’ils soulignent ; d’autre part il n’est pas nécessaire d’inventer de nouveaux mots quand les mots existants font l’affaire.

En informatique, nous sommes beaucoup trop tentés de moderniser les termes employés. D’une part sous le prétexte qu’un mot nouveau serait plus attirant qu’un mot ancien ; d’autre part pour éviter de faire l’effort d’utiliser la langue française… c’est tellement plus « chic » d’angliciser ! Je refuserai donc ici de parler de « repository ».

En matière de gouvernance des données, penchons-nous sur un des concepts fondateurs : la liste des données, leur définition, leurs caractéristiques, et l’ensemble des métadonnées qui leur sont rattachées. On a coutume de parler de « dictionnaire des données » ; mais certains semblent vouloir s’affranchir de cette dénomination, et utilisent les termes de glossaire, de lexique ou encore de référentiel.

Revenons aux définitions

Un dictionnaire est un recueil contenant les mots, les expressions d'une langue, présentés dans un ordre convenu, et qui donne des définitions, des informations sur eux. Cela s’applique plutôt bien à la notion de dictionnaire de données, à l’exception du fait qu’on ne recense pas les mots d’une langue… quoique le vocabulaire interne d’une entreprise puisse parfois être assimilé à une langue. Important dans cette définition, la recherche de l’exhaustivité. On veut dans un dictionnaire définir l’ensemble des mots d’une langue, tout comme le dictionnaire des données doit recenser l’ensemble des données de l’entreprise. Le dictionnaire en donne pour chacun une définition, et des informations… les fameuses métadonnées.

Pendant des siècles, les termes de dictionnaire, glossaire et lexiques ont été quasiment synonymes. Mais petit à petit, leur usage s’est spécialisé.

« Le vocabulaire ou lexique d'une langue est l'ensemble de ses mots, ou de façon plus précise en linguistique de ses lemmes. Les mots d'un lexique forment un tout, une sorte de système sémantique, qui évolue donc au fil du temps », explique Wikipedia. Selon d’autres définitions, un lexique serait en revanche un dictionnaire succinct, qui ne reprendrait pas l’ensemble des mots, et se spécialiserait dans un domaine. Ainsi la liste des données centralisées dans le système d’information, gérées par le département informatique, excluant les données des métiers, serait plus un lexique qu’un dictionnaire.

Quant au glossaire, il serait plutôt utilisé dans le domaine de l’édition. Beaucoup y voient une sorte de lexique des mots peu connus, contenus dans un ouvrage.

Il faut également noter qu’en anglais, il existe également une différence entre « glossary » et « dictionary » : « The main difference between Dictionary and Glossary is that the Dictionary is a collection of words and their meanings and Glossary is a alphabetical list of terms relevant to a certain field of study or action ». Source : https://www.askdifference.com/dictionary-vs-glossary/

Pour en savoir plus sur l’étymologie et l’histoire de ces mots, je vous conseille de parcourir cette page : http://www.unicaen.fr/recherche/mrsh/erlis/infosDicos/origine

Autre mot parfois utilisé, celui de catalogue. Il s’agit d’une énumération. Selon le Larousse, un « inventaire à données scientifiques des livres conservés dans des lieux déterminés (bibliothèque, librairie, etc.) ; une liste de documents, imprimés ou non, classés selon un ordre déterminé, suivant des règles préétablies pour en faciliter la recherche ». Là-encore le terme peut s’appliquer à notre dictionnaire de données. Néanmoins l’usage du mot catalogue est habituellement dédié à des produits, à des biens physiques. Les données étant par nature des biens immatériels, l’usage du mot catalogue n’est peut-être pas le plus adapté. Surtout, le catalogue n’impose pas la présence d’une définition, ou de métadonnées. Il peut s’agir d’une simple liste, pointant vers le produit catalogué. En cela, nous nous éloignons des objectifs du dictionnaire de données.

L’utilisation du terme « référentiel » est également intéressante : Il s’agit d’une liste d'éléments formant un système de référence. On ne parle plus simplement de mots, mais d’éléments. Et ces éléments sont reliés entre eux, pour former un système de référence.
En cela, le terme de référentiel s’appliquerait bien au dictionnaire des données, en particulier si les données sont reliées entre elles, partagent des définitions et des normes de présentations, etc. Le Larousse y voit : « Un ensemble auquel doivent appartenir les éléments, les solutions d'un problème posé. Un ensemble général dont on étudie les sous-ensembles ».

Et si l’on commençait par un dictionnaire de données, qui évoluerait vers un référentiel de données

Mon conseil serait de commencer par construire un dictionnaire des données. Il serait :
- Complet, recensant l’ensemble des données de l’entreprise (même si des priorités dans sa conception doivent être données) ;
- Ordonné, par domaine métier, par ordre alphabétique, par type de données… ou tout cela à la fois ;
- Il contient pour chaque donnée, sa définition ; c’est-à-dire la définition commune, acceptée et partagée par tous ; c’est le langage commun de l’entreprise ;
- Il contient pour chaque donnée, ses métadonnées : c’est-à-dire les informations qui permettent de caractériser la donnée (son emplacement dans le système d’information, sa forme de stockage, ses règles de qualité, son propriétaire, ses utilisateurs, etc.)

Une fois le dictionnaire de données bien avancé, il sera possible de le transformer en référentiel de données, en le structurant.

Ce sera l’occasion de créer des liens entre les données, on les regroupera en fonction des applications, des usages, des règles de conformités, etc. Les données pourront être reliées les unes aux autres, par exemple au travers d’une base de données graphes qui pourra stocker et visualiser le dictionnaire de données. Cette base de données graphes servira aux études d’impacts, aidera à comprendre les réorganisations, à planifier les nouvelles applications. On aura alors transformé notre dictionnaire de données en un véritable référentiel d’entreprise. Il deviendra éventuellement possible de le partager, à l’intérieur d’un même groupe d’entreprises ou au sein d’une organisation professionnelle sectorielle.

Vous pouvez en profiter pour parcourir le dictionnaire des termes clefs de l'informatique décisionnelle proposé par Decideo.




Commentaires

1.Posté par Prigent le 04/02/2020 09:50
Merci Philippe pour ce bel article qui décrit bien les avantages et nécessités de gérer les données de références pour une bonne gouvernance du SI. Qualifier, identifier les données, annoter les contenus pour les analyser les mesurer ou simplement les retrouver : voilà l'enjeu.

Mondeca offre depuis 20 ans une solution modulaire pour gérer et formaliser (modéliser) les données de référence. Via des API, notre logiciel ITM (Serveur Onto-terminolgique) expose ces données pour (entre autres choses) annoter et enrichir automatiquement des contenus non structurés. Accouplé à notre chaîne CAM (Content Autotagging Manager) ils est possible de catégoriser, classifier ces contenus et convertir le contenu en data analysable et mesurable.
Le graphe de données est depuis 20 ans est notre coeur de métier et ITM gèrait déjà les données de référence sous forme de graphes bien avant que les bases graphes n'apparaissent.

Nous serons au côté de NEO4J au salon BIG DATA en Mars 2020 !

2.Posté par Daniel MALOT le 04/02/2020 10:05
Merci Philippe pour cet article sur la sémantique de notre métier. Etant éditeur du référentiel de Gouvernance de données, Meta Analysis, depuis 17 ans, nous avons cheminé sur la dénomination.

Au début dictionnaire des métadonnées, puis référentiel des métadonnées. Le terme métadonnées étant complexe, nous parlons maintenant de gouvernance des données

Le terme référentiel de données peut être attribué aux solutions de MDM et nous n'avons pas de données (ou peu) dans notre référentiel

Notre choix est donc de se définir comme un Référentiel pour la Gouvernance des données

La nouvelle version 7 de Meta Analysis est présentée au salon Big Data stand B28

3.Posté par Jean-Michel Franco le 04/02/2020 15:23
Bonjour Philippe,
Tu notes justement qu'il y a une distinction entre dictionnaire et catalogue.
Quand tu évoques plus particulièrement le mot catalogue, tu notes que l’usage de ce mot catalogue est dédié à la consommation produits. C'est justement l'intéret des catalogues de données que de référencer les données, qui sont des biens certes immatériels, mais que l'on souhaite consommer. Les catalogues amenent des informations précieuses sur les biens référencés, par exemple un indice de confiance ou un avis qui permettra au consommateur d'avoir une idée de la qualité de service qu'il obtiendra en consommant ce service.
C'est devenu un point essentiel dans le monde numérique: avant de consommer un produit, de réserver un taxi/VTC/co-voiturage, un restaurant, le consommateur a accès à un indice de confiance. Il est tant que nous puissions avoir ce type d'expérience avant de consommer les données d'un système d'information.
Du coup, je pense que le terme catalogue, à condition bien sûr qu'il intégre ce type d'informations et qu'il soit capable de capturer des métadonnées "techniques", "crowdsourcées" ou "gouvernées" amène une nuance fondamentale.
Le fait qu'il impose ou non la présence d'une définition formelle de la donnée référencée relève de mon point de vue d'un choix de mise en oeuvre.
A noter aussi que la technologie nous permet de plus en plus d'automatiser la création des catalogues, ce qui permet de référencer de manière exhaustives et toujours actualisée l'ensemble des données de l'entreprise. C'est un autre apport des catalogues de données que de ne pas avoir en prérequis une action humaine liée à la gouvenance des données
Voilà pourquoi nous utilisons le terme de catalogue chez Talend, celui-ci intégrant un glossaire métier, qui lui n'a pas pour vocation l'exhausitivité. Nous utilisons aussi le terme inventory, mais la définition anglaise diffère quelque peu de la définition française.

Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.