Big Data : 53 % de données structurées... seulement ?
Philippe Nieuwbourg
L'étude date un peu (décembre 2011), publiée par InformationWeek. Mais elle donne un point de départ.
En décembre 2011, 53 % des personnes interrogées (attention, 231 répondants seulement) indiquaient que leur "big data" étaient essentiellement composées de données structurées. Tout le monde n'est en effet pas encore passé à l'analyse des véritables données non structurées. Même les plus grands comme Facebook, Twitter, Google, analysent essentiellement des données structurées, même s'ils stockent et manipulent également de gros volumes de données non structurées.
Prenons l'exemple de Facebook, collecter une image chargée par un utilisateur consiste juste à manipuler un fichier image, pas la peine de chercher à le "comprendre". Il ne s'agit là que de données structurées associées à un fichier image.
Mais lorsque Facebook se lance dans la reconnaissance de visages, là, on passe à l'analyse de données non structurées.
Même chose avec un statut. Le stocker dans une base de données n'est pas compliqué. C'est juste un champ texte et des méta-données. Mais tenter d'en analyser le contenu pour "comprendre" ce que l'utilisateur a voulu dire, c'est autre chose.
Face à l'absence de définition claire des périmètres, les répondants aux sondages ont alors tendance à répondre "ce qui les met en valeur". D'où les résultats de cette enquête qui fait ressortir que 13 % des personnes interrogées ont un entrepôt de données composé essentiellement de données non structurées, et 24 % où la répartition structurées / non structurées est équitable. Ce qui me semble énorme, et complètement déconnecté de la réalité des entreprises que je rencontre.
Sauf si tous les champs "texte" comme une adresse, un nom, un commentaire.. sont considérés comme "non structuré" ! Facile alors de parvenir à ces chiffres. Mais on n'aura finalement rien appris...
En décembre 2011, 53 % des personnes interrogées (attention, 231 répondants seulement) indiquaient que leur "big data" étaient essentiellement composées de données structurées. Tout le monde n'est en effet pas encore passé à l'analyse des véritables données non structurées. Même les plus grands comme Facebook, Twitter, Google, analysent essentiellement des données structurées, même s'ils stockent et manipulent également de gros volumes de données non structurées.
Prenons l'exemple de Facebook, collecter une image chargée par un utilisateur consiste juste à manipuler un fichier image, pas la peine de chercher à le "comprendre". Il ne s'agit là que de données structurées associées à un fichier image.
Mais lorsque Facebook se lance dans la reconnaissance de visages, là, on passe à l'analyse de données non structurées.
Même chose avec un statut. Le stocker dans une base de données n'est pas compliqué. C'est juste un champ texte et des méta-données. Mais tenter d'en analyser le contenu pour "comprendre" ce que l'utilisateur a voulu dire, c'est autre chose.
Face à l'absence de définition claire des périmètres, les répondants aux sondages ont alors tendance à répondre "ce qui les met en valeur". D'où les résultats de cette enquête qui fait ressortir que 13 % des personnes interrogées ont un entrepôt de données composé essentiellement de données non structurées, et 24 % où la répartition structurées / non structurées est équitable. Ce qui me semble énorme, et complètement déconnecté de la réalité des entreprises que je rencontre.
Sauf si tous les champs "texte" comme une adresse, un nom, un commentaire.. sont considérés comme "non structuré" ! Facile alors de parvenir à ces chiffres. Mais on n'aura finalement rien appris...
> A LIRE EN CE MOMENT SUR DECIDEO
-
Anaplan lance Agentic Enterprise, une nouvelle génération d’agents IA fondés sur la planification déterministe
-
IA, data, cybersécurité : pourquoi les nouveaux besoins juridiques des entreprises révèlent la transformation du marché de la donnée
-
Couchbase lance l’AI Data Plane, la couche de données opérationnelles au service de l’entreprise agentique
-
En France, les entreprises réalisent que l'IA ne suffit plus : la priorité devient la donnée
-
MICHELIN Connected Fleet améliore la performance opérationnelle des gestionnaires de flotte grâce à un assistant IA intégré à sa plateforme MyConnectedFleet
-
Equadis vise à devenir la référence européenne de la gestion de la donnée produit avec le soutien de Cathay Capital
-
HPE rejoint l’AFCDP pour renforcer son dispositif de conformité sur la protection des données
-
Veeam renforce son alliance stratégique avec Everpure pour offrir la résilience DataAI à l’échelle de l’entreprise
-
Shadow AI dans les collectivités : ce que révèle vraiment l'usage clandestin de ChatGPT en mairie
-
Targa Telematics France rejoint l’Agora des Responsables Flotte Auto & Mobilités (ARFAM PARIS)