Michel Bruley, Directeur Marketing Teradata Aster Europe de l’Ouest
Aujourd’hui les entreprises pour améliorer leurs modèles de connaissances et de prévisions, n’hésitent pas prendre en compte plusieurs centaines de facteurs, et pour cela mettent en place de nouveaux moyens d’analyse qui permettent de traiter de grands volumes de données. Or le traitement de grands volumes de données est un défi pour les infrastructures décisionnelles habituelles. Stocker de grands volumes n’est pas un problème, mais les exploiter nécessite des architectures massivement parallèles, des entrepôts de données tels que ceux proposés par Teradata par exemple, ou des « solutions MapReduce » telles que celles d’Hadoop ou d’Aster Data. Ici le choix de la solution dépend de la variété des types de données à traiter et de la vélocité attendue. En effet MapReduce est meilleur qu’une base de données relationnelle pour traiter des données non structurées, et Hadoop est batch alors qu’Aster Data est temps réel. Comme il n’y a pas de solution miracle, les grandes entreprises se dotent d’un mix de moyens leur permettant de bénéficier des avantages des différents types de solutions.
A partir du moment où l’on veut prendre en compte toutes sortes de données, des textes, des données issues de capteurs divers, des données de géolocalisation, des données de réseaux sociaux, des images, etc..., ces données ne se présentent pas sous une forme parfaitement ordonnée et ne sont pas d’emblée prêtes pour une exploitation analytique. Même les données issues du web ne se sont pas dès le départ parfaites. Une tâche courante des systèmes Big Data est de prendre en charge des données non ou multi-structurées et de les traiter pour les rendre consommables par des humains ou des applications analytiques. Un exemple classique en matière de traitement de textes est de déterminer à quoi réfère un mot : Paris est-ce la capitale de la France ? La ville Paris dans l’Illinois ? Paris la célèbre people ? Etc. Il s’agit aussi de stocker de la façon la plus performante possible des données, et les bases de données relationnelles ne sont pas toujours la meilleure solution, par exemple pour les données XML ou pour les réseaux de relations qui sont des graphiques. Même là où il n'y a pas une incompatibilité de type de données, un inconvénient de la base de données relationnelle est le caractère statique de ses schémas. Les bases de données semi-structurées NoSQL fournissent assez de structure pour organiser les données, mais ne nécessitent pas un schéma exact des données avant de les ranger.
Les exigences de vitesse de traitement des données ont ces dernières années augmentées de façon analogue à celles des volumes. Cela ne concerne plus seulement quelques sociétés spécialisées comme les opérateurs financiers (les traders), mais touche la plupart des secteurs économiques. A l’ère d'internet et des mobiles le rythme des affaires s’est accéléré, nous ne consommons plus de la même façon, les formes de concurrence ont évoluées et les flux d’information aussi. Par exemple les détaillants en ligne sont en mesure de suivre les clics de chaque client, de leur première interaction à la vente finale. Ceux qui sont capables de rapidement utiliser cette information, en recommandant des achats supplémentaires par exemple, acquiert un avantage concurrentiel notable.
Le défi ne tient pas uniquement dans le fait de devoir assumer le volume ou la vitesse des données entrantes, mais surtout dans la vitesse des analyses et du déclenchement des actions pertinentes. La fraîcheur des informations délivrées est primordiale. Par exemple : Traverseriez-vous une rue sans regarder, en vous fiant à une vue de la circulation prise cinq minutes avant ? La vitesse de rétroaction est une source d’avantages concurrentiels, en particulier pour toutes les activités web. Face à de tels besoins les technologies habituelles du monde du décisionnel sont dépassées par le rythme, et seul un mix de solutions permet de répondre aux attentes métiers. C’est ainsi que des clients Teradata comme eBay ou LinkedIn par exemple, utilisent à la fois des systèmes Teradata (Active Entreprise Data Warehouse, Extreme Data appliance, Extreme Performance Appliance) et des systèmes Hadoop ou Teradata Aster.
Pour aller plus loin sur la vision de Teradata des infrastructures Big Data, vous pouvez venir nous écouter lors du Congrès Big Data Paris 20 & 21 Mars 2012 : http://www.bigdataparis.com/fr-index.php
A partir du moment où l’on veut prendre en compte toutes sortes de données, des textes, des données issues de capteurs divers, des données de géolocalisation, des données de réseaux sociaux, des images, etc..., ces données ne se présentent pas sous une forme parfaitement ordonnée et ne sont pas d’emblée prêtes pour une exploitation analytique. Même les données issues du web ne se sont pas dès le départ parfaites. Une tâche courante des systèmes Big Data est de prendre en charge des données non ou multi-structurées et de les traiter pour les rendre consommables par des humains ou des applications analytiques. Un exemple classique en matière de traitement de textes est de déterminer à quoi réfère un mot : Paris est-ce la capitale de la France ? La ville Paris dans l’Illinois ? Paris la célèbre people ? Etc. Il s’agit aussi de stocker de la façon la plus performante possible des données, et les bases de données relationnelles ne sont pas toujours la meilleure solution, par exemple pour les données XML ou pour les réseaux de relations qui sont des graphiques. Même là où il n'y a pas une incompatibilité de type de données, un inconvénient de la base de données relationnelle est le caractère statique de ses schémas. Les bases de données semi-structurées NoSQL fournissent assez de structure pour organiser les données, mais ne nécessitent pas un schéma exact des données avant de les ranger.
Les exigences de vitesse de traitement des données ont ces dernières années augmentées de façon analogue à celles des volumes. Cela ne concerne plus seulement quelques sociétés spécialisées comme les opérateurs financiers (les traders), mais touche la plupart des secteurs économiques. A l’ère d'internet et des mobiles le rythme des affaires s’est accéléré, nous ne consommons plus de la même façon, les formes de concurrence ont évoluées et les flux d’information aussi. Par exemple les détaillants en ligne sont en mesure de suivre les clics de chaque client, de leur première interaction à la vente finale. Ceux qui sont capables de rapidement utiliser cette information, en recommandant des achats supplémentaires par exemple, acquiert un avantage concurrentiel notable.
Le défi ne tient pas uniquement dans le fait de devoir assumer le volume ou la vitesse des données entrantes, mais surtout dans la vitesse des analyses et du déclenchement des actions pertinentes. La fraîcheur des informations délivrées est primordiale. Par exemple : Traverseriez-vous une rue sans regarder, en vous fiant à une vue de la circulation prise cinq minutes avant ? La vitesse de rétroaction est une source d’avantages concurrentiels, en particulier pour toutes les activités web. Face à de tels besoins les technologies habituelles du monde du décisionnel sont dépassées par le rythme, et seul un mix de solutions permet de répondre aux attentes métiers. C’est ainsi que des clients Teradata comme eBay ou LinkedIn par exemple, utilisent à la fois des systèmes Teradata (Active Entreprise Data Warehouse, Extreme Data appliance, Extreme Performance Appliance) et des systèmes Hadoop ou Teradata Aster.
Pour aller plus loin sur la vision de Teradata des infrastructures Big Data, vous pouvez venir nous écouter lors du Congrès Big Data Paris 20 & 21 Mars 2012 : http://www.bigdataparis.com/fr-index.php
Autres articles
-
Teradata nomme Thomas Schröder au poste de vice-président, Europe
-
Teradata et DataRobot s’associent pour accélérer l’innovation dans le domaine de l’IA de confiance
-
Teradata s’associe à Google Cloud pour proposer des offres d’IA de confiance à l’échelle de l’entreprise afin d’accélérer le délai de rentabilité et le ROI
-
Les dirigeants font confiance à l’IA mais ont du mal à concrétiser son potentiel, selon une étude de Teradata
-
Le workload Teradata AI Unlimited sur Microsoft Fabric est désormais disponible en avant-première privée