Decideo - Actualités sur le Big Data, Business Intelligence, Data Science

Abonnez-vous gratuitement à Decideo !


Decideo

 


Teradata lève le voile sur ses développements pour 2010 et 2011 – 2ème partie


Rédigé par par Philippe NIEUWBOURG le 15 Juin 2010

Dans cette seconde partie, nous aborderons les évolutions logicielles attendues sur la plate-forme Teradata dans sa version 13.10 annoncée pour le troisième trimestre 2010, telles que présentées par Todd Walter, CTO de l’éditeur à l’occasion d’une réunion du BBBT (Boulder BI Brain Trust).



Compresser pour réduire les entrées/sorties

Dans la première partie de cette présentation, nous avons abordé les évolutions matérielles, principalement autour de la température des données et des disques SSD. «Aujourd’hui les ressources d’entrées/sorties deviennent plus rares que la puissance CPU; il redevient donc intéressant d’utiliser plus de ressources CPU pour économiser des entrées/sorties », explique Todd Walter.

Et cela passe par l’amélioration des algorithmes de compression. Pour cela, Teradata va permettre à l’administrateur d’une base de données de définir les algorithmes de compression qu’il souhaite utiliser, pour chaque colonne. Teradata fournira en standard deux algorithmes de compression/décompression et l’administrateur sera libre d’en connecter de nouveaux. Ils seront tout simplement définis lors de la création d’une table par une fonction telle que :
CREATE TABLE Customer
(Customer_account_number INTEGER,
Customer_address CHAR(200) CHARACTER SET UNICODE
COMPRESS USING SCSUCompress AND
DECOMPRESS USING SCSUDecompress);

Et Teradata ajoute un autre niveau de compression, par bloc de données, avant que ce dernier ne soit écrit physiquement sur le disque. Cette technique est bien entendu couteuse en ressources CPU, mais elle permet d’économiser des entrées/sorties.

Géolocaliser toutes les données

Pour Todd Walter, la prochaine évolution majeure dans le types de données gérées au sein d’un data warehouse est celle de la « spatialisation ». De nombreuses informations (clients, magasins, commandes, livraisons...) sont « géotaggées », le plus souvent au travers d’une simple adresse postale. Le référentiel utilisé est celui de l’administration postale, basée sur le pays, la ville, le code postal... ces références ne sont pas harmonisées d’un pays à l’autre, et elles ne contiennent aucune information qui permette de les mettre en relation. Rien ne vous dit que l’avenue de la mairie est proche de la rue de la gare. L’usage de ces adresses postales est un premier pas, mais les applications restent limitées.
En parallèle se développent des outils à usage personnel qui contiennent tous aujourd’hui une fonction de géolocalisation : GPS de voiture, appareils photos, téléphones mobiles, et il est aujourd’hui aisé de faire le lien entre ces outils et des services comme Google Earth ou Maps. Teradata propose donc de généraliser le géocodage des données de l’entrepôt décisionnel, afin de créer une méta-données supplémentaire. Ce géocodage passe par une transformation automatique des adresses postales en coordonnées latitude/longitude. Et pour aller plus loin que le simple codage de points, Teradata proposera de géocoder des lignes, c’est à dire des parcours et des polygones, qui peuvent être des parcours ou des zones.
Mais si la base de données peut stocker ces informations complémentaires, il faut également adapter toute la chaîne de la collecte à l’analyse des données, pour permettre la circulation des informations géographiques. Teradata s’appuie ici sur un middleware fourni par Safe Software. Cette société canadienne a développé un ETL spécialisé dans les données géographiques, pour alimenter les outils cartogaphiques.
L’intégration des données géographiques comme méta-données généralisées permettra ensuite de répondre à des questions telles que « combien ai-je de clients dans un rayon de 10 km ? », « quels sont mes clients qui se retrouvent dans la zone de chalandise d’un nouveau concurrent ? »... des questions auxquelles des outils comme Asterop savaient déjà répondre, mais qui n’étaient pas intégrés au coeur de la base de données.
Ces nouvelles données seront rattachées à un type ST_Geometry défini suivant les règles ANSI SQL/MM de 1999. Ce nouveau type de données est décliné en points, lignes, surfaces, et est proposé en standard dans Teradata 13. Sont également fournies quatre librairies contenant des fonctions de mesure, interactions, de positionnement dans l’espace et de gestion des attributs.
Une requête pourra donc faire appel à ces librairies, par exemple pour calculer une distance :
SELECT C.Customer_name, C.Location.ST_Distance(S.Location) FROM Customers C, Stores S
WHERE DISTANCE <= 1000.0
En revanche Teradata ne devrait pas proposer son propre outil de visualisation des données géographiques, mais s’appuyer sur les outils du marché, auxquels Teradata proposera des exports dans leurs formats de fichiers.

Entrer dans la dimension temps

Dernier domaine d’extension des méta-données, la dimension temps. Là encore l’idée est d’associer à chaque événement touchant la base de données un codage temporel, et surtout de permettre de réaliser ensuite des opérations sur ces méta-données.
Cela passe par exemple par la gestion native de la notion de période (intervalle entre deux dates).
En conservant ces données temporelles il est possible de récupérer l’état d’un indicateur à un instant T et de répondre par exemple à la question, « combien de jeans de taille 42 avais-je en magasin le 6 janvier dernier à 16h ? ». Associé à l’usage d’étiquettes RFID, ce stockage des données temporel ouvre de nouvelles perspectives d’analyse...




Nouveau commentaire :
Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.


Twitter
Rss
LinkedIn
Facebook
Apple Podcast
App Store
Google Play Store