Xavier Guérin, Vice-président Europe du Sud et Benelux de MapR
Hadoop a été créé en 2005, par Doug Cutting, qui travaillait chez Yahoo. Yahoo a très rapidement remis le code source entre les mains de la communauté Apache, qui se charge de le rendre disponible pour tous. MapR a été créé pour répondre aux problèmes rencontrés par le déploiement de solutions Hadoop, en terme de performance, de stabilité, d'évolutivité et de robustesse.
Hadoop permet de traiter de façon massivement parallèle n'importe quel type de requêtes. Mais le défi est maintenant de le rendre utilisable par toutes les entreprises et pas simplement par celles capables de recruter des hyper-spécialistes du sujet.
Après deux années de développement, MapR a lancé son propre système de gestion de fichiers, MapR FS. Le nom de l’entreprise est bien sur un clin d’oeil à MapReduce, mais il n’y aurait aucun lien juridique ni de propriété intellectuelle entre les deux.
Hadoop est déjà en lui-même un système de fichiers, le fameux HDFS (Hadoop File System), mais c'est un système de fichiers en mode objet, et développé initialement en Java. MapR propose un système de fichiers de type NFS, développé en C.
“Le mode objet est très contraignant. Il fonctionne un peu comme le protocole HTTP, avec des appels d'objets. On ne peut pas lire directement un fichier, on doit le récupérer, le lire, éventuellement le modifier, puis le renvoyer vers son stockage”, explique Xavier Guérin, Vice-Président Europe du Sud et Benelux de MapR.
Hadoop duplique en standard chaque fichier trois fois, MapR respecte ce fonctionnement. Par ailleurs les fichiers sont segmentés et stockés sur plusieurs machines; c’est ce qui apporte l'efficacité dans l’accès aux données et donc ce qui fait la force de Hadoop.
L’objectif pour MapR est de proposer la technologie Hadoop au plus grand nombre d’entreprises et de permettre l’usage d’applications critiques sur cet environnement.
“Il s’agit d’un positionnement très différent des autres distributions Hadoop qui existent sur le marché”, explique Xavier Guérin. “Les autres sont positionnées sur le support, l'accompagnement, le conseil, ou une interface graphique plus agréable à utiliser que les commandes Hadoop“. MapR a développé sa propre technologie, tout en restant 100 % compatible avec les API de Hadoop.
"Nous reversons à la communauté tout le code que nous développons autour des différents langages. Nous nous engageons à maintenir nos API à 100% compatibles. Mais notre valeur ajoutée est le système de fichier MapR FS qui permet d'accéder aux données à travers NFS, ce qui simplifie la vie des entreprises”, précise Xavier Guérin.
L’objectif n’est pas, encore, de remplacer les bases de données traditionnelles SQL, mais en revanche d’atteindre les mêmes niveaux de services réclamés par les entreprises utilisatrices de solutions Teradata ou Oracle.
MapR propose des fonctionnalités dédiées aux entreprises comme
- un "snapshot" (une photographie instantanée de la base), qui permet par exemple de lancer un traitement pour comparer deux jeux de données;
- un "disaster recovery" (reprise après incident);
- une fonction de mise en miroir de la base sur deux grappes pour sécuriser l’infrastructure;
- des algorithmes de compression.
“L’espace de stockage est un gros problème dans l'environnement Hadoop, car l'espace brut doit être multiplié par trois - puisque chaque fichier est dupliqué trois fois. Il faut beaucoup d'espace dans les centres de données pour héberger une infrastructure Hadoop. MapR a intégré de la compression dans le système de fichiers, ce qui réduit le nombre de machines nécessaires pour une même base de données”, explique Xavier Guérin.
Hadoop permet de traiter de façon massivement parallèle n'importe quel type de requêtes. Mais le défi est maintenant de le rendre utilisable par toutes les entreprises et pas simplement par celles capables de recruter des hyper-spécialistes du sujet.
Après deux années de développement, MapR a lancé son propre système de gestion de fichiers, MapR FS. Le nom de l’entreprise est bien sur un clin d’oeil à MapReduce, mais il n’y aurait aucun lien juridique ni de propriété intellectuelle entre les deux.
Hadoop est déjà en lui-même un système de fichiers, le fameux HDFS (Hadoop File System), mais c'est un système de fichiers en mode objet, et développé initialement en Java. MapR propose un système de fichiers de type NFS, développé en C.
“Le mode objet est très contraignant. Il fonctionne un peu comme le protocole HTTP, avec des appels d'objets. On ne peut pas lire directement un fichier, on doit le récupérer, le lire, éventuellement le modifier, puis le renvoyer vers son stockage”, explique Xavier Guérin, Vice-Président Europe du Sud et Benelux de MapR.
Hadoop duplique en standard chaque fichier trois fois, MapR respecte ce fonctionnement. Par ailleurs les fichiers sont segmentés et stockés sur plusieurs machines; c’est ce qui apporte l'efficacité dans l’accès aux données et donc ce qui fait la force de Hadoop.
L’objectif pour MapR est de proposer la technologie Hadoop au plus grand nombre d’entreprises et de permettre l’usage d’applications critiques sur cet environnement.
“Il s’agit d’un positionnement très différent des autres distributions Hadoop qui existent sur le marché”, explique Xavier Guérin. “Les autres sont positionnées sur le support, l'accompagnement, le conseil, ou une interface graphique plus agréable à utiliser que les commandes Hadoop“. MapR a développé sa propre technologie, tout en restant 100 % compatible avec les API de Hadoop.
"Nous reversons à la communauté tout le code que nous développons autour des différents langages. Nous nous engageons à maintenir nos API à 100% compatibles. Mais notre valeur ajoutée est le système de fichier MapR FS qui permet d'accéder aux données à travers NFS, ce qui simplifie la vie des entreprises”, précise Xavier Guérin.
L’objectif n’est pas, encore, de remplacer les bases de données traditionnelles SQL, mais en revanche d’atteindre les mêmes niveaux de services réclamés par les entreprises utilisatrices de solutions Teradata ou Oracle.
MapR propose des fonctionnalités dédiées aux entreprises comme
- un "snapshot" (une photographie instantanée de la base), qui permet par exemple de lancer un traitement pour comparer deux jeux de données;
- un "disaster recovery" (reprise après incident);
- une fonction de mise en miroir de la base sur deux grappes pour sécuriser l’infrastructure;
- des algorithmes de compression.
“L’espace de stockage est un gros problème dans l'environnement Hadoop, car l'espace brut doit être multiplié par trois - puisque chaque fichier est dupliqué trois fois. Il faut beaucoup d'espace dans les centres de données pour héberger une infrastructure Hadoop. MapR a intégré de la compression dans le système de fichiers, ce qui réduit le nombre de machines nécessaires pour une même base de données”, explique Xavier Guérin.
Le futur de MapR et de Hadoop est dans l’applicatif interactif
Hadoop est vu par beaucoup comme un outil de traitement par lots, plutôt que pour des applications interactives. “C'est le cas aujourd'hui mais cela va évoluer avec l'arrivée d'outils comme Impala, poussé par Cloudera, qui permet de faire du SQL interactif sur un système de fichiers Hadoop”, précise Xavier Guérin.
“On peut ainsi imaginer de l'intégration applicative dans Hadoop. On peut stocker et traiter dans MapR, ce qui n'est pas le cas des clients qui utilisent Hadoop en général. On pose des données dans Hadoop, on calcule et on récupère. Hadoop n'est pas utilisé pour le stockage de données applicatives”.
MapR travaillerait actuellement avec un client qui dispose d’un Petaoctet de données stockées sur Microsoft SQL Server. La gestion des entrées/sorties pose un problème. Le client réfléchit donc à transférer son stockage principal de données vers un système Hadoop, puis à réintégrer les résultats des calculs dans des bases de données SQL, directement interrogées par les outils de restitution. Les cubes de données seraient donc créés par une tâche Hadoop et non plus par une tâche SQL Server.
On pourrait à terme, confier à des systèmes Hadoop des applications transactionnelles, à haute disponibilité. “Ce n'est pas pour 2014, mais cela peut être un objectif. MapR apporte déjà des améliorations importantes de performance, et permet ainsi justement plus d'interactivité”, souligne Xavier Guérin.
“On peut ainsi imaginer de l'intégration applicative dans Hadoop. On peut stocker et traiter dans MapR, ce qui n'est pas le cas des clients qui utilisent Hadoop en général. On pose des données dans Hadoop, on calcule et on récupère. Hadoop n'est pas utilisé pour le stockage de données applicatives”.
MapR travaillerait actuellement avec un client qui dispose d’un Petaoctet de données stockées sur Microsoft SQL Server. La gestion des entrées/sorties pose un problème. Le client réfléchit donc à transférer son stockage principal de données vers un système Hadoop, puis à réintégrer les résultats des calculs dans des bases de données SQL, directement interrogées par les outils de restitution. Les cubes de données seraient donc créés par une tâche Hadoop et non plus par une tâche SQL Server.
On pourrait à terme, confier à des systèmes Hadoop des applications transactionnelles, à haute disponibilité. “Ce n'est pas pour 2014, mais cela peut être un objectif. MapR apporte déjà des améliorations importantes de performance, et permet ainsi justement plus d'interactivité”, souligne Xavier Guérin.
Et l’Europe du Sud dans tout cela
Selon Xavier Guérin, les Etats-Unis ont 18 à 24 mois d'avance. Mais il constate en Europe du Sud, une réflexion de la plupart des grands groupes dont en priorité les compagnies d’assurances, les banques, les opérateurs de télécommunications, les grands sites web, la distribution. Finalement ce sont les clients traditionnels des outils décisionnels. Et ils continuent à expérimenter de nouvelles technologies pour améliorer leurs infrastructures.
En Europe du Sud, Xavier Guérin constate que le secteur financier est très sensible aux gains obtenus dans le domaine de la détection de fraude. Mais dans certains pays comme l’Espagne ou l’Italie, les arguments économiques qui permettent de faire plus de traitements avec une infrastructure existante, touchent la corde sensible des entreprises. Ainsi des clients traditionnels de Oracle Exadata ou de Teradata, peuvent étendre leurs usages au travers de la technologie MapR sans investir plus dans leurs entrepôts de données existants. MapR tente alors de convaincre qu’il cherche à compléter les investissements existants, et non les remplacer.
En Europe du Sud, l’analyse du parcours clients intéresse le monde de la distribution; en particulier l’analyse des liens entre le site web de l’entreprise et le trafic réel en magasin. Un premier client serait en production sur cette technologie en France depuis presque un an, mais refuse de communiquer à l’extérieur.
Pour Xavier Guérin, l’Europe du Sud est maintenant capable de participer à la croissance de l'entreprise au niveau mondial. Et les perspectives futures vers le temps réel et l’interactif semblent donner le sourire aux dirigeants de MapR.
En Europe du Sud, Xavier Guérin constate que le secteur financier est très sensible aux gains obtenus dans le domaine de la détection de fraude. Mais dans certains pays comme l’Espagne ou l’Italie, les arguments économiques qui permettent de faire plus de traitements avec une infrastructure existante, touchent la corde sensible des entreprises. Ainsi des clients traditionnels de Oracle Exadata ou de Teradata, peuvent étendre leurs usages au travers de la technologie MapR sans investir plus dans leurs entrepôts de données existants. MapR tente alors de convaincre qu’il cherche à compléter les investissements existants, et non les remplacer.
En Europe du Sud, l’analyse du parcours clients intéresse le monde de la distribution; en particulier l’analyse des liens entre le site web de l’entreprise et le trafic réel en magasin. Un premier client serait en production sur cette technologie en France depuis presque un an, mais refuse de communiquer à l’extérieur.
Pour Xavier Guérin, l’Europe du Sud est maintenant capable de participer à la croissance de l'entreprise au niveau mondial. Et les perspectives futures vers le temps réel et l’interactif semblent donner le sourire aux dirigeants de MapR.
Autres articles
-
Cloudera dévoile une nouvelle suite d'accélérateurs pour les projets de machine learning (AMP)
-
Les nouvelles fonctionnalités de ClearScape Analytics maximisent le retour sur investissement en matière d’IA/ML et renforcent la productivité de la data science
-
Teradata nomme Thomas Schröder au poste de vice-président, Europe
-
Cloudera renforce la gestion des métadonnées avec un catalogue de données modernisé et l’intégration d’Iceberg REST
-
Oracle et Palantir unissent leurs forces pour fournir des solutions d'IA stratégiques aux gouvernements et aux entreprises