Informatica lance la première solution de parsing pour Hadoop

Informatica Corporation (NASDAQ: INFA), le leader mondial des fournisseurs indépendants de solutions d’intégration de données, a annoncé la disponibilité immédiate d’Informatica HParser, première solution de parsing et de transformation de données pour les environnements Hadoop. Informatica HParser fonctionne dans tous les types de distribution Apache Hadoop et exploite le parallélisme du framework MapReduce pour transformer efficacement les données complexes non-structurées (web logs, données des médias sociaux, enregistrements d’appels et autres formats de données) en format structuré ou semi-structuré dans Hadoop. Une fois dans un format plus structuré, les données peuvent être plus rapidement validées etexploitées à des fins d’analyse et d’amélioration des activitésopérationnelles.

Disponible en version gratuite (free community edition) et en versions payantes (commercial editions), Informatica HParser apporte aux entreprises la solution qui leur manquait pour tirer de la valeur des données non-structurées complexes. Ses puissantes fonctionnalités de parsing de données dans Hadoop permettent d’atteindre des niveaux de productivité et d’efficacité ainsi qu’une capacité de montée en charge sans précédent. Les entreprises peuvent sur le champ valoriser leurs investissements informatiques existants en faisant d’Informatica HParser leur outil de parsing de données de référence dans Hadoop. Ainsi, elles bénéficient d’une solution qui couvre une gamme de formats de données très étendue et qui simplifie etaccélère considérablement le processus d’analyse, tout en éliminant les risques et les coûts associés au codage manuel de scripts de parsing spécifiques.

Les principaux bénéfices d’Informatica HParser

HParser apporte les bénéfices suivants :

Développement visuel et rapide – Grâce à son environnement visuel intégré pour créer et maintenir les transformations, HParser accélère les développements et augmente la productivité des développeurs. La solution permet également de ramener les relations et les hiérarchies profondes à des formats « aplatis » plus faciles à manier, tout en ayant la possibilité de valider les règles métiers.
Moteur unique couvrant un large éventail de formats de données – Les briques (ou librairies) de transformation prêtes à l’emploi de HParser couvrent une large gamme de formats de données généraux et sectoriels, notamment : XML et JSON; SWIFT, X12, NACHA pour le secteurfinancier ; HL7 et HIPAA pour le secteur de la santé ; ASN.1 pour les télécoms ; et formats des fournisseurs de données de marché (market data).
Prise en charge des logs générés par les systèmes/appareils – HParser simplifie le parsing des contenus complexes générés par des systèmes, notamment les fichiers logs propriétaires tels que les logs Apache et Omniture.
Exploitation du parallélisme dans MapReduce – HParser optimise la performance du parsing des gros fichiers de données complexes en fonctionnant de manière native dans MapReduce et en exploitant pleinement ses capacités de traitements parallèles.
Utilisation des meilleures pratiques dans les projets à grande échelle – Avec HParser, les développeurs peuvent créer une couche d’abstraction entre la logique d’une application dans MapReduce et les sources de données. Il est ainsi facile d’étendre les projets en appliquant à de multiples sources de données la logique applicative écrite une seule fois. En utilisant le même environnement de développement intégré, les artéfacts peuvent être étendus au reste de l’entreprise, au-delà des projets Hadoop.

« D’ici 2014, les organisations qui auront déployé des applications analytiques pour prendre en charge de nouveaux types de données complexes et de grands volumes de données dépasseront leurs homologues et concurrents de plus de 20% sur pratiquement tous les indicateurs de performance comptable reconnus », estime Merv Adrian, Research Vice President chez Gartner. « La capacité à transformer des données diverses, non-structurées ou multi-structurées avec des hiérarchies profondes, dans un format pouvantêtre facilement analysé et traité est la base indispensable pour développer une infrastructure d’information cohérente et extensible de façon logique pour s’attaquer aux grands volumes de données, notamment dans Hadoop. Il est vital pour toute entreprise centrée sur les données de rechercher des moyens permettant de normaliser tous les types de contenus utilisant des standardscomme XML et JSON pour en extraire du sens et les partager dans toute l’entreprise. »

« Le marché est très demandeur de solutions permettant de transformer le potentiel des données Big Data en valeur », souligne Tom Kersnick, Directeur du centre d’excellence Big Data de la division Data Warehousing, Business Intelligence & Performance Management de Cognizant. « C’est ce qui nous a conduits à créer le centre d’excellence Big Data, dont Hadoop est un levier stratégique de croissance. Dans le cadre denotre engagement avec Informatica, nous avons testé une série de scénarios d’utilisation où HParser a démontré sa capacité à aplatir des fichiers hiérarchiques complexes et à paralléliser les traitements à partir d’une interface graphique facile à utiliser. Au moment où nous étendons notre offre ‘Big Data’, cette approche efficace et évolutive du parsing de données dans Hadoop est cruciale pour construire les compétences nécessaires et accroître notrecapacité à servir un nombre de clients qui augmente rapidement. »

« Informatica HParser, dernier-né de la famille Informatica B2B Data Exchange et de la plate-forme Informatica, répond à la demande croissante des entreprises qui veulent tirer de la valeur de grands volumes de données non-structurées complexes », déclare Juan Carlos Soto, Senior Vice President & General Manager, B2B Data Exchange & Cloud Data Integration, chez Informatica. « HParser allie les dernières innovations d’Informatica optimisées pour Hadoop et notre expérience inégalée en matière de parsing de données non-structurées et de traitement des formats sectoriels spécifiques. Informatica HParser est une étape majeure de notre feuille de route visant à aider les entreprises à exploiter les Big Data. Et c’est encore une nouvelle solution Informatica conçue pour maximiser ce que nous appelons le ‘retour sur données’ de nos clients. »

Disponibilités et éditions

Informatica HParser est disponible immédiatement en trois éditions :

HParser for Logs, Omniture, XML and JSON (Community Edition) – Disponible gratuitement, avec une option payante incluant le support Informatica et des fonctionnalités supplémentaires.
HParser for Industry Standards and Documents (Commercial Editions)
Une période d’essai gratuite de 30 jours est proposée pour les deux éditions payantes d’Informatica HParser.

Autres articles

Informatica lance la première solution de parsing pour Hadoop

Informatica HParser apporte à Hadoop des fonctionnalités avancées de parsing et de transformation des grands volumes de données de tous formats

Et si la gouvernance des données devenait un moteur de croissance ?

L’enjeu n’est plus de déployer des modèles ou des agents d’IA, mais de leur fournir un contexte fiable, maintenable et industrialisable

La gouvernance des données à l'ère des agents IA : mission impossible ?

Passeport numérique des produits : transformer une obligation en levier de compétitivité

ROI de l’IA : la qualité des données comme facteur décisif

SAP rachète Reltio : un pari stratégique pour muscler son IA d'entreprise - 01/04/2026

Yamaha Motor accélère son innovation grâce à la solution de Master Data Management basée sur l'IA d'Informatica, synonyme de fiabilité des données et d'informations pertinentes - 23/09/2025

Informatica nomme Laurent Carrière à la tête de la région EMEA South - 09/09/2025

Fivetran acquiert Tobiko Data et ouvre la voie à une nouvelle génération de transformation de données avancée, conçue pour l’IA - 03/09/2025

Fivetran officialise son partenariat avec S3NS - 25/08/2025