Big Data, Science des données, aide à la décision en entreprise, business intelligence, data warehouse, reporting, OLAP, web analytics, data visualization, data mining, internet des objets, informatique cognitive, intelligence artificielle...

Abonnez-vous gratuitement à Decideo !


Decideo

 


Lancement de la version 9 de Sinequa ES


Rédigé par Communiqué de Sinequa le 25 Juin 2014

L'intégration avec Hadoop et Mahout, un « cache intelligent », des marqueurs sémantiques, et « l'hyper-indexation », permettent une haute performance « élastique », plus de pertinence et plus de simplicité dans l'utilisation de la solution de Search et d'analyse du Big Data de Sinequa.



Sinequa, un des leaders sur le marché des logiciels de Search et d'analyse du Big Data en temps réel, a annoncé aujourd'hui une évolution majeure de sa solution avec la sortie de la version 9 de Sinequa ES.

Sinequa ES V9 regorge de nouvelles fonctionnalités dont la plus importante est l'intégration avec Hadoop. De nombreuses autres améliorations, dont beaucoup découlent des projets les plus innovants réalisés chez les clients, viennent compléter cette nouvelle version. L'équipe de R&D de Sinequa a encore enrichi l'éventail de connecteurs aux sources de données, portant ainsi leur nombre à 140 (avec l'ajout entre autres de PTC Windchill, Mongo DB, Scality, Office 365, box...), et a approfondi l'analyse linguistique proposée dans 19 langues, en particulier dans le traitement des langues asiatiques comme le chinois, le japonais et le coréen. Cette version 9 comprend également une nouvelle fonction de géolocalisation permettant de lier des personnes ou des produits à des lieux et de classer les résultats d'une recherche par distance géographique. La nouvelle version prend également en charge Amazon Web Services (AWS) pour permettre aux utilisateurs de profiter de l'architecture élastique d'un grid Sinequa hébergé sur le Cloud d'Amazon, et de certains autres services spécifiques à AWS. Cette élasticité de Sinequa sur AWS, permet aux utilisateurs d'ajuster leurs ressources informatiques à leurs besoins au cours du temps, aussi bien au moment de l'indexation massive d'une nouvelle source que lors de l'ajout d'un grand nombre d'utilisateurs.

" La sortie de Sinequa ES Version 9, et en particulier l'intégration Hadoop/Maout, est une avancée majeure pour Sinequa qui renforce sa position dans l'écosystème Big Data en rendant possible la classification automatique, le clustering, les recommandations automatiques et l'analyse prédictive " explique Alexandre Bilger, Président de Sinequa. " En revanche, ce travail ne remet en rien en cause l'aspect « temps réel » de notre solution qui est une caractéristique importante pour nos clients " précise-t-il. "Dans la nouvelle version nous avons enrichi notre index et même créé ce que l'on pourrait appeler un « hyper index » en indexant notre index afin de fournir une information encore plus concentrée, en temps réel, tout en simplifiant l'interface utilisateur et celle de l'administrateur. "

Hadoop

Sinequa ES V9 intègre Hadoop à trois niveaux :

Un nouveau connecteur permet d'accéder aux données contenues dans Hadoop File Systems HDFS.

L'intégration avec Hadoop est bidirectionnelle : Sinequa ES V9 peut indexer de la donnée contenue dans Hadoop et réciproquement l'index Sinequa peut être accédé par Hadoop pour y faire les traitements caractéristiques d'Hadoop tels que des calculs de ranking de pertinence et de recommandations, et de l'analyse prédictive. De plus, Sinequa ES V9 peut s'appuyer sur Hadoop pour réaliser des indexations linguistiquement très poussées, ou procéder à de la recomposition d'index basée sur des algorithmes avancés mais gourmands en termes de CPU, en utilisant les bases de connaissances d'une entreprise ou d'un métier (dictionnaires, ontologies, taxonomies, annuaires).

Enfin, Hadoop Mahout (« machine learning ») rend possible la classification automatique, les recommandations et l'analyse prédictive. Ainsi, si l'on soumet un large corpus de documents déjà classés à Sinequa/Mahout, le système est capable d'en déduire les règles implicites et de classifier automatiquement de nouveaux documents. Si la classification d'un document n'est pas satisfaisante, l'utilisateur peut alors la corriger et le système affine sa méthodologie à chaque itération. Cette méthode de classification basée sur du « machine learning » est très puissante quand on dispose d'un grand volume de documents déjà triés pour lesquels les utilisateurs ont du mal à expliciter les règles de classement. Cette difficulté à définir des règles de classement peut venir de la différence de point de vue sur les documents par différents métiers. La classification existante sert alors de méthode de classification « de facto ».

Performance :

La performance a été optimisée à plusieurs niveaux dans la nouvelle version, en partie suite aux projets particulièrement innovants menés chez certains clients où ces optimisations se sont avérées extrêmement efficaces et précieuses.

On notera par exemple le « cache intelligent » et l' « hyper indexation ». Ces mécanismes permettent de surmonter deux challenges importants du traitement en temps réel :

Cache Intelligent :
Certaines sources de données n'ont pas été conçues pour un accès rapide en temps réel et à grande échelle. Sinequa ES V9 introduit un « cache intelligent » pour ce type de sources combinant ainsi les avantages du Search et du stockage élastique. La ré-indexation des données selon un nouvel axe d'analyse n'est plus freinée par le temps de réponse des sources de données lentes et permet un accès en continue à l'information. Une règle peut être instaurée afin d'extraire et de rafraichir la donnée directement dans le cache.

Hyper-indexation :
Pour les « knowledge workers » (« travailleurs de la connaissance ») comme les scientifiques dans l'industrie pharmaceutique, extraire l'information pertinente exige une connaissance des synonymes et des sujets liés dans des domaines aussi variés que les maladies, les gènes, les médicaments, les molécules, les effets secondaires, etc. Une approche « force brute », lançant tout simplement autant de requêtes qu'il y a de synonymes et de sujets liés, ne permet pas d'obtenir des temps de réponse requis. C'est pourquoi Sinequa a construit un " index sémantiquement riche" qui utilise les bases d'information de l'entreprise et de son secteur d'activité pour agréger l'information sur les synonymes et concepts liées au sein même de l'index.

De plus, créer un « hyper index » en indexant l'index d'origine permet d'extraire l'empreinte de connaissances complète d'une personne à partir d'un vaste ensemble de documents. Cette empreinte contient par exemple l'ensemble de ses domaines d'expertise et des sujets sur lesquels elle a travaillé à travers le temps. En d'autres termes, il s'agit d'un « joint sémantique » entre des personnes et des sujets qui apparaissent ensemble dans des documents. Les documents eux-mêmes ne font plus partie de l'hyper index, le rendant très dense en information et extrêmement rapide à interroger. Ainsi, une simple requête sur un sujet donné renverra en temps réel l'ensemble des informations pertinentes sur les sujets sémantiquement liés et sur les meilleurs experts en la matière, et ce en approximativement une seconde même face à du Big Data.

Une compagnie pharmaceutique comme AstraZeneca peut ainsi obtenir instantanément une vue de la meilleure équipe d'experts disponibles sur un sujet de recherche et tous les sujets liés. Elle peut ajuster la pertinence des résultats en changeant le poids attribué à l'un des sujets liés (comme les gènes, les maladies, les médicaments, les tests cliniques etc.) en déplaçant un curseur et voir la "dream team" changer en temps réel sur l'écran d'un utilisateur.




Nouveau commentaire :
Facebook Twitter

Vous pouvez commenter ou apporter un complément d’information à tous les articles de ce site. Les commentaires sont libres et ouverts à tous. Néanmoins, nous nous réservons le droit de supprimer, sans explication ni préavis, tout commentaire qui ne serait pas conforme à nos règles internes de fonctionnement, c'est-à-dire tout commentaire diffamatoire ou sans rapport avec le sujet de l’article. Par ailleurs, les commentaires anonymes sont systématiquement supprimés s’ils sont trop négatifs ou trop positifs. Ayez des opinions, partagez les avec les autres, mais assumez les ! Merci d’avance. Merci de noter également que les commentaires ne sont pas automatiquement envoyés aux rédacteurs de chaque article. Si vous souhaitez poser une question au rédacteur d'un article, contactez-le directement, n'utilisez pas les commentaires.