Big Data, Science des données, aide à la décision en entreprise, business intelligence, data warehouse, reporting, OLAP, web analytics, data visualization, data mining, internet des objets, informatique cognitive, intelligence artificielle...

Abonnez-vous gratuitement à Decideo !


Decideo

 


[Promotion] Recevez le livre O'Reilly - Trifacta : Les principes du Data Wrangling


Rédigé par le 14 Août 2017

Découvrez dans ce livre gratuit de 80 pages, les principales techniques de préparation des données



O'Reilly a rédigé un livre complet, de 80 pages, en anglais, sur l'usage les principales techniques utilisées pour la préparation des données. Trifacta vous offre l'intégralité de ce livre en téléchargement.

Commençons par la question la plus importante : pourquoi devez-vous lire ce livre ? La réponse est simple : vous voulez tirer plus de valeur de vos données. Pour compléter cette assertion, notre objectif, en écrivant ce livre, est d’aider tous ceux qui analysent ou gèrent des données dans leur organisation. Ces données ne sont peut-être pas les « vôtres », au sens de leur propriété. Mais les difficultés à en extraire de la valeur, le sont bien.

Nous nous sommes focalisés sur deux types de lecteurs. Tout d’abord ceux qui analysent et gèrent des données de manière indirecte – les managers d’équipes ou directeurs de projets orientés données. Puis, ceux qui analysent et gèrent des données de manière directe – les analystes, ingénieurs, architectes, statisticiens, data scientists.

Si vous lisez ce livre, c’est que vous êtes intéressés à extraire de la valeur de vos données. Nous pouvons classer cette valeur en deux catégories, suivant un axe temporel : la valeur à court-terme et la valeur à long terme. A court terme, vous avez certainement une liste de questions, auxquelles vous souhaitez répondre à l’aide de vos données. Certaines de ces questions sont peut-être vagues ; par exemple, « est-ce que nous clients sont réellement en train de basculer leur mode d’interactions avec notre organisation vers leur téléphone mobile ? ». Certaines questions peuvent être plus précises : « Quand est-ce que notre principal canal de contact avec nos clients deviendra le téléphone mobile, au lieu de leur ordinateur de bureau ou ordinateur portable ? »

Qu’est-ce qui vous freine dans l’obtention de ces réponses ? Le plus souvent, nous entendons « le temps ». Vous connaissez les questions, vous savez comment y répondre, mais vous n’avez tout simplement pas assez d’heures dans la journée pour organiser vos données de la manière adéquate pour y répondre…


Table des matières du livre

1. Introduction
Magic Thresholds, PYMK, and User Growth at Facebook

2. A Data Work ow Framework
How Data Flows During and Across Projects
Connecting Analytic Actions to Data Movement: A Holistic Workflow Framework for Data Projects
Raw Data Stage Actions: Ingest Data and Create Metadata
Ingesting Known and Unknown Data
Creating Metadata
Refined Data Stage Actions: Create Canonical Data and Conduct Ad Hoc Analyses
Designing Refined Data
Refined Stage Analytical Actions
Production Data Stage Actions: Create Production Data and Build Automated Systems
Creating Optimized Data
Designing Regular Reports and Automated Products/Services
Data Wrangling within the Workflow Framework

3. The Dynamics of Data Wrangling
Data Wrangling Dynamics
Additional Aspects: Subsetting and Sampling
Core Transformation and Profiling Actions
Data Wrangling in the Workflow Framework
Ingesting Data
Describing Data
Assessing Data Utility
Designing and Building Refined Data
Ad Hoc Reporting
Exploratory Modeling and Forecasting
Building an Optimized Dataset
Regular Reporting and Building Data-Driven Products and Services

4. Profiling
Overview of Profiling
Individual Value Profiling: Syntactic Profiling
Individual Value Profiling: Semantic Profiling
Set-Based Profiling
Profiling Individual Values in the Candidate Master File
Syntactic Profiling in the Candidate Master File
Set-Based Profiling in the Candidate Master File

5. Transformation: Structuring
Overview of Structuring
Intrarecord Structuring: Extracting Values
Positional Extraction
Pattern Extraction
Complex Structure Extraction
Intrarecord Structuring: Combining Multiple Record Fields
Interrecord Structuring: Filtering Records and Fields
Interrecord Structuring: Aggregations and Pivots
Simple Aggregations
Column-to-Row Pivots
Row-to-Column Pivots

6. Transformation: Enriching
Unions
Joins
Inserting Metadata
Derivation of Values
Generic
Proprietary

7. Using Transformation to Clean Data
Addressing Missing/NULL Values
Addressing Invalid Values

8. Roles and Responsibilities
Skills and Responsibilities
Data Engineer
Data Architect
Data Scientist
Analyst
Roles Across the Data Workflow Framework
Organizational Best Practices

9. Data Wrangling Tools
Data Size and Infrastructure
Data Structures: Excel, SQL, Trifacta Wrangler
Transformation Paradigms : Excel, SQL, Trifacta Wrangler
Choosing a Data Wrangling Tool

Pour lire la suite, téléchargez ce livre blanc en anglais, en remplissant correctement le formulaire ci-dessous.