O'Reilly a rédigé un livre complet, de 80 pages, en anglais, sur l'usage les principales techniques utilisées pour la préparation des données. Trifacta vous offre l'intégralité de ce livre en téléchargement.



Commençons par la question la plus importante : pourquoi devez-vous lire ce livre ? La réponse est simple : vous voulez tirer plus de valeur de vos données. Pour compléter cette assertion, notre objectif, en écrivant ce livre, est d’aider tous ceux qui analysent ou gèrent des données dans leur organisation. Ces données ne sont peut-être pas les « vôtres », au sens de leur propriété. Mais les difficultés à en extraire de la valeur, le sont bien.



Nous nous sommes focalisés sur deux types de lecteurs. Tout d’abord ceux qui analysent et gèrent des données de manière indirecte – les managers d’équipes ou directeurs de projets orientés données. Puis, ceux qui analysent et gèrent des données de manière directe – les analystes, ingénieurs, architectes, statisticiens, data scientists.



Si vous lisez ce livre, c’est que vous êtes intéressés à extraire de la valeur de vos données. Nous pouvons classer cette valeur en deux catégories, suivant un axe temporel : la valeur à court-terme et la valeur à long terme. A court terme, vous avez certainement une liste de questions, auxquelles vous souhaitez répondre à l’aide de vos données. Certaines de ces questions sont peut-être vagues ; par exemple, « est-ce que nous clients sont réellement en train de basculer leur mode d’interactions avec notre organisation vers leur téléphone mobile ? ». Certaines questions peuvent être plus précises : « Quand est-ce que notre principal canal de contact avec nos clients deviendra le téléphone mobile, au lieu de leur ordinateur de bureau ou ordinateur portable ? »



Qu’est-ce qui vous freine dans l’obtention de ces réponses ? Le plus souvent, nous entendons « le temps ». Vous connaissez les questions, vous savez comment y répondre, mais vous n’avez tout simplement pas assez d’heures dans la journée pour organiser vos données de la manière adéquate pour y répondre…



Table des matières du livre



1. Introduction

Magic Thresholds, PYMK, and User Growth at Facebook



2. A Data Work ow Framework

How Data Flows During and Across Projects

Connecting Analytic Actions to Data Movement: A Holistic Workflow Framework for Data Projects

Raw Data Stage Actions: Ingest Data and Create Metadata

Ingesting Known and Unknown Data

Creating Metadata

Refined Data Stage Actions: Create Canonical Data and Conduct Ad Hoc Analyses

Designing Refined Data

Refined Stage Analytical Actions

Production Data Stage Actions: Create Production Data and Build Automated Systems

Creating Optimized Data

Designing Regular Reports and Automated Products/Services

Data Wrangling within the Workflow Framework



3. The Dynamics of Data Wrangling

Data Wrangling Dynamics

Additional Aspects: Subsetting and Sampling

Core Transformation and Profiling Actions

Data Wrangling in the Workflow Framework

Ingesting Data

Describing Data

Assessing Data Utility

Designing and Building Refined Data

Ad Hoc Reporting

Exploratory Modeling and Forecasting

Building an Optimized Dataset

Regular Reporting and Building Data-Driven Products and Services



4. Profiling

Overview of Profiling

Individual Value Profiling: Syntactic Profiling

Individual Value Profiling: Semantic Profiling

Set-Based Profiling

Profiling Individual Values in the Candidate Master File

Syntactic Profiling in the Candidate Master File

Set-Based Profiling in the Candidate Master File



5. Transformation: Structuring

Overview of Structuring

Intrarecord Structuring: Extracting Values

Positional Extraction

Pattern Extraction

Complex Structure Extraction

Intrarecord Structuring: Combining Multiple Record Fields

Interrecord Structuring: Filtering Records and Fields

Interrecord Structuring: Aggregations and Pivots

Simple Aggregations

Column-to-Row Pivots

Row-to-Column Pivots



6. Transformation: Enriching

Unions

Joins

Inserting Metadata

Derivation of Values

Generic

Proprietary



7. Using Transformation to Clean Data

Addressing Missing/NULL Values

Addressing Invalid Values



8. Roles and Responsibilities

Skills and Responsibilities

Data Engineer

Data Architect

Data Scientist

Analyst

Roles Across the Data Workflow Framework

Organizational Best Practices



9. Data Wrangling Tools

Data Size and Infrastructure

Data Structures: Excel, SQL, Trifacta Wrangler

Transformation Paradigms : Excel, SQL, Trifacta Wrangler

Choosing a Data Wrangling Tool



