1 Chapitre 1: Manipulation des données à l'aide de données R intégrées
Qu'est-ce que l'exploration de données?
En quoi est-ce lié à la science des données, à l'analyse et à la modélisation statistique?
Introduction au langage de programmation R
Premiers pas avec R
Types de données, vecteurs, tableaux et matrices 12
Gestion de la liste, facteurs et séquences 15
Importation et exportation de types de données 16
Conversion de type de données 18
Tri et fusion de données 19
Indexation ou sous-ensemble de données 24
Formatage de la date et de l'heure 25
Créer de nouvelles fonctions 26
Fonctions définies par l'utilisateur 27
Fonctions intégrées 27
Concepts de boucle - la boucle for 28
Concepts de boucle - la boucle de répétition 28
Concepts de boucle - pendant que les conditions 29
Appliquer les concepts 29
Manipulation de chaînes 31
NA et gestion des valeurs manquantes 32
Techniques d'imputation des valeurs manquantes 32
Résumé 33
Chapitre 2: Analyse exploratoire des données avec les données automobiles 34
Analyse de données univariée 35
Analyse bivariée 41
Analyse multivariée 43
Comprendre les distributions et la transformation 44
Distribution de probabilité normale 44
Distribution de probabilité binomiale 45
Distribution de probabilité de Poisson 46
Interprétation des distributions 47
Interpréter des données continues 47
Binning variable ou discrétisation des données continues 50 Tableaux de contingence, statistiques bivariées et vérification des données
normalité 50
Test d'hypothèse 56
Test de la population moyenne 56
Un test de queue de moyenne avec variance connue 56
Une queue et deux queue test de proportions 58
Deux échantillons test de variance 61
Méthodes non paramétriques 64
Wilcoxon test de rang signé 64
Test de Mann-Whitney-Wilcoxon 65
Kruskal-Wallis test 65
Résumé 66
Chapitre 3: Visualisation du jeu de données Diamond 67
Visualisation des données à l'aide de ggplot2 71
Diagramme à barres 83
Boxplot 84
Diagramme à bulles 85
Tableau des beignets 86
Géo-cartographie 87
Histogramme 88
Graphique linéaire 90
Diagramme à secteurs 90
Scatterplot 92
Graphique à barres empilées 97
Tronc de la tige et des feuilles 98
Nuage de mot 99
Coxcomb intrigue 99
Utilisation de l'intrigue 101
Bubble plot 102
Diagrammes à barres utilisant l'intrigue 103
Scatterplot utilisant l'intrigue 103
Boxplots en utilisant intrigue 104
Cartes polaires utilisant l'intrigue 107
Diagramme de dispersion polaire utilisant l'intrigue 107
Carte polaire de secteur 108
Création de géo-cartographie 109
Résumé 110
Chapitre 4: Régression avec les données automobiles 111
Introduction à la régression
112
Formulation du problème de régression
112
Étude de cas
113
Régression linéaire
113
Méthode de régression pas à pas pour la sélection de variables
127
Régression logistique
129
Régression cubique
136
Régression pénalisée
137
Résumé
141
Chapitre 5: Analyse du panier de consommation avec les données d'épicerie
142
Introduction à l'analyse du panier de consommation
143
Qu'est-ce que MBA?
143
Où appliquer MBA?
145
Exigence de données
145
Hypothèses / conditions préalables
147
Techniques de modélisation
147
Limites
147
Projet pratique
148
Algorithme d'Apriori
152
Algorithme Eclat
156
Visualisation des règles d'association
158
Implémentation d'arules
159
Résumé
161
Chapitre 6: Clustering avec des données de commerce électronique
162
Comprendre la segmentation des clients
163
Pourquoi comprendre la segmentation des clients est important
163
Comment effectuer la segmentation des clients?
163
Diverses méthodes de clustering disponibles
164
K-means clustering
166
Classification hiérarchique
173
Clustering basé sur un modèle
179
Autres algorithmes de cluster
180
Comparaison des méthodes de clustering
184
Les références
184
Résumé
184
Chapitre 7: Création d'un moteur de recommandation de détail
185
Qu'est-ce que la recommandation?
Types de recommandation de produit
186
186
Techniques pour exécuter la recommandation 187
Hypothèses 189
Quelle méthode appliquer quand 189
Limites du filtrage collaboratif 191
Projet pratique 192
Résumé 201
Chapitre 8: Réduction de la dimensionnalité 202
Pourquoi réduire la dimensionnalité? 203
Techniques disponibles pour la réduction de la dimensionnalité 204
Quelle technique appliquer où? 204
Analyse en composantes principales 205
Projet pratique autour de la réduction de la dimensionnalité 206
Description de l'attribut 207
Approche paramétrique de la réduction de dimension 219
Références 220
Résumé 220
Chapitre 9: Application du réseau de neurones aux données de santé 221
Introduction aux réseaux de neurones 222
Comprendre les mathématiques derrière le réseau de neurones 224
Implémentation du réseau neuronal dans R 225
Réseaux de neurones pour la prédiction 229
Réseaux de neurones pour la classification 233
Réseaux de neurones pour la prévision 235
Mérites et démérites des réseaux de neurones 237
Références 238
Résumé 238
Index 239