• analyse-de-donnes-cestad
  • analytics_tools_original
  • data-minig1
  • data-minig2
  • Data-Mining-1030
  • Big-data-azzurro
  • marketing-statistics
Enquêtes
Collete des données
Traitement des données
Analyse des données
 
Programmation
Programmation statistique
Developpement des macros
Modélisation et plus encore
 
Data Mining
Exploration des données
Modélisation prédictive
Big Data
 
Formations certifiantes
Formations à la carte
Semilaires et conférences

 

 

1 Chapitre 1: Manipulation des données à l'aide de données R intégrées 
Qu'est-ce que l'exploration de données? 
En quoi est-ce lié à la science des données, à l'analyse et à la modélisation statistique?

Introduction au langage de programmation R 
Premiers pas avec R 
Types de données, vecteurs, tableaux et matrices 12
Gestion de la liste, facteurs et séquences 15
Importation et exportation de types de données 16
Conversion de type de données 18
Tri et fusion de données 19
Indexation ou sous-ensemble de données 24
Formatage de la date et de l'heure 25
Créer de nouvelles fonctions 26
Fonctions définies par l'utilisateur 27
Fonctions intégrées 27
Concepts de boucle - la boucle for 28
Concepts de boucle - la boucle de répétition 28
Concepts de boucle - pendant que les conditions 29
Appliquer les concepts 29
Manipulation de chaînes 31
NA et gestion des valeurs manquantes 32
Techniques d'imputation des valeurs manquantes 32
Résumé 33


Chapitre 2: Analyse exploratoire des données avec les données automobiles 34
Analyse de données univariée 35
Analyse bivariée 41
Analyse multivariée 43
Comprendre les distributions et la transformation 44
Distribution de probabilité normale 44
Distribution de probabilité binomiale 45
Distribution de probabilité de Poisson 46
Interprétation des distributions 47
Interpréter des données continues 47
Binning variable ou discrétisation des données continues 50 Tableaux de contingence, statistiques bivariées et vérification des données

normalité 50
Test d'hypothèse 56
Test de la population moyenne 56
Un test de queue de moyenne avec variance connue 56
Une queue et deux queue test de proportions 58
Deux échantillons test de variance 61
Méthodes non paramétriques 64
Wilcoxon test de rang signé 64
Test de Mann-Whitney-Wilcoxon 65
Kruskal-Wallis test 65
Résumé 66


Chapitre 3: Visualisation du jeu de données Diamond 67
Visualisation des données à l'aide de ggplot2 71
Diagramme à barres 83
Boxplot 84
Diagramme à bulles 85
Tableau des beignets 86
Géo-cartographie 87
Histogramme 88
Graphique linéaire 90
Diagramme à secteurs 90
Scatterplot 92
Graphique à barres empilées 97
Tronc de la tige et des feuilles 98
Nuage de mot 99
Coxcomb intrigue 99
Utilisation de l'intrigue 101
Bubble plot 102
Diagrammes à barres utilisant l'intrigue 103
Scatterplot utilisant l'intrigue 103
Boxplots en utilisant intrigue 104
Cartes polaires utilisant l'intrigue 107
Diagramme de dispersion polaire utilisant l'intrigue 107
Carte polaire de secteur 108
Création de géo-cartographie 109
Résumé 110


Chapitre 4: Régression avec les données automobiles 111
Introduction à la régression
112

Formulation du problème de régression
112

Étude de cas
113

Régression linéaire
113

Méthode de régression pas à pas pour la sélection de variables
127

Régression logistique
129

Régression cubique
136

Régression pénalisée
137

Résumé
141

 

Chapitre 5: Analyse du panier de consommation avec les données d'épicerie
142

Introduction à l'analyse du panier de consommation
143

Qu'est-ce que MBA?
143

Où appliquer MBA?
145

Exigence de données
145

Hypothèses / conditions préalables
147

Techniques de modélisation
147

Limites
147

Projet pratique
148

Algorithme d'Apriori
152

Algorithme Eclat
156

Visualisation des règles d'association
158

Implémentation d'arules
159

Résumé
161

 

Chapitre 6: Clustering avec des données de commerce électronique
162

Comprendre la segmentation des clients
163

Pourquoi comprendre la segmentation des clients est important
163

Comment effectuer la segmentation des clients?
163

Diverses méthodes de clustering disponibles
164

K-means clustering
166

Classification hiérarchique
173

Clustering basé sur un modèle
179

Autres algorithmes de cluster
180

Comparaison des méthodes de clustering
184

Les références
184

Résumé
184

Chapitre 7: Création d'un moteur de recommandation de détail
185

Qu'est-ce que la recommandation?
Types de recommandation de produit
186
186

Techniques pour exécuter la recommandation 187
Hypothèses 189
Quelle méthode appliquer quand 189
Limites du filtrage collaboratif 191
Projet pratique 192
Résumé 201
Chapitre 8: Réduction de la dimensionnalité 202
Pourquoi réduire la dimensionnalité? 203
Techniques disponibles pour la réduction de la dimensionnalité 204
Quelle technique appliquer où? 204
Analyse en composantes principales 205
Projet pratique autour de la réduction de la dimensionnalité 206
Description de l'attribut 207
Approche paramétrique de la réduction de dimension 219
Références 220
Résumé 220
Chapitre 9: Application du réseau de neurones aux données de santé 221
Introduction aux réseaux de neurones 222
Comprendre les mathématiques derrière le réseau de neurones 224
Implémentation du réseau neuronal dans R 225
Réseaux de neurones pour la prédiction 229
Réseaux de neurones pour la classification 233
Réseaux de neurones pour la prévision 235
Mérites et démérites des réseaux de neurones 237
Références 238
Résumé 238
Index 239