Comme détaillé dans l'introduction, R est un langage de programmation open source extrêmement polyvalent pour la statistique et la science des données. Il est largement utilisé dans tous les domaines où il existe des données - entreprises, industrie, gouvernement, médecine, universités, etc.
Dans ce chapitre, vous allez découvrir R-comment l'invoquer, ce qu'il peut faire et quels fichiers il utilise. Nous couvrirons juste assez pour vous donner les bases dont vous avez besoin pour travailler à travers les exemples dans les prochains chapitres, où les détails seront présentés.
R peut déjà être installé sur votre système, si votre employeur ou université l'a mis à la disposition des utilisateurs. Sinon, voir l'annexe A.
pour les instructions d'installation.
Faisons un ensemble de données simple en langage R (un vecteur) composé des nombres 1, 2 et 4, et nommez-le x:
Comme dans les autres langages, le sélecteur (ici, 3) est appelé index ou sous-script. Ceux qui sont familiers avec les langages de la famille ALGOL, tels que C et C ++, devraient noter que les éléments des vecteurs R sont indexés à partir de 1, et non de 0. La sous-segmentation est une opération très importante sur les vecteurs. Voici un exemple:
Les commentaires sont particulièrement utiles pour la documentation du code de programme, mais ils sont également utiles dans les sessions interactives, puisque R enregistre l'historique des commandes (comme indiqué dans la section 1.6). Si vous enregistrez votre session et la reprenez plus tard, les commentaires peuvent vous aider à vous souvenir de ce que vous faisiez.
Enfin, faisons quelque chose avec l'un des ensembles de données internes de R (ceux-ci sont utilisés pour les démos). Vous pouvez obtenir une liste de ces ensembles de données en tapant ce qui suit:
R fonctionne en deux modes: interactif et batch. Celui généralement utilisé est le mode interactif. Dans ce mode, vous tapez des commandes, R affiche les résultats, vous tapez plus de commandes, etc. D'un autre côté, le mode batch ne nécessite pas d'interaction avec l'utilisateur. C'est utile pour les tâches de production, par exemple lorsqu'un programme doit être exécuté périodiquement, disons une fois par jour, car vous pouvez automatiser le processus.
1.1 Mode interactif
Sur un système Linux ou Mac, démarrez une session R en tapant R sur la ligne de commande dans une fenêtre de terminal. Sur un ordinateur Windows, démarrez R en cliquant sur l'icône R.
Le résultat est un message d'accueil et l'invite R, qui est le signe>. L'écran ressemblera à ceci:
Vous pouvez ensuite exécuter des commandes R. La fenêtre dans laquelle tout cela apparaît s'appelle la console R.
En guise d'exemple rapide, considérons une distribution normale standard, c'est-à-dire avec la moyenne 0 et la variance 1. Si une variable aléatoire X a cette distribution, alors ses valeurs sont centrées sur 0, certaines négatives, d'autres positives, moyennées à la fin à 0. Maintenant, formez une nouvelle variable aléatoire Y = | X |. Puisque nous avons pris la valeur absolue, les valeurs de Y ne seront pas centrées autour de 0, et la moyenne de Y sera positive.
Trouvons la moyenne de Y. Notre approche est basée sur un exemple simulé de N (0,1) variables.
Ce code génère les 100 variables aléatoires, trouve leurs valeurs absolues, puis trouve la moyenne des valeurs absolues.
Le [1] que vous voyez signifie que le premier élément de cette ligne de sortie est l'élément 1. Dans ce cas, notre sortie se compose d'une seule ligne (et d'un seul élément), donc c'est redundant. Cette notation devient utile lorsque vous avez besoin de lire une sortie volumineuse composée d'un grand nombre d'éléments répartis sur plusieurs lignes. Par exemple, s'il y avait deux rangées de sortie avec six éléments par rangée, la deuxième rangée serait étiquetée [7].
1.2 Mode de traitement par lots
Parfois, il est pratique d'automatiser les sessions R. Par exemple, vous pouvez exécuter un script R qui génère un graphique sans avoir à vous soucier de lancer manuellement R et d'exécuter le script vous-même. Ici vous exécuteriez R en mode batch.
Par exemple, mettons notre code de création de graphes dans un fichier nommé z.R avec le contenu suivant:
Les éléments marqués d'un # sont des commentaires. Ils sont ignorés par l'interprète R. Les commentaires servent de notes pour nous rappeler, ainsi qu'à d'autres, ce que fait le code, dans un format lisible par l'homme.
Voici une analyse étape par étape de ce que nous faisons dans le code précédent:
• Nous appelons la fonction pdf () pour informer R que nous voulons que le graphique que nous créons soit enregistré dans le fichier PDF xh.pdf
• Nous appelons rnorm () (pour random normal) pour générer 100 N (0,1) variables aléatoires.
• Nous appelons hist () sur ces variables pour dessiner un histogramme de ces valeurs.
• Nous appelons dev.off () pour fermer le "périphérique" graphique que nous utilisons, qui est le fichier xh.pdf dans ce cas. C'est le mécanisme qui provoque l'écriture du fichier sur le disque.
Nous pourrions exécuter ce code automatiquement, sans entrer dans le mode interactif de R, en invoquant R avec une commande shell du système d'exploitation (comme à l'invite $ couramment utilisée dans les systèmes Linux):