Formation STATA

Structure de la programmation R

R est un langage structuré en bloc comme C, C ++, Python, Perl, etc. Comme vous l'avez fait déjà vu, les blocs sont délimités par des accolades, bien que les accolades sont facultatives si le bloc se compose d'une simple déclaration. Les déclarations sont séparées par des caractères de nouvelle ligne ou, éventuellement, par des points-virgules.
Dans cette partie, nous allons couvrir les structures de base de R en tant que langage de programmation. Nous allons passer en revue quelques détails supplémentaires sur les boucles, puis continuer tout droit dans le sujet des fonctions, qui occuperont la majeure partie de cette partie.
Comme pour beaucoup langages de script, vous ne "déclarez" pas les variables dans R.

Détails: Écrit par Elie Chancelin; Catégorie parente: Logiciel R; Catégorie : Structure de la programmation R

Les fonctions R sont des objets de première classe (de la classe "fonction", bien sûr), ce qui signifie qu'ils peuvent être utilisés pour la plupart comme d'autres objets. Cela se voit dans la syntaxe de la création de fonctions:

> g <- function(x) {
+ return(x+1)
+}

> g <- function(x) {
+ return(x+1)
+}

Ici, function () est une fonction R intégrée dont le travail est de créer des fonctions! Sur le côté droit, il y a vraiment deux arguments pour function (): La première est la liste des arguments formels pour la fonction que nous créons - ici, seulement x - et la seconde est le corps de cette fonction - ici, juste le retour d'état unique (x + 1). Ce second argument doit être de classe "expression". Donc, le fait est que le membre de droite crée un objet de fonction, qui est ensuite assigné à g.
Par ailleurs, même le "{" est une fonction, comme vous pouvez le vérifier en tapant ceci:

> ?"{"

> ?"{"

Son travail est de faire une seule unité de ce qui pourrait être plusieurs déclarations.
Ces deux arguments pour function () peuvent ensuite être accédés via les fonctions R formals () et body (), comme suit:

> formals(g)
$x
> body(g)
{
return(x + 1)
}

> formals(g)
$x
> body(g)
{
return(x + 1)
}

Rappelez-vous que lorsque vous utilisez R en mode interactif, il suffit de taper le nom d'un objet pour imprimer cet objet à l'écran. Les fonctions ne font pas exception, puisqu'elles sont des objets comme n'importe quoi d'autre.

>g
function(x) {
return(x+1)
}

>g
function(x) {
return(x+1)
}

C'est utile si vous utilisez une fonction que vous avez écrite mais dont vous avez oublié les détails. L'impression d'une fonction est également utile si vous n'êtes pas sûr de ce que fait une fonction de bibliothèque R. En regardant le code, vous pouvez le comprendre mieux. Par exemple, si vous n'êtes pas sûr du comportement exact de la fonction graphique abline (), vous pouvez parcourir son code pour mieux comprendre comment l'utiliser.

> abline
function (a = NULL, b = NULL, h = NULL, v = NULL, reg = NULL,
coef = NULL, untf = FALSE, ...)
{
...
...
int_abline <- function(a, b, h, v, untf, col = par("col"),
lty = par("lty"), lwd = par("lwd"), ...) .Internal(abline(a,
b, h, v, untf, col, lty, lwd, ...))
if (!is.null(reg)) {
if (!is.null(a))
}
warning("'a' is overridden by 'reg'")
a<-reg
if (is.object(a) || is.list(a)) {
p <- length(coefa <- as.vector(coef(a)))

> abline
function (a = NULL, b = NULL, h = NULL, v = NULL, reg = NULL,
coef = NULL, untf = FALSE, ...)
{
...
...
int_abline <- function(a, b, h, v, untf, col = par("col"),
lty = par("lty"), lwd = par("lwd"), ...) .Internal(abline(a,
b, h, v, untf, col, lty, lwd, ...))
if (!is.null(reg)) {
if (!is.null(a))
}
warning("'a' is overridden by 'reg'")
a<-reg
if (is.object(a) || is.list(a)) {
p <- length(coefa <- as.vector(coef(a)))

Si vous souhaitez afficher une longue fonction de cette manière, lancez-la à travers la page ():

> page(abline)

> page(abline)

Une alternative est de le modifier en utilisant la fonction edit (), dont nous parlerons dans la section 7.11.2.
Notez cependant que certaines des fonctions intégrées les plus fondamentales de R sont écrites directement dans C et ne sont donc pas visibles de cette manière. Voici un exemple:

> sum
function (..., na.rm = FALSE) .Primitive("sum")

> sum
function (..., na.rm = FALSE) .Primitive("sum")

Les fonctions étant des objets, vous pouvez également les assigner, les utiliser comme arguments pour d'autres fonctions, etc.

> f1 <- function(a,b) return(a+b)
> f2 <- function(a,b) return(a-b)
>f<-f1
> f(3,2)
[1] 5
>f<-f2
> f(3,2)
[1] 1
> g <- function(h,a,b) h(a,b)
> g(f1,3,2)
[1] 5
> g(f2,3,2)
[1] 1

> f1 <- function(a,b) return(a+b)
> f2 <- function(a,b) return(a-b)
>f<-f1
> f(3,2)
[1] 5
>f<-f2
> f(3,2)
[1] 1
> g <- function(h,a,b) h(a,b)
> g(f1,3,2)
[1] 5
> g(f2,3,2)
[1] 1

Et comme les fonctions sont des objets, vous pouvez parcourir une liste composée de plusieurs fonctions. Cela serait utile, par exemple, si vous souhaitiez écrire une boucle pour tracer un certain nombre de fonctions sur le même graphe, comme suit:

> g1 <- function(x) return(sin(x))
> g2 <- function(x) return(sqrt(x^2+1))
> g3 <- function(x) return(2
*
x-1)
> plot(c(0,1),c(-1,1.5)) # prepare the graph, specifying X and Y ranges
> for (f in c(g1,g2,g3)) plot(f,0,1,add=T) # add plot to existing graph

> g1 <- function(x) return(sin(x))
> g2 <- function(x) return(sqrt(x^2+1))
> g3 <- function(x) return(2
*
x-1)
> plot(c(0,1),c(-1,1.5)) # prepare the graph, specifying X and Y ranges
> for (f in c(g1,g2,g3)) plot(f,0,1,add=T) # add plot to existing graph

Les fonctions formals () et body () peuvent même être utilisées comme fonctions de remplacement. Nous discuterons des fonctions de remplacement dans la Section 7.10, mais pour l'instant, réfléchissez à la façon dont vous pourriez modifier le corps d'une fonction par affectation:

> g <- function(h,a,b) h(a,b)
> body(g) <- quote(2
>g
function (x)
2
*
x+3
> g(3)
[1] 9
*
x+3)

> g <- function(h,a,b) h(a,b)
> body(g) <- quote(2
>g
function (x)
2
*
x+3
> g(3)
[1] 9
*
x+3)

La raison pour laquelle quote () était nécessaire est que techniquement, le corps d'une fonction a la classe "call", qui est la classe produite par quote (). Sans l'appel à citer (), R essaierait d'évaluer la quantité 2 * x + 3. Donc, si x avait été défini et égal à 3, par exemple, nous assignerions 9 au corps de g (), certainement pas ce que nous voulons. D'ailleurs, puisque * et + sont des fonctions (comme décrit dans la section 2.4.1), en tant qu'objet de langage, 2 * x + 3 est en effet un appel entrant, c'est un appel de fonction imbriqué dans un autre.

Détails: Écrit par Elie Chancelin; Catégorie parente: Logiciel R; Catégorie : Structure de la programmation R

Dans la section 5.1.2, nous lisons dans un ensemble de données à partir d'un fichier appelé examens:

> testscores <- read.table("exams",header=TRUE)

> testscores <- read.table("exams",header=TRUE)

L'argument header = TRUE indique à R que nous avons une ligne d'en-tête, donc R ne devrait pas compter cette première ligne dans le fichier en tant que donnée.
Ceci est un exemple d'utilisation d'arguments nommés. Voici les premières lignes de la fonction:

> read.table
function (file, header = FALSE, sep = "", quote = "\"'", dec = ".",
row.names, col.names, as.is = !stringsAsFactors, na.strings = "NA",
colClasses = NA, nrows = -1, skip = 0, check.names = TRUE,
fill = !blank.lines.skip, strip.white = FALSE, blank.lines.skip = TRUE,
comment.char = "#", allowEscapes = FALSE, flush = FALSE,
stringsAsFactors = default.stringsAsFactors(), encoding = "unknown")
{
if (is.character(file)) {
...
...
file <- file(file, "r")
on.exit(close(file))

> read.table
function (file, header = FALSE, sep = "", quote = "\"'", dec = ".",
row.names, col.names, as.is = !stringsAsFactors, na.strings = "NA",
colClasses = NA, nrows = -1, skip = 0, check.names = TRUE,
fill = !blank.lines.skip, strip.white = FALSE, blank.lines.skip = TRUE,
comment.char = "#", allowEscapes = FALSE, flush = FALSE,
stringsAsFactors = default.stringsAsFactors(), encoding = "unknown")
{
if (is.character(file)) {
...
...
file <- file(file, "r")
on.exit(close(file))

Le deuxième argument formel est nommé en-tête. Le champ = FALSE signifie que cet argument est optionnel, et si nous ne le spécifions pas, la valeur par défaut sera FALSE. Si nous ne voulons pas la valeur par défaut, nous devons nommer l'argument dans notre appel:

> testscores <- read.table("exams",header=TRUE)

> testscores <- read.table("exams",header=TRUE)

D'où la terminologie nommée argument.
Notez cependant que parce que R utilise l'évaluation paresseuse, il n'évalue pas une expression tant que l'argument nommé ne peut pas être utilisé.

Détails: Écrit par Elie Chancelin; Catégorie parente: Logiciel R; Catégorie : Structure de la programmation R

Le tableau 7-1 répertorie les opérateurs de base.
Tableau 7-Ì: Opérateurs R de base
Description d'opération
x + y Addition
x - y Soustraction
x * y Multiplication
Division x / y
x n y Exponentiation
x %% y Arithmétique modulaire
x% /% y Division entière
x == y Test d'égalité
x <= y Test inférieur ou égal à
x> = y Test supérieur ou égal à
x y Booléen ET pour les scalaires
x Il y Booléen OU pour les scalaires
x S y Boolean ET pour les vecteurs (vecteur x, y, résultat)
x I y Booléen OU pour les vecteurs (vecteur x, y, résultat)
! x négation booléenne

Bien que R ostensiblement n'a pas de types scalaires, les scalaires étant traités comme des vecteurs à un élément, nous voyons l'exception dans le Tableau 7-1: Il existe différents opérateurs booléens pour les cas scalaires et vectoriels. Cela peut sembler étrange, mais un simple exemple démontrera la nécessité d'une telle distinction.

>x
[1] TRUE FALSE TRUE
>y
[1] TRUE TRUE FALSE
>x&amp;y
[1] TRUE FALSE FALSE
> x[1] &amp;&amp; y[1]
[1] TRUE
> x &amp;&amp; y # looks at just the first elements of each vector
[1] TRUE
> if (x[1] &amp;&amp; y[1]) print("both TRUE")
[1] "both TRUE"
> if (x &amp; y) print("both TRUE")
[1] "both TRUE"
Warning message:
In if (x &amp; y) print("both TRUE") :
the condition has length > 1 and only the first element will be used

>x
[1] TRUE FALSE TRUE
>y
[1] TRUE TRUE FALSE
>x&y
[1] TRUE FALSE FALSE
> x[1] && y[1]
[1] TRUE
> x && y # looks at just the first elements of each vector
[1] TRUE
> if (x[1] && y[1]) print("both TRUE")
[1] "both TRUE"
> if (x & y) print("both TRUE")
[1] "both TRUE"
Warning message:
In if (x & y) print("both TRUE") :
the condition has length > 1 and only the first element will be used

Le point central est qu'en évaluant un if, nous avons besoin d'un seul booléen, pas d'un vecteur de booléens, d'où l'avertissement vu dans l'exemple précédent, ainsi que la nécessité d'avoir à la fois les opérateurs & et &&.
Les valeurs booléennes VRAI et FAUX peuvent être abrégées en tant que T et F (les deux doivent être en majuscules). Ces valeurs changent à 1 et 0 dans les expressions arithmétiques:

>1<2
[1] TRUE
>(1<2)
[1] 1
>(1<2)
*
(3<4)
*
(3<4)
[1] 0
> (1 < 2) == TRUE
[1] TRUE
>(1<2)==1
[1] TRUE
*
(5<1)

>1<2
[1] TRUE
>(1<2)
[1] 1
>(1<2)
*
(3<4)
*
(3<4)
[1] 0
> (1 < 2) == TRUE
[1] TRUE
>(1<2)==1
[1] TRUE
*
(5<1)

Dans le deuxième calcul, par exemple, la comparaison 1 <2 renvoie TRUE, et 3 <4 donne VRAI aussi. Les deux valeurs sont traitées comme 1 valeurs, donc le produit est 1.
En surface, les fonctions R ressemblent à celles de C, Java, etc. Cependant, ils ont beaucoup plus d'une saveur de programmation fonctionnelle, ce qui a des implications directes pour le programmeur R.

Détails: Écrit par Elie Chancelin; Catégorie parente: Logiciel R; Catégorie : Structure de la programmation R

Les instructions de contrôle dans R ressemblent beaucoup à celles des langages de la famille descendante ALGOL mentionnés ci-dessus. Ici, nous examinerons les boucles et les instructions if-else.

1 Boucles
Dans la section 1.3, nous avons défini la fonction oddcount (). Dans cette fonction, la ligne suivante aurait dû être immédiatement reconnue par les programmeurs Python:

for (n in x) {

for (n in x) {

Cela signifie qu'il y aura une itération de la boucle pour chaque composante du vecteur x, avec n prenant les valeurs de ces composantes dans la première itération, n = x [1]; dans la deuxième itération, n = x [2]; etc. Par exemple, le code suivant utilise cette structure pour sortir le carré de chaque élément d'un vecteur:

> x <- c(5,12,13)
> for (n in x) print(n^2)
[1] 25
[1] 144
[1] 169

> x <- c(5,12,13)
> for (n in x) print(n^2)
[1] 25
[1] 144
[1] 169

La boucle de style C avec while et repeat est également disponible, avec break, une instruction qui fait que le contrôle quitte la boucle. Voici un exemple qui utilise tous les trois:

> i <- 1
> while (i <= 10) i <- i+4
> i
[1] 13
>
> i <- 1
> while(TRUE) { # similar loop to above
+ i <- i+4
+ if (i > 10) break
+ }
> i
[1] 13
>
> i <- 1
> repeat { # again similar
+ i <- i+4
+ if (i > 10) break
+ }
> i
[1] 13

> i <- 1
> while (i <= 10) i <- i+4
> i
[1] 13
>
> i <- 1
> while(TRUE) { # similar loop to above
+ i <- i+4
+ if (i > 10) break
+ }
> i
[1] 13
>
> i <- 1
> repeat { # again similar
+ i <- i+4
+ if (i > 10) break
+ }
> i
[1] 13

Dans le premier fragment de code, la variable i a pris les valeurs 1, 5, 9 et 13 comme la boucle a traversé ses itérations. Dans ce dernier cas, la condition i <= 10 a échoué, alors la pause s'est installée et nous avons quitté la boucle.
Ce code montre trois façons différentes d'accomplir la même chose, la pause jouant un rôle clé dans les deuxième et troisième façons.
Notez que repeat n'a pas de condition de sortie booléenne. Vous devez utiliser break (ou quelque chose comme return ()). Bien sûr, break peut aussi être utilisé avec les boucles for.
Une autre instruction utile est la suivante, qui demande à l'interpréteur de passer le reste de l'itération en cours de la boucle et de passer directement au suivant. Cela permet d'éviter d'utiliser des constructions if-then-else complexes, ce qui peut rendre le code déroutant. Jetons un oeil à un exemple qui utilise ensuite. Le code suivant provient d'un examen étendu du chapitre 8:

1 sim <- function(nreps) {
2 commdata <- list()
3 commdata$countabsamecomm <- 0
4 for (rep in 1:nreps) {
5 commdata$whosleft <- 1:20
6 commdata$numabchosen <- 0
7 commdata <- choosecomm(commdata,5)
8 if (commdata$numabchosen > 0) next
9 commdata <- choosecomm(commdata,4)
10 if (commdata$numabchosen > 0) next
11 commdata <- choosecomm(commdata,3)
12 }
13 print(commdata$countabsamecomm/nreps)
14 }

1 sim <- function(nreps) {
2 commdata <- list()
3 commdata$countabsamecomm <- 0
4 for (rep in 1:nreps) {
5 commdata$whosleft <- 1:20
6 commdata$numabchosen <- 0
7 commdata <- choosecomm(commdata,5)
8 if (commdata$numabchosen > 0) next
9 commdata <- choosecomm(commdata,4)
10 if (commdata$numabchosen > 0) next
11 commdata <- choosecomm(commdata,3)
12 }
13 print(commdata$countabsamecomm/nreps)
14 }

Il y a les prochaines déclarations aux lignes 8 et 10. Voyons comment ils fonctionnent et comment ils améliorent les alternatives. Les deux instructions suivantes se trouvent dans la boucle qui commence à la ligne 4. Ainsi, lorsque la condition if se trouve à la ligne 8, les lignes 9 à 11 seront ignorées et le contrôle sera transféré à la ligne 4. La situation de la ligne 10 est similaire.
Sans utiliser ensuite, nous aurions besoin de recourir à des instructions imbriquées if, quelque chose comme ceci:

1 sim <- function(nreps) {
2 commdata <- list()
3 commdata$countabsamecomm <- 0
4 for (rep in 1:nreps) {
5 commdata$whosleft <- 1:20
6 commdata$numabchosen <- 0
7 commdata <- choosecomm(commdata,5)
8 if (commdata$numabchosen == 0) {
9 commdata <- choosecomm(commdata,4)
10 if (commdata$numabchosen == 0)
11 commdata <- choosecomm(commdata,3)
12 }
13 }
14 print(commdata$countabsamecomm/nreps)
15 }

1 sim <- function(nreps) {
2 commdata <- list()
3 commdata$countabsamecomm <- 0
4 for (rep in 1:nreps) {
5 commdata$whosleft <- 1:20
6 commdata$numabchosen <- 0
7 commdata <- choosecomm(commdata,5)
8 if (commdata$numabchosen == 0) {
9 commdata <- choosecomm(commdata,4)
10 if (commdata$numabchosen == 0)
11 commdata <- choosecomm(commdata,3)
12 }
13 }
14 print(commdata$countabsamecomm/nreps)
15 }

Parce que cet exemple simple n'a que deux niveaux, ce n'est pas trop mal. Cependant, les instructions imbriquées peuvent devenir déroutantes lorsque vous avez plus de niveaux.
La construction for fonctionne sur n'importe quel vecteur, quel que soit le mode. Vous pouvez faire une boucle sur un vecteur de noms de fichiers, par exemple. Disons que nous avons un fichier nommé file 1 avec le contenu suivant:
1
2
3
4
5
6
Nous avons aussi un fichier nommé file 2 avec ces contenus:
5
12
13
La boucle suivante lit et imprime chacun de ces fichiers. Nous utilisons ici la fonction scan () pour lire dans un fichier de nombres et stocker ces valeurs dans un vecteur. Nous parlerons plus en détail de scan () au chapitre 10.

> for (fn in c("file1","file2")) print(scan(fn))
Read 6 items
[1]123456
Read 3 items
[1] 51213

> for (fn in c("file1","file2")) print(scan(fn))
Read 6 items
[1]123456
Read 3 items
[1] 51213

Donc, fn est d'abord réglé sur filel, et le fichier de ce nom est lu et imprimé. Ensuite, la même chose se produit pour file2.

2 Bouclage sur des ensembles non-vecteurs
R ne supporte pas directement l'itération sur les ensembles non-vecteurs, mais il existe quelques moyens indirects mais faciles à réaliser:
• Utilisez lapply (), en supposant que les itérations de la boucle sont indépendantes les unes des autres, ce qui permet de les exécuter dans n'importe quel ordre.

• Utilisez get (). Comme son nom l'indique, cette fonction prend comme argument une chaîne de caractères représentant le nom d'un objet et renvoie l'objet de ce nom. Cela semble simple, mais get () est une fonction très puissante.
Regardons un exemple d'utilisation de get (). Supposons que nous ayons deux matrices, u et v, contenant des données statistiques, et nous souhaitons appliquer à chacun d'eux la fonction de régression linéaire lm ().

>u
[,1] [,2]
[1,] 1 1
[2,] 2 2
[3,] 3 4
>v
[,1] [,2]
[1,] 8 15
[2,] 12 10
[3,] 20 2
> for (m in c("u","v")) {
+ z <- get(m)
+ print(lm(z[,2] ~ z[,1]))
+}
Call:
lm(formula = z[, 2] ~ z[, 1])
Coefficients:
(Intercept) z[, 1]
-0.6667 1.5000
Call:
lm(formula = z[, 2] ~ z[, 1])
Coefficients:
(Intercept) z[, 1]
23.286 -1.071

>u
[,1] [,2]
[1,] 1 1
[2,] 2 2
[3,] 3 4
>v
[,1] [,2]
[1,] 8 15
[2,] 12 10
[3,] 20 2
> for (m in c("u","v")) {
+ z <- get(m)
+ print(lm(z[,2] ~ z[,1]))
+}
Call:
lm(formula = z[, 2] ~ z[, 1])
Coefficients:
(Intercept) z[, 1]
-0.6667 1.5000
Call:
lm(formula = z[, 2] ~ z[, 1])
Coefficients:
(Intercept) z[, 1]
23.286 -1.071

Ici, m a été mis pour la première fois. Alors ces lignes assignent la matrice u à z, ce qui permet l'appel à lm () sur u:

z <- get(m)
print(lm(z[,2] ~ z[,1]))

z <- get(m)
print(lm(z[,2] ~ z[,1]))

La même chose se produit alors avec v.

3 if-else
La syntaxe de if-else ressemble à ceci:

if (r == 4) {
x<-1
} else {
x<-3
y<-4
}

if (r == 4) {
x<-1
} else {
x<-3
y<-4
}

Cela semble simple, mais il y a ici une subtilité importante. La section if se compose d'une seule déclaration:

x <- 1

x <- 1

Donc, vous pourriez deviner que les accolades autour de cette déclaration ne sont pas nécessaires. Cependant, ils sont en effet nécessaires.
L'accolade droite avant le else est utilisée par l'analyseur R pour déduire qu'il s'agit d'un if-else plutôt que d'un if. En mode interactif, sans accolades, l'analyseur pense par erreur à ce dernier et agit en conséquence, ce qui n'est pas ce que nous voulons.
Une instruction if-else fonctionne comme un appel de fonction et, à ce titre, renvoie la dernière valeur attribuée.

v <- if (cond) expression1 else expression2

v <- if (cond) expression1 else expression2

Cela mettra v au résultat de l'expression! ou expression2, selon que la condition est vraie. Vous pouvez utiliser ce fait pour compacter votre code. Voici un exemple simple:

>x<-2
> y <- if(x == 2) x else x+1
>y
[1] 2
>x<-3
> y <- if(x == 2) x else x+1
>y
[1] 4

>x<-2
> y <- if(x == 2) x else x+1
>y
[1] 2
>x<-3
> y <- if(x == 2) x else x+1
>y
[1] 4

Sans prendre ce point, le code

y <- if(x == 2) x else x+1

y <- if(x == 2) x else x+1

consisterait plutôt en un peu plus encombré

if(x == 2) y <- x else y <- x+1

if(x == 2) y <- x else y <- x+1

Dans des exemples plus complexes, expression! et / ou expression2 pourraient être des appels de fonction. D'un autre côté, vous ne devriez probablement pas laisser la compacité prendre le pas sur la clarté.
Lorsque vous travaillez avec des vecteurs, utilisez la fonction ifelse (), comme indiqué au chapitre 2, car elle produira probablement un code plus rapide.

Page 2 sur 2

Début
Précédent
1
2
Suivant
Fin

Structure de la programmation R

Les fonctions sont des objets dans R

Valeurs par défaut pour les arguments dans R

Opérateurs et valeurs arithmétiques et booléennes

Déclarations de contrôle dans R

Enquête statistique

A qui nos services?