You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Si vous n'avez jamais utilisé de tutoriel "learnr", familiarisez-vous d'abord avec son interface [ici](http://biodatascience-course.sciviews.org/sdd-umons/learnr.html).
55
-
56
-

28
+
## Objectifs
57
29
58
-
> Conformément au RGPD ([Règlement Général sur la Protection des Données](https://ec.europa.eu/info/law/law-topic/data-protection/reform/rules-business-and-organisations/principles-gdpr_fr)), nous sommes tenus de vous informer de ce que vos résultats seront collecté afin de suivre votre progression. **Les données seront enregistrées au nom de l'utilisateur apparaissant en haut de cette page. Corrigez si nécessaire !** En utilisant ce tutoriel, vous marquez expressément votre accord pour que ces données puissent être collectées par vos enseignants et utilisées pour vous aider et vous évaluer. Après avoir été anonymisées, ces données pourront également servir à des études globales dans un cadre scientifique et/ou éducatif uniquement.
30
+
L'association entre deux variables peut être quantifié grâce à différentes descripteurs ou indices comme la covariance, l'indice de de corrélation de Pearson ou encore l'indice de de corrélation de Spearman. On définit 3 niveaux d'association impliquant des hypothèses de plus en plus fortes sur le mécanismes sou-jacent liant ces deux variables. On a la corrélation, la relation et la causalité. Les indices de corrélation et les tests de corrélation permettent comme leur nom l'indique de mettre un avant une corrélation entre deux variables. La corrélation est simplement l’association de deux variable sans élaborer plus d’explication sur le mécanisme sous-jacent qui lie ces variables.
59
31
60
-
## Objectifs
32
+
Dans ce tutoriel, vous allez pouvoir auto-évaluer votre capacité à\ :
61
33
62
34
- Comprendre les différents niveaux d’association de deux variables numériques.
63
35
64
-
## La corrélation
36
+
- Réaliser et interpréter un test de corrélation
37
+
38
+
## Biométrie de trois espèces d'Iris
39
+
40
+
L'étude porte sur les variations morphologiques des fleurs de trois espèces d'iris que sont *Iris setosa* Pall. ex Link (1820) , *Iris versicolor* L. (1753) et *Iris virginica* L.. Ces espèces appartiennent à la famille des Iridaceae. Ces trois espèces se développent dans des milieux humides.
41
+
42
+
Edgar Anderson a récolté les trois espèces d'iris en Gaspésie (Québec, Canada) en 1935 au moment de la floraison. La péninsule de Gaspésie est entourée par l'estuaire du fleuve Saint-Laurent, le golfe du Saint-Laurent et la baie des chaleurs.
43
+
44
+
Cinquante plants par espèces sont prélevés afin d'étudier la biométrie de leurs fleurs. La longueur et la largeur des pétales et sépales sont mesurées (en centimètre).
65
45
66
-
Vous avez à votre disposition un jeu de données sur la biométrie d'Iris.
46
+

47
+
48
+
Vous avez à votre disposition un jeu de données sur des mesures biométriques d'iris.
67
49
68
50
```{r, echo = TRUE}
69
51
# Importation des données
70
52
(iris <- read("iris", package = "datasets", lang = "fr"))
71
53
```
72
54
73
-
Utilisez la matrice de corrélation afin de mettre en avant la corrélation entre l'ensemble des vairables numérique disponible.
74
55
75
-
```{r iris_prepa}
76
-
iris <- read("iris", package = "datasets")
77
-
```
56
+
La fonction `skim()` du package `skimr` est une fonction très intéressante dans un carnet de notes pour découvrir les données. Avec une seule fonction, on obtient une première idée sur le nombre d'observations, le type des variables, la présence de valeurs manquantes,...
78
57
79
-
Vous avez à votre disposition le snippet :
80
-
81
-
```{r, echo, eval = FALSE, echo = TRUE}
82
-
correlation(DF[, INDEX_EXPRESSION], use = "complete.obs", method = "pearson")
58
+
```{r, echo=TRUE}
59
+
skimr::skim(iris)
83
60
```
84
61
85
-
N'oubliez pas de sélectionner les variables que vous souhaitez étudier.
Le jeu de données iris est parfaitement balancé avec 50 individus par groupe. Il comprends 4 variables numériques et 1 variable facteur non-ordonnée. Il ne comprend pas de valeurs manquantes.
88
63
64
+
```{r iris_prepa}
65
+
iris <- read("iris", package = "datasets", lang = "FR")
89
66
```
90
67
91
-
```{r corr1-solution}
92
-
correlation(iris[, 1:4], use = "complete.obs", method = "pearson")
93
-
```
68
+
Avant de poursuivre votre exploration des données, réalisez différents graphiques en fonction des différents variables.
Réalisez une matrice de corrélation afin de mettre en avant la corrélation linéaire entre l'ensemble des variables numérique disponibles. Proposez ensuite un résumé de cette matrice.
99
78
100
-
Vous pouvez également réaliser un graphique avec l'instruction suivante :
79
+
💬 **Un snippet est disponible pour réaliser cet exercice `.escor: correlation matrix`.**
101
80
102
-
```{r, echo = TRUE, eval = FALSE}
103
-
plot(correlation(DF[, INDEX_EXPRESSION], use = "complete.obs", method = "pearson"))
iris_corr <- correlation(DF[, INDEX_EXPRESSION], use = "complete.obs", method = "pearson")
88
+
summary(iris_corr)
89
+
# La sélection se fait sur base des indices des colonnes en R de base.
90
+
# Vous ne devez sélectionner que les variables numériques.
107
91
108
-
```
109
-
110
-
```{r corr2-solution}
111
-
plot(correlation(iris[, 1:4], use = "complete.obs", method = "pearson"))
92
+
#### ATTENTION: Hint suivant = solution !####
112
93
```
113
94
114
-
```{r corr2-check}
115
-
# TODO
95
+
```{r is_corr_h2-solution}
96
+
iris_corr <- correlation(iris[, 1:4], use = "complete.obs", method = "pearson")
97
+
summary(iris_corr)
116
98
```
117
99
118
-
En ajoutant l'argument type = "upper", vous pouvez n'afficher que la partie supérieur de votre graphique.
100
+
```{r is_corr_h2-check}
101
+
grade_code("Le résume de la matrice de corrélation utilise un système de légende particulier pour mettre en avant les variables les plus corrélées. Assurez-vous de bien comprendre les symboles utilisés ., + ou encore B.")
grade_code("Ce graphique permet d'avoir une information visuelle simple à analyser. La couleur utilisée, l'élongation de l'ellipse et le sens de l'ellipse sont porteur d'informatio sur la corrélation entre les paires de variabls étudées. indique l'importance de la corrélation.L'é Par exemple, le bleu foncé met en avant Répondez à la question suivante.")
127
+
```
133
128
134
-
```{rquiz1}
129
+
```{rquiz_corr}
135
130
question("Quelles sont les variables les plus fortement corrélées ?(sélectionnez les deux variables les plus corrélées)",
136
131
answer("sepal_length"),
137
132
answer("sepal_width"),
@@ -142,68 +137,52 @@ question("Quelles sont les variables les plus fortement corrélées ?(sélection
142
137
correct = "Bravo, c'est correct")
143
138
```
144
139
145
-
Nous pouvons nous poser la question suivante :
146
-
147
-
-**est ce que la largeur des sépales (sepal_width) et la longeur des pétales (petal_length) sont significativement corrélées au seuil alpha de 5% ? **
Suite à votre matrice de corrélation linéaire avec l'indice de corrélation de Pearson, vous avez pu observer que la longueur des pétales et la largeur des pétales ont un indice de corrélation supérieur à 0.9. Cependant, avoir une valeur élevé ne permet pas d'affirmer qu'il y une corrélation significative entre ces deux variables.
162
143
163
-
```{r corr4-check}
164
-
# TODO
165
-
```
144
+
Utilisez un test de corrélation afin de répondre à la question suivante : **est ce que la largeur des pétales (petal_width) et la longueur des pétales (petal_length) sont significativement corrélées au seuil alpha de 5% ? **
166
145
167
-
```{r quiz2}
168
-
question("Y a t'il une différence significative au seuil alpha de 5% ?",
grade_code("Bravo ! Vous venez de réaliser un test de corrélation de Pearson. Il ne vous reste plus qu'à répondre à la question ci-dessous. Pour vous assurer que vous êtes capable de d'interpréter ce test d'hypothèse.")
187
165
```
188
166
189
-
```{r quiz3}
190
-
question("Y a t'il une différence significative au seuil alpha de 5% ?",
191
-
answer("Oui"),
192
-
answer("Non", correct = TRUE))
167
+
```{r quiz_test}
168
+
question("Est ce que la largeur des pétales (petal_width) et la longueur des pétales (petal_length) sont significativement corrélées au seuil alpha de 5% ?",
169
+
answer("Oui", correct = TRUE),
170
+
answer("Non"),
171
+
correct = "Bravo, c'est exact ! En effet, l'hypothèse nulle est que la corrélation entre les deux variables est nulle. Avec une valeur inférieur au seuil alpha, il y a rejet de l'hypothèse nulle.",
172
+
incorrect = "Il semble que vous n'avez pas su déterminer correctement l'hypothèse nulle et l'hypothèse alternative.",
173
+
try_again = TRUE)
193
174
```
194
175
195
-
196
176
## Conclusion
197
177
198
-
Bravo! Vous venez de terminer votre séance d'exercices dans un tutoriel "learnr".
199
-
200
-
Laissez nous vos impressions sur cet outil pédagogique ou expérimentez encore dans la zone ci-dessous. Rappelez-vous que pour placer un commentaire dans une zone de code R, vous devez utilisez un dièse (`#`) devant vos phrases.
178
+
Bravo! Vous venez de terminer le tutoriel sur la premier niveau d'association de paires de variables qu'est la corrélation.
201
179
202
-
```{r comm, exercise=TRUE, exercise.lines = 8}
203
-
# Ajout de commentaires
204
-
# ...
205
-
```
206
-
207
-
```{r comm-check}
208
-
# Not yet...
180
+
```{r comm_noscore, echo=FALSE}
181
+
question_text(
182
+
"Laissez-nous vos impressions sur cet outil pédagogique",
183
+
answer("", TRUE, message = "Pas de commentaires... C'est bien aussi."),
0 commit comments