Pour sélectionner une série de lignes d’un tableau par leur index, faites appel à la fonction slice() du package dplyr ! Comme tous ses cousins du tidyverse, slice() prend en premier argument le nom du tableau à transformer. Ensuite, vous pouvez sélectionner vos lignes par leur index, avec un vecteur numérique. library(dplyr) data(« presidential ») slice(presidential, 1:25)Read More →

Vous souhaitez ne garder que les mois, ou uniquement les années sur votre ggplot ? Vous avez envie de changer le format des étiquettes de l’axe ? Pour cela, direction la fonction scale_x_date(), qui vous permettra de personnaliser votre axe comme vous le souhaitez ! Dans la majorité des cas, vous serez amené à utiliser deux arguments principaux sur scale_x_date (mais il faut savoir qu’il en existe au total 9) : date_breaks, pour la durée entre chaque point principal de l’axe date_label, pour définir le formatage de l’affichage de la légende library(tidyverse) library(ggplot2) library(nycflights13) data % unite(date, year, month, day, sep = « -« ) %>% mutate(date = lubridate::ymd(date))Read More →

Votre colonne contient deux variables (ou plus), et vous avez besoin de la séparer ? Pour transformer xx_yy en deux colonnes qui contiendront xx et yy, faites appel à la fonction separate() du package tidyr ! separate prend quatre arguments principaux : le tableau, le nom de la colonne à séparer, les noms des colonnes cibles, et le séparateur. library(tidyr) data(« presidential ») separate(presidential, start, c(« y », »m », « d »), sep = « -« )Read More →

Commençons par un point important : un tibble est un data.frame… mais un data.frame amélioré ! Élément central du tidyverse, cette forme diffère des data.frame natifs dans deux comportements : l’affichage : les tibbles s’adaptent à l’écran, et chaque colonne affiche son type. la sélection : elle est plus stricte dans un tibble — elle ne se fait jamais en partial match, et un message d’erreur s’affiche lorsque vous sélectionner un élément qui n’existe pas. Pour créer un tibble, deux solutions : la conversion depuis un data.frame, ou la création à la main. library(tibble) data(« swiss ») as_tibble(swiss) tibble(x = 1:4, y = 5:8)Read More →

Package de dataviz du tidyverse, ggplot2 est l’incontournable R pour la visualisation de données. La force de ce module ? ggplot2 repose sur une « grammaire graphique ». Pour plus d’infos sur cette philosophie, rendez-vous sur les liens en bas de page. Construisons pas à pas un ggplot. 1. Installation install.packages(« ggplot2 »)#Ou pour la version en développement :devtools::install_github(« tidyverse/ggplot2 ») 2. Ouverture library(« ggplot2″) 3. Couche 1 : « data & aesthetics » Avec cette première ligne, il s’agit tout simplement d’indiquer l’objet contenant le jeu de données, et les variables qui vont être visualisées en x, en y, ou avec les couleurs, les tailles… ggplot(data = iris, aes(Sepal.Length, Sepal.Width, color = SpeciesRead More →

R peut tracer la courbe d’une fonction f(x) pour peu qu’on connaisse sa formule et qu’on lui fixe des bornes.  curve(expr=1/(sqrt(2*pi)*0.3)*exp(-((x-0)^2/(2*0.3^2))), from=-1.5, to= 1.5) La fonction curve() prend (entre autres) comme argument expr (l’expression de la fonction, ici la densité de probabilité de la loi normale), from (la borne inférieure de l’intervalle à tracer) et to (la borne supérieure de l’intervalle à tracer) Par défaut curve() utilise un paramètre n fixé à 101 : c’est le nombre de x compris entre from et to qui seront évalués par l’expression renseignée dans expr. Plus n est petit, plus la courbe sera « anguleuse »Read More →

La fonction PCA() permet d’effectuer une ACP. library(FactoMineR) res_pca <- PCA (iris, quali.sup=5) #On réalise une ACP sur les 4 variables quantitatives du jeu de données iris #La 5ème variable qui correspond au nom de la variété est qualitative #Nous plaçons cette variable en supplémentaire, #cette variable ne participera donc pas à la construction de l’ACP, #mais elle apportera de l’information supplémentaire   plot.PCA(res_pca,col.quali= »blue », label= »quali ») #La fonction plot.PCA contient de nombreux paramètres modulables #ici nous choisissons la couleur de la variable qualitative #et de cacher l’étiquette des individus grâce au paramètre « label »   Pour pouvoir décrire les résultats de cette analyse nous avons besoin d’étudierRead More →

La régression linéaire simple permet de modéliser une relation linéaire entre deux variables quantitatives dans le but d’expliquer un phénomène ou de le prédire. #On commence par représenter les données : plot(Sepal.Length~Petal.Length, data=iris) #On constate que la relation entre la largeur des sépales et celle des pétales semble être linéaire   #On estime les paramètres : Reg.simp <- lm(Sepal.Length~Petal.Length, data=iris)   #Call: #lm(formula = Sepal.Length ~ Petal.Length, data = iris)   #Residuals: #     Min       1Q   Median       3Q      Max #-1.24675 -0.29657 -0.01515  0.27676  1.00269   #Coefficients: #             Estimate Std. Error t value Pr(>|t|)    #(Intercept)   4.30660    0.07839   54.94   <2e-16 *** #Petal.Length  0.40892    0.01889   21.65   <2e-16 *** #— #Signif. codes: Read More →

Les conditions permettent d’exécuter une commande en fonction d’une ou plusieurs conditions. La forme la plus simple s’écrit :   if (condition){ +    commande1 +    commande2 +    … +}   Exemple :   B<-TRUE x<-2   if (B==TRUE){      x<-x+1      y<-10 }   x [1] 3 y [1] 10   Dans ce cas là si B est différent de TRUE rien n’est effectué. Pour ajouter une des commandes lorsque que la première condition n’est pas vérifiée on utilise else :   if (condition){ +    commande1 +    commande2 +    … } else (condition){ +    commande1 +    commande2 +    … +}   Exemple : B<-FALSE x<-2   if (B==TRUE){     Read More →