Plus de robustesse, plus de sécurité, nous avons nommé bind_rows et bind_cols ! Package du tidyverse, {dplyr} regorge d’outils ultra efficaces pour la manipulation de données. Parmi eux, deux petites fonctions qui, à première vue, ne payent pas de mine… et pourtant. bind_rows et bind_cols vous permettent d’effectuer l’équivalent de rbind et cbind mais sont plus fonctionnelles, et affichent des résultats plus propres et exploitables. Commençons par créer deux tableaux. Si nous tentons de les juxtaposer avec la fonction de base rbind, nous aurons une erreur. À l’inverse, bind_rows fera le job, en peuplant les « colonnes manquantes » par des NA. library(dplyr) df1 <- data.frame(a =Read More →

Les boîtes à moustaches vous plaisent, mais R base vous lasse ? Tournez-vous vers {ggplot2} ! Si vous ne savez pas encore comment créer un graphique avec {ggplot2}, nous vous invitons à visiter notre page dédiée. Ensuite, c’est tout simple, il suffit d’utiliser le geom geom_boxplot ! À l’intérieur de votre aes, x sera votre variable de groupe, et y la variable numérique à visualiser. library(ggplot2) data(« DNase ») ggplot(DNase, aes(Run, density)) + geom_boxplot() Comment lire une boîte à moustache ? Le gros trait central indique la médiane. Les deux extrémités de la boîte les 1er et 3e quartiles — 50% des observations se trouvent donc dansRead More →

Parfois, on souhaite appliquer une fonction à plusieurs colonnes de notre tableau, en fonction d’une condition. Pour cela, direction mutate_if(), du package {dplyr}. Comme son nom l’indique, mutate_if effectue une modification si la condition est remplie. Les arguments sont : Un tableau de données La condition à remplir (le test effectué qui devra renvoyé TRUE) La transformation à effectuer. Et pour comprendre par l’exemple : library(dplyr) data(« iris ») str(iris) ‘data.frame’: 150 obs. of 5 variables: $ Sepal.Length: num 5.1 4.9 4.7 4.6 … $ Sepal.Width : num 3.5 3 3.2 3.1 3 … $ Petal.Length: num 1.4 1.4 1.3 1.5 … $ Petal.Width : num 0.2Read More →

Amoureux du paste de R base ? str_c du package {stringr} va vous plaire ! Pourquoi utiliser str_c ? Pour sa simplicité, mais aussi sa puissance. La première raison de choisir cette fonction : développée dans {stringr}, elle suit la convention d’écriture de toutes les fonctions de ce package. Ainsi, pour concaténer des caractères (strings en anglais), il vous suffira d’appeler str_c. Comme avec la fonction de base, vous pouvez choisir le séparateur : library(stringr) str_c(« une », « chaine », « de », « caractères », sep =  » « ) [1] « une chaine de caractères » str_c(« une », « chaine », « de », « caractères », sep = « _ ») [1] « une_chaine_de_caractères » À noter : vous pouvez utiliser la fonctionRead More →

Vous avez besoin de manipuler des chaîne de caractères en toute simplicité ? Alors vous allez aimer le package stringr ! Comme toutes les fonctions du tidyverse, la syntaxe est claire, rien que dans le nom. Pour remplacer toutes les chaînes de caractères, on va utiliser str_replace_all (string, replace, all), tout simplement. Autre règle suivie par cette fonction : le premier argument est l’objet qui contient la chaîne. Vous devrez coder : str_replace_all(df, pattern, replacement). Par exemple : library(stringr) str_replace_all(« Une chaîne de caractères », pattern = « Une », replacement = « 1 ») [1] « 1 chaîne de caractères » À noter : l’équivalent str_replace, qui ne remplacera que le premierRead More →

Vous avez besoin de sélectionner des colonnes en fonction de leur nom ? Faites appel à select, fonction du package dplyr. Vous trouvez laborieux de taper à la main l’ensemble des noms des colonnes que vous souhaitez ? Il y a un paramètre pour ça ! Si vos noms de colonnes suivent un pattern défini, vous pouvez les sélectionner avec starts_with(). library(dplyr) data(« who ») select(who, starts_with(« newrel »)) À noter que vous pouvez également utiliser ends_with(), matches() ou encore contains().Read More →

Vous souhaitez rédiger des documents qui contiennent du code, des résultats de console ou des graphiques ? Alors Mardown est fait pour vous ! Langage HTML simplifié, Markdown est idéal pour communiquer, à toutes les étapes de votre analyse de données. Carnets de notes pour vous, outils de transmission à vos collègues, ou encore bilans d’analyse à destination d’un grand public, les documents Markdown sont un véritable atouts, à mettre dans la besace de tous les utilisateurs de R. Et pour cause, sa simplicité va vous bluffer ! Pour créer un nouveau document en RMarkdown, rendez-vous sur l’onglet « File / New File » de RStudio. Puis,Read More →

Pour sélectionner une série de lignes d’un tableau par leur index, faites appel à la fonction slice() du package dplyr ! Comme tous ses cousins du tidyverse, slice() prend en premier argument le nom du tableau à transformer. Ensuite, vous pouvez sélectionner vos lignes par leur index, avec un vecteur numérique. library(dplyr) data(« presidential ») slice(presidential, 1:25)Read More →

Vous souhaitez ne garder que les mois, ou uniquement les années sur votre ggplot ? Vous avez envie de changer le format des étiquettes de l’axe ? Pour cela, direction la fonction scale_x_date(), qui vous permettra de personnaliser votre axe comme vous le souhaitez ! Dans la majorité des cas, vous serez amené à utiliser deux arguments principaux sur scale_x_date (mais il faut savoir qu’il en existe au total 9) : date_breaks, pour la durée entre chaque point principal de l’axe date_label, pour définir le formatage de l’affichage de la légende library(tidyverse) library(ggplot2) library(nycflights13) data % unite(date, year, month, day, sep = « -« ) %>% mutate(date = lubridate::ymd(date))Read More →