Un shapefile est un fichier d’information géographique avec un format vectoriel. Il permet de représenter des points (e.g. villes), des lignes (e.g. routes) et des polygones (e.g. départements) avec un système d’information géographique. Le format shapefile est composé de plusieurs fichiers séparés (4 minimum): data.shp : informations de géométrie (coordonnées) data.prj : information de système de projection data.dbf : table des attributs data.shx : indice de position des géométries Dans R, deux packages majeurs sont utilisés pour manipuler les données géographiques de type vectoriel: {sp} : Le package de référence. Il utilise notamment la librairie {rgdal} pour lire les données géographiques, un package utilisant laRead More →

Est-ce que la valeur associée à votre variable est comprise entre deux autres valeurs ? Vous le saurez en faisant appel à between, du package {dplyr} ! {dplyr} est un package du tidyverse que l’on a jamais fini de découvrir. Regorgeant de fonctions facilitant la manipulation de données, ce package répond à quasiment toutes les questions que vous pourriez vous poser sur vos données… Et par exemple : comment savoir si une valeur est entre deux autres valeurs. Pour le savoir, direction between, qui prendra trois paramètres : votre valeur, la valeur de la borne de droite, et la valeur de la borne de gauche.Read More →

Il s’agit d’un des formats de graphiques les plus populaires : le barplot est simple à réaliser, encore plus avec ggplot2. Du moins, si l’on connait ses spécificités. Package du tidyverse, {ggplot2} est un outil de visualisation ultra célèbre parmi les utilisateurs de R. Et pour cause, même si sa syntaxe peut surprendre à première vue, les résultats obtenus sont haut-de-gamme. Alors, comment réaliser un barplot ? Tout simplement avec le geom geom_bar(). À noter que vous pouvez l’utiliser pour deux formats de barplots, qui demandent chacun d’adapter votre code. Pour compter les occurences d’une variable, vous avez besoin de seulement spécifier en x laRead More →

Plus de robustesse, plus de sécurité, nous avons nommé bind_rows et bind_cols ! Package du tidyverse, {dplyr} regorge d’outils ultra efficaces pour la manipulation de données. Parmi eux, deux petites fonctions qui, à première vue, ne payent pas de mine… et pourtant. bind_rows et bind_cols vous permettent d’effectuer l’équivalent de rbind et cbind mais sont plus fonctionnelles, et affichent des résultats plus propres et exploitables. Commençons par créer deux tableaux. Si nous tentons de les juxtaposer avec la fonction de base rbind, nous aurons une erreur. À l’inverse, bind_rows fera le job, en peuplant les « colonnes manquantes » par des NA. Au tour de bind_cols. PasRead More →

Les boîtes à moustaches vous plaisent, mais R base vous lasse ? Tournez-vous vers {ggplot2} ! Si vous ne savez pas encore comment créer un graphique avec {ggplot2}, nous vous invitons à visiter notre page dédiée. Ensuite, c’est tout simple, il suffit d’utiliser le geom geom_boxplot ! À l’intérieur de votre aes, x sera votre variable de groupe, et y la variable numérique à visualiser. library(ggplot2) data(« DNase ») ggplot(DNase, aes(Run, density)) + geom_boxplot() Comment lire une boîte à moustache ? Le gros trait central indique la médiane. Les deux extrémités de la boîte les 1er et 3e quartiles — 50% des observations se trouvent donc dansRead More →

Parfois, on souhaite appliquer une fonction à plusieurs colonnes de notre tableau, en fonction d’une condition. Pour cela, direction mutate_if(), du package {dplyr}. Comme son nom l’indique, mutate_if effectue une modification si la condition est remplie. Les arguments sont : Et pour comprendre par l’exemple : À noter : il est possible d’intégrer ses propres fonctions de transformation. Par exemple, si l’on veut les mesures d’iris en millimètres, plutôt qu’en centimètres.Read More →

Amoureux du paste de R base ? str_c du package {stringr} va vous plaire ! Pourquoi utiliser str_c ? Pour sa simplicité, mais aussi sa puissance. La première raison de choisir cette fonction : développée dans {stringr}, elle suit la convention d’écriture de toutes les fonctions de ce package. Ainsi, pour concaténer des caractères (strings en anglais), il vous suffira d’appeler str_c. Comme avec la fonction de base, vous pouvez choisir le séparateur : À noter : vous pouvez utiliser la fonction str_replace_na, pour remplacer les valeurs manquantes de la chaînes de caractères par un « NA ». À noter (bis) : pour concaténer un vecteur deRead More →

Vous avez besoin de manipuler des chaîne de caractères en toute simplicité ? Alors vous allez aimer le package stringr ! Comme toutes les fonctions du tidyverse, la syntaxe est claire, rien que dans le nom. Pour remplacer toutes les chaînes de caractères, on va utiliser str_replace_all (string, replace, all), tout simplement. Autre règle suivie par cette fonction : le premier argument est l’objet qui contient la chaîne. Vous devrez coder : str_replace_all(df, pattern, replacement). Par exemple : À noter : l’équivalent str_replace, qui ne remplacera que le premier élément qu’il rencontrera.Read More →