Vous savez comment filtrer un jeu de données avec dplyr ? : filter(), on peut donc utiliser une règle pour filtrer sur les valeurs manquantes (les fameux NA) en utilisant la fonction is.na. library(dplyr) df <- tibble(x1 = c(1, 2, NA, 4), x2 = c(« a », NA, « b », « c »), y = c(NA, TRUE, FALSE, TRUE)) df %>% filter(!is.na(x1)) Mais si vous voulez supprimer les lignes qui contiennent des NA dans plusieurs colonnes, voire toutes les colonnes, il vaut mieux utiliser drop_na du package {tidyr}. Vous pourrez même utiliser les « helpers » comme pour la fonction select de {dplyr} pour choisir les colonnes avec des règles. library(tidyr) dfRead More →

Comme on est dans le {tidyverse}, on va utiliser les bons termes : Nous allons utiliser le pipe pour rendre le code plus clair ( Le pipe, qu’est-ce que c’est ? ) On ne travaille plus avec des dataframes, mais avec des tibble: (tibble ou data.frame ?) Et donc on ne supprime pas de ligne, mais on filtre les données en fonction d’une condition. En effet, si vous souhaitez retirer des lignes de données, vous avez sûrement une bonne raison. Cette bonne raison se trouve dans les données elles-mêmes. Vous utilisez donc cette information pour filtrer les données. library(dplyr) iris %>% filter(Species != « setosa ») PourRead More →

Une anova avec modèle mixte comme VARCOMP dans SAS Créons d’abord un jeu de données. On souhaite déterminer la précision et la répétabilité d’une analyse. Pour cela, la mesure est effectuée par 2 techniciens différents, sur des concentrations de produits différents sur 3 jours différents et avec 2 réplicats. library(dplyr) set.seed(42) data <- tibble( concentration = rep(c(10, 30, 50, 80), 3*2), technicien = rep(c(« A », « B »), each = 3*2*2), jour = rep(rep(1:3, each = 2*2), 2), replicat = rep(1:2, times = 2*3*2)) %>% mutate(mesure = ifelse( technicien == « A », 0.2 * concentration + rnorm(12, sd = 3), 0.2 * concentration + rnorm(12, sd = 2))) dataRead More →

Une opération courante quand on travaille avec des variables qualitatives (de type factor ou character) est de modifier les valeurs des modalités de cette variable. Ceci permet de les rendre plus courtes, plus explicites, ou même de les regrouper si on leur attribue le même nom. La fonction fct_recode, de l’extension forcats (qui fait partie du tidyverse) facilite ce type d’opérations. Celle-ci prend en premier argument un vecteur, puis une série de recodages sous la forme Nouvelle valeur = Ancienne valeur. Exemple : library(forcats) f <- c(« Fraise », « Framboise », « Pomme », « Fraise ») f <- fct_recode(f, « Ananas » = « Fraise », « Poire » = « Pomme ») f [1] Ananas Framboise Poire AnanasRead More →

Pour proposer un article sur ce site Internet, nous passons par notre compte Github ThinkR-open/abcdR. Vous devrez faire un fork de notre dépôt github, ajouter un article au format markdown dans le dossier _post et proposer une pull request. Les articles au format markdown (.md) devront avoir Le fichier doit avoir l’extension .md (il sera renommé automatiquement au moment du push) L’en-tête YAML suivante: — post_title: Titre de votre article author: votre_nom_d_auteur layout: post published: true categories: – graphique – tidyverse — Le contenu de votre article vient ici. le code R doit etre mis en forme comme cela : (…) le code R doitRead More →

Un shapefile est un fichier d’information géographique avec un format vectoriel. Il permet de représenter des points (e.g. villes), des lignes (e.g. routes) et des polygones (e.g. départements) avec un système d’information géographique. Le format shapefile est composé de plusieurs fichiers séparés (4 minimum): data.shp : informations de géométrie (coordonnées) data.prj : information de système de projection data.dbf : table des attributs data.shx : indice de position des géométries Dans R, deux packages majeurs sont utilisés pour manipuler les données géographiques de type vectoriel: {sp} : Le package de référence. Il utilise notamment la librairie {rgdal} pour lire les données géographiques, un package utilisant laRead More →

Est-ce que la valeur associée à votre variable est comprise entre deux autres valeurs ? Vous le saurez en faisant appel à between, du package {dplyr} ! {dplyr} est un package du tidyverse que l’on a jamais fini de découvrir. Regorgeant de fonctions facilitant la manipulation de données, ce package répond à quasiment toutes les questions que vous pourriez vous poser sur vos données… Et par exemple : comment savoir si une valeur est entre deux autres valeurs. Pour le savoir, direction between, qui prendra trois paramètres : votre valeur, la valeur de la borne de droite, et la valeur de la borne de gauche.Read More →