manipulation de données Archives - Page 2 à 6

05 mai

Le mai 5, 2017

Comment séparer une colonne ? separate()

Votre colonne contient deux variables (ou plus), et vous avez besoin de la séparer ? Pour transformer xx_yy en deux colonnes qui contiendront xx et yy, faites appel à la fonction separate() du package tidyr ! separate prend quatre arguments principaux : le tableau, le nom de la colonne à séparer, les noms des colonnes cibles, et le séparateur. library(tidyr) data(« presidential ») separate(presidential, start, c(« y », »m », « d »), sep = « -« )Read More →

05 mai

Par colin

Le mai 5, 2017

Dans manipulation de données, tidyverse

Avec 0 Commentaire

tibble ou data.frame ?

Commençons par un point important : un tibble est un data.frame… mais un data.frame amélioré ! Élément central du tidyverse, cette forme diffère des data.frame natifs dans deux comportements : l’affichage : les tibbles s’adaptent à l’écran, et chaque colonne affiche son type. la sélection : elle est plus stricte dans un tibble — elle ne se fait jamais en partial match, et un message d’erreur s’affiche lorsque vous sélectionner un élément qui n’existe pas. Pour créer un tibble, deux solutions : la conversion depuis un data.frame, ou la création à la main. library(tibble) data(« swiss ») as_tibble(swiss) tibble(x = 1:4, y = 5:8)Read More →

05 mai

Par colin

Le mai 5, 2017

Dans manipulation de données, tidyverse

Avec 0 Commentaire

Comment résumer un jeu de données ? summarise()

Vous avez besoin d’un résumé rapide sur une ou plusieurs variables de votre tableau ? Direction la fonction summarise (ou summarize, selon vos affinités). data(« who ») who %>% summarise(minimum = min(year)) Notez qu’il est possible de combiner plusieurs résumés dans cette fonction. who %>% summarise(minimum = min(year), maximum = max(year))Read More →

05 mai

Par colin

Le mai 5, 2017

Dans manipulation de données, tidyverse

Avec 0 Commentaire

Comment ordonner un jeu de données ? arrange()

Pour ordonner un tableau en fonction d’une colonne, faites appel à arrange(), issu de dplyr. Cette fonction prend en premier argument l’objet contenant le tableau, puis la colonne qui servira de base pour votre tri. data(« midwest ») midwest %>% arrange(poptotal) Par défaut, la colonne est triée en ordre croissant. Un comportement que vous pouvez modifier avec desc(). midwest %>% arrange(desc(poptotal))Read More →

05 mai

Par colin

Le mai 5, 2017

Dans manipulation de données, tidyverse

Avec 0 Commentaire

Comment sélectionner des colonnes dans un data.frame ? select()

Votre jeu de données est trop grand ? Vous avez trop de colonnes ? Vous pouvez en sélectionner très simplement avec la fonction select() de dplyr. Comme toutes les fonctions du tidyverse, le premier argument est l’objet contenant le jeu de données. Puis, il suffit d’entrer le nom des colonnes à conserver. library(dplyr) data(« smiths ») select(smiths, subject, age)Read More →

04 mai

Par colin

Le mai 4, 2017

Dans manipulation de données, tidyverse

Avec 0 Commentaire

Comment filtrer un jeu de données avec dplyr ? : filter()

Avec ce package du tidyverse, vous pouvez filtrer votre jeu de données pour ne retenir que les valeurs qui vous intéressent, grâce à la fonction filter(). Cette fonction prend en paramètres votre objet contenant un tableau de données, puis une ou plusieurs variable(s) avec leurs filtres. Vous pouvez utiliser tous les opérateurs classiques (==, !=, >, <, etc.) data(women)women %>% filter(height == 59)women %>% filter(height > 59 & weight < 139) Vous pouvez également « piper » vos filtres. Utile pour une meilleure lisibilité, si vous voulez combiner beaucoup de conditions (mais vous aurez plus de ligne : women %>% filter(height > 59) %>% filter(weight < 139)Read More →

06 août

Par helene

Le août 6, 2015

Dans fonctions utiles, manipulation de données

Avec 0 Commentaire

Comment faire une Analyse en Composantes Principale (ACP) sur R ? PCA, plot.PCA

La fonction PCA() permet d’effectuer une ACP. library(FactoMineR) res_pca <- PCA (iris, quali.sup=5) #On réalise une ACP sur les 4 variables quantitatives du jeu de données iris #La 5ème variable qui correspond au nom de la variété est qualitative #Nous plaçons cette variable en supplémentaire, #cette variable ne participera donc pas à la construction de l’ACP, #mais elle apportera de l’information supplémentaire plot.PCA(res_pca,col.quali= »blue », label= »quali ») #La fonction plot.PCA contient de nombreux paramètres modulables #ici nous choisissons la couleur de la variable qualitative #et de cacher l’étiquette des individus grâce au paramètre « label » Pour pouvoir décrire les résultats de cette analyse nous avons besoin d’étudierRead More →

20 juillet

Par helene

Le juillet 20, 2015

Dans fonctions utiles, manipulation de données

Avec 0 Commentaire

Comment comparer deux variances grâce au test de Fisher-Snedecor ? var.test

Le test de Fisher-Snedecor permet de savoir si les variances de deux populations (δ1² et δ2²) sont égales ou non. L’hypothèse H0 testée correspond à δ1²= δ2². Pour réaliser ce test il est nécessaire d’avoir un échantillonnage aléatoire de chaque individu et que les ces deux échantillons suivent une loi Normale. On utilise pour tester cette hypothèse la fonction var.test(). data(iris) A<-subset(iris,Species== »setosa »)[,2] #On isole la 2ème colonne : la largeur des sépales On commence par tester la normalité de cette variable grâce au test de Shapiro : shapiro.test(A) Shapiro-Wilk normality test data: A W = 0.9717, p-value = 0.2715 La p-valueRead More →

15 juillet

Par helene

Le juillet 15, 2015

Dans fonctions utiles, manipulation de données

Avec 0 Commentaire

Comment obtenir une table de contingence rapidement, en une seule étape ? : recast

La fonction recast(), du package reshape2, permet d’obtenir une table de contingence en une seule étape à partir d’un data.frame. La fonction renvoie un data.frame. library(reshape2) # On charge le package reshape2 airquality#En 2 étapes : aqm <- melt(airquality, id=c(« Month », « Day »), na.rm=TRUE) #On passe d’un format “Wide” à un format “Long” dcast(aqm, Month ~ variable, mean, margins = TRUE) #On obtient une table de contingence contenant la moyenne de chaque variable en fonction du mois #En 1 seule étape : recast(airquality, Month~ variable, id.var = 5:6, mean, na.rm=TRUE, margins=TRUE) #La fonction recast() permet d’obtenir une table de contingence en 1 seule étape Read More →

15 juillet

Par helene

Le juillet 15, 2015

Dans fonctions utiles, manipulation de données, Transformation de données

Avec 0 Commentaire

Comment séparer les éléments d'un vecteur en plusieurs colonnes ? : colsplit

La fonction colsplit(), qui fait partie du package reshape2, permet de séparer des éléments d’un vecteur en plusieurs colonnes et de retourner un data.frame. Cela peut être utile lorsqu’on a une combinaison de deux variables associées et séparées par un espace, un « – » ou encore un « _ ». Library(reshape2) x <- c(« Jan-2001 », « Fev-2001 », « Mar-2002 », « Dec-2005 ») vars <- colsplit(x, « -« , c(« Mois », « Annee »))#On sépare les deux variables « Mois » et « Année » contenues dans x et séparées par un « – » vars Mois Annee 1 Jan 2001 2 Fev 2001 3 Mar 2002 4 Dec 2005 str(vars) ‘data.frame’: 4 obs. of 2 variables: $ Mois : chr Read More →

Les dates de formations à R, éligibles au CPF sont en lignes !

manipulation de données (Page 2)

Comment séparer une colonne ? separate()

tibble ou data.frame ?

Comment résumer un jeu de données ? summarise()

Comment ordonner un jeu de données ? arrange()

Comment sélectionner des colonnes dans un data.frame ? select()

Comment filtrer un jeu de données avec dplyr ? : filter()

Comment faire une Analyse en Composantes Principale (ACP) sur R ? PCA, plot.PCA

Comment comparer deux variances grâce au test de Fisher-Snedecor ? var.test

Comment obtenir une table de contingence rapidement, en une seule étape ? : recast

Comment séparer les éléments d'un vecteur en plusieurs colonnes ? : colsplit