Utiliser aggregate
pour résumer des données en R
La fonction aggregate
en R est un outil puissant pour résumer des données en fonction de groupes. Elle permet de calculer des statistiques descriptives (comme la moyenne, la somme, etc.) pour des sous-ensembles de données, facilitant ainsi l’analyse de grandes bases de données.
Syntaxe de base
La syntaxe de la fonction aggregate
est la suivante :
aggregate(x, by, FUN, ...)
x
: un objet (comme un data frame ou une matrice) contenant les données à résumer.by
: une liste de vecteurs qui définissent les groupes.FUN
: la fonction à appliquer pour résumer les données (par exemple,mean
,sum
, etc.)....
: d’autres arguments optionnels.
Exemple concret
Imaginons que nous avons un data frame contenant des informations sur les ventes de produits dans différents magasins. Voici un exemple de données :
# Création d'un data frame d'exemple
ventes <- data.frame(
magasin = c("A", "A", "B", "B", "C", "C"),
produit = c("X", "Y", "X", "Y", "X", "Y"),
montant = c(100, 150, 200, 250, 300, 350)
)
# Affichage du data frame
print(ventes)
Ce data frame contient trois colonnes : magasin
, produit
et montant
. Nous voulons résumer les ventes par magasin en calculant le montant total des ventes.
Utilisation de aggregate
Pour obtenir le montant total des ventes par magasin, nous pouvons utiliser la fonction aggregate
comme suit :
# Résumer les ventes par magasin
resultat <- aggregate(montant ~ magasin, data = ventes, FUN = sum)
# Affichage du résultat
print(resultat)
Explication du code
montant ~ magasin
: Cette formule indique que nous voulons résumer la colonnemontant
en fonction de la colonnemagasin
.data = ventes
: Nous spécifions que les données proviennent du data frameventes
.FUN = sum
: Nous utilisons la fonctionsum
pour calculer le total des montants pour chaque magasin.
Résultat
Après avoir exécuté le code ci-dessus, nous obtiendrons un nouveau data frame qui montre le montant total des ventes pour chaque magasin :
magasin montant
1 A 250
2 B 450
3 C 650
Conclusion
La fonction aggregate
est un outil très utile pour résumer des données en R. Elle permet d’effectuer des calculs statistiques sur des sous-ensembles de données, facilitant ainsi l’analyse et la compréhension des données. Que ce soit pour calculer des moyennes, des sommes ou d’autres statistiques, aggregate
est une fonction incontournable pour les analystes de données.