Utiliser randomForest pour des modèles d’arbres en R
Le package randomForest
en R est un outil puissant pour construire des modèles d’arbres de décision. Il utilise une méthode d’ensemble qui combine plusieurs arbres pour améliorer la précision et réduire le risque de surapprentissage. Dans cet article, nous allons explorer comment utiliser randomForest
pour créer un modèle de classification simple.
Installation et chargement du package
Avant de commencer, assurez-vous d’avoir installé le package randomForest
. Vous pouvez l’installer en utilisant la commande suivante :
install.packages("randomForest")
Ensuite, chargez le package :
library(randomForest)
Exemple concret : Classification des iris
Nous allons utiliser le célèbre jeu de données iris
, qui contient des mesures de différentes espèces de fleurs d’iris. Ce jeu de données comprend quatre caractéristiques (longueur et largeur des sépales et pétales) et une variable cible (l’espèce de l’iris).
Préparation des données
Tout d’abord, examinons les données :
data(iris)
head(iris)
Création du modèle
Nous allons créer un modèle de classification pour prédire l’espèce d’iris en fonction des caractéristiques. Voici comment procéder :
# Création du modèle randomForest
set.seed(42) # Pour la reproductibilité
model_rf <- randomForest(Species ~ ., data = iris, importance = TRUE, ntree = 100)
# Affichage des résultats du modèle
print(model_rf)
Dans ce code, nous utilisons la formule Species ~ .
, qui signifie que nous voulons prédire Species
en utilisant toutes les autres colonnes du jeu de données. Le paramètre ntree
spécifie le nombre d’arbres à construire (ici, 100).
Évaluation du modèle
Nous pouvons évaluer la performance du modèle en utilisant la matrice de confusion :
# Prédictions sur les données d'entraînement
predictions <- predict(model_rf, iris)
# Matrice de confusion
confusion_matrix <- table(predictions, iris$Species)
print(confusion_matrix)
La matrice de confusion nous permet de voir combien de prédictions étaient correctes et incorrectes pour chaque espèce.
Importance des variables
Le package randomForest
permet également d’évaluer l’importance des variables dans le modèle :
# Importance des variables
importance(model_rf)
varImpPlot(model_rf)
Cela nous montre quelles caractéristiques ont le plus contribué à la prédiction de l’espèce d’iris.
Conclusion
Le package randomForest
est un outil efficace pour construire des modèles d’arbres de décision en R. Dans cet article, nous avons vu comment créer un modèle de classification avec le jeu de données iris
, évaluer sa performance et examiner l’importance des variables. Cette méthode est particulièrement utile pour des problèmes de classification complexes où plusieurs caractéristiques sont impliquées. N’hésitez pas à explorer d’autres jeux de données et à ajuster les paramètres pour améliorer vos modèles !