Utiliser randomForest pour des modèles d’arbres en R

Le package randomForest en R est un outil puissant pour construire des modèles d’arbres de décision. Il utilise une méthode d’ensemble qui combine plusieurs arbres pour améliorer la précision et réduire le risque de surapprentissage. Dans cet article, nous allons explorer comment utiliser randomForest pour créer un modèle de classification simple.

Installation et chargement du package

Avant de commencer, assurez-vous d’avoir installé le package randomForest. Vous pouvez l’installer en utilisant la commande suivante :

install.packages("randomForest")

Ensuite, chargez le package :

library(randomForest)

Exemple concret : Classification des iris

Nous allons utiliser le célèbre jeu de données iris, qui contient des mesures de différentes espèces de fleurs d’iris. Ce jeu de données comprend quatre caractéristiques (longueur et largeur des sépales et pétales) et une variable cible (l’espèce de l’iris).

Préparation des données

Tout d’abord, examinons les données :

data(iris)
head(iris)

Création du modèle

Nous allons créer un modèle de classification pour prédire l’espèce d’iris en fonction des caractéristiques. Voici comment procéder :

# Création du modèle randomForest
set.seed(42)  # Pour la reproductibilité
model_rf <- randomForest(Species ~ ., data = iris, importance = TRUE, ntree = 100)

# Affichage des résultats du modèle
print(model_rf)

Dans ce code, nous utilisons la formule Species ~ ., qui signifie que nous voulons prédire Species en utilisant toutes les autres colonnes du jeu de données. Le paramètre ntree spécifie le nombre d’arbres à construire (ici, 100).

Évaluation du modèle

Nous pouvons évaluer la performance du modèle en utilisant la matrice de confusion :

# Prédictions sur les données d'entraînement
predictions <- predict(model_rf, iris)

# Matrice de confusion
confusion_matrix <- table(predictions, iris$Species)
print(confusion_matrix)

La matrice de confusion nous permet de voir combien de prédictions étaient correctes et incorrectes pour chaque espèce.

Importance des variables

Le package randomForest permet également d’évaluer l’importance des variables dans le modèle :

# Importance des variables
importance(model_rf)
varImpPlot(model_rf)

Cela nous montre quelles caractéristiques ont le plus contribué à la prédiction de l’espèce d’iris.

Conclusion

Le package randomForest est un outil efficace pour construire des modèles d’arbres de décision en R. Dans cet article, nous avons vu comment créer un modèle de classification avec le jeu de données iris, évaluer sa performance et examiner l’importance des variables. Cette méthode est particulièrement utile pour des problèmes de classification complexes où plusieurs caractéristiques sont impliquées. N’hésitez pas à explorer d’autres jeux de données et à ajuster les paramètres pour améliorer vos modèles !

Les dates de formations à R, éligibles au CPF sont en lignes !

Utiliser randomForest pour des modèles d’arbres