Modèles statistiques
Progression
#Modèles statistiques et apprentissage supervisé
R brille lorsqu’il s’agit d’ajuster un modèle, de l’évaluer et de l’expliquer. Ce chapitre présente deux niveaux d’outillage : la simplicité de lm/glm pour les modèles classiques, puis la flexibilité du métapackage tidymodels pour gérer des workflows complets.
#1. Modèle linéaire et diagnostics
1modele <- lm(note ~ heures_revision + filiere, data = notes)2summary(modele)Nous analysons la sortie : coefficients, erreurs standard, R². Les diagnostics (broom::augment) permettent d’inspecter les résidus, de vérifier l’homoscédasticité et de repérer les points influents (influence.measures). Nous construisons des graphiques ciblés (ggplot2) pour visualiser ces résidus.
#2. Pipelines avec tidymodels
Pour des workflows plus complexes, tidymodels harmonise l’ensemble du processus : division entraînement/test (initial_split), préparation des données (recipes), choix du modèle (parsnip), évaluation (yardstick) et tuning (tune).
1library(tidymodels)2set.seed(123)3 4split <- initial_split(notes, prop = 0.8, strata = reussite)5train <- training(split)6test <- testing(split)7 8recette <- recipe(reussite ~ ., data = train) |>9 step_dummy(all_nominal_predictors()) |>10 step_normalize(all_numeric_predictors())11 12modele <- logistic_reg() |> set_engine("glm")13workflow <- workflow() |> add_recipe(recette) |> add_model(modele)14fit <- fit(workflow, data = train)#Atelier
- Ajoutez une validation croisée (
vfold_cv) et comparez logistic regression, arbre de décision et forêt aléatoire viatune_grid. - Évaluez les modèles avec une matrice de confusion (
conf_mat) et tracez la courbe ROC (roc_curve). - Documentez vos conclusions dans un rapport Quarto en expliquant le choix final du modèle et ses limites.