Modèles statistiques
Progression
#Modèles statistiques et apprentissage supervisé
R brille lorsqu’il s’agit d’ajuster un modèle, de l’évaluer et de l’expliquer. Ce chapitre présente deux niveaux d’outillage : la simplicité de lm
/glm
pour les modèles classiques, puis la flexibilité du métapackage tidymodels
pour gérer des workflows complets.
#1. Modèle linéaire et diagnostics
1modele <- lm(note ~ heures_revision + filiere, data = notes)2summary(modele)
Nous analysons la sortie : coefficients, erreurs standard, R². Les diagnostics (broom::augment
) permettent d’inspecter les résidus, de vérifier l’homoscédasticité et de repérer les points influents (influence.measures
). Nous construisons des graphiques ciblés (ggplot2
) pour visualiser ces résidus.
#2. Pipelines avec tidymodels
Pour des workflows plus complexes, tidymodels
harmonise l’ensemble du processus : division entraînement/test (initial_split
), préparation des données (recipes
), choix du modèle (parsnip
), évaluation (yardstick
) et tuning (tune
).
1library(tidymodels)2set.seed(123)3 4split <- initial_split(notes, prop = 0.8, strata = reussite)5train <- training(split)6test <- testing(split)7 8recette <- recipe(reussite ~ ., data = train) |>9 step_dummy(all_nominal_predictors()) |>10 step_normalize(all_numeric_predictors())11 12modele <- logistic_reg() |> set_engine("glm")13workflow <- workflow() |> add_recipe(recette) |> add_model(modele)14fit <- fit(workflow, data = train)
#Atelier
- Ajoutez une validation croisée (
vfold_cv
) et comparez logistic regression, arbre de décision et forêt aléatoire viatune_grid
. - Évaluez les modèles avec une matrice de confusion (
conf_mat
) et tracez la courbe ROC (roc_curve
). - Documentez vos conclusions dans un rapport Quarto en expliquant le choix final du modèle et ses limites.