Aller au contenu principal

Modèles statistiques

Progression

#Modèles statistiques et apprentissage supervisé

R brille lorsqu’il s’agit d’ajuster un modèle, de l’évaluer et de l’expliquer. Ce chapitre présente deux niveaux d’outillage : la simplicité de lm/glm pour les modèles classiques, puis la flexibilité du métapackage tidymodels pour gérer des workflows complets.

#1. Modèle linéaire et diagnostics

rr
1modele <- lm(note ~ heures_revision + filiere, data = notes)2summary(modele)

Nous analysons la sortie : coefficients, erreurs standard, R². Les diagnostics (broom::augment) permettent d’inspecter les résidus, de vérifier l’homoscédasticité et de repérer les points influents (influence.measures). Nous construisons des graphiques ciblés (ggplot2) pour visualiser ces résidus.

#2. Pipelines avec tidymodels

Pour des workflows plus complexes, tidymodels harmonise l’ensemble du processus : division entraînement/test (initial_split), préparation des données (recipes), choix du modèle (parsnip), évaluation (yardstick) et tuning (tune).

rr
1library(tidymodels)2set.seed(123)3 4split <- initial_split(notes, prop = 0.8, strata = reussite)5train <- training(split)6test <- testing(split)7 8recette <- recipe(reussite ~ ., data = train) |>9  step_dummy(all_nominal_predictors()) |>10  step_normalize(all_numeric_predictors())11 12modele <- logistic_reg() |> set_engine("glm")13workflow <- workflow() |> add_recipe(recette) |> add_model(modele)14fit <- fit(workflow, data = train)

#Atelier

  1. Ajoutez une validation croisée (vfold_cv) et comparez logistic regression, arbre de décision et forêt aléatoire via tune_grid.
  2. Évaluez les modèles avec une matrice de confusion (conf_mat) et tracez la courbe ROC (roc_curve).
  3. Documentez vos conclusions dans un rapport Quarto en expliquant le choix final du modèle et ses limites.