Aller au contenu principal

TP — Pipeline ML reproductible

Progression

#TP guidé — Pipeline ML reproductible

L’objectif est de construire un pipeline simple mais honnête sur un jeu de données synthétique. On sépare strictement entraînement, validation et test; on apprend les transformations sur l’entraînement uniquement, puis on applique ces étapes aux autres jeux. On évalue avec des métriques adaptées et on consigne chaque choix pour qu’il soit reproductible.

Commencez par définir une préparation minimale: gestion des valeurs manquantes, encodage des catégories et normalisation si la famille de modèles y est sensible. Ajoutez ensuite un modèle de base et mesurez une première performance pour disposer d’un repère. Ajustez les hyperparamètres par validation croisée et figez la configuration choisie avant d’estimer la performance finale sur le test. Terminez par une courte analyse d’erreurs pour comprendre les cas les plus difficiles.