Pipeline et features
Progression
#Pipeline et features
La préparation des données structure le problème. On traite les valeurs manquantes, on encode les catégories, on normalise les échelles si nécessaire et on fabrique des variables pertinentes. Ces étapes doivent être apprises uniquement sur l’entraînement, puis appliquées à la validation et au test pour éviter les fuites. Une fuite survient dès qu’une information du futur influence une transformation sur l’entraînement.
Un pipeline reproductible enchaîne ces transformations avec le modèle; il se versionne comme du code et s’exécute de bout en bout. L’objectif n’est pas la sophistication gratuite, mais la clarté des étapes et des hypothèses. Documenter les décisions d’ingénierie de features et les contraintes métier aide à comprendre pourquoi un modèle fonctionne.