Aller au contenu principal

Pipeline et features

Progression

#Pipeline et features

La préparation des données structure le problème. On traite les valeurs manquantes, on encode les catégories, on normalise les échelles si nécessaire et on fabrique des variables pertinentes. Ces étapes doivent être apprises uniquement sur l’entraînement, puis appliquées à la validation et au test pour éviter les fuites. Une fuite survient dès qu’une information du futur influence une transformation sur l’entraînement.

Un pipeline reproductible enchaîne ces transformations avec le modèle; il se versionne comme du code et s’exécute de bout en bout. L’objectif n’est pas la sophistication gratuite, mais la clarté des étapes et des hypothèses. Documenter les décisions d’ingénierie de features et les contraintes métier aide à comprendre pourquoi un modèle fonctionne.