Traitement du langage — intro
Progression
#Traitement du langage — introduction
Le texte brut se transforme en représentations numériques. Les approches classiques vectorisent par sac de mots et TF‑IDF, parfois enrichies par des n‑grammes. Les embeddings apprennent des espaces où la proximité reflète les usages; les transformeurs contextualisent chaque mot par son environnement.
Un pipeline NLP propre garde une séparation nette entre nettoyage, vectorisation et modèle. On mesure avec des métriques adaptées (F1 pour le déséquilibre) et on surveille la dérive de vocabulaire en production. Les étiquettes ambiguës se résolvent par une consigne claire et des revues d’annotation.