Chaos engineering
Progression
#Chaos engineering
On teste la résilience en provoquant des pannes contrôlées: coupures réseau, latences injectées, nœuds arrêtés. Le but n’est pas de « casser » pour le plaisir, mais de valider des hypothèses et d’améliorer les mécanismes d’auto‑réparation. Les expériences commencent petites, avec un périmètre limité et des critères de succès clairs.
Les « game days » impliquent l’équipe entière. On mesure l’impact sur les SLO, on documente les leçons et on alimente une liste d’actions. Avec le temps, on automatise les expériences les plus courantes pour éviter les régressions.
#Animation: boucle d’une expérience
Hypothèse
Énoncer le comportement attendu
Expérience
Scénario, blast radius, abort
Exécuter
Injection contrôlée, observabilité
Analyser
Comparer au SLO ; écarts
Agir
Correctifs et re‑tests
#Exemples d’expériences
1
Latence DB
Ajouter 200 ms et observer l’API
2
Perte réseau
Drop 10% des paquets entre deux services
3
Redémarrage nœud
Kill 1 pod/VM ; vérifier rééquilibrage