L'article discute de la mise en place d'un système de surveillance efficace qui aide les équipes à mieux dormir la nuit sans avoir besoin de tableaux de bord complexes. L'auteure aborde le problème de la fatigue des alertes, où un trop grand nombre d'alertes, souvent fausses, conduit à ignorer les vraies urgences. Elle propose une règle simple : se concentrer sur trois types d'alertes principaux : les pannes, les ralentissements et les pics d'erreurs. L'article recommande de commencer avec des signaux clés comme la latence et le taux d'erreurs, et de concevoir des tableaux de bord simples et lisibles, avec des indicateurs visuels clairs. Il souligne également l'importance de logs utiles et de vérifications de santé efficaces. Enfin, l'auteure suggère d'utiliser des outils simples et de concevoir les alertes en pensant à l'expérience humaine, en les rendant actionnables et informatives.
25560 shaares