L'article explique comment utiliser Uptime Kuma, un outil de surveillance auto-hébergé, pour surveiller l'état de plusieurs Freebox à distance. L'auteur décrit la configuration nécessaire, incluant l'activation de l'accès à distance et la réponse au ping sur les Freebox, ainsi que l'utilisation de noms de domaine personnalisés fournis par Free. Uptime Kuma envoie des alertes par SMS via l'API de Freemobile en cas de détection de panne, permettant ainsi à l'auteur de vérifier et de diagnostiquer rapidement les problèmes de connexion Internet pour les membres de sa famille.
L'article discute de la mise en place d'un système de surveillance efficace qui aide les équipes à mieux dormir la nuit sans avoir besoin de tableaux de bord complexes. L'auteure aborde le problème de la fatigue des alertes, où un trop grand nombre d'alertes, souvent fausses, conduit à ignorer les vraies urgences. Elle propose une règle simple : se concentrer sur trois types d'alertes principaux : les pannes, les ralentissements et les pics d'erreurs. L'article recommande de commencer avec des signaux clés comme la latence et le taux d'erreurs, et de concevoir des tableaux de bord simples et lisibles, avec des indicateurs visuels clairs. Il souligne également l'importance de logs utiles et de vérifications de santé efficaces. Enfin, l'auteure suggère d'utiliser des outils simples et de concevoir les alertes en pensant à l'expérience humaine, en les rendant actionnables et informatives.
L'article critique deux pratiques courantes dans le domaine du monitoring : le sampling des données et l'utilisation de S3 comme solution de stockage principale. Le sampling, bien que présenté comme une solution économique, peut entraîner une perte de granularité cruciale, rendant invisibles des problèmes intermittents et compliquant le débogage. De plus, l'utilisation de S3, bien que durable et économique, introduit des latences importantes et des coûts cachés, rendant les opérations de monitoring inefficaces et coûteuses en situation de crise. L'auteur souligne que ces pratiques peuvent transformer le monitoring en un processus inefficace, avec des conséquences graves lors d'incidents majeurs. Il recommande d'investir dans des solutions de monitoring adaptées pour éviter ces pièges et garantir une visibilité opérationnelle complète.
L'article présente 5 scripts Bash dont on peut s'inspirer pour construire les nôtres.
- Création d'un backup
- Surveillance du CPU, de la mémoire et de l'espace disque disponible avec alerte en cas de besoin
- Audit de sécurité rapide
- Vérification rapide de la réponse des sites
- Partitionnement de disque dur
Tout est dans le titre
Tout est dans le titre
Tout est dans le titre
Tout est dans le titre
Tout est dans le titre
Il s'agit d'un outil de monitoring (collecte de métriques, de logs et de traces), concurrent et compatible avec Prometheus
Un outil de tracking d'erreurs en temps réel
Tout est dans le titre
Un dashboard de monitoring / statut pour les sites web - léger et pouvant encaisser de fortes charges (outil développé en interne pour Framasoft)
Tout est dans le titre
Tout est dans le titre
Thanos permet de collecter des métriques Prometheus sur le long terme (suite de https://enix.io/fr/blog/prometheus-thanos/ )
Tout est dans le titre
Il y a des astuces génériques, des astuces pour Doctrine, des astuces pour la génération / lecture de fichiers, et des astuces sur le monitoring... Bref il y a de quoi faire !
avec une installation / configuration automatisée par Ansible