L'article explique les concepts clés du Site Reliability Engineering (SRE) tels que les SLO (Service Level Objectives), SLI (Service Level Indicators), et Error Budget, introduits par Google. Il souligne l'importance de distinguer les SLA (Service Level Agreements), qui sont des contrats avec des pénalités financières, des SLO, qui sont des objectifs internes pour la fiabilité des services. L'article met l'accent sur l'identification des Critical User Journeys (CUJ), qui sont les parcours utilisateurs critiques pour le succès d'un service. Les SLI sont utilisés pour mesurer la performance de ces parcours, tandis que les SLO définissent des objectifs réalistes pour ces mesures. Enfin, l'Error Budget est présenté comme un outil pour gérer la fiabilité des services, permettant aux équipes de prendre des risques calculés tant que les objectifs de fiabilité sont respectés.
Tout est dans le titre
Tout est dans le titre
Tout est dans le titre
Tout est dans le titre
Tout est dans le titre
Je cite l'auteur "You're only as available as the sum of your dependencies." il s'agit d'un article détaillé sur les pratiques SRE en usage chez Google (à l'époque au moins, soit 2017)
Les slides des conférences données par Zwindler :
1- SREs ! SREs partout !
2- Du code Terraform vraiment factorisé avec Terragrunt
3- Ciel ! Mon Kubernetes mine des Bitcoins
4- 101 ways to break your RabbitMQ cluster
5- Le (logiciel) libre a-t-il de beaux jours devant lui ?
6- Besoin de métriques Prometheus à long terme ? Thanos fera des Marvels !
7- Dans ton Kube : retour sur 2 ans d’incidents en production
8- Ami développeur, deviens un Ops sans effort avec Ansible
Tout est dans le titre
Tout est dans le titre
SRE = Site Reliability Engineering
L'article explique bien ce qu'il y a à savoir :)
SRE = Site Reliability Engineering
L'auteur explique ce que signifie "culture Devops" et quels liens il peut y avoir entre cette culture et le SRE