L'auteur partage son expérience et ses réflexions sur l'importance de diversifier ses compétences au cours de sa carrière, plutôt que de se cantonner à une seule spécialité. Il suggère de viser un profil en "N" ou en "M", c'est-à-dire d'acquérir des compétences dans plusieurs domaines. Par exemple, un SRE (Site Reliability Engineer) ayant également une expérience en développement sera plus à même de comprendre les besoins des développeurs et de travailler efficacement avec eux. De plus, cette diversité de compétences permet de mieux détecter les problèmes et de participer activement à la résolution des incidents. L'auteur encourage à changer de poste pour acquérir de nouvelles expériences et compétences, ce qui est enrichissant et valorisant.
L'article explique les concepts clés du Site Reliability Engineering (SRE) tels que les SLO (Service Level Objectives), SLI (Service Level Indicators), et Error Budget, introduits par Google. Il souligne l'importance de distinguer les SLA (Service Level Agreements), qui sont des contrats avec des pénalités financières, des SLO, qui sont des objectifs internes pour la fiabilité des services. L'article met l'accent sur l'identification des Critical User Journeys (CUJ), qui sont les parcours utilisateurs critiques pour le succès d'un service. Les SLI sont utilisés pour mesurer la performance de ces parcours, tandis que les SLO définissent des objectifs réalistes pour ces mesures. Enfin, l'Error Budget est présenté comme un outil pour gérer la fiabilité des services, permettant aux équipes de prendre des risques calculés tant que les objectifs de fiabilité sont respectés.
Tout est dans le titre
Tout est dans le titre
Tout est dans le titre
Tout est dans le titre
Tout est dans le titre
Je cite l'auteur "You're only as available as the sum of your dependencies." il s'agit d'un article détaillé sur les pratiques SRE en usage chez Google (à l'époque au moins, soit 2017)
Les slides des conférences données par Zwindler :
1- SREs ! SREs partout !
2- Du code Terraform vraiment factorisé avec Terragrunt
3- Ciel ! Mon Kubernetes mine des Bitcoins
4- 101 ways to break your RabbitMQ cluster
5- Le (logiciel) libre a-t-il de beaux jours devant lui ?
6- Besoin de métriques Prometheus à long terme ? Thanos fera des Marvels !
7- Dans ton Kube : retour sur 2 ans d’incidents en production
8- Ami développeur, deviens un Ops sans effort avec Ansible
Tout est dans le titre
Tout est dans le titre
SRE = Site Reliability Engineering
L'article explique bien ce qu'il y a à savoir :)
SRE = Site Reliability Engineering
L'auteur explique ce que signifie "culture Devops" et quels liens il peut y avoir entre cette culture et le SRE