Quelle est la différence entre SRE et DevOps ?

DevOps est une culture qui rapproche développement et opérations, basée sur l'automatisation, la propriété partagée et les déploiements fréquents. SRE (Site Reliability Engineering) est une implémentation concrète de cette culture, formalisée par Google : des ingénieurs (les SRE) appliquent des pratiques d'ingénierie logicielle pour résoudre les problèmes d'exploitation, avec des SLO/SLI quantifiés et des error budgets. En résumé : DevOps répond au 'pourquoi et comment culturel', SRE répond au 'comment mesurable et opérationnel'.

Quand passer d'un modèle DevOps à un modèle SRE ?

La transition SRE devient pertinente au-delà de 500 collaborateurs ou quand vous avez plusieurs équipes produit en parallèle qui consomment la même plateforme. Trois signaux concrets déclenchent le passage : (1) le coût des incidents devient un sujet de comité de direction, (2) les déploiements se ralentissent par peur de la production, (3) vous avez besoin de comparer la fiabilité de plusieurs services. En dessous de 500 collaborateurs, une équipe DevOps avec quelques pratiques SRE (SLO, post-mortem blameless) suffit généralement.

Qu'est-ce qu'un error budget en SRE ?

Un error budget est le complément mathématique de votre SLO. Si votre SLO de disponibilité est 99,9%, votre error budget est 0,1%, soit environ 43 minutes de downtime autorisées par mois. Tant que vous êtes dans le budget, l'équipe produit peut prendre des risques (déploiements rapides, nouvelles features). Si vous le dépassez, les déploiements ralentissent et la priorité passe à la fiabilité. C'est l'arbitrage objectif entre vélocité et stabilité, qui remplace les discussions subjectives entre dev et ops.

SRE vs DevOps : quel modèle pour votre organisation ?

Nous entendons souvent : "Sommes-nous une équipe DevOps ou SRE ?" La réponse : ça dépend de votre maturité, votre taille, et vos priorités. Et souvent, vous commencez par DevOps et migrez progressivement vers SRE.

Comprendre la différence est critique pour structurer vos équipes à bon escient.

DevOps : la philosophie

DevOps est une culture et un ensemble de pratiques qui rapproche dev et ops.

Objectif : réduire la friction entre développement et production, en donnant aux devs plus de responsabilité opérationnelle.

Caractéristiques :

Devs et ops travaillent dans une même équipe
Déploiements fréquents (plusieurs fois par jour)
Automatisation de l'infra (Infrastructure as Code)
Propriété partagée : "You build it, you run it"
Feedback rapide (logs, métriques centralisées)

Exemple : Une équipe de 8 personnes (6 devs + 2 profils ops) gère une application de bout en bout : code, CI/CD, déploiement, support production.

Avantages DevOps

Vélocité : les devs poussent directement en production, pas d'attente ops
Responsabilisation : les devs se sentent responsables du code en production
Rentabilité : une équipe, zéro passage de relais

Inconvénients DevOps

À partir d'une certaine échelle (> 100 services), c'est difficile à gérer
Les devs se noient dans l'ops et ne font plus de code métier
Manque de standardisation (chaque équipe a ses patterns)

SRE : la discipline

SRE = Site Reliability Engineering. C'est une discipline qui applique le génie logiciel à l'exploitation.

Objectif : rendre la production aussi fiable que possible, sans laisser les devs gérer tous les détails opérationnels.

Caractéristiques :

Équipe SRE séparée des devs (mais étroitement liée)
SLOs explicites ("99,95 % de disponibilité")
Error budgets (si on dépasse, on ralentit les déploiements)
Automatisation de la fiabilité (pas juste la rédaction de runbooks manuels)
Obsession pour la réduction du toil (éliminer les tâches répétitives)

Exemple : Une équipe platform SRE (10-15 personnes) maintient la plateforme Kubernetes partagée. Chaque équipe produit déploie via GitOps, mais ne gère pas les incidents critiques.

Avantages SRE

Standardisation : patterns uniformes, moins de variabilité
Expertise : les SRE se concentrent sur la fiabilité, pas dilués dans le code métier
Passage à l'échelle : une équipe SRE peut supporter 50+ services
Gestion des incidents : discipline rigoureuse, post-mortems systématiques

Inconvénients SRE

Coût supérieur (équipe dédiée)
Risque de silos : "ce n'est pas mon problème, c'est SRE"
Surcharge de processus (définition des SLOs, suivi des error budgets)

Les métriques DORA : comment mesurer ?

Avant de choisir, mesurez où vous en êtes actuellement. Les métriques DORA (définies par Google, popularisées par le livre "Accelerate") sont le standard :

Métrique	Description	Bon	Excellent
Fréquence de déploiement	Combien de fois déployez-vous par jour	1-3 par semaine	1+ par jour
Délai de mise en production	Du code à la production	1-4 mois	< 1 jour
Taux d'échec des changements	% des déploiements qui causent des incidents	15-30 %	< 15 %
MTTR	Temps pour se remettre d'un incident	1-6 heures	< 1 heure

# Mesurer vos métriques DORA

# 1. Deployment Frequency : nombre de merges/semaine
git log --oneline --since="7 days ago" | wc -l

# 2. Lead Time : temps moyen entre commit et deploy
# (nécessite tagging ou CI logs)

# 3. Change Failure Rate : nombre de incidents / nombre de deployments
# (d'un incident tracking system)

# 4. MTTR : durée moyenne des incidents
# (d'un incident tracking system)

Si vous mesurez :

Fréquence de déploiement < 1/semaine -> DevOps en place mais pas mature, ou SRE non mature
Taux d'échec des changements > 30 % -> Problèmes de tests/stabilité

SLO, SLI, SLA : les briques du SRE

SLI : Service Level Indicator

C'est une métrique mesurée : "Quel pourcentage des requêtes répondent en < 100ms ?"

SLI = (nombre de requêtes complétées en < 100ms) / (nombre total de requêtes)

Exemples :

Latence : % des requêtes répondant en < X ms
Disponibilité : % du temps où le service est en ligne
Taux d'erreur : % des requêtes réussies
Débit : requêtes par seconde supportées

SLO : Service Level Objective

C'est la cible : "Nous visons 99,5 % de disponibilité."

SLO = cible pour le SLI

SLA : Service Level Agreement

C'est le contrat : "Nous garantissons 99,9 % ou vous êtes remboursé."

SLA >= SLO (on promet moins que ce qu'on peut faire)

Error Budget

Si votre SLO est de 99,9 % (~43 min de downtime autorisé par mois), vous avez un error budget d'environ 43 minutes.

Error Budget = (1 - SLO) × durée de la période
             = (1 - 0.999) × 43 200 min
             = 43,2 min par mois

Utilisation :

Si vous avez 20 min de downtime ce mois, il vous reste 23 min
Si vous les épuisez, les déploiements sont ralentis (revue de code, tests additionnels)
Cela crée une tension saine entre vélocité et fiabilité

# Exemple Prometheus SLO definition
apiVersion: v1
kind: ConfigMap
metadata:
  name: slo-config
data:
  slo.yaml: |
    apiVersion: v1
    kind: SLOGroup
    metadata:
      name: api-service
    spec:
      serviceName: "api"
      slos:
      - name: "availability"
        description: "% of successful requests"
        target: 0.999
        indicator:
          latencyThreshold: 100ms
      - name: "latency"
        description: "% of requests under 100ms"
        target: 0.95
        indicator:
          latencyThreshold: 100ms

Le choix : DevOps vs SRE -- framework de décision

Pour faciliter la décision, voici un framework comparatif concret qui résume les dimensions clés :

Dimension	DevOps	SRE	Hybride
Taille équipe	< 30 personnes	> 50 personnes	30-200+ personnes
Nombre de services	< 20	> 50	20-100
SLA cible	99,0-99,5 %	99,9 %+	Variable par service
Astreinte	Rotation dev (chaque squad)	Équipe SRE dédiée	SRE pour P1, devs pour P2-P3
Gestion des incidents	Ad hoc, post-mortem optionnel	Processus formel, post-mortem obligatoire	Formel pour services critiques
Responsabilité de l'outillage	Chaque équipe choisit	L'équipe plateforme standardise	Standards + exceptions justifiées
Error budgets	Rarement utilisés	Au coeur du modèle	Pour les services Tier 1 uniquement
Coût annuel du modèle	Aucun surcoût (intégré aux squads)	Élevé (équipe dédiée)	Modéré (équipe réduite)
Délai de mise en oeuvre	1-3 mois	6-12 mois	3-6 mois
Risque principal	Burnout dev, manque de standards	Silos, surcharge de processus	Frontières floues entre rôles

Ce framework permet de positionner votre organisation objectivement. La plupart des entreprises suisses que nous accompagnons se situent dans la zone hybride : assez grandes pour avoir besoin de standards, mais pas assez pour justifier une équipe SRE de 20 personnes.

Choisir DevOps si :

< 20 services
Équipes < 10 personnes
Tolérance aux incidents modérée (95-99 % acceptable)
Vélocité > Stabilité
Peu de dépendances inter-équipes

Choisir SRE si :

50 services
Équipes > 50 personnes
Disponibilité critique (99,9 %+)
Stabilité >= Vélocité
Services interdépendants (A -> B -> C)
Compliance stricte (SLA Tier 1 externe)

Choisir hybride si (cas le plus courant) :

Vous avez actuellement un modèle DevOps
Vous avancez vers une maturité SRE
Certaines équipes sont proches du code (DevOps), d'autres focalisées sur l'infra (SRE)

Recommandation pour les organisations de 500+ personnes : Hybride. Une équipe platform SRE (10-20 personnes) maintient l'infra partagée, mais chaque squad produit reste en mode DevOps pour son service.

Architecture recommandée pour 500+ collaborateurs

┌─────────────────────────────────────────┐
│ Équipe Platform SRE (15 personnes)      │
│ - Infrastructure Kubernetes             │
│ - Fiabilité des bases de données        │
│ - Stack d'observabilité                 │
│ - Responsable d'incident                │
└─────────────────────────────────────────┘
           ↓
┌──────────────────────┬──────────────────────┬──────────────────────┐
│ Squad A (8 devs)     │ Squad B (10 devs)    │ Squad C (6 devs)     │
│ Modèle DevOps :      │ Modèle DevOps :      │ Modèle DevOps :      │
│ - Propre code        │ - Propre code        │ - Propre code        │
│ - Déploiement GitOps │ - Déploiement GitOps │ - Déploiement GitOps │
│ - Support SLA par    │ - Support SLA par    │ - Support SLA par    │
│   Platform SRE       │   Platform SRE       │   Platform SRE       │
└──────────────────────┴──────────────────────┴──────────────────────┘

Éléments partagés maintenus par Platform SRE :

Cluster Kubernetes
Monitoring/alerting (Prometheus/Grafana)
Logging (ELK, Splunk)
Gestion des incidents
Rotation d'astreinte pour P1/P2
Disaster recovery
Capacity planning

Éléments possédés par chaque Squad :

Code source
Déploiements (GitOps/ArgoCD)
Développement de fonctionnalités
Tests unitaires/intégration
Backlog

Interface :

Les squads utilisent Platform SRE via Slack/runbooks
Platform SRE escalade lors des incidents critiques
Réunion d'alignement hebdomadaire
SLOs et error budgets partagés

Métriques de succès

Après 6 mois d'implémentation SRE, vous devriez voir :

Fréquence de déploiement : 1/jour → 2-3/jour
Délai de mise en production : 3 semaines → 3 jours
Taux d'échec des changements : 25 % → 10-15 %
MTTR : 2 heures → 30 min
Toil : 50 % ops → 20 % ops
Satisfaction des développeurs : +30 %

Conclusion

DevOps et SRE ne s'opposent pas. SRE est une évolution de DevOps avec plus de discipline et d'échelle.

À retenir :

Commencez par DevOps (plus simple, plus rapide)
À partir d'une certaine complexité, migrez vers SRE
Pour 500+ personnes, l'hybride est le point d'équilibre idéal
Mesurez avec les métriques DORA, définissez des SLOs explicites
Les error budgets créent une tension saine entre vélocité et fiabilité

Hidora aide les organisations à structurer leurs équipes selon ce modèle et à implémenter les pratiques SRE/DevOps correctement.

À lire aussi :

Cet article vous a été utile ? Découvrez comment Hidora peut vous accompagner : Professional Services · Managed Services · SLA Expert