Aller au contenu
DevOps
Blog
DevOps10 min

SRE vs DevOps : quel modèle pour votre organisation ?

Mattia Eleuteri4 décembre 2025

Nous entendons souvent : "Sommes-nous une équipe DevOps ou SRE ?" La réponse : ça dépend de votre maturité, votre taille, et vos priorités. Et souvent, vous commencez par DevOps et migrez progressivement vers SRE.

Comprendre la différence est critique pour structurer vos équipes à bon escient.

DevOps : la philosophie

DevOps est une culture et un ensemble de pratiques qui rapproche dev et ops.

Objectif : réduire la friction entre développement et production, en donnant aux devs plus de responsabilité opérationnelle.

Caractéristiques :

  • Devs et ops travaillent dans une même équipe
  • Déploiements fréquents (plusieurs fois par jour)
  • Automatisation de l'infra (Infrastructure as Code)
  • Propriété partagée : "You build it, you run it"
  • Feedback rapide (logs, métriques centralisées)

Exemple : Une équipe de 8 personnes (6 devs + 2 profils ops) gère une application de bout en bout : code, CI/CD, déploiement, support production.

Avantages DevOps

  • Vélocité : les devs poussent directement en production, pas d'attente ops
  • Responsabilisation : les devs se sentent responsables du code en production
  • Rentabilité : une équipe, zéro passage de relais

Inconvénients DevOps

  • À partir d'une certaine échelle (> 100 services), c'est difficile à gérer
  • Les devs se noient dans l'ops et ne font plus de code métier
  • Manque de standardisation (chaque équipe a ses patterns)

SRE : la discipline

SRE = Site Reliability Engineering. C'est une discipline qui applique le génie logiciel à l'exploitation.

Objectif : rendre la production aussi fiable que possible, sans laisser les devs gérer tous les détails opérationnels.

Caractéristiques :

  • Équipe SRE séparée des devs (mais étroitement liée)
  • SLOs explicites ("99,95 % de disponibilité")
  • Error budgets (si on dépasse, on ralentit les déploiements)
  • Automatisation de la fiabilité (pas juste la rédaction de runbooks manuels)
  • Obsession pour la réduction du toil (éliminer les tâches répétitives)

Exemple : Une équipe platform SRE (10-15 personnes) maintient la plateforme Kubernetes partagée. Chaque équipe produit déploie via GitOps, mais ne gère pas les incidents critiques.

Avantages SRE

  • Standardisation : patterns uniformes, moins de variabilité
  • Expertise : les SRE se concentrent sur la fiabilité, pas dilués dans le code métier
  • Passage à l'échelle : une équipe SRE peut supporter 50+ services
  • Gestion des incidents : discipline rigoureuse, post-mortems systématiques

Inconvénients SRE

  • Coût supérieur (équipe dédiée)
  • Risque de silos : "ce n'est pas mon problème, c'est SRE"
  • Surcharge de processus (définition des SLOs, suivi des error budgets)

Les métriques DORA : comment mesurer ?

Avant de choisir, mesurez où vous en êtes actuellement. Les métriques DORA (définies par Google, popularisées par le livre "Accelerate") sont le standard :

Métrique Description Bon Excellent
Fréquence de déploiement Combien de fois déployez-vous par jour 1-3 par semaine 1+ par jour
Délai de mise en production Du code à la production 1-4 mois < 1 jour
Taux d'échec des changements % des déploiements qui causent des incidents 15-30 % < 15 %
MTTR Temps pour se remettre d'un incident 1-6 heures < 1 heure
# Mesurer vos métriques DORA

# 1. Deployment Frequency : nombre de merges/semaine
git log --oneline --since="7 days ago" | wc -l

# 2. Lead Time : temps moyen entre commit et deploy
# (nécessite tagging ou CI logs)

# 3. Change Failure Rate : nombre de incidents / nombre de deployments
# (d'un incident tracking system)

# 4. MTTR : durée moyenne des incidents
# (d'un incident tracking system)

Si vous mesurez :

  • Fréquence de déploiement < 1/semaine -> DevOps en place mais pas mature, ou SRE non mature
  • Taux d'échec des changements > 30 % -> Problèmes de tests/stabilité

SLO, SLI, SLA : les briques du SRE

SLI : Service Level Indicator

C'est une métrique mesurée : "Quel pourcentage des requêtes répondent en < 100ms ?"

SLI = (nombre de requêtes complétées en < 100ms) / (nombre total de requêtes)

Exemples :

  • Latence : % des requêtes répondant en < X ms
  • Disponibilité : % du temps où le service est en ligne
  • Taux d'erreur : % des requêtes réussies
  • Débit : requêtes par seconde supportées

SLO : Service Level Objective

C'est la cible : "Nous visons 99,5 % de disponibilité."

SLO = cible pour le SLI

SLA : Service Level Agreement

C'est le contrat : "Nous garantissons 99,9 % ou vous êtes remboursé."

SLA >= SLO (on promet moins que ce qu'on peut faire)

Error Budget

Si votre SLO est de 99,9 % (~43 min de downtime autorisé par mois), vous avez un error budget d'environ 43 minutes.

Error Budget = (1 - SLO) × durée de la période
             = (1 - 0.999) × 43 200 min
             = 43,2 min par mois

Utilisation :

  • Si vous avez 20 min de downtime ce mois, il vous reste 23 min
  • Si vous les épuisez, les déploiements sont ralentis (revue de code, tests additionnels)
  • Cela crée une tension saine entre vélocité et fiabilité
# Exemple Prometheus SLO definition
apiVersion: v1
kind: ConfigMap
metadata:
  name: slo-config
data:
  slo.yaml: |
    apiVersion: v1
    kind: SLOGroup
    metadata:
      name: api-service
    spec:
      serviceName: "api"
      slos:
      - name: "availability"
        description: "% of successful requests"
        target: 0.999
        indicator:
          latencyThreshold: 100ms
      - name: "latency"
        description: "% of requests under 100ms"
        target: 0.95
        indicator:
          latencyThreshold: 100ms

Le choix : DevOps vs SRE -- framework de décision

Pour faciliter la décision, voici un framework comparatif concret qui résume les dimensions clés :

Dimension DevOps SRE Hybride
Taille équipe < 30 personnes > 50 personnes 30-200+ personnes
Nombre de services < 20 > 50 20-100
SLA cible 99,0-99,5 % 99,9 %+ Variable par service
Astreinte Rotation dev (chaque squad) Équipe SRE dédiée SRE pour P1, devs pour P2-P3
Gestion des incidents Ad hoc, post-mortem optionnel Processus formel, post-mortem obligatoire Formel pour services critiques
Responsabilité de l'outillage Chaque équipe choisit L'équipe plateforme standardise Standards + exceptions justifiées
Error budgets Rarement utilisés Au coeur du modèle Pour les services Tier 1 uniquement
Coût annuel du modèle CHF 0 (intégré aux squads) CHF 200-400k (équipe dédiée) CHF 150-250k (équipe réduite)
Délai de mise en oeuvre 1-3 mois 6-12 mois 3-6 mois
Risque principal Burnout dev, manque de standards Silos, surcharge de processus Frontières floues entre rôles

Ce framework permet de positionner votre organisation objectivement. La plupart des entreprises suisses que nous accompagnons se situent dans la zone hybride : assez grandes pour avoir besoin de standards, mais pas assez pour justifier une équipe SRE de 20 personnes.

Choisir DevOps si :

  • < 20 services
  • Équipes < 10 personnes
  • Tolérance aux incidents modérée (95-99 % acceptable)
  • Vélocité > Stabilité
  • Peu de dépendances inter-équipes

Choisir SRE si :

  • 50 services

  • Équipes > 50 personnes
  • Disponibilité critique (99,9 %+)
  • Stabilité >= Vélocité
  • Services interdépendants (A -> B -> C)
  • Compliance stricte (SLA Tier 1 externe)

Choisir hybride si (cas le plus courant) :

  • Vous avez actuellement un modèle DevOps
  • Vous avancez vers une maturité SRE
  • Certaines équipes sont proches du code (DevOps), d'autres focalisées sur l'infra (SRE)

Recommandation pour les organisations de 500+ personnes : Hybride. Une équipe platform SRE (10-20 personnes) maintient l'infra partagée, mais chaque squad produit reste en mode DevOps pour son service.

Architecture recommandée pour 500+ collaborateurs

┌─────────────────────────────────────────┐
│ Équipe Platform SRE (15 personnes)      │
│ - Infrastructure Kubernetes             │
│ - Fiabilité des bases de données        │
│ - Stack d'observabilité                 │
│ - Responsable d'incident                │
└─────────────────────────────────────────┘
           ↓
┌──────────────────────┬──────────────────────┬──────────────────────┐
│ Squad A (8 devs)     │ Squad B (10 devs)    │ Squad C (6 devs)     │
│ Modèle DevOps :      │ Modèle DevOps :      │ Modèle DevOps :      │
│ - Propre code        │ - Propre code        │ - Propre code        │
│ - Déploiement GitOps │ - Déploiement GitOps │ - Déploiement GitOps │
│ - Support SLA par    │ - Support SLA par    │ - Support SLA par    │
│   Platform SRE       │   Platform SRE       │   Platform SRE       │
└──────────────────────┴──────────────────────┴──────────────────────┘

Éléments partagés maintenus par Platform SRE :

  • Cluster Kubernetes
  • Monitoring/alerting (Prometheus/Grafana)
  • Logging (ELK, Splunk)
  • Gestion des incidents
  • Rotation d'astreinte pour P1/P2
  • Disaster recovery
  • Capacity planning

Éléments possédés par chaque Squad :

  • Code source
  • Déploiements (GitOps/ArgoCD)
  • Développement de fonctionnalités
  • Tests unitaires/intégration
  • Backlog

Interface :

  • Les squads utilisent Platform SRE via Slack/runbooks
  • Platform SRE escalade lors des incidents critiques
  • Réunion d'alignement hebdomadaire
  • SLOs et error budgets partagés

Métriques de succès

Après 6 mois d'implémentation SRE, vous devriez voir :

Fréquence de déploiement : 1/jour → 2-3/jour
Délai de mise en production : 3 semaines → 3 jours
Taux d'échec des changements : 25 % → 10-15 %
MTTR : 2 heures → 30 min
Toil : 50 % ops → 20 % ops
Satisfaction des développeurs : +30 %

Conclusion

DevOps et SRE ne s'opposent pas. SRE est une évolution de DevOps avec plus de discipline et d'échelle.

À retenir :

  • Commencez par DevOps (plus simple, plus rapide)
  • À partir d'une certaine complexité, migrez vers SRE
  • Pour 500+ personnes, l'hybride est le point d'équilibre idéal
  • Mesurez avec les métriques DORA, définissez des SLOs explicites
  • Les error budgets créent une tension saine entre vélocité et fiabilité

Hidora aide les organisations à structurer leurs équipes selon ce modèle et à implémenter les pratiques SRE/DevOps correctement.


À lire aussi :


Cet article vous a été utile ? Découvrez comment Hidora peut vous accompagner : Professional Services · Managed Services · SLA Expert

Mattia Eleuteri
Mattia Eleuteri

Responsable Produit Cloud

Responsable Produit Cloud chez Hidora. Spécialiste Kubernetes, IaC et observabilité.

CKACKSElastic Certified

Cet article vous parle ?

Hidora peut vous accompagner sur ce sujet.

Besoin d'un accompagnement ?

Parlons de votre projet. 30 minutes, sans engagement.