DevOps
Blog
DevOps10 min

Construire une culture DevOps (pas juste acheter des outils)

Matthieu Robin24 juillet 2025

Vous avez investi CHF 100,000 dans des outils DevOps. Terraform. Kubernetes. Prometheus. Grafana. Datadog. PagerDuty. Slack integrations.

Et c'est un disaster.

Votre team continue à faire manual deploys. Incidents durent 4 heures au lieu de 40 minutes. Personne n'utilise le monitoring dashboard (ils checkent Slack pour alerts). Les postmortems sont blame sessions où quelqu'un prend la responsabilité "à faire mieux."

Vous vous rendez compte : les outils ne changent rien si la culture n'est pas là.

DevOps n'est pas une question d'outils. C'est une question de people, process, puis tools dans cet ordre.

L'ordre : People > Process > Tools

Voilà ce que nous voyons chez les companies qui réussissent vs ceux qui réussissent pas :

Les réussis (People-first)

  1. Cultural shift d'abord : Parlez à l'équipe. Qu'est-ce qui est pain? Trop d'on-call? Trop de toil? Manque de ownership?
  2. Processer new : "OK, on va faire les choses différemment. Moins blame, plus automate. Ownership à la team, pas à une person."
  3. Puis outils : Une fois la culture est établie, les outils facilitent. Git flow, Kubernetes pour automation, Prometheus pour observability.

Les échecs (Tools-first)

  1. Outils : "On va installer Kubernetes!"
  2. Assuming culture suivra : "Kubernetes va forcer une meilleure architecture et des meilleurs déploiements."
  3. Surprise : Avec une mauvaise culture, Kubernetes devient juste une overhead supplémentaire. Personne ne l'utilise bien.

Qu'est-ce qu'une bonne culture DevOps

1. Shared ownership

La vraie question : qui est responsible pour la production ?

Mauvaise réponse : "Les DevOps / l'équipe infra."

Bonne réponse : "Le développeur qui écrit le code, l'équipe qui le déploie, et l'équipe infra qui le supporte. Ensemble."

Si une app crash en production, c'est pas "la faute de devops". C'est un failure du système. Le développeur, le devops, et le SRE étaient tous involved.

Culture shift pratique :

  • Les développeurs ont pagers. Ils répondent aux alerts pour leurs services.
  • Les infra engineers ne sont pas "on-call" pour "tout", ils sont les experts qu'on appelle quand c'est complex.
  • Tout le monde a "skin in the game."

2. Blameless postmortems

Pire thing tu peux faire après un incident : blâmer quelqu'un.

"Cette personne a déployé le mauvais code. Elle doit faire attention la prochaine fois."

Ça c'est game over pour la culture. Maintenant :

  • La personne a peur de déployer
  • Personne ne prend de risque
  • Prochaine fois qu'il y a un incident, personne ne le rapporte (ils essaient de fixer en secret)

Blameless postmortem : "Qu'est-ce qui s'est passé?" Au lieu de "Qui a merdé?"

Exemple :

  • Incident : Bad code en production, downtime 30 min
  • Mauvaise retro : "Jean a commit du code cassé. Jean, tu dois faire attention."
  • Bonne retro : "Jean a commit du code cassé et ça a passé tous nos tests. Pourquoi ? 1) Les tests ne couvrent pas ce cas. 2) La review process a manqué ça. 3) Pas d'automated tests en CI. Solutions : improve test coverage, improve review process, automated tests required before deploy. Voilà."

Aucun blame. Juste system improvements.

3. Continuous improvement mindset

"Ah, on avait un incident. Ça a pris 2 heures à fix. Pourquoi ?"

Mauvaise culture : "C'est juste comment ça marche, move on."

Bonne culture : "C'est inacceptable. Qu'est-ce qu'on peut faire pour que c'est 15 minutes next time?" Puis vous :

  • Ajoutez des metrics au monitoring
  • Écrivez un runbook pour ce type d'incident
  • Automatisez la detection
  • Automatisez la remediation si possible

Chaque incident, vous apprenez. Vous devenez plus robuste.

4. Experimentation et learning

"Si on utilise Kubernetes, on va avoir plus de complexity. Mieux d'eviter."

C'est fear-based thinking.

Bonne culture : "On va essayer Kubernetes sur un projet pilote. On va apprendre. Ça va être rough au début, mais ça c'est OK. Dans 3 mois, on saura si ça fait sense."

Culture d'experimentation. Learning. Pas d'expectations de perfection jour 1.

Mesurer la culture : DORA metrics

Vous ne pouvez pas improve ce que vous ne mesurez pas. Voici comment mesurez une culture DevOps :

Métrique 1 : Deployment frequency

Combien souvent deployez-vous ?

Mauvais : 1x par trimestre. "Les déploiements c'est risky, donc on le fait rarement."

Bon : 1x par jour ou plus. "Les déploiements c'est une routine. On deploy plusieurs fois par jour."

Pourquoi ? Culture DevOps = small, frequent deployments = lower risk = faster feedback = mieux produit.

Target : 1+ deployments per day.

Métrique 2 : Lead time for changes

Combien de temps entre "quelqu'un a une idée" et "ça c'est en production" ?

Mauvais : 3-4 mois. Waterfall.

Bon : 1-4 semaines. Agile.

Excellent : < 1 jour. Continuous deployment.

Target : < 1 semaine.

Métrique 3 : MTTR (Mean Time To Restore)

Incident arrive. Ça prend combien de temps à fix et redeploy ?

Mauvais : 4+ heures. "Ah, incident, on va investiguer..."

Bon : < 1 heure. You have good monitoring, good runbooks, good automation.

Target : < 15 minutes pour incidents normaux, < 60 minutes pour les weird.

Métrique 4 : Change failure rate

De toutes tes deployments, quel % causent un incident ou un rollback ?

Mauvais : 30%+. Presque chaque deployment casse quelque chose.

Bon : < 5%. Deployments are stable.

Target : < 5%.

Anti-patterns : qu'est-ce qu'on ne veut pas

Anti-pattern 1 : On-call as punishment

"Jean a mergé du code bad, il/elle est donc on-call tous les weekends pendant 3 mois."

Ça c'est toxic. Ça c'est pas culture DevOps, c'est revenge.

Culture DevOps : "Jean a mergé du code bad. Pourquoi ? Les tests ne le catched pas. Jean et le team vont améliorer le test coverage ensemble. Pendant ce temps, on va avoir une extra person on-call pour la support (c'est la job)."

Anti-pattern 2 : Heroes

"L'incident était bad. Heureusement, Maria a sauvé la jour. On lui donne une bonus."

C'est seems nice. C'est actually très mauvais.

Maria devient le hero. Maintenant tous les autres dépendent d'elle. Si elle quitte, vous êtes screwed. Elle surwork par nécessité.

Culture DevOps : "L'incident était bad. Maria a aidé à le résoudre. Mais on ne veux pas de heroes. On veux un système robuste où n'importe qui peut handle ça. Donc on va améliorer..."

Anti-pattern 3 : Tool collection

"On va installer Terraform, Kubernetes, Prometheus, Grafana, Jaeger, ELK, Vault, Consul..."

Ça c'est 15 tools. Personne ne peut les maîtriser tous. Quelques outils deviennent du cargo cult (installed mais pas utilisés vraiment).

Culture DevOps : "Qu'est-ce qu'on vraiment besoin ?" Vous commencez simple. 1-2 tools. Vous les maîtrisez. Puis vous scale.

Anti-pattern 4 : Silos

Devs vs ops. Backend vs infra. "Ça c'est pas mon domain."

Silos = slow, finger-pointing, blame.

Culture DevOps : Collaboration. Un incident ? Tout le monde travaille ensemble. Pas de "que faites-vous, c'est ma responsabilité."

Comment vous introducez culture DevOps

Step 1 : Parlez, écoutez (2-4 weeks)

Rencontrez votre team. Qu'est-ce qui les frustre ? Qu'est-ce qu'ils veulent changer ?

Commun pain points :

  • Trop d'on-call
  • Trop de manual work
  • Incidents prennent trop longtemps
  • Pas d'automation
  • Blame culture

Document ça.

Step 2 : Set vision (2 weeks)

"Où on veut arriver ?" Définissez une vision :

"Dans 12 mois, nous avons une culture où :

  • Déploiements sont fréquent (1x/day) et safe (< 5% failure rate)
  • Incidents sont rares (< 2/month) et fixés rapidement (< 15min)
  • Personne est burnt out parce que on-call c'est reasonable (< 1 week/month par person)
  • Postmortems sont learning opportunities, pas blame sessions
  • Tout le monde a ownership de production"

Partagez cette vision avec l'équipe.

Step 3 : Change process first (1-2 months)

Avant d'installer les outils, changez comment vous travaillez :

  • Git flow : Toutes les changes via pull requests. Code review obligatoire.
  • Automated testing : Test coverage minimum (80%).
  • Staging environment : Always have a test environment qui ressemble à production.
  • Gradual rollout : Deploy à 10% d'abord, puis 50%, puis 100% (canary deployment).

Aucun outil ici. Juste processus.

Step 4 : Outils qui support le process (2-3 months)

Une fois le process est établi, ajouter les outils :

  • Git + CI/CD : GitHub/GitLab + GitHub Actions/GitLab CI
  • Orchestration : Kubernetes pour automated deployments
  • Monitoring : Prometheus + Grafana pour visibility
  • Incident management : PagerDuty ou AlertManager

Outils facilitent, mais le process est là d'abord.

Step 5 : Mesure et optimize (ongoing)

Track les DORA metrics. Monthly retro avec l'équipe :

"Deployment frequency ce mois ? MTTR ? Change failure rate? Qu'est-ce qu'on peut improve next mois ?"

Continuous improvement.

Anti-advice : ne pas faire

  • Ne forcez pas les outils sur une team qui n'est pas ready
  • Ne blâmez personne dans les postmortems
  • Ne créez pas des silos (infra vs dev)
  • Ne récompensez pas les heroes (récompensez les systèmes robustes)
  • Ne collectionnez pas les outils. Keep it simple.

En résumé

DevOps culture est not about Kubernetes ou Terraform. C'est about :

  1. Shared ownership (Dev + Ops travaillent ensemble)
  2. Blameless postmortems (Learning, pas punishment)
  3. Continuous improvement (Chaque incident → system improvement)
  4. Experimentation (Try things, learn, improve)

Une fois la culture est là, les outils accélèrent le succès. Sans la culture, même les meilleurs outils vont échouer.

Si votre organisation lutte avec DevOps, commencez par la culture. Les outils vont suivre.

À lire aussi :


Cet article vous a été utile ? Découvrez comment Hidora peut vous accompagner : Professional Services · Managed Services · SLA Expert

Cet article vous parle ?

Hidora peut vous accompagner sur ce sujet.

Besoin d'un accompagnement ?

Parlons de votre projet. 30 minutes, sans engagement.