Vous avez eu un incident hier. 45 minutes de downtime. Votre système était down. Personne ne pouvait accéder à l'application.
Votre CEO demande : "Combien ça nous a coûté?"
Vous répondez : "...je sais pas exactement?"
C'est un problème. Non seulement vous ne savez pas les coûts, mais votre direction ne va pas investir en infrastructure pour prévenir downtime si vous ne pouvez pas quantifier le problème.
Voici comment calculer le vrai coût et pourquoi investir en SLA/monitoring est une no-brainer économiquement.
Approche pour calculer le coût du downtime
Il y a plusieurs composantes :
1. Revenu perdu direct
Si votre business model c'est transactions, c'est facile :
Exemple : Platform de commerce électronique
- 10,000 visits par jour
- 2% conversion rate = 200 commandes/jour
- Panier moyen = CHF 150
- Revenue/jour = CHF 30,000
- Revenue/minute = CHF 30,000 / (24 * 60) = CHF 20.83/minute
- 45 minutes downtime = CHF 937 revenue perdu
Mais la plupart des companies n'ont pas une conversion linéaire avec le temps. Ça dépend de la nature du service.
Autres exemples :
- SaaS avec subscription : petit hit (users peuvent pas utiliser juste pendant downtime, mais ont payé monthly anyway)
- Streaming service : big hit (users qui ne peuvent pas regarder aucune revenu, mais en frustration)
- API service B2B : dépends du SLA (si vous ne respectez pas votre 99.9% SLA, vous avez des pénalités)
2. Coûts de mitigation et recovery
Pendant et après un incident :
- Incident commander (CTO ou senior eng) qui drop tout = CHF 200-500 d'opportunity cost
- Engineers qu'on pull de other projects = CHF 100-300 par person
- Escalation (calls avec customers, support team overtime) = CHF 500-2,000
- Post-mortem (3-4 hours engineering time analysing what broke) = CHF 1,000-2,000
- Hotfix + testing si un patch est needed = CHF 2,000-10,000
Total par incident : CHF 3,700-14,500
3. Customer churn
Pire que le revenue perdu direct. Les customers qui subissent du downtime downgrade, cancel, ou move à un competitor.
Métrique importante : How many customers churn après un incident ?
Pour une SaaS company, même 1-2% churn rate sur un incident de 45 minutes c'est énorme :
- 500 customers
- 1% churn = 5 customers
- Customer LTV = CHF 50,000 (3 ans * CHF 16k/an)
- Lost LTV = CHF 250,000
Oui, 45 minutes peut coûter CHF 250,000 en future revenue perdu.
4. Reputation damage
C'est difficile à quantifier mais réel. Si vous êtes startup B2B, une outage qui vous laisse hors service pendant une heure, c'est une story que le CTO d'un prospect va entendre. "On regardait mais ils eurent une outage horrible en Aug, on a choisi un autre vendor."
Reputation cost : CHF 50,000-500,000 dépends de votre market presence et de comment famous l'incident devient.
Calcul total : un incident de 45 minutes
| Component | Cost |
|---|---|
| Revenue perdu direct | CHF 937 |
| Incident response costs | CHF 8,000 |
| Customer churn (1% of 500) | CHF 250,000 |
| Reputation damage | CHF 100,000 |
| TOTAL | CHF 358,937 |
Per minute : CHF 7,976/minute.
Ça c'est pour une company média avec 500 customers. Si tu es une big bank ? Multiply by 10 minimum.
Business case : investi en SLA et monitoring
Maintenant vous savez : un incident de 45 minutes coûte CHF 358,000.
Voici ce que vous pouvez faire :
Option A : Managed Service (Hikube.cloud)
Vous outsource votre infrastructure to an MSP que garantit 99.9% SLA.
Cost :
- Managed Kubernetes : CHF 150,000/an
- SLA guarantees : CHF 50,000/an (premium pour la reliability)
- Total : CHF 200,000/an
Benefit :
- 99.9% SLA = max downtime 43 minutes par an
- Vs. average company qui a 5-10 incidents par year de 30-60 minutes chacun = 2.5-10 heures/an
So you go from 2.5-10 hours downtime/an to 43 minutes/an.
Cost of incidents avoided :
- Assume 7 incidents per year
- Average CHF 300,000 per incident (weighting out some small ones)
- Total avoided = CHF 2,100,000/an
ROI :
- Cost : CHF 200,000
- Benefit : CHF 2,100,000
- Net gain : CHF 1,900,000/an = 10.5x ROI
Payback period : 1 month.
Option B : Better monitoring (in-house)
Vous ne changez pas votre infrastructure, mais vous invest en monitoring + SRE practices.
Cost :
- Prometheus + Grafana + Datadog : CHF 60,000/an
- 1.5 FTE SRE (person dedicated to reliability) : CHF 150,000/an
- Incident automation (PagerDuty, auto-remediation) : CHF 30,000/an
- Total : CHF 240,000/an
Benefit :
- Reduce MTTR (mean time to resolve) from 30 minutes average to 5 minutes
- Reduce incident frequency from 7/year to 3/year (via better alerts and prevention)
Cost saved :
- 7 incidents -> 3 incidents per year = 4 incidents avoided
- CHF 300,000 per incident
- Total : CHF 1,200,000/an
ROI :
- Cost : CHF 240,000
- Benefit : CHF 1,200,000
- Net gain : CHF 960,000/an = 5x ROI
Payback period : 2.4 months.
Comparaison de scenarios
| Metric | Current | Option A (Managed) | Option B (Monitoring) |
|---|---|---|---|
| Downtime per year | 5 hours | 43 minutes | 1.5 hours |
| Incidents per year | 7 | 1 | 3 |
| Cost per incident | CHF 358k | CHF 50k (SLA penalty) | CHF 300k |
| Annual cost | 0 | CHF 200k | CHF 240k |
| Annual incidents cost | CHF 2.5M | CHF 50k | CHF 900k |
| Net cost per year | CHF 2.5M | CHF 250k | CHF 1.14M |
Option A et B sont BOTH way cheaper than doing nothing.
Quoi présenter à votre CFO/CEO
Vous ne parlez pas d'uptime percentages. Vous parlez revenue et risk :
"Nous avons actuellement ~7 incidents par an, durée moyenne 40 minutes. Chaque incident coûte entre CHF 200k-400k en revenue perdu + customer churn + incident response. C'est CHF 1.5-2.5M par an de risk.
Pour CHF 200k/an, un MSP peut nous garantir 99.9% SLA (1 incident par an max). Ou on peut invest CHF 240k en monitoring et SRE practices.
Option A saves CHF 1.5-2.3M par an. Payback : 1 mois. Option B saves CHF 1.2-1.6M par an. Payback : 2.4 mois.
Not investing is the expensive option."
À ce point, votre CFO va dire oui. Il/elle comprend revenue risk.
Métriques à tracker pour justifier l'investissement
Une fois vous avez investit, vous devez tracker :
-
Uptime percentage. Target : 99.5% minimum (4 heures downtime/an), 99.9% meilleur (43 min/an).
-
MTTR (Mean Time To Resolve). Target : < 15 minutes pour incidents critiques. Vous devez reduce détection time + fix time.
-
Incident frequency. Target : < 2 incidents per month. Si vous avez plus, quelque chose est broken.
-
Cost of incidents. Track chaque incident : revenue lost, customer churn, incident response cost. Monthly report.
-
SLA penalties. Si vous utilisé managed service avec SLA, mesurez si vous respectez les garanties.
Attention : le piège de "optimizing for uptime"
Une chose : il y a une diminishing return. 99.0% = 7.2 hours downtime/an. 99.9% = 43 min/an. 99.99% = 4.3 min/an.
Chaque "9" coûte de plus en plus. 99.99% peut vous coûter CHF 500k+ avec redundancy, disaster recovery, etc.
Règle : Align votre target avec votre business impact. Une ecommerce ? 99.9%. Un CRM interne ? 99.0% c'est fine. Une hospital system ? 99.99%.
En résumé
Le downtime n'est pas "technical problem". C'est un revenue problem.
Un incident de 45 minutes = CHF 300k-400k coûts en moyenne. Over a year, c'est CHF 2.5M de risk.
Investing CHF 200k-240k en managed services ou monitoring/SRE = CHF 1.2-2.3M de savings/an.
C'est une du easier business case que vous présentez à votre direction. ROI de 5-10x, payback en 1-2 months, et c'est business-neutral (vous ne change rien aux applications, juste l'infrastructure).
If you're not doing this, you're leaving massive revenue on the table.
À lire aussi :
- SLA ou Managed Services : quel modèle pour votre entreprise ?
- Disaster recovery sur Kubernetes : planning et test
Cet article vous a été utile ? Découvrez comment Hidora peut vous accompagner : Professional Services · Managed Services · SLA Expert



