Observabilité : définition et bonnes pratiques

Plus que du monitoring

Le monitoring vous prévient quand quelque chose de connu casse : le disque se remplit, le CPU passe au rouge, le certificat expire. L'observabilité, c'est ce qu'on mobilise quand quelque chose d'inconnu casse, quand les utilisateurs signalent une lenteur, les dashboards ont l'air bien, et la seule question qui reste est « pourquoi ? »

La discipline repose sur trois types de signaux, souvent appelés les trois piliers :

Métriques : échantillons numériques dans le temps (taux de requêtes, latence p99, profondeur de file). Peu coûteuses à stocker, rapides à grapher, mais anonymes : une métrique vous dit que l'utilisateur moyen est lent, pas lequel.
Logs : événements discrets avec contexte (timestamp, sévérité, payload). Plus lourds à stocker, mais ils préservent l'histoire de ce que chaque requête a fait.
Traces : graphes d'appels distribués qui suivent une seule requête à travers services, files et bases de données. Indispensables pour comprendre la latence dans une stack microservices.

Une stack d'observabilité moderne capture aussi les événements (déploiements, changements de config, feature flags) et les profiles (échantillons CPU/mémoire), utiles pour corréler une régression à une release.

À quoi ressemble un « bon » dispositif

Dans un système que nous certifierions, trois choses tiennent :

On peut remonter chaque plainte utilisateur jusqu'à la requête responsable en moins de cinq minutes. Pas « d'ici la fin de la journée après avoir grep les logs ».
L'équipe qui a écrit le code a un accès direct à son comportement en production. Pas de tickets à une équipe ops séparée pour récupérer une ligne de log.
Les alertes ne réveillent les gens que pour des symptômes ressentis par les utilisateurs. Pas de fatigue d'alerte due à un disque à 60 % ou un CPU à 70 %.

L'outillage qui livre ça en 2026 est généralement une combinaison Prometheus + Grafana + Loki + Tempo, ou des équivalents commerciaux (Datadog, Honeycomb, New Relic), ou un pipeline OpenTelemetry qui alimente l'un des précédents.

Pourquoi ça coûte plus cher que prévu

Le stockage. Un microservice typique génère 5 à 50 Go de logs par jour. Multiplié par 30 jours de rétention, multiplié par les environnements, multiplié par les répliques, les factures à six chiffres annuelles sont normales à grande échelle. L'échantillonnage, la discipline sur les niveaux de log et la journalisation structurée permettent de maîtriser le coût sans perdre la capacité de debug.

Pour les industries suisses régulées, la rétention a aussi un angle conformité : certains audit logs doivent être conservés 7 ans et stockés en Suisse, ce qui fait de Hikube, notre cloud souverain suisse, un choix naturel.

Services Hidora associés

Managed Services : exploitation de la stack d'observabilité pour que vos ingénieurs se concentrent sur le code.
Consulting : conception ou refonte de votre stratégie d'observabilité.

Qu'est-ce que Observabilité ?

Plus que du monitoring

À quoi ressemble un « bon » dispositif

Pourquoi ça coûte plus cher que prévu

Services Hidora associés