-
- API Platform
- Backoffice
- Push notification
-
Un incident a impacté notre cluster MariaDB Galera principal le jeudi 02/01/25 de 15h20 à 16h30 provoquant une indisponibilité des bases de données contenu dans ce cluster,
Cause de l’incident :
Mise en sécurité du cluster suite à un défaut de synchronisation provoqué par des requêtes de modification de structure de base habituelle.
Déroulement :
- 15h22 : constat d'une montée des erreurs 500s
- 15h25 : constat du lien direct avec le cluster mariadb galera
- 15h30 : investigation dans les logs pour comprendre la typologie de l'erreur, vérification qu'il n'y a pas eu en amont d'alerte sur un état dégradé du cluster
- 15h40 : constat de la mise en sécurité du cluster suite à une désynchronisation, la recherche de la requête responsable pour rétablir la synchronisation manuellement commence,
- 15h55 : l'incident a plus de 30 minutes, escalade à un responsable
- 16h10 : responsable joint, décision d'arrêter la tentative de rétablissement "soft", décision de lancer le reset du cluster, tentative de le faire "à chaud"
- 16h20 : les tentatives "à chaud" échouent, décision est prise de reset le cluster de force, arrêt de l'ensemble des noeuds pour lancer la procédure de reset complète
- 16h30 : le cluster repart, fin du downtime pour les dispositifs dépendants de ces bases de données
- 17h : l'ensemble de la procédure de vérification après incident a été effectué, fin de l'incident
- 18h : la requête ayant causé la désynchronisation a été identifié, des investigations complémentaires vont être menées même si celle-ci ne présente pas à première vue de particularité,
En cas de problème persistant veuillez contacter support@apps-panel.com,
Toutes nos excuses pour la gêne occasionnée,
[Résolu] Indisponibilité cluster bases de données
A commencé: Terminé: Durée: - Past notices
- Aucun incident signalé sur les 30 derniers jours.