Le 13/3/2023 entre 19h et 21h remplacement de 2 disks défectueux par usure (pas de soucis ils sont tous triplés et ça arrive 1 à 2x par an ). Coupure de plusieurs services.
2 serveurs de stockage concernés : le 1er avec 30 disks en miroir triple et le second avec 3 disks en miroir triple.
14/03/2023 matin
Plusieurs services perturbés, la resynchronisation des disques dégrade les performances d’accès alors que le stockage est très sollicité en matinée. Nous coupons plusieurs services pour délester (acloudx , nclood.zaclys.com et cncloud.zaclys.com ) …
14/03/2023 17h
Derniers services encore perturbés : acloudX.zaclys.com , nclood.zaclys.com et cncloud.zaclys.com
( Tous les serveurs en location sont ok depuis fin de matinée )
14/03/2023 18h
Derniers services encore perturbés : acloudX.zaclys.com et cncloud.zaclys.com
( Tous les serveurs en location sont ok depuis fin de matinée )
14/03/2023 19h30
les 3x 42 To sont vérifiés à 90%… ETA estimé 15 min…
14/03/2023 22h
problème sur un disk , on recommence la vérification des 3x 42 To …
services encore perturbés : acloudX.zaclys.com et cncloud.zaclys.com
15/03/2023 6h
Hier soir avant 22h nous avons dû couper plusieurs services pendant 15 min le temps de retirer un disk : on a 2 opérations de maintenance sur le meme miroir triple et c’est vraisemblablement ce qui pose tous ces problèmes d’accès concurrentiel.
Donc décision a été prise de retirer le nouveau disk , de terminer la 1ere opération de maintenance qui a été lancée par le serveur dimanche (“scrub” complet des 3×42 To) . Dans le même temps nous avons refait un test long complet du nouveau disk qui doit remplacer le disk défectueux.
Bilan ce matin vers 5h : opération “check scrub” terminé, ok. Test long du 3eme : ok ras. On remet donc le nouveau disk dans le miroir , la synchronisation doit prendre 1h. Il n’y a pas d’autre opération en cours sur le storage et l’activité serveur est calme.
15/03/2023 8h : on joue de malchance on a d’autres blocs défectueux qui prennent du temps à passer au “check” … on est à 91% …
15/03/2023 14h : 93% …
15/03/2023 17h : 94,4% … à ce rythme ça devrait se terminer au petit jour… on s’en souviendra de ce nouveau disque. Encore nos excuses pour le dérangement.
15/03/2023 22h30 : 98% …
16/03/2023 6h : Terminé. Tous les services sont ok !
Encore toutes nos excuses pour ces 3 jours de services perturbés sur acloudX.zaclys.com nclood.zaclys.com et cncloud.zaclys.com (les serveurs dédiés en location n’étaient pas concernés).
Nous allons rajouter prestement des outils de monitoring supplémentaires pour anticiper l’usure des disques de stockage et les remplacer systématiquement avant d’en arriver à ce stade.
Avoir 2 disks qui arrivent en fin de vie au même moment sur le même groupe de disques en miroir triple est improbable, mais pas impossible, preuve est faite…
Bien entendu en + des disques triplés, nous avons un système de sauvegarde externe (lui même en double sur Strasbourg et Roubaix) , toutes les données sont sauvegardées 2x , donc même la casse définitive des disques en miroir ne signifierait pas une perte de données.
Nous allons également investir début avril dans un 4eme silo de stockage pour sécuriser et délester celui qui nous a créer ces problèmes pendant 3 jours.
18/03/2023 6h : (suite) remplacement par anticipation d’un autre disk usé ce matin. Ce qui peut provoquer quelques ralentissements sur certains services, pas de coupure prévue.
Nous avons également installé ce matin un script de surveillance supplémentaire qui vérifie 5 error/warn différents sur la totalité des disks et des serveurs, pour pouvoir les détecter et remplacer au moindre signe de faiblesse.
19/03/2023 12h : terminé
Merci de votre compréhension.
En cas de problème qui nous aurait échappé ce matin : merci d’utiliser notre formulaire de contact pour ouvrir un “ticket” sur notre support.
Bonne journée
Commentaires récents