Vie de l’association L’association ADSL FTTH Services Essaimage Documentation
  Syndication : articles brèves
FDN : L'internet associatif depuis 1992.
Articles

Crash serveur du 7 janvier 2007

On a très mal commencé l’année, mais on va essayer de se reprendre.

Le serveur principal de l’association, leia, est mort le dimanche 7 janvier 2007 dans la matinée.

Après diagnostic, perte de plusieurs disques sur le tableau RAID (système de redondance pour se prémunir de la perte d’un disque). Normalement un tel système survit à la mort d’un disque, mais là il en a perdu deux, avec un troisième en mauvais état. Officiellement, les données sont en grand danger à ce moment là : au premier machin qui tousse, on a tout perdu.

Pendant l’intervention visant au rétablissement du service en fin de matinée, une forte odeur de brûlé et de la fumée (si, si, pour de vrai) indiquent qu’on ne s’en sortira pas. Bilan : carte mère brulée, carte RAID qui donne son numéro de série en hieroglyphes (pas forcément bon signe, ça), disques perdus.

Dimanche soir, intervention longue (12 heures en salle machine). Valentin Lacambre avait (miracle ?) pile le matériel dont on avait besoin pour reprendre le lent travail de récupération des données. Après 12 heures de lutte épique, la vaste majorité des données est sauvegardée. Il peut cependant y avoir eu des pertes (fichiers endomagés, ou perdus).

Il a donc fallu tout remonter depuis les morceaux de backup disponibles (essentiellement la configuration du serveur et les données) sur une machine : celle qui était prévue pour soulager leia en reprenant le mail. Finalement, elle soulage en reprenant tout.

On s’y est mis à nombreux. Tout le bureau (ou peu s’en faut) était sur le pont, la nuit de dimanche, la nuit de lundi et la nuit de mardi, pour essayer de tout remonter.

Mercredi, à 3 heures du matin, on commence à revoir fonctionner la majorité des services. Au final, plus de peur que de mal, très peu de pertes de données.

Actions prévues pour rétablir un service nominal :
-  commande d’une (ou deux) machine pour remplacer la machine morte ;
-  mise en place d’une politique de backup sérieuse (c’était prévu pour janvier, ça tombe bien) ;
-  mise en place d’une procédure de remontée d’un serveur en cas de crash pour ne pas tout reprendre à la main.

Bilan :
-  3 jours de black-out ;
-  quelques pertes de données (on ne sait pas encore lesquelles) ;
-  les services sont séparés sur 3 serveurs logiques, qui deviendront rapidement 3 serveurs physiques ;
-  la mise à niveau du mail qu’on retardait depuis un an est faite ;
-  les gens ayant rejoint récemment le bureau connaissent maintenant parfaitement la configuration des serveurs de l’association.

Aucun impact sur l’ADSL.