====== Incident du 3 aout 2020 ======
* Lundi 3 aout à 20h00 : Le volume `sysdisk02` est mis en mode 'read-only'
{{:admin:20200804_incident_sysdisk02.png?400|}}
* Mardi 4 aout : premier signalement d'une erreur sur la plateforme via twitter
https://twitter.com/clemDBA_Qc/status/1290712848155521024
* Vendredi 7 aout à à 8h09 : Reboot de celeste2 et activation la console d'urgence pour forcer le redémarrage manuel.
* Vendredi 7 aout à à 8h09 : erreurs dans /var/log/syslog
Aug 7 08:09:43 celeste2 kernel: kjournald starting. Commit interval 5 seconds
Aug 7 08:09:43 celeste2 kernel: EXT3-fs (xvda1): warning: ext3_clear_journal_err: Filesystem error recorded from previous mount: IO failure
Aug 7 08:09:43 celeste2 kernel: EXT3-fs (xvda1): warning: ext3_clear_journal_err: Marking fs in need of filesystem check.
Aug 7 08:09:43 celeste2 kernel: EXT3-fs (xvda1): warning: mounting fs with errors, running e2fsck is recommended
Aug 7 08:09:43 celeste2 kernel: EXT3-fs (xvda1): using internal journal
* Le service PostgreSQL ne redémarre pas.
Aug 7 08:10:45 celeste2 postgresql@11-main[1120]: 2020-08-07 08:10:33.526 CEST [2478] fluxbb@fluxbb FATAL: the database system is starting up
* Vendredi 7 aout à à 8h22 : Redémarrage à nouveau di serveur PostgreSQL. Les mêmes erreurs persistent.
Aug 7 08:22:02 celeste2 postgresql@11-main[16878]: 2020-08-07 08:21:57.600 CEST [16952] repli@dolibarr FATAL: the database system is starting up
Aug 7 08:22:02 celeste2 postgresql@11-main[16878]: pg_ctl: server did not start in time
* Vendredi 7 aout à 8h39 : 3eme tentative de redémarrage de PostgreSQL. Cette fois le service est rétabli
* Vendredi 7 aout à 9h37 : rétablissement de la repli logique vers Tantor2 (ansible-playbook rebuild_logical_replication.yml)
* Vendredi 7 aout à 10h30 : activation de fsck.mode=force dans /etc/default/grub