Informations sur l'incident
Date de début : 07/12/2023 - 9h30
Date de Fin : 07/12/2023 - 14h30
Durée de coupure totale : 5h
Impacte
- Tous les services sur les fibres Du Doubs FTTH PRO et FTTE
- Tous les services hébergés hors service via IP Publique, ou client avec CHR dédié
- Tous les accès Internet, hors serveurs en hébergement, hors FTTH GP sur le Doubs
Description de l'incident
Analyse de l'incident
Nous avons rapidement identifié un problème sur l'un de nos routeurs de collecte, ce routeur gère :
- La collecte FTTH Pro du Doubs
- La collecte FTTE du Doubs
- La distribution EOIP Public (gérant l'Internet)
- La distribution EOIP Data (gérant l'accès au service hébergé)
L'équipement est accessible, aucune charge particulière au niveau des flux n'est identifiée. On pense alors à un simple plantage de l'équipement. Le NOC décide alors d'effectuer un reboot pour corriger le problème.
Suivi de l'incident
9h35 - L'équipement ne redémarre pas. Une intervention au DataCenter est planifiée.
9h45 - Le système de sécurité Watchdog aurait du effectuer un reboot de l'équipement.
10h30 - Arrivé au DataCenter l'équipement est bien UP, il ne répond pas sur le réseau d'admin, mais certains flux semblent passer (par exemple le réseau d'admin sur la FFTO AZYLIS - BESANCON fonctionne)
On décide de faire de nouveau un reboot
On reprend alors la main sur l'équipement, des flux semblent fonctionner, mais nous n'avons aucun débit sur les ports.
Le service technique nous remonte d'autres perturbations, je coupe complètement le routeur et les autres services se stabilisent.
Je décide de changer le routeur de COL, par un routeur plus puissant de nouvelle génération. Mais lors de l'import de la configuration au nouvel équipement et surtout lorsque je met la même version d'OS du routeur, celui-ci n'accepte pas la version de production.
Je test un import de configuration sur la nouvelle version, mais il y a beaucoup d'erreur.
Je ne peux pas importer la configuration sur le second routeur de COL présent car sans accès à l'admin. Nous devons faire cela dans un autre équipement.
11h30 - Un second technicien part de Vercel avec un second routeur compatible avec la version, et un routeur d'admin. En l'attendant on tente de nouveau de faire redémarrer le routeur, il repart avec les mêmes symptômes. J'arrive a me connecter dessus et à effectuer une analyse. Il semble que la partie VLAN ne fonctionne pas. Je change les modules fibre, je bascule le réseau master sur le secondaire, mais toujours les mêmes problèmes.
Je décide de supprimer la partie de redondance vers le réseau de transport, et la toute une partie des flux remontent ! C'est l'une des puces du switch de l'équipement qui est HS, toute une partie des flux remonte, les backups 4G fonctionnent, beaucoup de liens Internet remontent, mais dans le monitoring tout semble instable.
Une demande au support confirme que d'autres services sont aussi de nouveau instable, j'en déduis alors que le routeur en plus d'être défectueux perturbe le réseau de transport (cela produit comme une sorte de boucle réseau). Le second technicien étant sur place je coupe définitivement ce routeur.
12h15 - Le technicien arrive au Datacenter, pendant que l'un des techniciens s'occupe de remettre en place le réseau d'admin pour que nous puissions de nouveau accéder à tous les équipements, le second importe la configuration dans le nouveau routeur.
Résolution de l'incident
Les services sont rétablies mais l'intervention n'est pas terminée
Actions correctives
Suite à cette panne nous devons effectuer les actions correctives suivantes, certaines actions étaient déjà en cours de réalisation, mais les délais vont être raccourcis :
- Déplacement des portes de collecte FTTH et FTTE sur les nouveaux COL (les autres collectes ont déjà été déplacées, ces collectes étant en attente d'upgrade et de changement de jarretière au Datacenter)
- Déplacement du système de redondance des services DATA sur un équipement virtuel (cela a déjà été fait pour la partie VOIP, ce qui a permis une panne limité des service Voix)
- Déplacement du système de redondance des services INTERNET sur un équipement Physique/virtuel (cela a déjà en cours de validation technique)
Incident générique du 07/12/2023 (terminé)