Se rendre au contenu

Incident générique du 07/12/2023 (terminé)

Informations sur l'incident

Date de début : 07/12/2023 - 9h30

Date de Fin : 07/12/2023 - 14h30

Durée de coupure totale : 5h

Impacte
  • Tous les services sur les fibres Du Doubs FTTH PRO et FTTE
  • Tous les services hébergés hors service via IP Publique, ou client avec CHR dédié
  • Tous les accès Internet, hors serveurs en hébergement, hors FTTH GP sur le Doubs

Description de l'incident

A partir de 8h30 le 07/12/2023 nos outils de monitoring nous ont remonté une montée en latence anormale

⚠️

A 9h25 le service support d'AZYLIS à informé les NOC d'un souci de qualité de voix chez certains clients 

Analyse de l'incident

Nous avons rapidement identifié un problème sur l'un de nos routeurs de collecte, ce routeur gère : 

  • La collecte FTTH Pro du Doubs
  • La collecte FTTE du Doubs
  • La distribution EOIP Public (gérant l'Internet) 
  • La distribution EOIP Data (gérant l'accès au service hébergé) 

L'équipement est accessible, aucune charge particulière au niveau des flux n'est identifiée. On pense alors à un simple plantage de l'équipement. Le NOC décide alors d'effectuer un reboot pour corriger le problème.

Suivi de l'incident

9h35 - L'équipement ne redémarre pas. Une intervention au DataCenter est planifiée. 

9h45 - Le système de sécurité Watchdog aurait du effectuer un reboot de l'équipement.

10h30 - Arrivé au DataCenter l'équipement est bien UP, il ne répond pas sur le réseau d'admin, mais certains flux semblent passer (par exemple le réseau d'admin sur la FFTO AZYLIS - BESANCON fonctionne)

On décide de faire de nouveau un reboot

On reprend alors la main sur l'équipement, des flux semblent fonctionner, mais nous n'avons aucun débit sur les ports.

10h45 - Nous subissons une seconde panne ! Le routeur du réseau d'admin c'est éteint !  Je n'ai plus l'accès au routeur de COL, la poursuite de l'analyse est impossible (pour des raisons de sécurité l'accès aux routeurs est limité par le réseau d'admin) 

Le service technique nous remonte d'autres perturbations, je coupe complètement le routeur et les autres services se stabilisent.

Je décide de changer le routeur de COL, par un routeur plus puissant de nouvelle génération. Mais lors de l'import de la configuration au nouvel équipement et surtout lorsque je met la même version d'OS du routeur, celui-ci n'accepte pas la version de production. 

Je test un import de configuration sur la nouvelle version, mais il y a beaucoup d'erreur. 

Je ne peux pas importer la configuration sur le second routeur de COL présent car sans accès à l'admin. Nous devons faire cela dans un autre équipement.

11h30 - Un second technicien part de Vercel avec un second routeur compatible avec la version, et un routeur d'admin. En l'attendant on tente de nouveau de faire redémarrer le routeur, il repart avec les mêmes symptômes. J'arrive a me connecter dessus et à effectuer une analyse. Il semble que la partie VLAN ne fonctionne pas. Je change les modules fibre, je bascule le réseau master sur le secondaire, mais toujours les mêmes problèmes. 

Je décide de supprimer la partie de redondance vers le réseau de transport, et la toute une partie des flux remontent ! C'est l'une des puces du switch de l'équipement qui est HS, toute une partie des flux remonte, les backups 4G fonctionnent, beaucoup de liens Internet remontent, mais dans le monitoring tout semble instable. 

Une demande au support confirme que d'autres services sont aussi de nouveau instable, j'en déduis alors que le routeur en plus d'être défectueux perturbe le réseau de transport (cela produit comme une sorte de boucle réseau). Le second technicien étant sur place je coupe définitivement ce routeur. 

12h15 - Le technicien arrive au Datacenter, pendant que l'un des techniciens s'occupe de remettre en place le réseau d'admin pour que nous puissions de nouveau accéder à tous les équipements, le second importe la configuration dans le nouveau routeur. 

Résolution de l'incident

14h30 - Le nouveau routeur est en place et tous les services sont de nouveaux opérationnelles, cependant nous traitons encore des effets de bords 

Les services sont rétablies mais l'intervention n'est pas terminée

Actions correctives

Suite à cette panne nous devons effectuer les actions correctives suivantes, certaines actions étaient  déjà en cours de réalisation, mais les délais vont être raccourcis : 

  • Déplacement des portes de collecte FTTH et FTTE sur les nouveaux COL (les autres collectes ont déjà été déplacées, ces collectes étant en attente d'upgrade et de changement de jarretière au Datacenter) 
  • Déplacement du système de redondance des services DATA sur un équipement virtuel (cela a déjà été fait pour la partie VOIP, ce qui a permis une panne limité des service Voix) 
  • Déplacement du système de redondance des services INTERNET sur un équipement Physique/virtuel (cela a déjà en cours de validation technique) 
Incident générique du 07/12/2023 (terminé)
AZYLIS, Christophe JEANNEROT 25 juillet 2024
Partager cet article
Étiquettes
Archive
Se connecter pour laisser un commentaire.