Se rendre au contenu

Incident générique 16/01/2025 (terminé)

Heure de début 16h24

A 16h24 nous avons perdu tout une partie de notre réseau. 
C'est principalement notre réseau d'admin qui s'en trouve impacter. 

Le symptôme ressemble a une boucle réseau mais aucun flux ne semble indiquer cela sur nos équipements

Nous avons beaucoup d'équipement comme des switches ou des routeurs de collectes qui coupent puis reviennent. 

A 17h46 l'origine n'est toujours pas identifié, nous décidons donc de redémarrer plusieurs équipements actifs qui nous semblent avec des comportements anormaux.

Nous rebootons donc 2 machines de notre cluster : 

pve-2511 et pve-2513 ainsi que 2 switches d'admin. 

A partir de ce moment tous les services (hors ceux hébergés par ces machines) remontent et tout le réseau se stabilise.

Heure de fin 17h50

Nous restons en surveillance et continuions les recherches afin d'identifier de manière claire l'origine de cette panne. 

Nous nous excusons par la gène engendré par cette panne. 


Analyse

Après analyse des log, il semble que se soit une migration au sein de notre cluster qui était en cours au moment ou une configuration d'une interface a été faite sur une switch d'admin qui aurait provoqué un BUG au niveau du réseau. 

Le Bridge du switch d'admin semblait envoyé des paquets corrompu du des adresses de diffusions du réseau d'admin. Les équipements n'arrivant pas traiter correctement ces paquets on fait blocages intempestifs. 

C'est donc le reboot du switch d'administration qui a donne corrigé les problèmes. 

Actions corrective : 

Isolation du réseau d'admin 'hébergement' et du réseau d'admin 'Telecom' dans 2 réseaux physiques séparer, afin d'éviter un impacte sur les équipements réseaux


Incident générique 16/01/2025 (terminé)
AZYLIS, Christophe JEANNEROT 16 janvier 2025
Partager cet article
Étiquettes
Archive
Se connecter pour laisser un commentaire.