Une panne massive de Microsoft 365 causée par le changement d’IP du routeur WAN

Selon Microsoft, la panne mondiale de Microsoft 365, qui a duré cinq heures cette semaine, a été provoquée par le changement d’adresse IP d’un routeur, qui a entraîné des problèmes de transmission de paquets entre tous les autres routeurs de son réseau étendu (WAN).
Redmond a déclaré à l’époque que les utilisateurs de toutes les zones desservies par l’infrastructure touchée éprouvaient des difficultés à se connecter aux services Microsoft 365 concernés en raison de problèmes de configuration du DNS et du réseau WAN provoqués par une mise à jour du WAN.
Selon la page d’état du service Microsoft Azure, le problème avait des vagues d’impact sur le service, avec des pics toutes les 30 minutes (cette page d’état était également affectée car elle affichait par intermittence des erreurs “504 Gateway Time-out”).
Microsoft Teams, Exchange Online, Outlook, SharePoint Online, OneDrive for Business, PowerBi, Microsoft 365 Admin Center, Microsoft Graph, Microsoft Intune, Microsoft Defender for Cloud Apps et Microsoft Defender for Identity figurent parmi les services touchés par la panne.
Redmond a commencé à examiner le problème vers 7 h 05 UTC et y a travaillé pendant plus de cinq heures avant que le service ne soit finalement rétabli à 12 h 43 UTC.
En essayant de se connecter aux ressources hébergées dans les régions Azure ainsi qu’à d’autres services Microsoft comme Microsoft 365 et Power Platform, les clients ont rencontré des problèmes de connectivité réseau entre 07h05 UTC et 12h43 UTC le 25 janvier 2023, selon un rapport préliminaire post-incident publié aujourd’hui par Microsoft.
” Bien que la majorité des zones et des services aient été rétablis à 9 h UTC, les difficultés liées à la perte sporadique de paquets avaient été complètement résolues à 12 h 43 UTC “. Les services cloud d’Azure Government qui reposent sur le cloud public Azure ont également été affectés par cet événement.
Nous avons confirmé que les services impactés ont récupéré et restent stables. Nous enquêtons sur un impact potentiel sur le service Exchange Online. En outre, des mises à jour sur l’enquête Exchange seront disponibles dans votre centre d’administration sous le SI# EX502694.
– Microsoft 365 Status (@MSFT365Status) 25 janvier 2023
Microsoft a depuis révélé que le problème a été causé lorsque l’adresse IP d’un routeur WAN a été modifiée à l’aide d’une commande non testée qui se comporte différemment sur différents périphériques réseau.
Une commande envoyée à un routeur WAN l’a incité à envoyer des messages à tous les autres routeurs du WAN, ce qui les a obligés à recalculer leurs tables d’adjacence et de transfert, selon Microsoft. Cela s’est produit dans le cadre d’un changement planifié pour mettre à jour l’adresse IP du routeur.
“Les routeurs n’ont pas été en mesure de transférer correctement les paquets qui transitaient par eux tout au long de cette procédure de recalcul.”
Alors que les processus automatisés du réseau étendu (WAN) chargés de surveiller l’état de santé du réseau ont marqué une pause en raison de l’impact sur le réseau, ce dernier a commencé à se rétablir de lui-même à partir de 08h10 UTC.
Ces systèmes comprenaient ceux permettant de localiser et de se débarrasser des appareils malades, ainsi que ceux destinés à l’ingénierie du trafic, qui ont amélioré le flux de données dans le réseau.
De 9 h 35 UTC jusqu’à ce que les systèmes soient redémarrés manuellement, certains chemins du réseau ont continué à subir d’importantes pertes de paquets en raison de l’arrêt. Cette opération s’est finalement terminée à 12 h 43 UTC, lorsque le réseau étendu a retrouvé ses conditions de fonctionnement idéales.
Microsoft a réagi à cette situation en empêchant l’exécution des commandes qui ont un effet négatif important et en exigeant que toutes les commandes suivent les procédures de mise à jour de la configuration en toute sécurité.