AWS : le crash de mardi a été causé par une surcharge des périphériques réseau

Le chaos s’est ensuivi mardi dernier (7) et l’humanité est au bord de son anéantissement lorsque des services comme Amazon, Disney Plus, « League of Legends », « PUBG », Canva, Prime Video et des services nationaux tels que C6 Bank et iFood ont montré de l’instabilité et interruptions. Et selon Amazon Web Services (AWS), la cause était une surcharge d’un processus automatisé sur leur réseau.

L’explication est venue dans un rapport publié sur la propre page de l’entreprise. “Une activité automatisée visant à faire évoluer la capacité de l’un des services AWS hébergés sur le réseau central AWS a déclenché un comportement inattendu de la part d’un grand nombre de clients au sein du réseau interne”, déclare Amazon.

Ce comportement a entraîné une importante “augmentation de l’activité de connexion” qui a surchargé les périphériques réseau entre le réseau interne et le réseau AWS principal, “entraînant des retards de communication entre ces réseaux”, selon le rapport. Le problème a même affecté la capacité d’Amazon à voir exactement ce qui n’allait pas avec le système et a retardé le correctif de sept heures.

Plusieurs services ont commencé à rencontrer des problèmes en même temps qu’Amazon Web Services : Image : DownDetector/Playback

Comme le centre de contact Amazon Support fonctionne également sur le réseau AWS, les clients n’ont pas pu contacter l’entreprise pendant la panne. Le tableau de bord Service Health d’Amazon, que la plate-forme utilise pour fournir des mises à jour de statut, a également été affecté, ce qui a retardé la reconnaissance du problème.

AWS vous assure qu’il travaille sur un moyen d’améliorer sa réponse aux pannes et prévoit de publier une version remaniée du tableau de bord Service Health qui devrait aider les clients à recevoir des mises à jour en temps opportun en cas de panne. “Nous tenons à nous excuser pour l’impact que cet événement a eu sur nos clients. Bien que nous soyons fiers de nos antécédents en matière de disponibilité, nous savons à quel point nos services sont essentiels pour nos clients, leurs applications, leurs utilisateurs finaux et leurs entreprises. Nous savons que cet événement a eu un impact significatif sur de nombreux clients. Nous ferons de notre mieux pour apprendre de cet événement et l’utiliser pour améliorer encore notre disponibilité », conclut le rapport.

A lire aussi :

Ce n’est pas la première fois qu’AWS a une erreur

Amazon Web Services avait déjà connu une panne de cette ampleur en novembre 2022, provoquant une baisse des services en ligne. À l’époque, Amazon soulignait que l’instabilité affectait principalement l’API Kinesis Data Stream, provoquant, par conséquent, des pannes dans plusieurs ressources qui en dépendent.

Segundo o comunicado plus recente, y compris ACM, Amplify Console, API Gateway, AppMesh, AppStream2, AppSync, Athena, AutoScaling, Batch, CloudFormation, CloudTrail, CloudWatch, Cognito, Connect, DynamoDB, EventBridge, IoT Services, Lambda, LEX, Managed Blockchain, Marketplace, Personnaliser, Groupes de ressources, SageMaker, Console de support, Espaces de travail bien architecturés.

Gaston Alexandre8 mars 2022

133