Table des matières
Lorsqu’Amazon Web Services (AWS) a subi une panne majeure le mois dernier, de nombreuses entreprises à travers le monde ont constaté des interruptions de service. En revanche, les commerçants utilisant Square sont restés en grande partie opérationnels. Depuis lors, plusieurs de nos commerçants, notamment nos partenaires entreprises, nous ont contactés pour savoir comment nous avions réussi à maintenir la continuité de service lors d’un incident d’une telle ampleur.
Nous partageons cette publication afin de vous fournir une transparence sur ce qui est arrivé, la manière dont nos systèmes ont réagi, ainsi que les mesures que nous avons prises au cours des dernières années pour améliorer la fiabilité. Des évènements comme celui-ci ne sont pas inattendus. Ce sont les types de scénarios pour lesquels nous concevons nos systèmes afin d’assurer que nos commerçants puissent continuer à opérer même lorsque de grands fournisseurs connaissent des temps d’arrêt. Bien que cet incident ait démontré la force de ces investissements, nous reconnaissons également qu’aucune plateforme n’est à l’abri des perturbations et qu’il y a toujours plus de travail à faire.
Ce qui est arrivé
Le 20 octobre, autour de minuit ( trois heures du matin, Heure de l’Est), Amazon Web Services (AWS), l’un des plus grands fournisseurs de nuage au monde, a connu une panne majeure dans l’une de ses régions de données. Cela a causé des perturbations pour de nombreuses entreprises à travers divers secteurs.
Chez Square, nous utilisons AWS pour alimenter une grande partie de notre infrastructure. Cependant, Square a pris une décision stratégique, dans le cadre de notre effort continu pour bâtir un système aussi fiable que possible, pour d’opérer nos systèmes les plus critiques, tels que Paiements Square, Point de vente Square, Connexion et Authentification, à travers de multiples régions AWS afin d’aider à protéger les entreprises contre des défaillances régionales. Cette conception multirégionale nous a permis, dans de nombreux cas, de rediriger automatiquement nos opérations vers une région de données alternative, limitant ainsi l’impact global de cette panne.
Lorsque la panne s’est produite, notre surveillance a signalé le problème immédiatement, déclenchant un effort de résolution rapide. Notre équipe d’astreintes a été capable de restaurer ces services en environ 30 minutes. Pendant ce temps, au Royaume-Uni et dans l’UE (Union européenne), les commerçants ont connu une brève période de 20 à 30 minutes d’erreurs de paiement intermittentes, tandis que les commerçants qui avaient notre fonctionnalité de paiements hors ligne activée ont connu une perturbation minimale des transactions. Il est important de noter que les erreurs étaient intermittentes; personne n’était bloqué, et si vous essayiez une seconde fois, vous avez probablement réussi à passer.
Bien que nous ayons construit cette redondance régionale et cette protection pour plusieurs de nos systèmes critiques, nous ne l’avons pas pour tous les systèmes. Certains systèmes de paiement différé, tels que le support téléphonique, et les remboursements, dépendaient uniquement sur les régions AWS affectée et, par conséquent, n’ont pas été entièrement restaurés, jusqu’à ce qu’AWS rétablisse ses systèmes. Nous poursuivons les opportunités comme celles-ci pour protéger davantage nos systèmes contre les perturbations.
La panne d’AWS a renforcé l’importance des choix d’infrastructure sous-jacente que nous avons faits pour renforcer la résilience et la fiabilité à travers notre plateforme. Bien qu’aucun système ne soit immunisé contre des perturbations nuagiques à grande échelle, l’investissement de Square dans une infrastructure multirégionale, combiné à un investissement continu dans les paiements hors ligne, les capacités de repli locales, la résilience contre les pannes de fournisseurs, et des temps de réponse plus rapide, a assuré que, bien qu’une grande partie de l’internet était en difficulté, les commerçants Square sont restés ouverts pour les affaires.
L’approche Square en matière de fiabilité
La fiabilité n’est pas une fonctionnalité unique, c’est un engagement continu. Chaque incident, peu importe sa taille, offre des leçons qui informent comment nous renforçons nos systèmes et nos processus. Nous continuerons d’investir dans l’architecture, les tests, et les outils qui aident les commerçants à maintenir le fonctionnement de leur entreprise même lorsque l’inattendu arrive.
Surveillance améliorée: nous assurons une surveillance complète qui alerte les équipes d’astreintes de toute perturbation potentielle des flux de travail critiques des commerçants, tels que les paiements et l’authentification.
Sécurité architecturale: similaires à la conception multirégionale, nous identifions et testons régulièrement des manières d’augmenter la résilience de nos systèmes contre des incidents, comme des défaillances régionales ou de tierces parties.
Réponse coordonnée: pendant une panne, des équipes transversales identifient rapidement l’impact et implémentent des corrections aussi vite que possible afin de restaurer la performance.
Paiements hors ligne: Square permet aux commerçants de continuer à prendre des paiements hors ligne pendant une panne, minimisant ainsi l’impact opérationnel. Si un commerçant a déjà activé les paiements hors ligne avant une panne, il est proactivement basculé vers une session hors ligne durant la perturbation. Les commerçants peuvent également activer cette fonctionnalité lors d’une panne. Nous élargissons activement nos capacités hors ligne et travaillons à apporter la fiabilité hors ligne à plus d’outils, incluant le Système d’affichage en cuisine (KDS).
Assurer le bon déroulement des opérations pour les commerçants pendant cette période nécessite de la planification, des tests et de la collaboration entre plusieurs équipes au sein de Square.
![]()