Desequilíbrio de tráfego degrada operações na AWS

Da Redação
07/12/2021

Um problema de balanceamento de tráfego entre segmentos de rede foi a principal causa da queda, a partir das 13h22 de hoje (horário de Brasília), do desempenho nos serviços da Amazon Web Services (AWS). Embora a empresa tenha identificado o problema, ele só pôde ser resolvido às 21h35. A AWS hospeda uma grande quantidade de empresas que oferecem serviços a consumidores e empresas, e que por causa disso estão com dificuldades de atender seus clientes. No Brasil: iFood, por exemplo. Nos EUA: a própria Amazon e a Disney, por exemplo. A lista é grande.

Os incidentes começaram às 13h22, horário de Brasília. A principal causa do problema, afirmou a empresa em sua página de status às 17h34, foi “o comprometimento de vários dispositivos de rede. Continuamos a trabalhar para a mitigação e estamos trabalhando ativamente em uma série de ações diferentes de mitigação e resolução”. Eles prejudicaram os serviços EC2, Connect, DynamoDB, Glue, Athena, Timestream e Chime, além de outros.

Às 19h04, a empresa informou em sua página de status ter avançado na solução: “Executamos uma mitigação que está mostrando uma recuperação significativa na região US-EAST-1. Continuamos monitorando de perto a integridade dos dispositivos de rede e esperamos continuar avançando em direção à recuperação total. Ainda não temos um ETA (horário estimado) para recuperação total no momento”.

A AWS tem datacenter espalhados em 25 regiões do mundo e o problema está localizado na região US-EAST-1. Apesar disso, houve problemas em todos os continentes: exatamente às 13h22 (horário de Brasília) a empresa publicou um alerta informando que estava investigando o aumento das taxas de erro no AWS Management Console. Quatro minutos depois, publicou um segundo alerta informando a existência de problemas de API e de console na região US-EAST-1: “Identificamos a causa raiz e estamos trabalhando ativamente para a recuperação. Esse problema está afetando a página de destino do console global, que também está hospedada em US-EAST-1. Os clientes podem acessar consoles específicos da região acessando https://console.aws.amazon.com/. Portanto, para acessar o console US-WEST-2, tente https://us-west-2.console.aws.amazon.com/”.

Esses dois alertas foram publicados nas páginas de status de todos os continentes, indicando que o problema ocorreu em todos. Mais dois alertas ainda ocorreram nas páginas de todos os continentes: às 14:01 e às 14:26 a empresa informou que tanto o console quanto a API do Centro de Suporte da região US-EAST-1 estavam apresentando elevação de taxas de erro, e que havia localizado o problema, iniciando sua resolução.

Veja isso
Amazon, Reddit e NYT saem do ar; causa é desconhecida
Facebook ficou fora do ar 5h 42m 48s

Na página de status da região América do NOrte, porém, a AWS publicou mais quatro aletas

  • às 13h49 avisou que havia “elevadas taxas de erro elevadas para APIs EC2 (Elastic Compute Cloud) na região US-EAST-1. Identificamos a causa raiz e estamos trabalhando ativamente para a recuperação”.
  • às 13h57 infomou que estava sendo investigado “o aumento das taxas de erro com as APIs do DynamoDB Control Plane, incluindo as APIs de backup e restauração na região US-EAST-1”.
  • e finalmente publicou três alertas informando que seus agentes de suporte estavam praticamente impossibilitados de atender os clientes nos Estados Unidos: um às 13h53 (“Estamos enfrentando problemas no tratamento de contatos por parte dos agentes na região US-EAST-1”), outro às 14h08 (“Os agentes podem ter problemas para fazer login ou se conectar com os clientes finais”) e o terceiro às 14h18 (“Podemos confirmar tratamento de contato degradado por agentes na região US-EAST-1. Os agentes podem ter problemas para fazer login ou se conectar com os clientes finais”).

Compartilhar: