Problema de refrigeração em data center atinge IBM e AWS

Da Redação
07/12/2020

Um problema de refrigeração está causando instabilidades no data center que hospeda a IBM Cloud, chamado SAO 01. A empresa publicou alertas e atualizações desde o início da manhã de hoje informando que a elevação da temperatura afetou não só os servidores como também os equipamentos de armazenamento de dados. Como muitas empresas hospedam serviços nessa nuvem, a internet brasileira está também sendo impactada explica o empresário Maurício Correa, da XLabs Security. A causa do problema foi o rompimento de uma canalização que abastece de água as torres de resfriamento informa um alerta da IBM.

Maurício informou ter notado que a nuvem da AWS também está instável, o que o leva a acreditar que ambas estejam nas mesmas instalações físicas. A XLabs presta serviços de segurança a vários clientes hospedados nas duas nuvens. O CISO Advisor solicitou informações à IBM e também a um provedor de instalações para verificar onde ficam os data centers atingidos. O site Downdetector indica que há serviços da AWS prejudicados neste momento, assim como serviços da Vivo, Banco Itaú, Caixa econômica, Mercado Livre e órgãos governamentais como a Polícia Federal.

O último boletim da IBM diz o seguinte: “Em 7 de dezembro de 2020 \ 12:20 UTC (09h20 Brasília), os engenheiros do datacenter IBM Cloud relataram aumento na temperatura desde a última atualização. O trabalho continua, em conjunto com o provedor de instalações, para mitigar quaisquer efeitos que o problema possa ter sobre os serviços ao cliente IBM Cloud. O provedor de instalações encontrou uma interrupção no suprimento principal de água que alimenta as torres de resfriamento. A fratura já foi consertada e a água de reposição está chegando ao local para reabastecer os tanques. Os engenheiros do provedor de instalações estão relatando um ETA de 1 hora e meia antes que as temperaturas se estabilizem. Esta é uma estimativa atual e pode mudar com base nas mudanças na situação.
Com base nas temperaturas elevadas atuais e sustentadas, a suíte Sao01 Server Room 01 será desenergizada para reduzir a carga e mitigar o aumento da temperatura. Todos os dispositivos em Sao01 Server Room 01 perderão energia como resultado desta ação e permanecerão offline até que o problema raiz com o incidente de resfriamento seja resolvido e as temperaturas sejam estabilizadas.
No momento, há relatórios de impactos nas ofertas de armazenamento (arquivo, bloco e VSI-SAN), Bare Metal e VSI. Como resultado da desenergização de Sao01 Sr01, Sao01 Sr02 experimentará uma queda de conectividade de rede e serviços.”

Veja isso
Pane em data center Equinix deixou parte de Londres sem Internet
Symantec: datacenters globais fora do ar durante 2h ontem

Em um comunicado desta manhã, a empresa explica que o incidente continua sendo tratado: “Em 7 de dezembro de 2020 às 9h UTC, os engenheiros do datacenter IBM Cloud relataram uma ligeira queda de temperatura como resultado de medidas tomadas para reduzir o impacto de um incidente de resfriamento. O trabalho continua, em conjunto com o provedor de instalações, para mitigar quaisquer efeitos que o problema possa ter sobre os serviços ao cliente IBM Cloud. Uma atualização adicional sobre este incidente será fornecida dentro dos próximos 30-60 minutos, ou no caso de uma mudança significativa na situação”.

Outro comunicado: “Em 07 de dezembro 06:48 UTC, os especialistas de rede identificaram vários alarmes de aquecimento excessivo do sistema no DC SAO 01 Datacenter. Às 07:25 UTC, o problema foi relatado à equipe DC-Ops. Às 07 de dezembro às 07:27 UTC, os especialistas de rede receberam a confirmação da DC-Ops de que o problema é com a falha do sistema de refrigeração no data center. Atualmente, a Datacenter Facility confirmou que adicionou água fria ao sistema de resfriamento para mitigar o problema”.

Terceiro comunicado: “Em 7 de dezembro de 2020 \ 10:30 UTC, os engenheiros do datacenter IBM Cloud não relataram nenhuma mudança na temperatura desde a última atualização. O trabalho continua, em conjunto com o provedor de instalações, para mitigar quaisquer efeitos que o problema possa ter sobre os serviços ao cliente IBM Cloud.
No momento, há relatórios de impactos nas ofertas de armazenamento (arquivo, bloco e VSI-SAN), Bare Metal e VSI”.

Em 7 de dezembro de 2020 \ 10:54 UTC, os engenheiros do datacenter IBM Cloud não relataram nenhuma mudança na temperatura desde a última atualização. O trabalho continua, em conjunto com o provedor de instalações, para mitigar quaisquer efeitos que o problema possa ter sobre os serviços ao cliente IBM Cloud. Os engenheiros do provedor de instalações estão relatando um ETA de 2 horas e meia antes que as temperaturas se estabilizem”.

O alerta mais recente dessa série diz: “No momento, há relatórios de impactos nas ofertas de armazenamento (arquivo, bloco e VSI-SAN), Bare Metal e VSI.
Com base nas temperaturas elevadas atuais e sustentadas, o IBM Cloud está decidindo desligar os hosts bare metal como um esforço adicional de mitigação. Esta decisão está sendo tomada com base no ETA atual do provedor do local e nos comportamentos observados dos equipamentos.
Uma atualização adicional sobre este incidente será fornecida dentro dos próximos 30-60 minutos, ou no caso de uma mudança significativa na situação”.

Compartilhar: