No domingo, os usuários estrangeiros tiveram que lidar com um prolongado apagão que envolveu vários serviços Google: do YouTube para o Drive, até o Gmail. Um alarme retornou dentro de algumas horas. Hoje o grupo Mountain View retorna à história, explicando os motivos que causaram o mau funcionamento, seu impacto e as medidas tomadas para evitar que isso aconteça novamente.
Bloqueio do Google: a causa
A postagem compartilhada por bigG no blog oficial fala sobre atrasos que afetaram o mecanismo de busca e erros gerados por algumas das plataformas gerenciadas. Lá causar pode ser encontrado na mudança feita no configuração de alguns servidores: em vez de ser aplicado a um pequeno número de máquinas localizadas em uma única região, foi introduzido em uma escala maior, reduzindo a capacidade de gerenciar o tráfego de entrada e saída de vários data centers em mais da metade. A infraestrutura que se manteve operacional viu-se assim a ter que lidar com uma quantidade inesperada de pedidos, gerando congestionamentos e consequentemente os abrandamentos experimentados.
Acontece que os servidores priorizaram as solicitações menos exigentes em termos de largura de banda. O Google explica isso por meio de uma comparação: é como se tivesse continuado a entregar os pacotes mais urgentes de bicicleta, em estradas bloqueadas por um engarrafamento. Os engenheiros de Mountain View identificaram a anomalia em segundos, enquanto o diagnóstico do problema e os seus correção demoraram alguns minutos, restaurando a situação normal apenas algumas horas depois. A mesma lentidão que afetou os usuários também retardou a intervenção dos técnicos.
Durante o blecaute, as exibições de Youtube diminuiu cerca de 10% globalmente, enquanto o tráfego em serviços em nuvem para armazenamento, diminuiu 30%. Ainda assim, cerca de 1% dos usuários Gmail encontrou algum tipo de mau funcionamento: um pequeno compartilhamento, mas considerando o quanto a plataforma é adotada em todo o mundo se traduz em milhões de pessoas incapazes de enviar ou receber mensagens. o Search Engine em vez disso, ele só está sujeito a lentidão no gerenciamento de consultas.
A postagem destaca como o Google é ainda no trabalho entender em cada detalhe a dinâmica do problema, bem como os motivos da longa espera para que tudo voltasse ao normal. A empresa também se compromete a trabalhar para que tais incidentes não voltem a ocorrer. Este é o comentário final.
Sabemos que pessoas em todo o mundo confiam nos serviços do Google e, ao longo dos anos, acostumaram-se a esperar que tudo funcione o tempo todo. Levamos essa expectativa muito a sério: é nossa missão, nossa inspiração. Quando não o satisfazemos, como o domingo, nos motiva a aprender o máximo possível e a tornar nossos serviços cada vez melhores, mais rápidos e confiáveis.
Google explica as causas do apagão de domingo