Decidimos adicionar três novos servidores ao nosso aplicativo gerador de PDF,
com o objetivo de aumentar a redundância e reduzir a possibilidade de interrupção total do serviço.
A redundância era boa, porém não impediu um incidente de parada total no dia 31/08.
Foi o primeiro incidente com parada total que tivemos nesse aplicativo.
Pedimos desculpas aos nossos clientes por qualquer transtorno causado.
Estamos constantemente trabalhando para evitar interrupções,
pois entendemos o impacto negativo que podem ter nas operações de nossos usuários.
Após resolvermos o problema naquele dia,
iniciamos uma revisão abrangente de todos os serviços relacionados ao aplicativo,
mapeando pontos de falha e identificando possíveis melhorias.
Como medida imediata, decidimos aumentar ainda mais a redundância, adicionando três novos servidores.
Esses servidores entraram em operação neste último fim de semana e foram monitorados durante um período de observação.
Não havendo problemas durante esse período, consideramos a migração concluída.
No entanto, durante a madrugada, detectamos uma lentidão em uma das filas de geração de PDFs,
onde alguns documentos estavam demorando mais que outros para serem processados.
Após investigação, descobrimos que um dos novos servidores apresentava uma configuração de timeout fora do padrão.
Esse problema fazia com que os PDFs processados nesse servidor sofressem interrupções, devido ao timeout, e fossem retomados pelos nossos mecanismos de recuperação, resultando em atrasos.
Ajustamos a configuração e o problema foi resolvido.
Continuamos monitorando o sistema ao longo do dia de hoje e, como não houve novas ocorrências, consideramos o caso encerrado.
Manteremos o monitoramento preventivo nos próximos dias e implementaremos outras melhorias nas próximas semanas.
Nosso objetivo é incorporar novos mecanismos de fallback à arquitetura, de modo que,
em caso de incidentes semelhantes ao do dia 31/08,
seja possível acionar rotas alternativas para o processamento de PDFs, evitando qualquer interrupção no serviço.
Posted Sep 09, 2024 - 20:52 GMT-03:00