Lentidão no processamento e geração dos PDFs dos boletos
Incident Report for Kobana
Resolved
Decidimos adicionar três novos servidores ao nosso aplicativo gerador de PDF,
com o objetivo de aumentar a redundância e reduzir a possibilidade de interrupção total do serviço.

A redundância era boa, porém não impediu um incidente de parada total no dia 31/08.
Foi o primeiro incidente com parada total que tivemos nesse aplicativo.

Pedimos desculpas aos nossos clientes por qualquer transtorno causado.
Estamos constantemente trabalhando para evitar interrupções,
pois entendemos o impacto negativo que podem ter nas operações de nossos usuários.

Após resolvermos o problema naquele dia,
iniciamos uma revisão abrangente de todos os serviços relacionados ao aplicativo,
mapeando pontos de falha e identificando possíveis melhorias.

Como medida imediata, decidimos aumentar ainda mais a redundância, adicionando três novos servidores.
Esses servidores entraram em operação neste último fim de semana e foram monitorados durante um período de observação.
Não havendo problemas durante esse período, consideramos a migração concluída.

No entanto, durante a madrugada, detectamos uma lentidão em uma das filas de geração de PDFs,
onde alguns documentos estavam demorando mais que outros para serem processados.
Após investigação, descobrimos que um dos novos servidores apresentava uma configuração de timeout fora do padrão.
Esse problema fazia com que os PDFs processados nesse servidor sofressem interrupções, devido ao timeout, e fossem retomados pelos nossos mecanismos de recuperação, resultando em atrasos.

Ajustamos a configuração e o problema foi resolvido.
Continuamos monitorando o sistema ao longo do dia de hoje e, como não houve novas ocorrências, consideramos o caso encerrado.

Manteremos o monitoramento preventivo nos próximos dias e implementaremos outras melhorias nas próximas semanas.
Nosso objetivo é incorporar novos mecanismos de fallback à arquitetura, de modo que,
em caso de incidentes semelhantes ao do dia 31/08,
seja possível acionar rotas alternativas para o processamento de PDFs, evitando qualquer interrupção no serviço.
Posted Sep 09, 2024 - 20:52 GMT-03:00
Monitoring
A fix has been implemented and we are monitoring the results.
Posted Sep 09, 2024 - 10:16 GMT-03:00
Investigating
Desde à 00:30 (meia-noite e meia) do dia 9 de setembro, a geração dos PDFs dos boletos está operando com lentidão. Identificamos o problema por volta das 02:00 da manhã e passamos a monitorar a geração dos boletos, que estava com intermitência. Havia uma demora na geração, porém o sistema se recuperava e retornava com a geração dos arquivos.

A partir das 06:30 da manhã, onde o volume de emissão da nossa base aumentou, passamos a agir proativamente, reprocessando a geração dos PDFs de forma manual para obter uma resolução mais rápida e disponibilizar os arquivos.

Neste momento estamos trabalhando para otimizar a geração dos PDFs, ao mesmo tempo que mantemos a operação de geração dos arquivos funcional.
Posted Sep 09, 2024 - 09:30 GMT-03:00
This incident affected: Produção (API Produção, App Produção).