Após ver um gráfico de barras animado comparando o número de óbitos diários de COVID19 com outras doenças em Nova Iorque postado pelo Chiavegatto no Twitter, fui tomado pela curiosidade de reproduzir o experimento no Brasil, em São Paulo (o estado). Claramente a situação lá está muito mais complicada, mas ainda assim quis saber como seria a mesma ideia sendo aplicada a São Paulo. Busquei os números de óbitos para as mais diversas causas em São Paulo, os números de óbitos de COVID19 de lá, arregacei as mangas e compartilhei com amigos e nas minhas redes sociais o produto dessa curiosidade, como você pode ver abaixo.
Se você acompanha esse blog, sabe que meus posts tem muito mais intuito de ensinar o que eu faço do que qualquer outra coisa. Já tinha em mente escrever esse post para permitir que as pessoas pudessem reproduzir o mesmo gráfico animado em outras localidades, ou até atualizarem para São Paulo em um outro momento. No entanto, com várias pessoas pedindo (e aproveitando para dar uma organizada no código 😳 ) decidi acelerar e já publicar esse post hoje. Como está muito corrido para mim, deixarei para me aprofundar em detalhes em um outro momento, mas já irei compartilhar o código com você e basicamente o que foi feito, caso não tenha ficado claro para alguém. Existem vários comentários nos arquivos de código-fonte do repositório no GitHub, mas para quem não tem interesse em código, mas na metodologia, vamos direto ao ponto.
De onde são os dados?
Os dados de mortalidade são do SIM, Sistema de Informação sobre Mortalidade do Ministério da Saúde. Os dados utilizados nesse exercício são referentes ao ano de 2018, o mais recente que encontrei. Os dados de COVID19 são do dashboard oficial de COVID19 do Ministério da Saúde.
Como a média diária foi calculada?
Como os óbitos de COVID19 em São Paulo são de Março e Abril, o período dos óbitos das demais causas utilizado para calcular a média diária foi também de Março e Abril. Utilizar Março e Abril, em vez dos 12 meses, permite corrigir algum efeito sazonal que possa existir. Eu fiz de ambos os modos e a variação foi muito pequena com uma redução de ~1 caso por dia em doenças e aumento de ~1 caso por dia para acidentes.
Por que essas causas de morte foram escolhidas?
As causas de óbito mostradas nesse GIF não são as primeiras N causas de morte. Eu conversei com algumas pessoas e busquei quais eram as maiores causas de morte na opinião delas. Não quis colocar apenas as que mais matam, mas também algumas que ás vezes nem matam tanto, mas as pessoas acham que são causas de óbito muito frequentes. Ainda assim, o COVID19 no dia 7 matou mais do que a média diária de qualquer outra causa de morte isolada no estado de São Paulo, para a média diária calculada utilizando Março e Abril.
Onde está o código-fonte?
O código está com vários comentários, foi versionado com Git e está hospedado no GitHub. Utilizei o DVC para versionar os datasets e os pipelines e o dsman para gerenciar o projeto. O GIF gerado lá é ligeiramente diferente do que compartilhei nas redes sociais e mostrei no início desse post. Aproveitei para brincar com outras causas de morte. O GIF final você pode ver abaixo 😉
Fiz algumas alterações no layout, melhorei o design em si, o código, entre outras coisas. Uma coisinha que poderia ficar melhor, por exemplo, é adicionar casas decimais no label :-). Pela existência da barra, fica evidente que não é 0 para Influenza (gripe), mas com o label 0 pode acabar confundindo alguém. A media diária é <0.5. Se alguém quiser contribuir para melhorar isso, só mandar um Pull Request lá no GitHub com a solução 😉
A propósito, o dsman é um software fruto de um projeto pessoal que criei há alguns dias. Ele gerencia projetos de Data Science no seu computador, armazenando detalhes em um self-contained DBMS. Cria estruturas de diretório para projetos de acordo com templates em YAML, e inicia o Git, o DVC e hooks automaticamente no início do projeto. Se quiser enviar sugestões ou contribuir com código / divulgação, sinta-se à vontade 8).