Um conjunto de dados brasileiro classificado para apoio ao diagnóstico diferencial da SRAG por COVID-19 e influenza

Published: 2 February 2023| Version 2 | DOI: 10.17632/cs95vym6hn.2
Contributors:
, Maicon Herverton Lino Ferreira da Silva Barros, Maria Gabriela de Almeida Rodrigues, Vanderson Sampaio, Patricia Takako Endo

Description

O conjunto de dados foi coletado da plataforma do SIVEP (Sistema de Informação da Vigilância Epidemiológica da Gripe) e é referente aos registros de pacientes diagnosticados com Síndrome Respiratória Aguda Grave (SRAG) do Brasil no período de 2020 a 2021. Inicialmente, o conjunto de dados possuía 2.693.764 registros e 168 atributos; e após a execução de um filtro para restringir informações apenas sobre pacientes com SRAG por COVID-19 e SRAG por Influenza, o conjunto de dados passou a ter 1.778.289 registros de pacientes com COVID-19 e 9.874 registros de Influenza. Realizou-se um balanceamento dos dados para posteriormente iniciar o tratamento de limpeza. Após o balanceamento, o conjunto de dados ficou com 19.041 registros, sendo 9.167 classificados como casos de COVID-19 e 9.874 classificados como casos de Influenza Em seguida, todos os atributos foram avaliados seguindo os critérios de exclusão: (1) atributos com mais de 60% dos dados nulos (NaN); (2) atributos como identificadores, datas irrelevantes, dados fora do contexto demográfico, social ou de saúde; (3) atributos com mais que 60% dos dados nulos (NaN), mas que são considerados importantes por especialistas da área, diante do domínio do problema (COVID-19 e influenza), posteriormente preenchidos com o valor da média, mediana ou baseado em algum critério de agrupamento; (4) atributos cujo passo (3) não foi possível de ser executado pela natureza do valor; e (5) exclusão de atributos redundante. Toda essa etapa de pré-processamento dos dados serviu para construir um conjunto de dados que pode ser utilizado para treinar modelos de inteligência artificial para auxiliar no diagnóstico diferencial de COVID-19 e Influenza. Após o pré-processamento, o conjunto de dados ficou com 46 atributos relacionados a dados sociodemográficos, clínicos e laboratoriais, e a classe alvo (classi_fin).

Files

Categories

Influenza, COVID-19

Licence