Dataset sobre a associação entre solidão, comportamento político e mídias sociais no contexto do segundo turno das eleições presidenciais de 2022 em uma microrregião brasileira
Description
Este dataset foi gerado para uma pesquisa de mestrado por meio de um formulário online aplicado em 2024. O instrumento integrou questões sobre: Dados sociodemográficos e socioeconômicos; perfil político e comportamento político polarizado; Uso de plataformas de mídia social para interações políticas e Escala de Solidão UCLA (primeira versão com 20 itens) A coleta focou-se no contexto do segundo turno das eleições presidenciais brasileiras de 2022, com uma amostra representativa de 176 pessoas residentes de uma microrregião do Brasil. Neste estudo transversal, foi adaptado o método machine learning de Gerón (2021) para pesquisa qualiquantitativa através da qual fez uma análise dos dados empíricos subjetivos coletados, empregando uma abordagem mista que utilizou algoritmos não supervisionados (K-means e DBSCAN) para identificação de padrões e clusters naturais nos dados para explorar incialmente o comportamento natural dos dados, analisar a formação de agrupamentos e características dos dados. E posteriormente Algoritmo supervisionado (K-NN) para análise de classificação baseada em instâncias dos agrupamentos formados pelo DBSCAN. O objetivo foi investigar evidências empíricas sobre a associação entre os níveis de severidade de solidão, engajamento político e uso de mídias sociais. A hipótese inicial - que previa uma associação linear entre altos níveis dessas variáveis - foi testada e subsequentemente refutada pelos resultados. Os dados revelaram padrões relacionais mais complexos e não lineares entre os construtos investigados. Este estudo contribuiu para o entendimento de padrões complexos de associação entre níveis de solidão, comportamento político e uso de mídias sociais. Porém apresentou algumas limitações, principalmente quanto a falta de dados sobre as variáveis no cenário nacional, conceito das variáveis, alta variabilidade de características dos dados, viés da amostra e de instrumentos de autorrelato.
Files
Steps to reproduce
Os dados foram obtidos através de um inquérito online transversal, conduzido no primeiro semestre de 2024. O recrutamento dos participantes foi realizado por amostragem não probabilística, por conveniência e em cadeia (snowball sampling), com divulgação primária em redes sociais, fóruns académicos e listas de e-mail de uma universidade pública brasileira, localizada na microrregião de estudo. O público-alvo consistiu em adultos residentes no Brasil, com idade igual ou superior a 18 anos. O instrumento de coleta foi um formulário estruturado, desenvolvido e administrado na plataforma Google Forms. O questionário era composto por seções distintas: 1) Dados sociodemográficos e socioeconómicos (como idade, género, escolaridade, etnia, renda, estado civil. escolaridade ); 2) Perfil (apto a votar e votou ou não) e Comportamento Político com itens adaptados da literatura para aferir níveis de interação comunitária, identificação partidária, posicionamento ideológico (escala esquerda-direita) e frequência de engajamento em ações políticas (como discutir política, assinar petições ou participar de manifestações), com foco no período eleitoral de 2022; 3) Uso de Mídias Sociais (quais as mais utilizadas para acompanhar informações políticas) como Facebook, X (Twitter) e Instagram para interações políticas; e 4) Escala de Solidão UCLA (versão de 20 itens), instrumento psicométrico validado que avalia a percepção subjetiva de solidão, com respostas numa escala de tipo Likert. O protocolo de pesquisa seguiu as diretrizes éticas, tendo sido aprovado por um Comité de Ética em Pesquisa, sendo seguida a LGPD para assegurar a integridade e segurança dos respondentes. Todos os participantes leram e aceitaram um Termo de Consentimento Livre e Esclarecido (online) antes de iniciar o questionário. As respostas foram automaticamente anonimizadas pela plataforma, sendo recolhidas sem quaisquer identificadores pessoais. Para a análise dos dados, todo o processamento e modelagem foram realizados em linguagem Python (versão 3.11), utilizando o ambiente de desenvolvimento VS Code. As principais bibliotecas empregadas foram pandas e numpy para manipulação e limpeza de dados, scikit-learn para a implementação dos algoritmos de machine learning (K-means, DBSCAN e K-NN) e validação cruzada, e matplotlib e seaborn para visualização. O fluxo de trabalho analítico iniciou-se com a exportação dos dados brutos do Google Sheets para um DataFrame do pandas, seguido de um rigoroso pré-processamento que incluiu a exclusão de respostas incompletas, a padronização das variáveis numéricas e a criação de escores sumário para os construtos principais (solidão, engajamento político). Os scripts completos de análise ( arquivos .py), desde a importação até à geração de gráficos, estão disponíveis no repositório de código que acompanha este dataset, garantindo a transparência e a reprodutibilidade integral do estudo.
Institutions
- Universidade Federal de Itajuba