Dataset sobre a associação entre solidão, comportamento político e mídias sociais no contexto do segundo turno das eleições presidenciais de 2022 em uma microrregião brasileira

Published: 17 November 2025| Version 1 | DOI: 10.17632/983b46494s.1
Contributors:
,

Description

Este dataset foi gerado para uma pesquisa de mestrado por meio de um formulário online aplicado em 2024. O instrumento integrou questões sobre: Dados sociodemográficos e socioeconômicos; perfil político e comportamento político polarizado; Uso de plataformas de mídia social para interações políticas e Escala de Solidão UCLA (primeira versão com 20 itens) A coleta focou-se no contexto do segundo turno das eleições presidenciais brasileiras de 2022, com uma amostra representativa de 176 pessoas residentes de uma microrregião do Brasil. Neste estudo transversal, foi adaptado o método machine learning de Gerón (2021) para pesquisa qualiquantitativa através da qual fez uma análise dos dados empíricos subjetivos coletados, empregando uma abordagem mista que utilizou algoritmos não supervisionados (K-means e DBSCAN) para identificação de padrões e clusters naturais nos dados para explorar incialmente o comportamento natural dos dados, analisar a formação de agrupamentos e características dos dados. E posteriormente Algoritmo supervisionado (K-NN) para análise de classificação baseada em instâncias dos agrupamentos formados pelo DBSCAN. O objetivo foi investigar evidências empíricas sobre a associação entre os níveis de severidade de solidão, engajamento político e uso de mídias sociais. A hipótese inicial - que previa uma associação linear entre altos níveis dessas variáveis - foi testada e subsequentemente refutada pelos resultados. Os dados revelaram padrões relacionais mais complexos e não lineares entre os construtos investigados. Este estudo contribuiu para o entendimento de padrões complexos de associação entre níveis de solidão, comportamento político e uso de mídias sociais. Porém apresentou algumas limitações, principalmente quanto a falta de dados sobre as variáveis no cenário nacional, conceito das variáveis, alta variabilidade de características dos dados, viés da amostra e de instrumentos de autorrelato.

Files

Steps to reproduce

Os dados foram obtidos através de um inquérito online transversal, conduzido no primeiro semestre de 2024. O recrutamento dos participantes foi realizado por amostragem não probabilística, por conveniência e em cadeia (snowball sampling), com divulgação primária em redes sociais, fóruns académicos e listas de e-mail de uma universidade pública brasileira, localizada na microrregião de estudo. O público-alvo consistiu em adultos residentes no Brasil, com idade igual ou superior a 18 anos. O instrumento de coleta foi um formulário estruturado, desenvolvido e administrado na plataforma Google Forms. O questionário era composto por seções distintas: 1) Dados sociodemográficos e socioeconómicos (como idade, género, escolaridade, etnia, renda, estado civil. escolaridade ); 2) Perfil (apto a votar e votou ou não) e Comportamento Político com itens adaptados da literatura para aferir níveis de interação comunitária, identificação partidária, posicionamento ideológico (escala esquerda-direita) e frequência de engajamento em ações políticas (como discutir política, assinar petições ou participar de manifestações), com foco no período eleitoral de 2022; 3) Uso de Mídias Sociais (quais as mais utilizadas para acompanhar informações políticas) como Facebook, X (Twitter) e Instagram para interações políticas; e 4) Escala de Solidão UCLA (versão de 20 itens), instrumento psicométrico validado que avalia a percepção subjetiva de solidão, com respostas numa escala de tipo Likert. O protocolo de pesquisa seguiu as diretrizes éticas, tendo sido aprovado por um Comité de Ética em Pesquisa, sendo seguida a LGPD para assegurar a integridade e segurança dos respondentes. Todos os participantes leram e aceitaram um Termo de Consentimento Livre e Esclarecido (online) antes de iniciar o questionário. As respostas foram automaticamente anonimizadas pela plataforma, sendo recolhidas sem quaisquer identificadores pessoais. Para a análise dos dados, todo o processamento e modelagem foram realizados em linguagem Python (versão 3.11), utilizando o ambiente de desenvolvimento VS Code. As principais bibliotecas empregadas foram pandas e numpy para manipulação e limpeza de dados, scikit-learn para a implementação dos algoritmos de machine learning (K-means, DBSCAN e K-NN) e validação cruzada, e matplotlib e seaborn para visualização. O fluxo de trabalho analítico iniciou-se com a exportação dos dados brutos do Google Sheets para um DataFrame do pandas, seguido de um rigoroso pré-processamento que incluiu a exclusão de respostas incompletas, a padronização das variáveis numéricas e a criação de escores sumário para os construtos principais (solidão, engajamento político). Os scripts completos de análise ( arquivos .py), desde a importação até à geração de gráficos, estão disponíveis no repositório de código que acompanha este dataset, garantindo a transparência e a reprodutibilidade integral do estudo.

Institutions

  • Universidade Federal de Itajuba

Categories

Arts and Humanities, Health Sciences, Artificial Intelligence, Political Behavior

Licence