Egressos da Unifesspa e vínculos formais observados na RAIS 2022: base pública agregada com classificação territorial, ocupacional, setorial e de inovação

Published: 26 May 2026| Version 1 | DOI: 10.17632/5fwgfj6rz5.1
Contributors:
Maurilio Monteiro,

Description

Este dataset disponibiliza uma base pública agregada sobre egressos da Universidade Federal do Sul e Sudeste do Pará (Unifesspa) e vínculos formais observáveis na Relação Anual de Informações Sociais (RAIS/MTE) de 2022. A base foi construída como produto derivado da integração controlada entre registros acadêmicos institucionais e informações administrativas do mercado de trabalho formal, com o objetivo de apoiar pesquisas sobre inserção profissional de egressos, estrutura ocupacional, atividades econômicas, localização territorial e grupos de atividades associados a capacidades e fontes de inovação. O pacote contém arquivos de dados agregados, metadados, dicionários, documentação metodológica e scripts de validação pública. As informações estão organizadas por cursos e agregações de cursos, classes territoriais, ocupações, atividades econômicas, grupos de inovação e fluxos sintéticos de inserção formal. A variável “peso” corresponde a um peso fracionário de vínculos simultâneos: quando um egresso possui apenas um vínculo, seu peso é igual a 1; quando possui n vínculos simultâneos, cada vínculo recebe peso igual a 1/n. Esse procedimento evita múltipla contagem do mesmo egresso e não deve ser interpretado como peso amostral. A publicação foi preparada exclusivamente em formato público, agregado e documentado. A base disponibilizada não contém microdados individualizados, identificadores pessoais diretos, chaves de vinculação, hashes residuais ou elementos destinados à reidentificação de pessoas. Como estratégia de desidentificação e proteção do sigilo estatístico, foram adotadas agregação de registros, supressão de células pequenas e validações específicas para impedir a divulgação de combinações com baixa frequência. As células positivas remanescentes observam limiar mínimo de divulgação, preservando a utilidade analítica do material sem expor trajetórias individuais. O tratamento dos dados de origem, oriundos de registros acadêmicos e da RAIS identificada, observou os termos institucionais de acesso e uso aplicáveis, bem como os princípios de necessidade, finalidade, adequação, segurança, prevenção e responsabilização previstos na Lei Geral de Proteção de Dados Pessoais (LGPD, Lei nº 13.709/2018). A versão pública depositada no Mendeley Data resulta de procedimento de anonimização/agregação compatível com a divulgação científica de dados derivados, mantendo a rastreabilidade documental do processo sem disponibilizar informações pessoais ou sensíveis da base original.

Files

Steps to reproduce

Este dataset corresponde a uma versão pública, agregada, documentada e desidentificada de uma base originalmente construída a partir da integração controlada entre registros acadêmicos institucionais e registros administrativos identificados da RAIS/MTE 2022. Os microdados originais identificados não estão incluídos neste repositório e não podem ser reconstruídos a partir dos arquivos públicos. Para verificar e reutilizar o pacote público depositado: Baixar todos os arquivos preservando a estrutura original de diretórios: arquivos de raiz, pasta data/, pasta metadata/ e pasta scripts/. Ler inicialmente os arquivos LEIAME.md, DATA_SENSITIVITY_STATEMENT.md e metadata/quality_report.md. Consultar metadata/codebook_variables.csv, metadata/column_name_map.csv e metadata/metadata.json para interpretação das variáveis, nomes de colunas e estrutura documental do pacote. Utilizar os arquivos data/egressos_unifesspa_rais2022_agregado_publico.csv e data/fluxos_agregados_publicos.csv como bases públicas principais de análise. Consultar os dicionários disponíveis em metadata/ para interpretar cursos, agregações de cursos, ocupações, atividades econômicas, grupos de inovação e classificação territorial. Para conferência da estrutura pública do pacote, acessar scripts/run_config.json e executar o script scripts/validar_pacote_publico_mendeley.py em ambiente Python, usando o diretório raiz do dataset como diretório de trabalho. Comparar o resultado da validação com o relatório metadata/VALIDACAO_FINAL_PACOTE_PUBLICO_MENDELEY.md. O script de validação tem por finalidade verificar a estrutura, consistência documental e propriedades públicas do pacote depositado. Ele não reprocessa os registros identificados de origem. A versão pública foi preparada mediante agregação, supressão de células pequenas e remoção de identificadores diretos, chaves de vinculação e elementos residuais de reidentificação, em observância ao sigilo estatístico e à LGPD. Essa formulação mantém a prudência metodológica indicada nas instruções: permite reprodução da verificação pública do pacote, mas não sugere que terceiros possam reconstruir os microdados identificados de origem.

Categories

Social Sciences, Economics, Public Administration, Regional Development, Regional Development Planning, Micro Labour Market Issues

Funders

  • SECTET/UNIFESSPA/FADESP
    Grant ID: Convênio nº 023/2021

Licence