Egressos da Unifesspa e vínculos formais observados na RAIS 2022: base pública agregada com classificação territorial, ocupacional, setorial e de inovação
Description
Este dataset disponibiliza uma base pública agregada sobre egressos da Universidade Federal do Sul e Sudeste do Pará (Unifesspa) e vínculos formais observáveis na Relação Anual de Informações Sociais (RAIS/MTE) de 2022. A base foi construída como produto derivado da integração controlada entre registros acadêmicos institucionais e informações administrativas do mercado de trabalho formal, com o objetivo de apoiar pesquisas sobre inserção profissional de egressos, estrutura ocupacional, atividades econômicas, localização territorial e grupos de atividades associados a capacidades e fontes de inovação. O pacote contém arquivos de dados agregados, metadados, dicionários, documentação metodológica e scripts de validação pública. As informações estão organizadas por cursos e agregações de cursos, classes territoriais, ocupações, atividades econômicas, grupos de inovação e fluxos sintéticos de inserção formal. A variável “peso” corresponde a um peso fracionário de vínculos simultâneos: quando um egresso possui apenas um vínculo, seu peso é igual a 1; quando possui n vínculos simultâneos, cada vínculo recebe peso igual a 1/n. Esse procedimento evita múltipla contagem do mesmo egresso e não deve ser interpretado como peso amostral. A publicação foi preparada exclusivamente em formato público, agregado e documentado. A base disponibilizada não contém microdados individualizados, identificadores pessoais diretos, chaves de vinculação, hashes residuais ou elementos destinados à reidentificação de pessoas. Como estratégia de desidentificação e proteção do sigilo estatístico, foram adotadas agregação de registros, supressão de células pequenas e validações específicas para impedir a divulgação de combinações com baixa frequência. As células positivas remanescentes observam limiar mínimo de divulgação, preservando a utilidade analítica do material sem expor trajetórias individuais. O tratamento dos dados de origem, oriundos de registros acadêmicos e da RAIS identificada, observou os termos institucionais de acesso e uso aplicáveis, bem como os princípios de necessidade, finalidade, adequação, segurança, prevenção e responsabilização previstos na Lei Geral de Proteção de Dados Pessoais (LGPD, Lei nº 13.709/2018). A versão pública depositada no Mendeley Data resulta de procedimento de anonimização/agregação compatível com a divulgação científica de dados derivados, mantendo a rastreabilidade documental do processo sem disponibilizar informações pessoais ou sensíveis da base original.
Files
Steps to reproduce
Este dataset corresponde a uma versão pública, agregada, documentada e desidentificada de uma base originalmente construída a partir da integração controlada entre registros acadêmicos institucionais e registros administrativos identificados da RAIS/MTE 2022. Os microdados originais identificados não estão incluídos neste repositório e não podem ser reconstruídos a partir dos arquivos públicos. Para verificar e reutilizar o pacote público depositado: Baixar todos os arquivos preservando a estrutura original de diretórios: arquivos de raiz, pasta data/, pasta metadata/ e pasta scripts/. Ler inicialmente os arquivos LEIAME.md, DATA_SENSITIVITY_STATEMENT.md e metadata/quality_report.md. Consultar metadata/codebook_variables.csv, metadata/column_name_map.csv e metadata/metadata.json para interpretação das variáveis, nomes de colunas e estrutura documental do pacote. Utilizar os arquivos data/egressos_unifesspa_rais2022_agregado_publico.csv e data/fluxos_agregados_publicos.csv como bases públicas principais de análise. Consultar os dicionários disponíveis em metadata/ para interpretar cursos, agregações de cursos, ocupações, atividades econômicas, grupos de inovação e classificação territorial. Para conferência da estrutura pública do pacote, acessar scripts/run_config.json e executar o script scripts/validar_pacote_publico_mendeley.py em ambiente Python, usando o diretório raiz do dataset como diretório de trabalho. Comparar o resultado da validação com o relatório metadata/VALIDACAO_FINAL_PACOTE_PUBLICO_MENDELEY.md. O script de validação tem por finalidade verificar a estrutura, consistência documental e propriedades públicas do pacote depositado. Ele não reprocessa os registros identificados de origem. A versão pública foi preparada mediante agregação, supressão de células pequenas e remoção de identificadores diretos, chaves de vinculação e elementos residuais de reidentificação, em observância ao sigilo estatístico e à LGPD. Essa formulação mantém a prudência metodológica indicada nas instruções: permite reprodução da verificação pública do pacote, mas não sugere que terceiros possam reconstruir os microdados identificados de origem.
Institutions
- Universidade Federal do Sul e Sudeste do ParáPará, Marabá
Categories
Funders
- SECTET/UNIFESSPA/FADESPGrant ID: Convênio nº 023/2021