LLMs_Phishing

Published: 8 January 2026| Version 1 | DOI: 10.17632/sy8tddyhch.1
Contributor:
Antonio Machado

Description

O conjunto de dados é composto por uma base comparativa estruturada para análise empírica de ataques de phishing tradicionais e phishing potencializado por LLMs, desenvolvida no contexto da pesquisa “Cibercrime e Inteligência Artificial: O Papel dos Modelos de Linguagem no Aperfeiçoamento de Ataques de Phishing” (Machado & Millan, 2025). O dataset é constituído por 2.000 amostras de e-mails de phishing, organizadas em dois subconjuntos balanceados: (i) Human_phishing.csv – 1.000 mensagens autênticas de phishing redigidas por agentes humanos, selecionadas a partir de repositórios públicos consolidados, notadamente o Nazario Phishing Corpus e o SpamAssassin Public Corpus, priorizando versões contemporâneas e com diversidade temática. Todas as mensagens foram previamente anonimizadas e padronizadas, preservando-se apenas o corpo textual necessário para análise linguística. (ii) LLM_phishing.csv – 1.000 mensagens sintéticas de phishing geradas em ambiente controlado com apoio de LLMs (incluindo ChatGPT e LLaMA-2-13B), utilizando engenharia de prompts estruturada, domínios fictícios não resolvíveis e anonimização integral, garantindo conformidade ética e reprodutibilidade metodológica. O conjunto foi projetado para suportar análises quantitativas e qualitativas das dimensões de persuasão, personalização e realismo textual, permitindo a aplicação de métricas linguísticas, extração de características computacionais e testes estatísticos comparativos. A estrutura do dataset viabiliza a replicação dos experimentos descritos no artigo científico associado, incluindo o uso de scripts em Python para cálculo de índices de legibilidade, identificação de gatilhos persuasivos, níveis de personalização e avaliação de diferenças estatísticas por meio de testes não paramétricos. Este repositório destina-se ao apoio de pesquisas em cibersegurança, ciência de dados, linguística computacional e estudos sobre cibercrime, oferecendo uma base aberta e padronizada para investigações sobre o impacto de modelos de linguagem no aperfeiçoamento de ataques de engenharia social.

Files

Steps to reproduce

1. Baixe os arquivos Human_phishing.csv e LLM_phishing.csv. 2. Importe ambos os conjuntos de dados em um ambiente Python (Python ≥ 3.9 recomendado). 3. Instale as bibliotecas necessárias: pandas, numpy, scipy, nltk, spacy, textstat, matplotlib e seaborn. 4. Realize o pré-processamento dos textos, normalizando a capitalização, removendo registros nulos e verificando a codificação UTF-8. 5. Extraia as características de persuasão por meio de correspondência léxico-semântica baseada nos princípios de influência de Cialdini (reciprocidade, autoridade, escassez, prova social, compromisso e consistência, afeição e unidade), utilizando expressões regulares e dicionários de palavras-chave. 6. Extraia as características de personalização utilizando Reconhecimento de Entidades Nomeadas (NER) e correspondência por padrões para identificar nomes próprios, instituições e referências contextuais. Atribua escores ordinais de personalização (0–3). 7. Calcule as métricas de realismo textual: Índice de Legibilidade de Flesch, proporção de caracteres em caixa alta, proporção de pontuações repetidas e comprimento médio das frases. Normalize os valores em escala de 1–5 e calcule um índice composto de realismo textual. 8. Execute a comparação estatística entre os conjuntos Humano e LLM utilizando o teste de Mann–Whitney U e calcule o tamanho de efeito Cliff’s δ. 9. Gere boxplots e histogramas comparativos para visualizar as distribuições de persuasão, personalização e realismo textual. 10. Valide a reprodutibilidade repetindo as análises com os mesmos parâmetros de pré-processamento e extração de características.

Institutions

  • Escola Superior do Ministerio Publico da Uniao

Categories

Artificial Intelligence, Cybersecurity, Large Language Model

Licence