Spear-Phishing en español: dataset de correos dirigidos con señales de personalización (SpearPhishMX)

Name: Spear-Phishing en español: dataset de correos dirigidos con señales de personalización (SpearPhishMX)
Creator: Juan Manuel Diaz
Published: 2026-01-27T12:34:59.470Z
Keywords: Computer Science, Artificial Intelligence, Cybersecurity, Natural Language Processing, Machine Learning, Information Security, Explainable Artificial Intelligence

Diaz, Juan Manuel; Martínez Cruz, Alfonso; Bustio Martinez, Lazaro

doi:10.17632/h4bxjk84jb.1

Spear-Phishing en español: dataset de correos dirigidos con señales de personalización (SpearPhishMX)

Published: 27 January 2026| Version 1 | DOI: 10.17632/h4bxjk84jb.1

Contributors:

Juan Manuel Diaz,

,

Description

El español se utiliza ampliamente en campañas de phishing en el mundo real; sin embargo, los corpus públicos disponibles suelen centrarse en phishing genérico y rara vez permiten estudiar de forma sistemática el carácter dirigido (personalizado) que distingue al spear-phishing, ni ofrecen versiones publicables que reduzcan el riesgo de exponer información sensible. En consecuencia, parte de la investigación en español termina abordando el problema como una detección binaria sin capturar con suficiente fidelidad señales observables de personalización y sin controles de seguridad adecuados para el intercambio de datos. Spear Phishing en español (SpearPhishMX) aborda esta brecha proporcionando un conjunto de 3,006 correos electrónicos en español etiquetados para clasificación binaria (etiqueta=1 spear-phishing; etiqueta=0 legítimo). Cada registro se identifica mediante una clave hash estable e incluye asunto y una representación del cuerpo preparada para investigación y análisis reproducible. El dataset incorpora una capa de atributos derivados útiles para evaluación comparativa y XAI, incluyendo estadísticas de URLs (p. ej., conteo_urls, urls_desactivadas) y variables para caracterizar personalización dirigida (p. ej., dirigido_a_persona_v2, destinatario_detectado_v2, destinatario_tiene_apellido_v2, destinatario_normalizado). Un componente definitorio es su enfoque de publicación responsable. La versión pública incluye cuerpo_sanitizado, donde se anonimiza información potencialmente sensible (por ejemplo, correos, teléfonos y patrones fiscales/financieros) mediante marcadores y se desactivan URLs (defanged) para evitar clics accidentales. Adicionalmente, se ofrece un paquete de acceso restringido que conserva una representación más cercana al texto original, pero igualmente protegida mediante redacción de PII y defang de enlaces, con fines de auditoría y trazabilidad. El conjunto de datos se distribuye en CSV (UTF-8, separador “;”) y se acompaña de documentación (README) y un esquema JSON de columnas para facilitar reutilización. SpearPhishMX se publica exclusivamente para investigación defensiva en ciberseguridad, ML/NLP y explicabilidad; no debe emplearse para campañas ofensivas ni para reactivar/operacionalizar enlaces.

Files

Steps to reproduce

1. Descargar el archivo CSV del paquete y abrirlo con un entorno compatible con UTF-8 (por ejemplo, Python/R/Excel). 2. Cargar el CSV usando separador “;” (punto y coma). 3. Usar las columnas asunto y cuerpo_sanitizado como texto de entrada y etiqueta como variable objetivo (1 = spear-phishing, 0 = legítimo). 4. (Opcional) Usar conteo_urls y urls_desactivadas como variables técnicas complementarias. 5. Para análisis de personalización dirigida, usar dirigido_a_persona_v2, destinatario_detectado_v2, destinatario_tiene_apellido_v2 y destinatario_normalizado. 6. Para publicación y uso responsable, utilizar únicamente cuerpo_sanitizado y urls_desactivadas (URLs defanged) y evitar reactivar enlaces.

Institutions

Instituto Nacional de Astrofisica Optica y Electronica
Puebla, Puebla

Funders

Secretaría de Ciencia, Humanidades, Tecnología e Innovación
Mexico
Grant ID: 2040191

Spear-Phishing en español: dataset de correos dirigidos con señales de personalización (SpearPhishMX)

Description

Files

Steps to reproduce

Institutions

Categories

Funders

Licence