Spear-Phishing en español: dataset de correos dirigidos con señales de personalización (SpearPhishMX)
Description
El español se utiliza ampliamente en campañas de phishing en el mundo real; sin embargo, los corpus públicos disponibles suelen centrarse en phishing genérico y rara vez permiten estudiar de forma sistemática el carácter dirigido (personalizado) que distingue al spear-phishing, ni ofrecen versiones publicables que reduzcan el riesgo de exponer información sensible. En consecuencia, parte de la investigación en español termina abordando el problema como una detección binaria sin capturar con suficiente fidelidad señales observables de personalización y sin controles de seguridad adecuados para el intercambio de datos. Spear Phishing en español (SpearPhishMX) aborda esta brecha proporcionando un conjunto de 3,006 correos electrónicos en español etiquetados para clasificación binaria (etiqueta=1 spear-phishing; etiqueta=0 legítimo). Cada registro se identifica mediante una clave hash estable e incluye asunto y una representación del cuerpo preparada para investigación y análisis reproducible. El dataset incorpora una capa de atributos derivados útiles para evaluación comparativa y XAI, incluyendo estadísticas de URLs (p. ej., conteo_urls, urls_desactivadas) y variables para caracterizar personalización dirigida (p. ej., dirigido_a_persona_v2, destinatario_detectado_v2, destinatario_tiene_apellido_v2, destinatario_normalizado). Un componente definitorio es su enfoque de publicación responsable. La versión pública incluye cuerpo_sanitizado, donde se anonimiza información potencialmente sensible (por ejemplo, correos, teléfonos y patrones fiscales/financieros) mediante marcadores y se desactivan URLs (defanged) para evitar clics accidentales. Adicionalmente, se ofrece un paquete de acceso restringido que conserva una representación más cercana al texto original, pero igualmente protegida mediante redacción de PII y defang de enlaces, con fines de auditoría y trazabilidad. El conjunto de datos se distribuye en CSV (UTF-8, separador “;”) y se acompaña de documentación (README) y un esquema JSON de columnas para facilitar reutilización. SpearPhishMX se publica exclusivamente para investigación defensiva en ciberseguridad, ML/NLP y explicabilidad; no debe emplearse para campañas ofensivas ni para reactivar/operacionalizar enlaces.
Files
Steps to reproduce
1. Descargar el archivo CSV del paquete y abrirlo con un entorno compatible con UTF-8 (por ejemplo, Python/R/Excel). 2. Cargar el CSV usando separador “;” (punto y coma). 3. Usar las columnas asunto y cuerpo_sanitizado como texto de entrada y etiqueta como variable objetivo (1 = spear-phishing, 0 = legítimo). 4. (Opcional) Usar conteo_urls y urls_desactivadas como variables técnicas complementarias. 5. Para análisis de personalización dirigida, usar dirigido_a_persona_v2, destinatario_detectado_v2, destinatario_tiene_apellido_v2 y destinatario_normalizado. 6. Para publicación y uso responsable, utilizar únicamente cuerpo_sanitizado y urls_desactivadas (URLs defanged) y evitar reactivar enlaces.
Institutions
- Instituto Nacional de Astrofisica Optica y ElectronicaPuebla, Puebla