Data for: Evol-Preference : Evol-Preference: Automatic Evolution of Preference Data For Safety Alignment

Name: Data for: Evol-Preference : Evol-Preference: Automatic Evolution of Preference Data For Safety Alignment
Creator: 云 刘
Published: 2025-12-15T15:16:14.489Z
Keywords: Reinforcement Learning, Preference Learning, Ethical LLM

刘, 云

doi:10.17632/ck364mhrvb.1

Data for: Evol-Preference : Evol-Preference: Automatic Evolution of Preference Data For Safety Alignment

Published: 15 December 2025| Version 1 | DOI: 10.17632/ck364mhrvb.1

Contributor:

云刘

Description

The PKU-Alignment team released the dataset "Beavertails", which focuses on AI safety. We have extended and optimized "Beavertails" to obtain this dataset. Readers can directly use our dataset to train large language models to enhance their usefulness and harmlessness.Training details: 70% for supervised fine-tuning(SFT), 30% direct preference optimization (DPO), training hyperparameters available in Appendix C of the paper.

Files

Steps to reproduce

The harmlessness and usefulness of a large language model can be improved by randomly sampling 70% of the data for supervised fine-tuning (SFT) and 30% of the data for direct preference optimization(DPO). Training hyperparameters are avaliable in Appendix C of the paper.

Institutions

South China Normal University

Data for: Evol-Preference : Evol-Preference: Automatic Evolution of Preference Data For Safety Alignment

Description

Files

Steps to reproduce

Institutions

Categories

Related Links

Licence