HASSANIYA-DTCD: A new Dataset for Benchmarking Text Classification Tasks on HASSANIYA Dialect

Name: HASSANIYA-DTCD: A new Dataset for Benchmarking Text Classification Tasks on HASSANIYA Dialect
Creator: Med El Moustapha El ARBY
Published: 2025-05-06T05:22:34.533Z
Keywords: Data Mining, Natural Language Processing, Dialect, Sentiment Analysis

El ARBY, Med El Moustapha

doi:10.17632/r5k9ktwr4g.1

HASSANIYA-DTCD: A new Dataset for Benchmarking Text Classification Tasks on HASSANIYA Dialect

Published: 6 May 2025| Version 1 | DOI: 10.17632/r5k9ktwr4g.1

Contributor:

Med El Moustapha El ARBY

Description

HASSANIYA-DTCD: A new Dataset for Benchmarking Text Classification Tasks on HASSANIYA dialect is the first Mauritanian dialect dataset called “HASSANIYA” containing 1851 records classified into three categories: positive, negative, and neutral. This dataset was collected using web scraping tools from comments posted on the Facebook platform, and Label Studio was used to annotate each record. For more details, see the README file.

HASSANIYA-DTCD: A new Dataset for Benchmarking Text Classification Tasks on HASSANIYA Dialect

Description

Files

Steps to reproduce

Institutions

Categories

Licence