IndicDialogue Dataset

Name: IndicDialogue Dataset
Creator: Noor Mairukh Khan Arnob
Published: 2024-04-08T07:59:05.454Z
Keywords: Natural Language Processing, Dialogue

Arnob, Noor Mairukh Khan; Faiyaz, Ahmed; Fuad, Md Mubtasim; Das, Baivab

doi:10.17632/wcb4bxbyxx.1

IndicDialogue Dataset

Published: 8 April 2024| Version 1 | DOI: 10.17632/wcb4bxbyxx.1

Contributors:

Noor Mairukh Khan Arnob,

,

Description

The IndicDialogue dataset contains raw subtitle SRT files and dialogues extracted from them. The subtitles are in 10 indic languages, namely Hindi, Bengali, Marathi, Telugu, Tamil, Urdu, Odia, Sindhi, Nepali and Assamese. This dataset provides a corpus for performing various NLP tasks in low-resource languages using SLMs(Small Language Models) and LLMs(Large Language Models).

Files

Institutions

University of Asia Pacific

IndicDialogue Dataset

Description

Files

Institutions

Categories

Related Links

Licence