DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Nirantar: 22-Language Indian Speech Dataset | DataSalon

Home Speech & AudioNirantar: 22-Language Indian Speech Dataset

Speech & Audio

Nirantar: 22-Language Indian Speech Dataset

Name: Nirantar: 22-Language Indian Speech Dataset
Creator: adjaysagar
Published: 2026-02-08T12:11:48
Keywords: Languagedoi, Task Categoriestext To Speech, Languagemai, Languagebn, Languageml, Languagene, Languagesa, Languagehi, Languagebrx, Languagesd, Languagekn, Task Categoriesautomatic Speech Recognition, Languageor, Languagepa, Languagekok, Languagemr, Languagemni, Languageks, Languagesat, Languagegu

by adjaysagar·Updated 5mo ago

Available on 1 platform

Description

22 Indian language speech subsets provided in Parquet format for the Hugging Face ecosystem. The collection includes language-specific configurations for modular access to audio data and transcriptions sourced from the AI4Bharat Nirantar project.

Use Cases

Develop speech-to-text systems for Indian languages by loading the 'train' split of the 'hi' configuration.
Compare acoustic properties across 22 different Indian languages using the language-wise subsets.
Build language detection models by training on the distinct language configurations provided in the dataset.

Strengths

Contains 22 language-specific configurations including 'hi' for Hindi.
Utilizes Parquet files for efficient data handling and integration with the Hugging Face datasets library.
Features a 'train' split for every language subset to facilitate model training.

Languagedoi Task Categoriestext To Speech Languagemai Languagebn Languageml Languagene Languagesa Languagehi Languagebrx Languagesd Languagekn Task Categoriesautomatic Speech Recognition Languageor Languagepa Languagekok Languagemr Languagemni Languageks Languagesat Languagegu

Related Datasets

Quality Score

D38

Description

Source

Reputation

Quality Score

D38

Description

Source

Reputation

Access

Community

40 downloads

1 likes

0 views

Dataset Info

Author: adjaysagar
Created: Feb 8, 2026
Updated: Feb 8, 2026
Last synced: Jun 11, 2026

Access

Community

40 downloads

1 likes

0 views

Dataset Info

Author: adjaysagar
Created: Feb 8, 2026
Updated: Feb 8, 2026
Last synced: Jun 11, 2026

Nirantar: 22-Language Indian Speech Dataset

Description

Use Cases

Strengths

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info