DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Golos Balalaika: Filtered Russian Speech Corpus for Generative Modeling | DataSalon

Home Speech & AudioGolos Balalaika: Filtered Russian Speech Corpus for Generative Modeling

Speech & Audio

Golos Balalaika: Filtered Russian Speech Corpus for Generative Modeling

Name: Golos Balalaika: Filtered Russian Speech Corpus for Generative Modeling
Creator: MTUCI
Published: 2026-01-22T15:19:34
Keywords: Size Categories10 Kn100 K, Task Categoriestext To Speech, Librarypolars, Modalitytext, Arxiv250713563, Modalitytabular, Librarymlcroissant, Licensecc By Sa 40, Librarydatasets, Librarypandas, Parquet, Regionus, Task Categoriesautomatic Speech Recognition, Languageru

by MTUCI·Updated 5mo ago

Available on 1 platform

Description

49.1 hours of filtered Russian speech recordings derived from the 1,300-hour GOLOS corpus. The dataset consists of audio segments processed through the BALALAIKA pipeline specifically for generative speech modeling.

Use Cases

Train text-to-speech (TTS) models using the filtered audio segments and Russian transcriptions
Fine-tune speech synthesis systems using the high-quality annotations from the BALALAIKA pipeline
Evaluate Russian speech generation performance on a curated subset of the GOLOS corpus

Strengths

49.1 hours of curated Russian speech audio
Filtered from a raw source of over 1,300 hours
Processed using the BALALAIKA annotation pipeline
Licensed under CC BY-SA 4.0

Parquet Size Categories10 Kn100 K Task Categoriestext To Speech Librarypolars Modalitytext Arxiv250713563 Modalitytabular Librarymlcroissant Licensecc By Sa 40 Librarydatasets Librarypandas Regionus Task Categoriesautomatic Speech Recognition Languageru

Related Datasets

Quality Score

C43

Description

Source

Reputation

Quality Score

C43

Description

Source

Reputation

Access

Community

33 downloads

3 likes

0 views

Dataset Info

Author: MTUCI
Created: Jan 22, 2026
Updated: Jan 29, 2026

Access

Community

33 downloads

3 likes

0 views

Dataset Info

Author: MTUCI
Created: Jan 22, 2026
Updated: Jan 29, 2026

Golos Balalaika: Filtered Russian Speech Corpus for Generative Modeling

Description

Use Cases

Strengths

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info