DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Espeech Balalaika: 100K-1M Annotated Russian Audiobook Speech Records | DataSalon

Home Speech & AudioEspeech Balalaika: 100K-1M Annotated Russian Audiobook Speech Records

Speech & Audio

Espeech Balalaika: 100K-1M Annotated Russian Audiobook Speech Records

Name: Espeech Balalaika: 100K-1M Annotated Russian Audiobook Speech Records
Creator: MTUCI
Published: 2025-11-11T19:24:49
Keywords: Task Categoriestext To Speech, Librarypolars, Librarydask, Modalitytext, Size Categories100 Kn1 M, Arxiv250713563, Modalitytabular, Librarymlcroissant, Librarydatasets, Parquet, Regionus, Task Categoriesautomatic Speech Recognition, Languageru, Licenseapache 20

by MTUCI·Updated 4mo ago

Available on 1 platform

Description

MTUCI's lab260 team released this Russian speech corpus in early 2026, containing between 100,000 and 1,000,000 records. The dataset consists of audiobook recordings filtered and annotated using the BALALAIKA pipeline to support advanced generative speech tasks.

Use Cases

Training Text-to-Speech (TTS) models using the Russian transcriptions and audio pairs
Fine-tuning Automatic Speech Recognition (ASR) systems for high-fidelity audiobook narration
Developing speech generative models using BALALAIKA-annotated features

Strengths

Contains between 100,000 and 1,000,000 records
Annotated with the specialized BALALAIKA pipeline for generative quality
Released under the permissive Apache-2.0 license

Limitations

Restricted to the audiobook genre, which may not represent spontaneous conversational speech
Limited to the Russian language only

Provenance

Source: MTUCI lab260, derived from ESpeech datasets
Collection Method: Filtered and annotated using the BALALAIKA pipeline
Freshness: Last updated February 2026.
Geography: Russia

The dataset is provided in Parquet format and is compatible with the Polars and Dask libraries for large-scale processing.

Parquet Task Categoriestext To Speech Librarypolars Librarydask Modalitytext Size Categories100 Kn1 M Arxiv250713563 Modalitytabular Librarymlcroissant Librarydatasets Regionus Task Categoriesautomatic Speech Recognition Languageru Licenseapache 20

Related Datasets

Quality Score

D40

Description

Source

Reputation

Quality Score

D40

Description

Source

Reputation

Access

Community

77 downloads

4 likes

0 views

Dataset Info

Author: MTUCI
Created: Nov 11, 2025
Updated: Feb 26, 2026

Access

Community

77 downloads

4 likes

0 views

Dataset Info

Author: MTUCI
Created: Nov 11, 2025
Updated: Feb 26, 2026

Espeech Balalaika: 100K-1M Annotated Russian Audiobook Speech Records

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info