Name: Tajik ASR Corpus: Multisource Speech Data for Automatic Speech Recognition
Creator: Peacockery
Published: 2026-05-29T11:52:00
Keywords: Multisource Corpus, Tabular, Audio, Natural Language Processing, Tajik Language, Speech Recognition

Description

Tajik ASR Corpus v0 is a deduplicated collection for automatic speech recognition assembled from multiple sources. The dataset, created by Peacockery, includes data from FLEURS-derived speech, Mozilla Common Voice 25 Tajik, and augmented data from Muhtasham Tajik ASR. Each data split is provided in TSV format with an audio directory, and a SQLite version includes additional normalized fields.

Use Cases

Train automatic speech recognition models based on the deduplicated Tajik speech data.
Benchmark ASR system performance using the combined data from multiple public sources.
Study language-specific acoustic features in Tajik using the provided audio and transcription pairs.
Augment existing speech datasets using the normalized text and source metadata included in the SQLite version.

Strengths

Data is deduplicated, which may reduce redundancy and improve model training efficiency.
Combines speech data from at least three distinct sources, potentially increasing diversity.
Provides data in both TSV and SQLite formats, with the SQLite version including extra fields like normalized_text.

Limitations

Row count, total size, and audio file formats are unknown, which may limit suitability assessment.
Column-level documentation is absent; field semantics must be inferred after download.
License information is unknown, which could restrict commercial or research use.

Provenance

Source: FLEURS-derived speech data, Mozilla Common Voice 25 Tajik, Muhtasham Tajik ASR augmented data.
Collection Method: Assembled and deduplicated from the listed sources.
Freshness: Last updated 2026-05-29 12:01:47; freshness should be verified.

License is unknown, which is a critical restriction to clarify before use.

Tabular Audio Multisource Corpus Natural Language Processing Tajik Language Speech Recognition

Tajik ASR Corpus: Multisource Speech Data for Automatic Speech Recognition

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info