Name: Urdu-English Parallel Speech Corpus With Over One Million Samples
Creator: humair025
Published: 2025-12-02T14:06:05
Keywords: Text To Speech, Task Categoriestext To Speech, Librarypolars, Librarydask, Size Categories1 Mn10 M, Languageen, Modalitytext, Librarymlcroissant, Task Categoriesaudio Classification, Task Categoriestext To Audio, Languageur, Librarydatasets, Licensecc By 40, Parquet, Regionus, Task Categoriesautomatic Speech Recognition, Task Categoriestranslation, Speech Recognition, Doi1057967hf7148

Description

UrduMegaSpeech-1M is a large-scale Urdu-English parallel speech corpus containing over one million audio-text samples. It provides high-quality audio recordings paired with Urdu transcriptions and English source text, created by author humair025 for tasks like automatic speech recognition and speech translation.

Use Cases

Train an automatic speech recognition model using the Urdu transcriptions paired with audio recordings.
Develop a speech translation system by leveraging the parallel Urdu transcriptions and English source text.
Build a text-to-speech model utilizing the high-quality audio recordings and corresponding Urdu transcriptions.
Analyze speech data quality by employing the provided quality metrics for each audio-text sample.

Strengths

Contains over one million audio-text samples, providing substantial scale for model training.
Includes parallel Urdu transcriptions and English source text, enabling multilingual speech tasks.
Provides quality metrics for each individual sample, aiding in data filtering and analysis.

Limitations

Specific details on audio characteristics, speaker demographics, or recording conditions are not provided in the input.
The dataset's geographic origin and temporal coverage are unknown, which may limit contextual analysis.

Provenance

Source: huggingface
Collection Method: High-quality audio recordings paired with transcriptions and source text, method details unspecified.
Time Range: null
Freshness: Last updated on December 2,量与2025.
Geography: null

null

Parquet Text To Speech Task Categoriestext To Speech Librarypolars Librarydask Size Categories1 Mn10 M Languageen Modalitytext Librarymlcroissant Task Categoriesaudio Classification Task Categoriestext To Audio Languageur Librarydatasets Licensecc By 40 Regionus Task Categoriesautomatic Speech Recognition Task Categoriestranslation Speech Recognition Doi1057967hf7148

Urdu-English Parallel Speech Corpus With Over One Million Samples

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info