GigaSpeech: 10,000 Hours of Multi-Domain English Transcribed Audio

Name: GigaSpeech: 10,000 Hours of Multi-Domain English Transcribed Audio
Creator: speechcolab
Published: 2022-06-09T14:51:58
Keywords: Task Categoriestext To Speech, Librarypolars, Librarydask, Languageen, Size Categories10 Mn100 M, Doi1057967hf6261, Modalitytext, Librarymlcroissant, Task Categoriestext To Audio, Arxiv210606909, Librarydatasets, Parquet, Regionus, Task Categoriesautomatic Speech Recognition, Multilingualitymonolingual, Licenseapache 20

by speechcolabUpdated 5mo ago

Available on 1 platform

Sign in to view source links and access this dataset

Description

GigaSpeech is a multi-domain English speech recognition corpus containing 10,000 hours of high-quality labeled audio released by SpeechColab in 2021. The data is aggregated from audiobooks, podcasts, and YouTube, capturing a mix of read and spontaneous speaking styles across topics like arts, science, and sports.

Use Cases

Training Automatic Speech Recognition (ASR) models using the transcribed audio segments
Developing Text-to-Speech (TTS) synthesis using the high-quality audio-text pairs
Domain-specific acoustic modeling for niche topics like science or sports

Strengths

10,000 hours of labeled training data
Multi-domain coverage including arts, science, and sports
Includes both read and spontaneous speaking styles

Limitations

Monolingual English focus prevents use for cross-lingual tasks
Potential for variable audio quality and background noise in YouTube and podcast sources

Provenance

Source: SpeechColab (Arxiv 2106.06909)
Collection Method: Scraped and transcribed from audiobooks, podcasts, and YouTube
Freshness: Last updated February 2026 according to platform metadata.
Geography: United States

The dataset is released under the Apache 2.0 license. Users should be prepared for significant storage and bandwidth requirements given the 10,000-hour audio scale.

Parquet Task Categoriestext To Speech Librarypolars Librarydask Languageen Size Categories10 Mn100 M Doi1057967hf6261 Modalitytext Librarymlcroissant Task Categoriestext To Audio Arxiv210606909 Librarydatasets Regionus Task Categoriesautomatic Speech Recognition Multilingualitymonolingual Licenseapache 20

Related Datasets

Quality Score

C45

Description

48

Source

41

Reputation

61

Access

22

Community

12.9K downloads

155 likes

0 views

Dataset Info

Author: speechcolab
Created: Jun 9, 2022
Updated: Feb 7, 2026
Last synced: Jul 24, 2026

Access

22

Community

12.9K downloads

155 likes

0 views

Dataset Info

Author: speechcolab
Created: Jun 9, 2022
Updated: Feb 7, 2026
Last synced: Jul 24, 2026

GigaSpeech: 10,000 Hours of Multi-Domain English Transcribed Audio

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info