DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

English Speech Audio Dataset with 1 Million Hours | DataSalon

Home Speech & AudioEnglish Speech Audio Dataset with 1 Million Hours

Speech & Audio

English Speech Audio Dataset with 1 Million Hours

Name: English Speech Audio Dataset with 1 Million Hours
Creator: allenai
Published: 2026-03-23T20:14:19
Keywords: Librarypolars, Size Categories1 Mn10 M, Modalitytext, Librarymlcroissant, Librarydatasets, Librarypandas, Regionus, Arxiv250820869, JSON, Licenseodc By

by allenai·Updated 4mo ago

Available on 1 platform

Description

1 million hours of English audio-text data was collected from the public internet by AllenAI. The dataset includes a variety of speaking styles, accents, and audio setups, supporting the training of the OLMoASR speech recognition models.

Use Cases

Train English automatic speech recognition models on 1 million hours of audio with diverse accents.
Fine-tune speech models on varied audio setups and speaking styles to improve robustness.
Analyze the distribution of speaking styles and accents present in web-scale audio data.

Strengths

Contains approximately 1 million hours of audio, providing substantial scale for model training.
Encompasses a variety of speaking styles, accents, and audio setups, increasing data diversity.

Limitations

Specific column structure, sample data, and file formats are not provided, complicating initial assessment.
The dataset's curation method and potential biases from web-scale collection are not detailed.

Provenance

Source: AllenAI, collected from the public internet.
Collection Method: Web-scale collection, curated from the OLMoASR-Pool.
Freshness: Last updated March 2026.

The full description is hosted externally; review the dataset page at https://huggingface.co/datasets/allenai/OLMoASR-Mix for complete details.

JSON Librarypolars Size Categories1 Mn10 M Modalitytext Librarymlcroissant Librarydatasets Librarypandas Regionus Arxiv250820869 Licenseodc By

Related Datasets

Quality Score

C41

Description

Source

Reputation

Quality Score

C41

Description

Source

Reputation

Access

Community

574 downloads

2 likes

0 views

Dataset Info

Author: allenai
Created: Mar 23, 2026
Updated: Mar 23, 2026
Last synced: Jun 18, 2026

Access

Community

574 downloads

2 likes

0 views

Dataset Info

Author: allenai
Created: Mar 23, 2026
Updated: Mar 23, 2026
Last synced: Jun 18, 2026

English Speech Audio Dataset with 1 Million Hours

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info