Name: Multilingual LibriSpeech Spanish Phoneme: 100K+ Audio-Phonetic Pairs
Creator: Cnam-LMSSC
Published: 2026-03-11T10:15:47
Keywords: Task Categoriestext To Speech, Librarypolars, Language Creatorscrowdsourced, Librarydask, Modalityaudio, Modalitytext, Size Categories100 Kn1 M, Librarymlcroissant, Librarydatasets, Licensecc By 40, Parquet, Phonemes, Source Datasetsfacebookmultilingual Librispeech, Audio, Regionus, Task Categoriesautomatic Speech Recognition, Annotations Creatorsmachine Generated, Speech, Languagees, Multilingualitymonolingual

Description

Between 100,000 and 1,000,000 Spanish audio segments and transcriptions derived from LibriVox audiobooks. Created by Cnam-LMSSC and updated in March 2026, it extends the Multilingual LibriSpeech (MLS) corpus with machine-generated phonetic transcriptions.

Use Cases

Training acoustic models using the 'phoneme' column for precise speech-to-text alignment
Developing Spanish Text-to-Speech (TTS) systems using the phonetic transcription sequences
Fine-tuning Automatic Speech Recognition (ASR) models on Spanish-language audiobook data

Strengths

Scale of 100,000 to 1,000,000 records
Includes a dedicated 'phoneme' column for phonetic alignment
Derived from high-quality LibriVox audiobook recordings

Limitations

Phonetic annotations are machine-generated rather than human-verified
Domain is restricted to audiobooks, which may not represent natural conversational speech

Provenance

Source: Laboratoire de Mécanique des Structures et des Systèmes Couplés (Cnam-LMSSC)
Collection Method: Curated from the Facebook Multilingual LibriSpeech subset with machine-generated phonetic annotations.
Freshness: Last updated March 2026.
Geography: Spanish-speaking

The dataset is licensed under CC BY 4.0 and is provided in Parquet format, compatible with Polars, Dask, and Hugging Face Datasets libraries.

Multilingual LibriSpeech Spanish Phoneme: 100K+ Audio-Phonetic Pairs

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info