DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Librispeech Lm: Language Modeling Resources for LibriSpeech ASR | DataSalon

Home Speech & AudioLibrispeech Lm: Language Modeling Resources for LibriSpeech ASR

Speech & Audio

Librispeech Lm: Language Modeling Resources for LibriSpeech ASR

Name: Librispeech Lm: Language Modeling Resources for LibriSpeech ASR
Creator: openslr
Published: 2022-03-02T23:29:22
Keywords: Source Datasetsoriginal, Task Categoriestext Generation, Languageen, Language Creatorsfound, Size Categories10 Mn100 M, Licensecc0 10, Annotations Creatorsno Annotation, Task Idslanguage Modeling, Regionus, Multilingualitymonolingual

by openslr·Updated 2y ago

Available on 1 platform

Description

800 million words of normalized text and pre-trained n-gram models derived from 14,500 public domain books. These resources provide the linguistic foundation for the LibriSpeech ASR corpus across multiple model formats.

Use Cases

Train neural language models using the 'librispeech-lm-norm.txt.gz' corpus to improve word error rates in speech recognition
Integrate the 4-gram ARPA models into a decoding pipeline to transcribe LibriSpeech audio
Perform vocabulary expansion for speech-to-text systems using the 'librispeech-vocab.txt' list
Benchmark n-gram smoothing techniques using the provided 3-gram and 4-gram ARPA files

Strengths

800-million-word normalized text corpus provided in the 'librispeech-lm-norm.txt.gz' file
Pre-trained 3-gram and 4-gram language models provided in ARPA format
Vocabulary list 'librispeech-vocab.txt' containing 200,000 unique words
Text data sourced from 14,500 public domain books from the LibriVox project

Source Datasetsoriginal Task Categoriestext Generation Languageen Language Creatorsfound Size Categories10 Mn100 M Licensecc0 10 Annotations Creatorsno Annotation Task Idslanguage Modeling Regionus Multilingualitymonolingual

Related Datasets

Quality Score

D25

Description

Source

Reputation

Quality Score

D25

Description

Source

Reputation

Access

Community

100 downloads

1 likes

0 views

Dataset Info

Author: openslr
Created: Mar 2, 2022
Updated: Jan 18, 2024
Last synced: Jun 13, 2026

Access

Community

100 downloads

1 likes

0 views

Dataset Info

Author: openslr
Created: Mar 2, 2022
Updated: Jan 18, 2024
Last synced: Jun 13, 2026

Librispeech Lm: Language Modeling Resources for LibriSpeech ASR

Description

Use Cases

Strengths

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info