DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Book Corpus for Speech Recognition Language Modeling | DataSalon

Home Speech & AudioBook Corpus for Speech Recognition Language Modeling

Speech & Audio

Book Corpus for Speech Recognition Language Modeling

Name: Book Corpus for Speech Recognition Language Modeling
Creator: Jiejie
Published: 2022-03-02T23:29:22
Keywords: Size Categories1 Kn10 K, Librarypolars, Modalitytext, Librarymlcroissant, Librarydatasets, Librarypandas, Text, Parquet, Language Model, Speech Processing, Regionus, Automatic Speech Recognition, Text Corpus

by Jiejie·Updated 4y ago

Available on 1 platform

Description

A text corpus for language modeling in automatic speech recognition systems, created by Jiejie and hosted on Hugging Face. The dataset was last updated in February 2022. Its size is categorized as 1K to 10K entries.

Use Cases

Train or fine-tune a language model for ASR using the provided text corpus.
Evaluate the impact of book-derived text data on ASR system perplexity scores.
Generate synthetic text data for augmenting speech recognition training pipelines.
Benchmark language model performance on domain-specific text from literary sources.

Strengths

Text modality corpus categorized as containing 1K to 10K entries.
Includes metadata tags for specific libraries (polars, pandas) and formats (Parquet).

Limitations

Small dataset size (1K-10K rows) limits training for large-scale models.
No column names, sample data, or detailed description are provided.
Last update was in 2022, making the data potentially stale for current model architectures.

Provenance

Source: Hugging Face user Jiejie.
Collection Method: null
Time Range: null
Freshness: Last updated 2022-02-26.
Geography: Platform tags suggest a US region focus.

Data format is Parquet, requiring compatible tools like Polars or Pandas for loading.

Text Parquet Size Categories1 Kn10 K Librarypolars Modalitytext Librarymlcroissant Librarydatasets Librarypandas Language Model Speech Processing Regionus Automatic Speech Recognition Text Corpus

Related Datasets

Quality Score

D20

Description

Source

Reputation

Quality Score

D20

Description

Source

Reputation

Access

Community

14 downloads

0 views

Dataset Info

Author: Jiejie
Created: Mar 2, 2022
Updated: Feb 26, 2022
Last synced: Apr 29, 2026

Access

Community

14 downloads

0 views

Dataset Info

Author: Jiejie
Created: Mar 2, 2022
Updated: Feb 26, 2022
Last synced: Apr 29, 2026

Book Corpus for Speech Recognition Language Modeling

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info