DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Jenny 30H Tokens: Pre-tokenized Audio Codec Tokens for TTS Training | DataSalon

Home Speech & AudioJenny 30H Tokens: Pre-tokenized Audio Codec Tokens for TTS Training

Speech & Audio

Jenny 30H Tokens: Pre-tokenized Audio Codec Tokens for TTS Training

Name: Jenny 30H Tokens: Pre-tokenized Audio Codec Tokens for TTS Training
Creator: somu9
Published: 2026-05-03T07:50:06
Keywords: Text To Speech, Speech Synthesis, Audio, Pre Tokenized, Audio Tokens

by somu9·Updated 2mo ago

Available on 1 platform

Description

somu9 provides 20,141 pre-extracted audio codec tokens for text-to-speech training, derived from the reach-vb/jenny_tts_dataset. The collection contains 26.4 hours of audio, tokenized using the MOSS-Audio-Tokenizer-Nano codec at 48 kHz stereo and a frame rate of 12.5 Hz.

Use Cases

Fine-tuning TTS models based on pre-extracted audio tokens.
Training audio codec language models using the provided token sequences.
Benchmarking tokenizer performance on the 26.4-hour audio corpus.
Synthesizing speech from the tokenized representations of the source dataset.

Strengths

Contains 20,141 individual audio samples.
Totals 26.4 hours of audio data.
Uses a specific audio codec (MOSS-Audio-Tokenizer-Nano) at 48 kHz stereo.
Provides an average sample duration of 4.7 seconds.

Limitations

Column-level documentation is absent; field semantics must be inferred after download.
Description metadata is limited; actual data quality requires manual inspection after download.
The source dataset's geographic and demographic biases are unknown.

Provenance

Source: Derived from reach-vb/jenny_tts_dataset.
Collection Method: Pre-extracted using MOSS-Audio-Tokenizer-Nano codec.
Freshness: Last updated 2026-05-18 05:32:34; freshness should be verified.

License is unknown, which may restrict usage.

Audio Text To Speech Speech Synthesis Pre Tokenized Audio Tokens

Related Datasets

Quality Score

D37

Description

Source

Reputation

Quality Score

D37

Description

Source

Reputation

Access

Community

15 downloads

1 likes

0 views

Dataset Info

Author: somu9
Created: May 3, 2026
Updated: May 18, 2026
Last synced: May 25, 2026

Access

Community

15 downloads

1 likes

0 views

Dataset Info

Author: somu9
Created: May 3, 2026
Updated: May 18, 2026
Last synced: May 25, 2026

Jenny 30H Tokens: Pre-tokenized Audio Codec Tokens for TTS Training

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info