DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Nyan: Japanese Text-to-Speech Dataset for Audio Model Fine-tuning | DataSalon

Home NLP & TextNyan: Japanese Text-to-Speech Dataset for Audio Model Fine-tuning

NLP & Text

Nyan: Japanese Text-to-Speech Dataset for Audio Model Fine-tuning

Name: Nyan: Japanese Text-to-Speech Dataset for Audio Model Fine-tuning
Creator: RikkaBotan
Published: 2026-06-05T10:15:30
Keywords: Text To Speech, Text, Fine Tuning, Audio, Audio Generation, Japanese Language, Synthetic

by RikkaBotan·Updated 27d ago

Available on 1 platform

Description

Nyan is a Japanese text-to-speech dataset generated by Irodori-TTS-600M-v3-VoiceDesign and formatted for fine-tuning the LFM2.5-Audio-1.5B model. It contains 9,322 training samples and 491 validation samples. The dataset was authored by RikkaBotan and last updated on June 6, 2026.

Use Cases

Fine-tuning audio generation models based on the dataset's structured prompts and text samples.
Training Japanese speech synthesis systems based on the dataset's language focus.
Evaluating text-to-speech model performance using the provided validation split.
Studying voice style transfer based on the system_prompt column.
Generating synthetic speech data for downstream applications.

Strengths

Dataset includes 9,322 training samples, providing a substantial base for model training.
Contains a dedicated validation split of 491 samples for model evaluation.
Columns suggest structured metadata including voice style instructions and text inputs.

Limitations

Description metadata is limited; actual data quality requires manual inspection after download.
Column-level documentation is absent; field semantics must be inferred after download.
Row count is unknown, which may limit suitability assessment.

Provenance

Source: RikkaBotan
Collection Method: Generated by Irodori-TTS-600M-v3-VoiceDesign.
Freshness: Last updated 2026-06-06 04:44:34; freshness should be verified.

Text Audio Text To Speech Fine Tuning Audio Generation Japanese Language Synthetic

Related Datasets

Quality Score

D38

Description

Source

Reputation

Quality Score

D38

Description

Source

Reputation

Access

Community

60 downloads

1 likes

0 views

Dataset Info

Author: RikkaBotan
Created: Jun 5, 2026
Updated: Jun 6, 2026
Last synced: Jun 13, 2026

Access

Community

60 downloads

1 likes

0 views

Dataset Info

Author: RikkaBotan
Created: Jun 5, 2026
Updated: Jun 6, 2026
Last synced: Jun 13, 2026

Nyan: Japanese Text-to-Speech Dataset for Audio Model Fine-tuning

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info