DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Taiwan Tongues: 10K-100K Hokkien ASR Audio Samples in WebDataset Format | DataSalon

Home Speech & AudioTaiwan Tongues: 10K-100K Hokkien ASR Audio Samples in WebDataset Format

Speech & Audio

Taiwan Tongues: 10K-100K Hokkien ASR Audio Samples in WebDataset Format

Name: Taiwan Tongues: 10K-100K Hokkien ASR Audio Samples in WebDataset Format
Creator: adi-gov-tw
Published: 2025-10-01T07:28:47
Keywords: Size Categories10 Kn100 K, Dginfra, Licenseother, Languagezh, Librarywebdataset, Modalitytext, Librarymlcroissant, WEBDATASET, Librarydatasets, Regionus, Task Categoriesautomatic Speech Recognition

by adi-gov-tw·Updated 5mo ago

Available on 1 platform

Description

Giving access to between 10,000 and 100,000 audio recordings and transcriptions for Hokkien speech recognition, published by adi-gov-tw in late 2024. It is organized into training and test subsets using the WebDataset format to facilitate high-throughput training in PyTorch and Hugging Face environments.

Use Cases

Training automatic speech recognition models using audio and transcription pairs
Benchmarking Hokkien STT performance using the test.tsv split
Fine-tuning transformer-based audio models for Taiwanese dialects

Strengths

10,000 to 100,000 audio records
WebDataset format for optimized I/O during deep learning training
Pre-split into training and test sets for standardized benchmarking

Limitations

Hokkien dialectal variation may lead to performance gaps across different regions of Taiwan
License is listed as 'other', requiring manual verification of usage rights before commercial application

Provenance

Source: adi-gov-tw
Freshness: Last updated December 2025.
Geography: Taiwan

The dataset uses the WebDataset (.tar) format; users should be familiar with the webdataset library or Hugging Face datasets loader to handle the sharded data structure efficiently.

WEBDATASET Size Categories10 Kn100 K Dginfra Licenseother Languagezh Librarywebdataset Modalitytext Librarymlcroissant Librarydatasets Regionus Task Categoriesautomatic Speech Recognition

Related Datasets

Quality Score

D37

Description

Source

Reputation

Quality Score

D37

Description

Source

Reputation

Access

Community

165 downloads

4 likes

0 views

Dataset Info

Author: adi-gov-tw
Created: Oct 1, 2025
Updated: Dec 22, 2025
Last synced: May 19, 2026

Access

Community

165 downloads

4 likes

0 views

Dataset Info

Author: adi-gov-tw
Created: Oct 1, 2025
Updated: Dec 22, 2025
Last synced: May 19, 2026

Taiwan Tongues: 10K-100K Hokkien ASR Audio Samples in WebDataset Format

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info