DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

AISHELL-1: Open-Source Mandarin Chinese Speech Corpus | DataSalon

Home Speech & AudioAISHELL-1: Open-Source Mandarin Chinese Speech Corpus

Speech & Audio

AISHELL-1: Open-Source Mandarin Chinese Speech Corpus

Name: AISHELL-1: Open-Source Mandarin Chinese Speech Corpus
Creator: AISHELL
Published: 2023-08-03T05:54:53
Keywords: Languagezh, Regionus, Task Categoriesautomatic Speech Recognition, Licenseapache 20

by AISHELL·Updated 2y ago

Available on 1 platform

Description

Composed of a Chinese Mandarin speech corpus featuring recordings from 400 speakers representing various accent regions across China. The audio was captured in quiet indoor settings using high-fidelity microphones and is provided at a 16kHz sampling rate with manual transcriptions.

Use Cases

Train Mandarin automatic speech recognition (ASR) models using the 16kHz audio recordings and their associated manual transcriptions
Analyze phonetic variations across different Chinese regions using the 400-speaker accent-diverse dataset
Benchmark speech-to-text accuracy against the provided 95% accuracy manual transcription baseline

Strengths

400 speakers from diverse accent areas across China
Manual transcription accuracy verified at over 95%
Audio recordings downsampled to a 16kHz sampling rate
Recorded in quiet indoor environments using high-fidelity microphones

Languagezh Regionus Task Categoriesautomatic Speech Recognition Licenseapache 20

Related Datasets

Quality Score

D36

Description

Source

Reputation

Quality Score

D36

Description

Source

Reputation

Access

Community

1.5K downloads

12 likes

0 views

Dataset Info

Author: AISHELL
Created: Aug 3, 2023
Updated: Jan 8, 2024
Last synced: Jun 3, 2026

Access

Community

1.5K downloads

12 likes

0 views

Dataset Info

Author: AISHELL
Created: Aug 3, 2023
Updated: Jan 8, 2024
Last synced: Jun 3, 2026

AISHELL-1: Open-Source Mandarin Chinese Speech Corpus

Description

Use Cases

Strengths

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info