DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Common Voice 16.0: Mozilla Multilingual Speech Corpus | DataSalon

Home Speech & AudioCommon Voice 16.0: Mozilla Multilingual Speech Corpus

Speech & Audio

Common Voice 16.0: Mozilla Multilingual Speech Corpus

Name: Common Voice 16.0: Mozilla Multilingual Speech Corpus
Creator: fsicoli
Published: 2023-12-19T17:26:21
Keywords: Languagecy, Languagecnh, Languageckb, Languagear, Languagebr, Languageca, Languagecv, Languagebn, Languagebg, Languagecs, Languageab, Languagebe, Languageaz, Languageas, Languageast, Languageam, Languagebas, Task Categoriesautomatic Speech Recognition, Languageaf, Languageba

by fsicoli·Updated 2y ago

Available on 1 platform

Description

Aggregating crowdsourced speech recordings and transcriptions for over 20 listed languages including Abkhaz, Basaa, and Cantonese. It is an unofficial conversion of the Mozilla Common Voice Corpus 16.0, providing paired audio and text data for multilingual speech technology development.

Use Cases

Train automatic speech recognition (ASR) models using the audio recordings and their associated text transcriptions
Build language identification models to classify audio samples into specific language categories like Breton or Bulgarian
Perform phonetic analysis across different dialects by comparing the audio features of Chinese (Hong Kong) and Chinese (Taiwan) samples
Develop text-to-speech (TTS) systems by utilizing the sentence strings as input and audio clips as ground truth

Strengths

Covers a wide array of languages including Amharic, Armenian, Assamese, and Central Kurdish
Provides paired audio clips and text transcriptions sourced from the Mozilla Common Voice project
Includes specific regional variants such as Chinese (China), Chinese (Hong Kong), and Chinese (Taiwan)
Contains data for low-resource languages like Basaa, Abkhaz, and Chuvash

Languagecy Languagecnh Languageckb Languagear Languagebr Languageca Languagecv Languagebn Languagebg Languagecs Languageab Languagebe Languageaz Languageas Languageast Languageam Languagebas Task Categoriesautomatic Speech Recognition Languageaf Languageba

Related Datasets

Quality Score

D34

Description

Source

Reputation

Quality Score

D34

Description

Source

Reputation

Access

Community

5.5K downloads

4 likes

0 views

Dataset Info

Author: fsicoli
Created: Dec 19, 2023
Updated: Dec 22, 2023
Last synced: Apr 28, 2026

Access

Community

5.5K downloads

4 likes

0 views

Dataset Info

Author: fsicoli
Created: Dec 19, 2023
Updated: Dec 22, 2023
Last synced: Apr 28, 2026

Common Voice 16.0: Mozilla Multilingual Speech Corpus

Description

Use Cases

Strengths

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info