DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

WaxalNLP: Multilingual African Speech Corpus | DataSalon

Home Speech & AudioWaxalNLP: Multilingual African Speech Corpus

Speech & Audio

WaxalNLP: Multilingual African Speech Corpus

Name: WaxalNLP: Multilingual African Speech Corpus
Creator: google
Published: 2026-01-19T12:35:52
Keywords: Source Datasetsoriginal, Task Categoriestext To Speech, Languageamh, Languageach, Language Creatorscreator 1, Languagebau, Languageaka, Languagedga, Source Datasetsdigital Umugandaafri Voice, Multilingualitymultilingual, Languagedag, Task Categoriesautomatic Speech Recognition, Source Datasetsugspeech Data

by google·Updated 3mo ago

Available on 1 platform

Description

The Waxal dataset is a large-scale multilingual speech corpus specifically designed for African languages. It was created to facilitate research in improving the accuracy and fluency of speech and language technologies across the continent. The dataset supports both Automated Speech Recognition (ASR) and Text-to-Speech (TTS) tasks.

Use Cases

Training Automated Speech Recognition (ASR) models for African languages
Developing Text-to-Speech (TTS) systems for under-represented languages
Linguistic research on African language speech patterns
Improving multilingual language model performance in speech tasks

Strengths

Large-scale multilingual coverage of diverse African languages
Supports dual tasks of Automated Speech Recognition and Text-to-Speech
Aggregates data from multiple reputable sources including original recordings

Limitations

Specific column structures and file formats are not detailed in the provided metadata
Sample data and row counts are currently unavailable

Provenance

Source: google
Collection Method: Sourced from original data and existing datasets including DigitalUmuganda/AfriVoice and UGSpeechData.
Freshness: Last updated on 2026-03-13.
Geography: Africa

Source Datasetsoriginal Task Categoriestext To Speech Languageamh Languageach Language Creatorscreator 1 Languagebau Languageaka Languagedga Source Datasetsdigital Umugandaafri Voice Multilingualitymultilingual Languagedag Task Categoriesautomatic Speech Recognition Source Datasetsugspeech Data

Related Datasets

Quality Score

D40

Description

Source

Reputation

Quality Score

D40

Description

Source

Reputation

Access

Community

11.8K downloads

215 likes

0 views

Dataset Info

Author: google
Created: Jan 19, 2026
Updated: Mar 30, 2026
Last synced: Jul 23, 2026

Access

Community

11.8K downloads

215 likes

0 views

Dataset Info

Author: google
Created: Jan 19, 2026
Updated: Mar 30, 2026
Last synced: Jul 23, 2026

WaxalNLP: Multilingual African Speech Corpus

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info