DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

SOREVA Multilingual Speech Dataset for African Languages | DataSalon

Home Speech & AudioSOREVA Multilingual Speech Dataset for African Languages

Speech & Audio

SOREVA Multilingual Speech Dataset for African Languages

Name: SOREVA Multilingual Speech Dataset for African Languages
Creator: OlameMend
Published: 2025-05-17T15:13:33
Keywords: Multilingual Evaluation, Speech Synthesis, Low Resource Nlp, Benchmark, Multilingual, Audio, African Languages, Multimodal

by OlameMend·Updated 7mo ago

Available on 1 platform

Description

SOREVA is a multilingual speech dataset designed for evaluating text-to-speech and speech representation models. It contains approximately 150 audio and transcription samples for each of 49 African languages and dialects. The dataset was created by OlameMend and last updated in December 2025.

Use Cases

Benchmarking text-to-speech model performance on out-of-domain African languages using the provided audio samples and transcriptions.
Evaluating speech representation learning models on the 49 distinct languages and dialects included.
Training or fine-tuning speech models for low-resource language generalization using the paired audio-transcription data.

Strengths

Covers 49 distinct African languages and dialects.
Provides approximately 150 paired audio and transcription samples per language.

Limitations

Small sample size per language (approx. 150).
Specific geographic distribution and dialect coverage within languages is unknown.

Provenance

Source: Goethe Institut initiative.
Collection Method: Collection of audio samples and transcriptions.
Freshness: Last updated in December 2025.
Geography: African languages and dialects.

License information is not provided.

Audio Multimodal Multilingual Multilingual Evaluation Speech Synthesis Low Resource Nlp Benchmark African Languages

Related Datasets

Quality Score

C40

Description

Source

Reputation

Quality Score

C40

Description

Source

Reputation

Access

Community

16 downloads

7 likes

0 views

Dataset Info

Author: OlameMend
Created: May 17, 2025
Updated: Dec 17, 2025
Last synced: Apr 11, 2026

Access

Community

16 downloads

7 likes

0 views

Dataset Info

Author: OlameMend
Created: May 17, 2025
Updated: Dec 17, 2025
Last synced: Apr 11, 2026

SOREVA Multilingual Speech Dataset for African Languages

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info