DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Tamazight Speech to Arabic Text: 20,344 Audio Segments | DataSalon

Home Speech & AudioTamazight Speech to Arabic Text: 20,344 Audio Segments

Speech & Audio

Tamazight Speech to Arabic Text: 20,344 Audio Segments

Name: Tamazight Speech to Arabic Text: 20,344 Audio Segments
Creator: Tamazight-NLP
Published: 2025-03-27T11:27:24
Keywords: Tamazight, Text, Audio, Natural Language Processing, Multilingual Asr, Speech Recognition

by Tamazight-NLP·Updated 1y ago

Available on 1 platform

Description

Tamazight-NLP hosts the Tamazight-Arabic Speech Recognition Dataset containing 20,344 audio segments. The dataset provides approximately 15.5 hours of Tamazight speech in the Tachelhit dialect paired with Arabic transcriptions. It was last updated on March 29, 2025.

Use Cases

Train automatic speech recognition models based on Tamazight audio.
Develop speech-to-text translation systems based on cross-lingual transcription pairs.
Benchmark ASR model performance on the Tachelhit dialect based on the provided test set.
Study code-switching or language representation in speech models based on the described language pair.

Strengths

Contains 20,344 audio-text pairs.
Provides approximately 15.5 hours of speech data.
Includes a predefined split of 18,309 training and 2,035 test examples.

Limitations

Column-level documentation is absent; field semantics must be inferred after download.
Description metadata is limited; actual data quality requires manual inspection after download.

Provenance

Source: Tamazight-NLP
Freshness: Last updated 2025-03-29 22:57:49; freshness should be verified.

Text Audio Tamazight Natural Language Processing Multilingual Asr Speech Recognition

Related Datasets

Quality Score

D40

Description

Source

Reputation

Quality Score

D40

Description

Source

Reputation

Access

Community

381 downloads

6 likes

0 views

Dataset Info

Author: Tamazight-NLP
Created: Mar 27, 2025
Updated: Mar 29, 2025
Last synced: May 30, 2026

Access

Community

381 downloads

6 likes

0 views

Dataset Info

Author: Tamazight-NLP
Created: Mar 27, 2025
Updated: Mar 29, 2025
Last synced: May 30, 2026

Tamazight Speech to Arabic Text: 20,344 Audio Segments

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info