Turkish Speech Corpus

Name: Turkish Speech Corpus
Creator: issai
Published: 2025-01-17T13:06:08
Keywords: Modalityaudio, Languagetr, Audio, Regionus, Task Categoriesautomatic Speech Recognition, Speech, Licensemit

by issaiUpdated 1y ago

Available on 1 platform

Sign in to view source links and access this dataset

Description

218.2 hours of transcribed Turkish speech across 186,171 utterances. The collection supports research in multilingual speech recognition for Turkic languages and is hosted via the IS2AI GitHub repository.

Use Cases

Train automatic speech recognition (ASR) models using the 186,171 transcribed utterances
Develop multilingual speech recognition systems for Turkic languages by combining this Turkish speech corpus with other regional datasets
Perform linguistic analysis on the 218.2 hours of transcribed speech to study Turkic language patterns

Strengths

218.2 hours of transcribed speech data
186,171 individual speech utterances
Open-source availability via the IS2AI/TurkicASR GitHub repository

Audio Modalityaudio Languagetr Regionus Task Categoriesautomatic Speech Recognition Speech Licensemit

Related Datasets

Quality Score

D38

Description

48

Source

36

Reputation

35

Access

22

Community

145 downloads

10 likes

0 views

Dataset Info

Author: issai
Created: Jan 17, 2025
Updated: Feb 13, 2025
Last synced: Jun 2, 2026

Access

22

Community

145 downloads

10 likes

0 views

Dataset Info

Author: issai
Created: Jan 17, 2025
Updated: Feb 13, 2025
Last synced: Jun 2, 2026

Turkish Speech Corpus

Description

Use Cases

Strengths

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info