DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Artsakh Armenian Dialect Speech Recordings with Transcripts | DataSalon

Home Multimodal & LLMArtsakh Armenian Dialect Speech Recordings with Transcripts

Multimodal & LLM

Artsakh Armenian Dialect Speech Recordings with Transcripts

Name: Artsakh Armenian Dialect Speech Recordings with Transcripts
Creator: DALiH-ANR
Published: 2026-02-17T08:30:37
Keywords: Speech Alignment, Multilingual Speech, Text, Armenian Dialects, Audio

by DALiH-ANR·Updated 5mo ago

Available on 1 platform

Description

5,122 training examples of Armenian dialect speech recordings from Artsakh varieties (Stepanakert, Getashen, Hadrut) paired with aligned transcriptions, split into train, validation, and test subsets. The dataset was created by DALiH-ANR and last updated on February 17, 2026.

Use Cases

Train speech-to-text models for Armenian dialects based on the audio-transcription pairs.
Benchmark automatic speech recognition systems on the provided test subset.
Analyze phonetic or lexical variation across the Stepanakert, Getashen, and Hadrut dialect subsets.
Develop language models or tools for the Artsakh Armenian language community.

Strengths

Contains 5,122 training examples, providing a substantial base for model training.
Includes 140 validation and 175 test examples for evaluation.
Covers three distinct Artsakh dialect varieties (Stepanakert, Getashen, Hadrut).

Limitations

Column-level documentation is absent; field semantics must be inferred after download.
Row count for the full dataset is unknown, which may limit suitability assessment.
Description metadata is limited; actual data quality requires manual inspection after download.

Provenance

Source: DALiH-ANR
Freshness: Last updated 2026-02-17 09:28:18; freshness should be verified.
Geography: Artsakh region (Stepanakert, Getashen, Hadrut)

Text Audio Speech Alignment Multilingual Speech Armenian Dialects

Related Datasets

Quality Score

D38

Description

Source

Reputation

Quality Score

D38

Description

Source

Reputation

Access

Community

11 downloads

1 likes

0 views

Dataset Info

Author: DALiH-ANR
Created: Feb 17, 2026
Updated: Feb 17, 2026
Last synced: Jun 9, 2026

Access

Community

11 downloads

1 likes

0 views

Dataset Info

Author: DALiH-ANR
Created: Feb 17, 2026
Updated: Feb 17, 2026
Last synced: Jun 9, 2026

Artsakh Armenian Dialect Speech Recordings with Transcripts

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info