DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

ViYT-Diar: Vietnamese YouTube Audio for Speaker Diarization Benchmarking | DataSalon

Home Speech & AudioViYT-Diar: Vietnamese YouTube Audio for Speaker Diarization Benchmarking

Speech & Audio

ViYT-Diar: Vietnamese YouTube Audio for Speaker Diarization Benchmarking

Name: ViYT-Diar: Vietnamese YouTube Audio for Speaker Diarization Benchmarking
Creator: tuanduy1612
Published: 2026-04-02T06:57:15
Keywords: Librarypolars, Youtube, Task Categoriesvoice Activity Detection, OPTIMIZED-PARQUET, Modalitytimeseries, Size Categoriesn1 K, Modalitytext, Librarymlcroissant, Vietnamese, Librarydatasets, Benchmark, Librarypandas, Parquet, Speech Processing, Audio, Regionus, Vietnamese Audio, Licenseapache 20, Speaker Diarization, Languagevi

by tuanduy1612·Updated 3mo ago

Available on 1 platform

Description

ViYT-Diar is a manually annotated audio dataset extracted from Vietnamese YouTube videos. It is designed as a test benchmark for evaluating Speaker Diarization models on in-the-wild data. The dataset was created by author tuanduy1612 and last updated on 2026-04-03.

Use Cases

Benchmarking speaker diarization model performance based on manually annotated timestamps.
Training models for Vietnamese speech processing based on in-the-wild YouTube audio.
Evaluating model robustness on real-world, multi-speaker audio data mentioned in the description.

Strengths

Manually annotated for high-quality diarization labels.
Specifically designed as a benchmark for in-the-wild data.
Focuses on Vietnamese audio, a specific language domain.

Limitations

Column-level documentation is absent; field semantics must be inferred after download.
Row count is unknown, which may limit suitability assessment.

Provenance

Source: huggingface
Collection Method: Extracted and manually annotated from Vietnamese YouTube videos.
Time Range: null
Freshness: Last updated 2026-04-03 03:19:02; freshness should be verified.
Geography: null

null

Audio OPTIMIZED-PARQUET Parquet Librarypolars Youtube Task Categoriesvoice Activity Detection Modalitytimeseries Size Categoriesn1 K Modalitytext Librarymlcroissant Vietnamese Librarydatasets Benchmark Librarypandas Speech Processing Regionus Vietnamese Audio Licenseapache 20 Speaker Diarization Languagevi

Related Datasets

Quality Score

D39

Description

Source

Reputation

Quality Score

D39

Description

Source

Reputation

Access

Community

30 downloads

1 likes

0 views

Dataset Info

Author: tuanduy1612
Created: Apr 2, 2026
Updated: Apr 3, 2026
Last synced: Apr 23, 2026

Access

Community

30 downloads

1 likes

0 views

Dataset Info

Author: tuanduy1612
Created: Apr 2, 2026
Updated: Apr 3, 2026
Last synced: Apr 23, 2026

ViYT-Diar: Vietnamese YouTube Audio for Speaker Diarization Benchmarking

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info