DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

MSDWild: Multimodal Speaker Diarization and Localization Dataset | DataSalon

Home Speech & AudioMSDWild: Multimodal Speaker Diarization and Localization Dataset

Speech & Audio

MSDWild: Multimodal Speaker Diarization and Localization Dataset

Name: MSDWild: Multimodal Speaker Diarization and Localization Dataset
Creator: taocode
Published: 2024-04-28T05:41:35
Keywords: Multimodal Analysis, Audio Visual, Lip Synchronization, Audio, Speaker Diarization, Multimodal

by taocode·Updated 2y ago

Available on 1 platform

Description

MSDWild is a dataset designed for testing multimodal analysis in tasks including multimodal speaker diarization, multimodal speaker localization, and audio-visual lip synchronization. The dataset is hosted on Hugging Face by author 'taocode' and was last updated on April 29, 2024. A sample can be viewed on the associated GitHub repository.

Use Cases

Multimodal speaker diarization based on the described task of identifying 'who spoke when' across audio and video streams.
Multimodal speaker localization based on the described task of spatially locating speakers within a video frame.
Audio-visual lip synchronization analysis based on the described task of aligning speech with lip movements.

Strengths

Dataset is explicitly designed for three specific, advanced multimodal analysis tasks.
Last update was recorded on 2024-04-29 03:20:21, suggesting recent maintenance.
A sample is available for visualization, allowing for preliminary inspection.

Limitations

Column-level documentation is absent; field semantics must be inferred after download.
Row count is unknown, which may limit suitability assessment.
The description metadata is limited; actual data quality requires manual inspection after download.

Provenance

Source: taocode on Hugging Face
Freshness: Last updated 2024-04-29 03:20:21

The database is intended solely for research purposes.

Audio Multimodal Multimodal Analysis Audio Visual Lip Synchronization Speaker Diarization

Related Datasets

Quality Score

D32

Description

Source

Reputation

Quality Score

D32

Description

Source

Reputation

Access

Community

102 downloads

2 likes

0 views

Dataset Info

Author: taocode
Created: Apr 28, 2024
Updated: Apr 29, 2024
Last synced: May 26, 2026

Access

Community

102 downloads

2 likes

0 views

Dataset Info

Author: taocode
Created: Apr 28, 2024
Updated: Apr 29, 2024
Last synced: May 26, 2026

MSDWild: Multimodal Speaker Diarization and Localization Dataset

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info