Name: Multimodal Language Analysis Benchmark With 61,000 Samples
Creator: THUIAR
Published: 2025-04-28T02:35:39
Keywords: Size Categories10 Kn100 K, Task Categoriestext Generation, Librarypolars, Languagezh, Librarydask, Languageen, Modalitytext, Arxiv250416427, CSV, Librarymlcroissant, Librarydatasets, Licensecc By 40, Task Categorieszero Shot Classification, Regionus, Task Categoriestext Classification

Description

61,000+ multimodal samples across text, video, and audio modalities from nine datasets. The MMLA benchmark, created by THUIAR, includes data from films, TV series, YouTube, Vimeo, Bilibili, TED, and improvised scripts for evaluating foundation models.

Use Cases

Evaluate foundation model performance on text, video, and audio modalities using the benchmark's structured tasks.
Analyze multimodal alignment by comparing features extracted from the video and audio samples with associated text.
Train models for real-world versus acted scenario classification using samples from films, TV series, YouTube, Vimeo, Bilibili, and TED.
Benchmark model robustness across nine different source datasets aggregated in this collection.

Strengths

Contains over 61,000 multimodal samples, providing substantial scale for evaluation.
Aggregates data from nine distinct source datasets, increasing diversity.
Covers three core modalities: text, video, and audio.
Includes samples from both acting and real-world scenarios like films, TV series, and online platforms.

Limitations

Specific column definitions, file formats, and sample data are not provided in the input, hindering immediate technical understanding.
The dataset's composition and potential class imbalances across its nine sources are not detailed.

Provenance

Source: THUIAR, via Hugging Face.
Collection Method: Aggregated from nine existing datasets.
Time Range: null
Freshness: Last updated on August 13, -08-13.
Geography: null

The full dataset description is hosted externally; users must visit the provided Hugging Face page for complete details on tasks, structure, and access.

CSV Size Categories10 Kn100 K Task Categoriestext Generation Librarypolars Languagezh Librarydask Languageen Modalitytext Arxiv250416427 Librarymlcroissant Librarydatasets Licensecc By 40 Task Categorieszero Shot Classification Regionus Task Categoriestext Classification

Multimodal Language Analysis Benchmark With 61,000 Samples

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info