DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

MMSU: Spoken Language Reasoning Benchmark with 47 Linguistic Sub-Tasks | DataSalon

Home Multimodal & LLMMMSU: Spoken Language Reasoning Benchmark with 47 Linguistic Sub-Tasks

Multimodal & LLM

MMSU: Spoken Language Reasoning Benchmark with 47 Linguistic Sub-Tasks

Name: MMSU: Spoken Language Reasoning Benchmark with 47 Linguistic Sub-Tasks
Creator: ddwang2000
Published: 2025-05-15T17:21:52
Keywords: Size Categories1 Kn10 K, Librarypolars, Task Categoriesquestion Answering, Librarydask, Modalityaudio, Languageen, Modalitytext, Librarymlcroissant, Librarydatasets, Parquet, Regionus, Licensemit, Arxiv250604779

by ddwang2000·Updated 4mo ago

Available on 1 platform

Description

MMSU is a multimodal benchmark for spoken language understanding and reasoning featuring 47 sub-tasks across linguistic domains like phonetics and prosody. Created by ddwang2000 and documented in Arxiv 2506.04779, the collection contains between 1,000 and 10,000 records.

Use Cases

Evaluating phonetic recognition within the 47 sub-tasks
Testing prosodic reasoning using audio features
Benchmarking question answering on rhetorical speech patterns

Strengths

47 distinct sub-tasks for granular evaluation
Multimodal audio-text pairs
MIT licensed

Limitations

Small sample size of 1,000 to 10,000 records
Restricted to English language

Provenance

Source: ddwang2000 (Arxiv 2506.04779)
Freshness: Last updated February 2026.
Geography: United States

Data is stored in Parquet format and requires the datasets or polars library for efficient loading; see Arxiv 2506.04779 for task definitions.

Parquet Size Categories1 Kn10 K Librarypolars Task Categoriesquestion Answering Librarydask Modalityaudio Languageen Modalitytext Librarymlcroissant Librarydatasets Regionus Licensemit Arxiv250604779

Related Datasets

Quality Score

D39

Description

Source

Reputation

Quality Score

D39

Description

Source

Reputation

Access

Community

1.7K downloads

14 likes

0 views

Dataset Info

Author: ddwang2000
Created: May 15, 2025
Updated: Mar 16, 2026
Last synced: Jun 24, 2026

Access

Community

1.7K downloads

14 likes

0 views

Dataset Info

Author: ddwang2000
Created: May 15, 2025
Updated: Mar 16, 2026
Last synced: Jun 24, 2026

MMSU: Spoken Language Reasoning Benchmark with 47 Linguistic Sub-Tasks

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info