DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

MMAU: Multi-Modal Audio Evaluation Benchmark with 12 Task Types | DataSalon

Home Multimodal & LLMMMAU: Multi-Modal Audio Evaluation Benchmark with 12 Task Types

Multimodal & LLM

MMAU: Multi-Modal Audio Evaluation Benchmark with 12 Task Types

Name: MMAU: Multi-Modal Audio Evaluation Benchmark with 12 Task Types
Creator: TwinkStart
Published: 2024-10-30T09:19:34
Keywords: Size Categories1 Kn10 K, Librarypolars, Librarydask, Modalityaudio, OPTIMIZED-PARQUET, Modalitytext, Librarymlcroissant, Librarydatasets, Parquet, Regionus

by TwinkStart·Updated 6mo ago

Available on 1 platform

Description

MMAU provides between 1,000 and 10,000 test records for evaluating audio large language models, released by TwinkStart in early 2026. It is integrated into the UltraEval-Audio framework to benchmark performance across 12 task types and 10 languages. The data spans four specialized domains: speech, general sound, medical audio, and music.

Use Cases

Benchmarking speech understanding using the 'mmau-test-mini' configuration
Evaluating zero-shot performance on medical audio tasks
Testing multilingual audio-to-text capabilities across 10 languages

Strengths

Covers 10 different languages
Includes 12 distinct task types
Spans 4 specialized domains including medical and music

Limitations

Small sample size restricted to the 1K-10K record range
Test-only data lacks training pairs for model optimization
Specific column schema is not documented in the metadata

Provenance

Source: TwinkStart / UltraEval-Audio framework
Freshness: Last updated January 2026.
Geography: Global

Designed specifically for use with the UltraEval-Audio framework; users should refer to the associated GitHub repository for execution scripts and model integration instructions.

OPTIMIZED-PARQUET Parquet Size Categories1 Kn10 K Librarypolars Librarydask Modalityaudio Modalitytext Librarymlcroissant Librarydatasets Regionus

Related Datasets

Quality Score

D39

Description

Source

Reputation

Quality Score

D39

Description

Source

Reputation

Access

Community

177 downloads

1 likes

0 views

Dataset Info

Author: TwinkStart
Created: Oct 30, 2024
Updated: Jan 16, 2026

Access

Community

177 downloads

1 likes

0 views

Dataset Info

Author: TwinkStart
Created: Oct 30, 2024
Updated: Jan 16, 2026

MMAU: Multi-Modal Audio Evaluation Benchmark with 12 Task Types

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info