DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

WenetSpeech: Speech Recognition Evaluation Subsets | DataSalon

Home Speech & AudioWenetSpeech: Speech Recognition Evaluation Subsets

Speech & Audio

WenetSpeech: Speech Recognition Evaluation Subsets

Name: WenetSpeech: Speech Recognition Evaluation Subsets
Creator: TwinkStart
Published: 2024-08-21T09:15:20
Keywords: Size Categories10 Kn100 K, Librarypolars, Librarydask, Modalityaudio, Modalitytext, Librarymlcroissant, Librarydatasets, Parquet, Regionus

by TwinkStart·Updated 1y ago

Available on 1 platform

Description

Offering 2 specific test subsets from the WenetSpeech corpus, 'test-meeting' and 'test-net', integrated for use within the UltraEval-Audio framework. It facilitates the evaluation of large audio models across 12 task categories including speech understanding and generation using standardized benchmarking scripts.

Use Cases

Benchmark the word error rate of large audio models using the --dataset WenetSpeech-test-meeting flag
Evaluate speech-to-text accuracy on noisy internet audio using the WenetSpeech-test-net configuration
Compare performance across different audio models using the standardized UltraEval-Audio evaluation pipeline

Strengths

Includes the WenetSpeech-test-meeting subset for evaluating speech recognition in multi-speaker meeting environments
Includes the WenetSpeech-test-net subset for testing model performance on diverse internet-sourced audio data
Compatible with the audio_evals/main.py script for automated evaluation of models like gpt4o_audio

Parquet Size Categories10 Kn100 K Librarypolars Librarydask Modalityaudio Modalitytext Librarymlcroissant Librarydatasets Regionus

Related Datasets

Quality Score

D37

Description

Source

Reputation

Quality Score

D37

Description

Source

Reputation

Access

Community

467 downloads

2 likes

0 views

Dataset Info

Author: TwinkStart
Created: Aug 21, 2024
Updated: Jan 21, 2025

Access

Community

467 downloads

2 likes

0 views

Dataset Info

Author: TwinkStart
Created: Aug 21, 2024
Updated: Jan 21, 2025

WenetSpeech: Speech Recognition Evaluation Subsets

Description

Use Cases

Strengths

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info