Name: AVQA-R1-6K: Audio-Visual Question Answering for Multimodal LLMs
Creator: harryhsing
Published: 2025-05-08T09:38:02
Keywords: Audio Visual Reasoning, Multimodal Qa, Audio, Multiple Choice, Llm Training, Multimodal

Description

6,000 multimodal question-answer pairs presented in the EchoInk-R1 research paper. The dataset was created by author harryhsing and last updated on the Hugging Face platform in May 2025. It is designed for exploring audio-visual reasoning in multimodal large language models via reinforcement learning.

Use Cases

Train multimodal LLMs for audio-visual question answering based on the described multiple-choice format.
Benchmark model performance on cross-modal reasoning tasks based on the 'image_audio' data type.
Explore reinforcement learning techniques for improving audio-visual understanding in LLMs based on the associated research paper.

Strengths

Contains 6,000 entries, providing a substantial corpus for training and evaluation.
Data is structured with clear fields like 'problem', 'data_type', and 'options', suggesting organized annotation.
Directly linked to a published research paper (EchoInk-R1), providing context for its intended use.

Limitations

Column-level documentation is absent; field semantics must be inferred after download.
Row count is known, but the specific size of associated media files (images, audio) is unknown.
Description metadata is limited; actual data quality and balance require manual inspection after download.

Provenance

Source: harryhsing on Hugging Face, associated with the EchoInk-R1 research.
Collection Method: Created for the research paper 'EchoInk-R1: Exploring Audio-Visual Reasoning in Multimodal LLMs via Reinforcement Learning'.
Freshness: Last updated 2025-05-08 13:31:51; freshness should be verified.

License is unknown; users must verify terms before use. Associated code for training and inference is hosted on a separate GitHub repository.

Audio Multimodal Audio Visual Reasoning Multimodal Qa Multiple Choice Llm Training

AVQA-R1-6K: Audio-Visual Question Answering for Multimodal LLMs

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info