DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

OmniVideo-R1: 100K-1M Records for Audio-Visual Reasoning | DataSalon

Home Multimodal & LLMOmniVideo-R1: 100K-1M Records for Audio-Visual Reasoning

Multimodal & LLM

OmniVideo-R1: 100K-1M Records for Audio-Visual Reasoning

Name: OmniVideo-R1: 100K-1M Records for Audio-Visual Reasoning
Creator: jankin123
Published: 2026-03-11T08:17:14
Keywords: Arxiv260205847, Librarypolars, Task Categoriesquestion Answering, Librarydask, Languageen, Task Categoriesvisual Question Answering, Modalitytext, Size Categories100 Kn1 M, Librarymlcroissant, Task Categoriesvideo Text To Text, Librarydatasets, Video Understanding, Regionus, Reasoning, Reinforcement Learning, JSON, Licenseapache 20, Multimodal

by jankin123·Updated 4mo ago

Available on 1 platform

Description

OmniVideo-R1 provides between 100,000 and 1,000,000 preprocessed records for audio-visual reasoning, published by jankin123 in March 2026. The collection supports a two-stage training framework for multimodal models, specifically focusing on Query-Intensive (QI) grounding and modality attention.

Use Cases

Training Visual Question Answering (VQA) models using audio-visual grounding data
Developing Video Text-to-Text systems that synchronize auditory and visual reasoning
Applying reinforcement learning to multimodal tasks using query-intention signals

Strengths

Scale of 100,000 to 1,000,000 records
Multimodal integration of audio, video, and text
Apache 2.0 permissive license

Limitations

Preprocessed specifically for the OmniVideo-R1 framework
Lack of explicit column documentation in the metadata

Provenance

Source: Arxiv paper 2602.05847
Collection Method: Preprocessed from existing audio-visual sources for the OmniVideo-R1 framework
Freshness: Last updated March 2026.

Data is formatted in JSON and intended for use with the OmniVideo-R1 framework; see Arxiv 2602.05847 for implementation details.

Multimodal JSON Arxiv260205847 Librarypolars Task Categoriesquestion Answering Librarydask Languageen Task Categoriesvisual Question Answering Modalitytext Size Categories100 Kn1 M Librarymlcroissant Task Categoriesvideo Text To Text Librarydatasets Video Understanding Regionus Reasoning Reinforcement Learning Licenseapache 20

Related Datasets

Quality Score

D36

Description

Source

Reputation

Quality Score

D36

Description

Source

Reputation

Access

Community

21 downloads

2 likes

0 views

Dataset Info

Author: jankin123
Created: Mar 11, 2026
Updated: Mar 11, 2026
Last synced: Jun 30, 2026

Access

Community

21 downloads

2 likes

0 views

Dataset Info

Author: jankin123
Created: Mar 11, 2026
Updated: Mar 11, 2026
Last synced: Jun 30, 2026

OmniVideo-R1: 100K-1M Records for Audio-Visual Reasoning

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info