DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

LongVideoBench: 3,763 Hour-Long Videos for Multimodal QA | DataSalon

Home Multimodal & LLMLongVideoBench: 3,763 Hour-Long Videos for Multimodal QA

Multimodal & LLM

LongVideoBench: 3,763 Hour-Long Videos for Multimodal QA

Name: LongVideoBench: 3,763 Hour-Long Videos for Multimodal QA
Creator: longvideobench
Published: 2024-06-12T06:58:56
Keywords: Size Categories1 Kn10 K, Librarypolars, Task Categoriesmultiple Choice, Languageen, Task Categoriesvisual Question Answering, Neurips 2024, Licensecc By Nc Sa 40, Modalitytext, Modalitytabular, Librarymlcroissant, Librarydatasets, Librarypandas, Parquet, Long Video Understanding, Regionus, Long Context, Arxiv240715754, Multimodal

by longvideobench·Updated 1y ago

Available on 1 platform

Description

3,763 web-collected videos with subtitles and multiple-choice questions comprise this long-context multimodal benchmark. Created for NeurIPS 2024, it evaluates large multimodal models on video-language interleaved inputs with durations reaching up to one hour.

Use Cases

Evaluating long-context visual question answering using the multiple-choice question labels
Testing temporal reasoning in LMMs by analyzing interleaved video frames and subtitle text
Benchmarking multimodal retrieval across hour-long video durations using the provided ground-truth answers

Strengths

3,763 video samples
Video durations up to 60 minutes
NeurIPS 2024 peer-reviewed benchmark
Interleaved video and subtitle modalities

Limitations

Restricted to multiple-choice question formats
Potential web-source bias in video content
High computational requirements for processing hour-long video inputs

Provenance

Source: NeurIPS 2024 (Arxiv 2407.15754)
Collection Method: web-collected
Freshness: Last updated October 2024.
Geography: global

Licensed under CC BY-NC-SA 4.0; requires handling of large-scale video files and parquet-formatted metadata.

Multimodal Parquet Size Categories1 Kn10 K Librarypolars Task Categoriesmultiple Choice Languageen Task Categoriesvisual Question Answering Neurips 2024 Licensecc By Nc Sa 40 Modalitytext Modalitytabular Librarymlcroissant Librarydatasets Librarypandas Long Video Understanding Regionus Long Context Arxiv240715754

Related Datasets

Quality Score

D38

Description

Source

Reputation

Quality Score

D38

Description

Source

Reputation

Access

Community

12.6K downloads

37 likes

0 views

Dataset Info

Author: longvideobench
Created: Jun 12, 2024
Updated: Oct 14, 2024
Last synced: Jun 29, 2026

Access

Community

12.6K downloads

37 likes

0 views

Dataset Info

Author: longvideobench
Created: Jun 12, 2024
Updated: Oct 14, 2024
Last synced: Jun 29, 2026

LongVideoBench: 3,763 Hour-Long Videos for Multimodal QA

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info