LLaVA-Video Training Data With 178K Caption Entries

Name: LLaVA-Video Training Data With 178K Caption Entries
Creator: lmms-lab
Published: 2024-08-27T07:09:50
Keywords: Size Categories1 Mn10 M, Languageen, Task Categoriesvisual Question Answering, Modalitytext, Task Categoriesvideo Text To Text, Arxiv241002713, Visual Qa, Modalityvideo, Regionus, Llm Training, Video, Multimodal Captioning, Video Language, Synthetic, Multimodal

by lmms-labUpdated 1y ago

Available on 1 platform

Sign in to view source links and access this dataset

Description

178,510 caption entries and 960,792 open-ended question-answer pairs were compiled by lmms-lab for training the LLaVA-Video model. This multimodal dataset aggregates video-language data from five primary sources. The dataset card was last updated in October 2024.

Use Cases

Train video-language models on 178,510 caption entries for video captioning tasks.
Fine-tune visual question answering models using the 960,792 open-ended question-answer pairs.
Benchmark model performance on video-to-text generation tasks with the provided captions and QA data.

Strengths

Contains 178,510 distinct caption entries.
Includes 960,792 open-ended question-answer pairs for diverse training.

Limitations

Specific row counts, column names, and data formats are not provided.
Potential geographic or content bias from the five aggregated sources is unknown.
Contains OpenAI GPT-4 generated data, requiring users to check OpenAI's usage policy.

Provenance

Source: lmms-lab, aggregating data from five primary video-language sources.
Collection Method: Compiled for training the LLaVA-Video model; includes GPT-4 generated data.
Time Range: null
Freshness: null
Geography: Region tag indicates 'us', but full spatial coverage is unspecified.

Usage is restricted to academic research and education purposes only. Users must check OpenAI's Usage Policy for the GPT-4 generated portions.

Video Multimodal Size Categories1 Mn10 M Languageen Task Categoriesvisual Question Answering Modalitytext Task Categoriesvideo Text To Text Arxiv241002713 Visual Qa Modalityvideo Regionus Llm Training Multimodal Captioning Video Language Synthetic

Related Datasets

Quality Score

D39

Description

42

Source

36

Reputation

48

Access

26

Community

31.1K downloads

189 likes

0 views

Dataset Info

Author: lmms-lab
Created: Aug 27, 2024
Updated: Oct 11, 2024
Last synced: Jul 26, 2026

Access

26

Community

31.1K downloads

189 likes

0 views

Dataset Info

Author: lmms-lab
Created: Aug 27, 2024
Updated: Oct 11, 2024
Last synced: Jul 26, 2026

LLaVA-Video Training Data With 178K Caption Entries

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info