DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

ShareGPT4Video: 4.8 Million GPT-4V Generated Video Captions | DataSalon

Home Multimodal & LLMShareGPT4Video: 4.8 Million GPT-4V Generated Video Captions

Multimodal & LLM

ShareGPT4Video: 4.8 Million GPT-4V Generated Video Captions

Name: ShareGPT4Video: 4.8 Million GPT-4V Generated Video Captions
Creator: ShareGPT4Video
Published: 2024-05-22T11:59:11
Keywords: Size Categories10 Kn100 K, Librarypolars, Task Categoriesquestion Answering, Languageen, Task Categoriesvisual Question Answering, Arxiv240604325, Modalitytext, Librarymlcroissant, Modalityimage, Librarydatasets, Librarypandas, Modalityvideo, Licensecc By Nc 40, Regionus, JSON

by ShareGPT4Video·Updated 1y ago

Available on 1 platform

Description

ShareGPT4Video provides 4.8 million multi-modal video captions generated via GPT-4-Vision to improve modality alignment in Large Video-Language Models. Developed by the ShareGPT4Video team in 2024, the collection includes a specific 40,000-record subset for fine-grained visual perception tasks.

Use Cases

Training Large Video-Language Models (LVLMs) using the 4.8M multi-modal captions
Enhancing Text-to-Video Models (T2VMs) using fine-grained visual concept perception data
Visual Question Answering (VQA) tasks using the sharegpt4video_40k.jsonl subset

Strengths

4.8 million video-caption pairs
GPT-4-Vision generated annotations
Includes a curated 40,000-row subset for high-quality alignment
CC BY-NC 4.0 licensed

Limitations

Synthetic label noise from GPT-4V generation
Non-commercial license restriction
Potential geographic or cultural bias in source video selection

Provenance

Source: ShareGPT4Video (Arxiv 2406.04325)
Collection Method: Synthetic annotation using GPT-4-Vision
Freshness: Last updated March 2025

Users must adhere to the CC BY-NC 4.0 license which prohibits commercial use; data is provided in JSONL format.

JSON Size Categories10 Kn100 K Librarypolars Task Categoriesquestion Answering Languageen Task Categoriesvisual Question Answering Arxiv240604325 Modalitytext Librarymlcroissant Modalityimage Librarydatasets Librarypandas Modalityvideo Licensecc By Nc 40 Regionus

Related Datasets

Quality Score

D36

Description

Source

Reputation

Quality Score

D36

Description

Source

Reputation

Access

Community

2.2K downloads

202 likes

0 views

Dataset Info

Author: ShareGPT4Video
Created: May 22, 2024
Updated: Mar 7, 2025
Last synced: Jul 11, 2026

Access

Community

2.2K downloads

202 likes

0 views

Dataset Info

Author: ShareGPT4Video
Created: May 22, 2024
Updated: Mar 7, 2025
Last synced: Jul 11, 2026

ShareGPT4Video: 4.8 Million GPT-4V Generated Video Captions

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info