LLaVA-CoT-100k: Vision-Language Reasoning Dataset

Name: LLaVA-CoT-100k: Vision-Language Reasoning Dataset
Creator: Xkev
Published: 2024-11-27T08:06:45
Keywords: Vision Language Models, Multimodal Ai, Computer Vision, Reasoning, Visual Question Answering, Multimodal

by XkevUpdated 7mo ago

Available on 1 platform

Sign in to view source links and access this dataset

Description

Introduced in the paper 'LLaVA-CoT: Let Vision Language Models Reason Step-by-Step', this dataset is designed to enable Vision-Language Models to perform autonomous multistage reasoning. It integrates 100,000 samples from various visual question-answering sources with structured reasoning annotations. The dataset was authored by Xkev and last updated on the Hugging Face platform in December 2025.

Use Cases

Training VLMs for step-by-step reasoning based on the structured reasoning annotations.
Benchmarking model performance on complex visual question-answering tasks.
Studying methods to integrate multimodal data from diverse sources for autonomous reasoning.

Strengths

Contains 100,000 samples, providing a substantial scale for model training.
Integrates samples from various visual question-answering sources, suggesting diversity.
Specifically designed with structured reasoning annotations to address systematic reasoning challenges.

Limitations

Column-level documentation is absent; field semantics must be inferred after download.
Row count is unknown, which may limit suitability assessment.
Description metadata is limited; actual data quality requires manual inspection after download.

Provenance

Source: Hugging Face dataset repository by author Xkev.
Collection Method: Integrated from various visual question-answering sources, with added reasoning annotations.
Freshness: Last updated 2025-12-20 08:27:29.

License is unknown; terms of use must be verified before application.

Multimodal Vision Language Models Multimodal Ai Computer Vision Reasoning Visual Question Answering

Related Datasets

Quality Score

C41

Description

42

Source

36

Reputation

56

Access

26

Community

944 downloads

101 likes

0 views

Dataset Info

Author: Xkev
Created: Nov 27, 2024
Updated: Dec 20, 2025
Last synced: May 8, 2026

Access

26

Community

944 downloads

101 likes

0 views

Dataset Info

Author: Xkev
Created: Nov 27, 2024
Updated: Dec 20, 2025
Last synced: May 8, 2026

LLaVA-CoT-100k: Vision-Language Reasoning Dataset

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info