DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Nemotron-VLM-Dataset V2: 9 Million Vision-Language Reasoning Samples | DataSalon

Home Multimodal & LLMNemotron-VLM-Dataset V2: 9 Million Vision-Language Reasoning Samples

Multimodal & LLM

Nemotron-VLM-Dataset V2: 9 Million Vision-Language Reasoning Samples

Name: Nemotron-VLM-Dataset V2: 9 Million Vision-Language Reasoning Samples
Creator: nvidia
Published: 2025-10-13T12:54:46
Keywords: Task Categoriesimage Text To Text, Document Understanding, Librarypolars, Size Categories1 Mn10 M, Vision Language Model, Task Categoriesvisual Question Answering, Modalitytext, Librarymlcroissant, Task Categoriesvideo Text To Text, Librarydatasets, Librarypandas, Licensecc By 40, Multilingual, Arxiv251103929, Regionus, JSON

by nvidia·Updated 7mo ago

Available on 1 platform

Description

NVIDIA released this collection of approximately 9 million vision-language samples in late 2025. It focuses on document understanding, visual question answering, and video-to-text tasks across multiple languages.

Use Cases

Training models for financial document analysis using the fintabnet instruction subset
Developing visual reasoning capabilities using the nights_cot Chain-of-Thought entries
Fine-tuning video-to-text models for temporal visual understanding

Strengths

Scale of approximately 9 million samples
Includes specialized nights_cot reasoning paths
Multilingual support for global vision-language tasks

Limitations

Potential for label noise as evidenced by the need to filter broken <think> entries in recent updates
High storage and compute requirements due to the 9 million multimodal record count

Provenance

Source: NVIDIA
Freshness: Last updated December 2025
Geography: Global

Licensed under CC-BY-4.0; users should note the November 2025 fix for broken <think> entries in the nights_cot subset.

Multilingual JSON Task Categoriesimage Text To Text Document Understanding Librarypolars Size Categories1 Mn10 M Vision Language Model Task Categoriesvisual Question Answering Modalitytext Librarymlcroissant Task Categoriesvideo Text To Text Librarydatasets Librarypandas Licensecc By 40 Arxiv251103929 Regionus

Related Datasets

Quality Score

D39

Description

Source

Reputation

Quality Score

D39

Description

Source

Reputation

Access

Community

5.7K downloads

87 likes

0 views

Dataset Info

Author: nvidia
Created: Oct 13, 2025
Updated: Dec 18, 2025
Last synced: Jul 14, 2026

Access

Community

5.7K downloads

87 likes

0 views

Dataset Info

Author: nvidia
Created: Oct 13, 2025
Updated: Dec 18, 2025
Last synced: Jul 14, 2026

Nemotron-VLM-Dataset V2: 9 Million Vision-Language Reasoning Samples

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info