DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Multimodal & LLM Datasets | DataSalon

All Categories

🔗

Multimodal & LLM

Image-text pairs, instruction tuning, visual QA, cross-modal data, foundation model training data

1,956 datasets

Multimodal & LLM

ViInfographicVQA: Vietnamese Infographic Visual Question Answering Benchmark

ViInfographicVQA is a Vietnamese Visual Question Answering benchmark for infographic understanding. It likely contains data-rich visuals mixing text, charts, maps, and design elements. The dataset was created by duytranus and was last updated on November 14, 2025.

MultimodalBenchmarkInfographicComputer VisionVietnamese LanguageVisual Question Answering+1

0 views

Multimodal & LLM

Cvalues RLHF: English Preference Data for Direct Preference Optimization

A translated dataset for Direct Preference Optimization (DPO) derived from the Skepsun/cvalues_rlhf source. The prompt and rejected response fields contain outputs from the huihui-ai/Huihui-gpt-oss-20b-mxfp4-abliterated-v2 model, while the chosen response field uses outputs from openai/gpt-oss-20b. The dataset was created by author puwaer and last updated on November 15, 2025.

TextRlhfText GenerationPreference DataLlm TrainingDpo+1

0 views

Multimodal & LLM

SoccerBench: 10,000 Multimodal QA Pairs for Soccer Understanding

SoccerBench contains approximately 10,000 standardized multimodal multiple-choice question-answering pairs across 14 distinct soccer understanding tasks. Developed by Homie0609 and released in 2025, the benchmark utilizes automated pipelines combined with manual verification to evaluate multi-agent systems.

Size Categories1 Kn10 KLicensecc By Nc Sa 40LibrarymlcroissantLibrarydatasetsRegionusArxiv250503735+1

0 views

Multimodal & LLM

FineVision: 24.3M Vision-Language Samples with 88.9M Dialogue Turns

HuggingFaceM4 released FineVision in October 2025, a collection of 24.3 million samples featuring 17.3 million images and 88.9 million conversational turns. The dataset is designed for training open Vision-Language Models and contains 9.5 billion answer tokens.

ParquetLibrarypolarsLibrarydaskSize Categories10 Mn100 MModalitytextLibrarymlcroissantModalityimageLibrarydatasetsRegionusArxiv251017269+1

0 views

Multimodal & LLM

Olmoearth Pretrain: Satellite Imagery for Remote Sensing Foundation Models

A pre-training dataset for the OlmoEarth remote sensing foundation models, created by AllenAI. The dataset includes Sentinel-2 L2A and Sentinel-1 GRD IW imagery from the European Space Agency. It was last updated on November 1, 2025.

GeospatialMultimodalFoundation ModelSatellite ImageryEarth Observation+1

0 views

Multimodal & LLM

Massive Multimodal Embedding Benchmark for Video and Document Tasks

MMEB-V2 from TIGER-Lab is a benchmark dataset for evaluating multimodal AI models. It expands on its predecessor to include five new tasks focused on video and visual document analysis. The dataset was last updated in November 2025.

MultimodalSize Categories1 Mn10 MLanguageenTask Categoriestext RetrievalArxiv241005160RegionusTask Categoriestext ClassificationArxiv250704590Licenseapache 20Task Categoriestoken Classification+1

0 views

Multimodal & LLM

CoCoaSpec: Hyperspectral Images of Colombian Cocoa Beans with Physicochemical Labels

CoCoaSpec is a multimodal hyperspectral imaging dataset of Colombian cocoa beans with detailed physicochemical annotations. It was created by ecos-nord-ginp-uis to support research on non-destructive quality assessment, spectral data analysis, and multimodal data fusion. The dataset includes hyperspectral images acquired with four different devices and was last updated on November 10, 2025.

ImageMultimodalHyperspectral ImagingMultimodal DataCocoa BeansColombiaAgricultural Quality+1

0 views

Multimodal & LLM

MER2023: Multimodal Emotion Recognition Challenge Dataset

MER2023 is a large-scale multimodal emotion recognition dataset created by MERChallenge for a research competition. The dataset is designed to address challenges in real-world deployment, such as costly labeling and modality-related issues. It was last updated on November 8, -2025.

MultimodalChallenge DatasetLanguageenMultimodal Emotion RecognitionLicensecc By Nc 40RegionusLarge ScaleDeep LearningHuman Computer Interaction+1

0 views

Multimodal & LLM

MITS: Multimodal Intelligent Traffic Surveillance with 170,400 Images and 5M VQA Samples

A large-scale multimodal benchmark for intelligent traffic surveillance created by LifeIsSoSolong and last updated on 2025-10-25. It contains 170,400 images paired with approximately 5 million instruction-following visual question answering samples. The dataset covers diverse traffic scenes including congestion, spills, unusual weather, construction, fireworks, smoke, and accidents.

MultimodalVision LanguageTraffic SurveillanceBenchmarkLarge ScaleVqaIntelligent TransportationMultimodal Benchmark+1

0 views

Multimodal & LLM

Vlm3R Videos: A Multimodal Video Dataset

Vlm3R Videos is a dataset hosted on HuggingFace by author Journey9ni. The dataset was last updated on 2025-12-18 08:24:58. Its specific content and scale are not detailed in the available metadata.

VideoMultimodalVideo TextVideo Language ModelMultimodal Video+1

0 views

Multimodal & LLM

DOAB Open Access Books with Page Images and Bibliographic Metadata

Penn State ScholarSphere provides 9,363 open access books with page images and bibliographic metadata extracted from MARC21 records. The dataset was curated by author biglam for training and evaluating Vision Language Models on automatic metadata extraction from scholarly monographs. It was last updated on October 16, 2025.

MultimodalBibliographic MetadataVision Language ModelsScholarly MonographsComputer VisionOpen Access Books+1

0 views

Multimodal & LLM

Chart Refocus: Visual Reasoning and Cross-Modal Interaction Dataset

This dataset comprises a portion of the ThinkMorph-7B training corpus across four visual reasoning categories: Jigsaw Assembly, Spatial Navigation, Visual Search, and Chart Refocus. It utilizes an interleaved format to support cross-modal interactions and varying levels of visual engagement.

MultimodalParquetSize Categories1 Kn10 KLibrarypolarsLibrarydaskLanguageenModalitytextChain Of ThoughtLibrarymlcroissantModalityimageLibrarydatasetsArxiv251027492RegionusTask Categoriesany To Any+1

0 views

Multimodal & LLM

ChemVLM SFT Datasets: Multimodal Chemistry Training Data

SFT Datasets of ChemVLM, part of the MMChem Series. The dataset includes both image bytes and conversations for training multimodal large language models in chemistry. It was last updated on October 29, 2025, by the author di-zhang-fdu.

MultimodalMultimodal LlmComputer VisionChemistryScientific Ai+1

0 views

Multimodal & LLM

VisualWebInstruct-Verified: High-Confidence Multimodal QA for RL Training

A high-confidence subset of VisualWebInstruct curated by TIGER-Lab, last updated October 24, 2025. It contains verified multimodal question–answer pairs where correctness, reasoning quality, and image–text alignment have been explicitly validated. The dataset is designed for Reinforcement Learning and Reward Model training pipelines.

MultimodalMultimodal QaLanguage Model TrainingComputer VisionReinforcement Learning+1

0 views

Multimodal & LLM

Vlm Train 1K V2 600: Vision-Language Model Training Data

Zaynoid published this dataset on Hugging Face on December 17, 2025. The title suggests it is likely a collection of 1,000 items for training vision-language models. The specific content and structure require verification after download.

MultimodalTraining DataVision Language Model+1

0 views

Multimodal & LLM

Zenodo10K: 10,000 PowerPoint Presentations for Document AI

Zenodo10K consists of over 10,000 PowerPoint (.pptx) files crawled from the Zenodo repository by the PPTAgent research team. Released in early 2025, it provides a large-scale collection of presentation documents for document understanding and automated slide generation tasks.

TextParquetSize Categories10 Kn100 KLibrarypolarsModalitytextPdfModalitydocumentLibrarymlcroissantPowerpointLibrarydatasetsLibrarypandasArxiv250103936RegionusPpt+1

0 views

Multimodal & LLM

Computer Use Data PSAI: 3,167 Multimodal HCI Task Recordings

3,167 completed human-computer interaction tasks featuring video, screenshots, and DOM snapshots, released by Paradigm Shift AI in 2025. This multimodal collection captures granular interaction events to support the development of AI agents capable of navigating graphical user interfaces.

OPTIMIZED-PARQUETParquetSize Categories1 Kn10 KComputer UseLibrarypolarsTask Categoriesreinforcement LearningTask Categoriesimage To TextLibrarydaskLanguageenTask Categoriesvisual Question AnsweringModalitytextTask CategoriesroboticsLibrarymlcroissantModalityimageLibrarydatasetsTask CategoriesotherRegionusTask Categoriesvideo ClassificationLicensemit+1

0 views

Multimodal & LLM

CSRRG IFT: Chest X-Ray Instruction-Following Dataset

Approximately 1.6 million instruction-following examples for chest X-ray report generation, organized across 5 subsets. The dataset is designed for visual instruction tuning and building large multimodal models capable of generating structured radiology reports. It was authored by 'erjui' and last updated on Hugging Face on 2025-10-28.

MultimodalMedical ImagingMultimodal AiLarge ScaleRadiologyInstruction Following+1

0 views

Multimodal & LLM

FashionRec: 331k Multimodal Outfit Samples for Fashion Recommendation

FashionRec is a multimodal dataset with 331,124 samples designed to train Vision-Language Models for fashion recommendation. It was created by Anony100 and last updated on October 14, 2025. The dataset integrates human-curated outfits with dialogue data sourced from three fashion datasets: iFashion, Polyvore-519, and Fashion32.

MultimodalOutfit DataDialogue DataVision Language ModelsComputer VisionFashion Recommendation+1

0 views

Multimodal & LLM

Anime Art Multicaptions With Over 6 Million High-Quality Descriptions

Anime Art Multicaptions V5.0 is a collection of over 6 million captions for anime and game artworks. The dataset features original character names and captions generated by top-tier vision-language models like Claude, GPT, and Gemini, covering a wide thematic range. About 20% of the most complex multi-character cases have been rechecked and corrected in a second pass.

Size Categories1 Mn10 MLanguageenAnimeRegionusNot For All AudiencesLicensemit+1

0 views

PreviousPage 64 of 98Next