DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Multimodal & LLM Datasets | DataSalon

All Categories

🔗

Multimodal & LLM

Image-text pairs, instruction tuning, visual QA, cross-modal data, foundation model training data

1,947 datasets

Multimodal & LLM

PyVision-Image-RL: 10K-100K RL Trajectories for Vision Agents

PyVision-Image-RL-Data provides between 10,000 and 100,000 reinforcement learning trajectories for training agentic vision models, released by Agents-X in February 2026. The data supports the PyVision-RL framework, which focuses on stabilizing multimodal model interactions during complex vision-language tasks.

JSONSize Categories10 Kn100 KTask Categoriesimage Text To TextLibrarypolarsMultimodal AgentModalitytextLibrarymlcroissantVision LanguageLibrarydatasetsLibrarypandasArxiv260220739RegionusReinforcement LearningLicenseapache 20+1

0 views

Multimodal & LLM

CAMEO-Breast: Aligned Histology Images and Gene Expression Profiles

A multimodal benchmark dataset of aligned Hematoxylin and Eosin (H&E) stained tissue patches and gene expression profiles for breast tissue, published by theislab in 2026. The dataset is designed for research at the intersection of computational pathology and genomics. It was last updated on Hugging Face in February 2026.

MultimodalArrowGene ExpressionLanguageenLicensecc By Nc Sa 40ModalitytimeseriesModalitytextSize Categories100 Kn1 MLibrarymlcroissantModalityimageBiologyLibrarydatasetsBreastBenchmarkTask Categoriesfeature ExtractionDoi1057967hf7909Task Categoriesimage ClassificationBreast cancerRegionusSpatial TranscriptomicsXeniumHistology+1

0 views

Multimodal & LLM

Multimodal Phishing Detection Dataset

Multimodal Phishing Detection Dataset is a Kaggle-hosted collection for cybersecurity research. The dataset likely contains features for identifying phishing attempts across different data modalities. Its specific content, size, and creation details require verification after download.

MultimodalCybersecurityMultimodal DataPhishing Detection+1

0 views

Multimodal & LLM

V2V-GoT-QA: Multimodal QA for Cooperative Autonomous Driving

110,000 training and 31,000 testing question-answer pairs for multimodal LLM-based autonomous driving. The dataset includes nine types of tasks across occlusion-aware perception, planning-aware prediction, and V2V-aware planning stages. It was created by eddyhkchiu and last updated on Hugging Face in February 2026.

MultimodalMultimodal QaV2v CommunicationPerception PredictionAutonomous DrivingGraph Of Thoughts+1

0 views

Multimodal & LLM

CAMEO-Lung: Aligned H&E Patches and Gene Expression Profiles

CAMEO-Lung is a multimodal benchmark dataset containing aligned histopathology images and gene expression profiles from lung tissue. The dataset was created by theislab and last updated on Hugging Face in February 2026. It is intended for research in spatial transcriptomics and computational pathology.

MultimodalArrowSize Categories10 Kn100 KGene ExpressionLanguageenLicensecc By Nc Sa 40ModalitytimeseriesModalitytextLibrarymlcroissantModalityimageLungBiologyLibrarydatasetsBenchmarkTask Categoriesfeature ExtractionTask Categoriesimage ClassificationDoi1057967hf7910RegionusSpatial TranscriptomicsXeniumHistology+1

0 views

Multimodal & LLM

MedMASLab: Medical Vision-Language Multi-Agent Benchmarking Data

MedMASLab is a benchmarking dataset for medical vision-language multi-agent systems released by qyhhhhh in March 2026. It provides standardized data and metrics for evaluating how multiple AI agents collaborate on medical visual question answering tasks. The dataset is associated with Arxiv paper 2603.09909 and focuses on multi-agent coordination in clinical AI.

Task Categoriesquestion AnsweringTask Categoriesvisual Question AnsweringArxiv260309909Medical multi-agent-systemsBenchmarkVisual language modelRegionusLicensemit+1

0 views

Multimodal & LLM

CAMEO-Thymus: Aligned H&E Histology Patches and Visium Gene Expression Profiles

CAMEO-Thymus is a multimodal benchmark dataset from the thymus. It contains aligned patches of Hematoxylin and Eosin (H&E) stained histology images and Visium spatial gene expression profiles. The dataset was created by theislab and was last updated on February 27,我们发现了一个问题。

MultimodalArrowSize Categories10 Kn100 KGene ExpressionLanguageenLicensecc By Nc Sa 40Doi1057967hf7908ModalitytextLibrarymlcroissantModalityimageBiologyLibrarydatasetsBenchmarkTask Categoriesfeature ExtractionTask Categoriesimage ClassificationThymusRegionusSpatial TranscriptomicsVisiumHistology+1

0 views

Multimodal & LLM

Digital Media Art and Visual Communication Dataset

Digital Media Art and Visual Communication Dataset is a multimodal dataset for creative visuals, published on Kaggle. The dataset likely contains various forms of visual and communication data for analysis. Specific details on size, authorship, and update frequency are not provided in the available metadata.

MultimodalMultimodal DataVisual communicationDigital Media Art+1

0 views

Multimodal & LLM

Artsakh Armenian Dialect Speech Recordings with Transcripts

5,122 training examples of Armenian dialect speech recordings from Artsakh varieties (Stepanakert, Getashen, Hadrut) paired with aligned transcriptions, split into train, validation, and test subsets. The dataset was created by DALiH-ANR and last updated on February 17, 2026.

TextAudioSpeech AlignmentMultilingual SpeechArmenian Dialects+1

0 views

Multimodal & LLM

PlantVillageVqa2: Visual Question Answering for Plant Disease Images

A dataset likely containing images of plants paired with questions and answers, focusing on disease identification. It is hosted on Kaggle, but the specific collection date, author, and total volume are unknown. The dataset's name suggests it is a second version of a visual question-answering resource for the PlantVillage domain.

MultimodalAgriculture AiComputer VisionPlant DiseaseVisual Question Answering+1

0 views

Multimodal & LLM

Multimodal Concise Dataset for AI Training

A dataset titled 'multimodal_concise' is hosted on Kaggle. The dataset's content and structure are inferred from its title, which suggests it contains multiple data modalities in a concise format. No further metadata is available to confirm its size, origin, or specific contents.

MultimodalMachine LearningMultimodal DataConcise+1

0 views

Multimodal & LLM

SIQA TrainSet: 100K-1M Scientific Image Quality Assessment Records

SIQA TrainSet provides between 100,000 and 1,000,000 records for Scientific Image Quality Assessment, released by the SIQA organization in early 2026. The data is structured for multimodal training across two specialized tasks: SIQA-U for subjective assessment and SIQA-S for structural assessment.

OPTIMIZED-PARQUETParquetLibrarypolarsTask Categoriesquestion AnsweringLibrarydaskLanguageenModalitytextSize Categories100 Kn1 MLibrarymlcroissantModalityimageLibrarydatasetsRegionus+1

0 views

Multimodal & LLM

Mouse Visual Cortex Neuron Data with Calcium Imaging and Proteomics

The Dendritic Consortium provides a multimodal dataset integrating calcium and voltage imaging, electrophysiology, electron microscopy, proteomics, and computational models. It focuses on Baz1a pyramidal neurons in the mouse primary visual cortex (V1). The data is hosted on AWS Open Data with no restrictions on use.

MultimodalBrain ModelsComputational modelsMouse BrainSingle Neuron ModelsElectron microscopyImagingLife SciencesBrain ImagesNeurobiologyNeuroimagingNeuroscienceElectrophysiologyMus musculusMultimodal imagingNeurophysiologySimulation Neuroscience+1

0 views

Multimodal & LLM

VQACache: A Cache for Visual Question Answering Tasks

A dataset named 'vqacache' published on Kaggle. The title suggests it is related to Visual Question Answering, a multimodal AI task combining images and text. No further metadata, such as size, columns, or authorship, is provided.

MultimodalCacheMultimodal AiQuestion AnsweringVqa+1

0 views

Multimodal & LLM

Geoguessr VLM Dataset: Satellite Imagery and Location Data

Geoguessr Vlm Dataset is a multimodal dataset hosted on HuggingFace by author OLEGator228. The platform tags suggest it likely contains satellite imagery and location data for vision-language model tasks. It was last updated on 2026-04-08.

GeospatialMultimodalVision Language ModelLocationSatellite ImageryGeoguessr+1

0 views

Multimodal & LLM

Four-Day Lifelogging Dataset with Aligned Sensor and Video Feeds

CASTLE2024 provides time-aligned sensor and video data captured from 10 participants over four days in a controlled environment. The dataset, created by the CASTLE-Dataset organization, is designed for research in lifelogging and multimodal retrieval. It was last updated on the Hugging Face platform in February 2026.

Time SeriesMultimodalMultimodal RetrievalLarge ScaleLifeloggingHuman Activity RecognitionSensor DataVideo Data+1

0 views

Multimodal & LLM

MMStar: Multimodal Benchmark for Kazakh and Russian Language Models

Machine-translated Kazakh and Russian versions of the MMStar dataset, an elite vision-language benchmark. The original MMStar consists of high-quality, non-redundant multimodal samples designed to evaluate 6 core capabilities and 18 detailed dimensions of Large Multimodal Models. The dataset was created by 'issai' and was last updated on 2026-02-18.

MultimodalRussianMachine TranslationVision LanguageBenchmarkComputer VisionKazakhMultimodal Benchmark+1

0 views

Multimodal & LLM

Nemotron SFT: English Instruction-Following Chat Data for Pretraining

A dataset titled 'English Nemotron Sft Instruction Following Chat V2 Pretrain' was published on the Hugging Face platform by the user 'escavador'. The dataset's specific content, size, and structure are not detailed in the provided metadata. Its last recorded update was on 2026-03-31 15:47:30.

TextPretrainingLarge Language ModelSftChat Data+1

0 views

Multimodal & LLM

IshiharaColorBench: A Benchmark for LVLM Color Perception

IshiharaColorBench is a benchmark designed to measure the pure color perception capability of Large Vision-Language Models (LVLMs). The dataset's specific size, format, and authorship are unknown. It is hosted on Kaggle.

MultimodalAi EvaluationVision Language ModelsColor PerceptionBenchmark+1

0 views

Multimodal & LLM

VisualWebInstruct: 900K Multimodal Instruction QA Pairs

VisualWebInstruct is a large-scale multimodal instruction dataset containing approximately 900,000 question-answer pairs. It consists of 40% visual QA pairs linked to 163,743 unique images and 60% text-only QA pairs, designed to enhance vision-language reasoning. The dataset was created by TIGER-Lab and was last updated on February 1, 2026.

MultimodalParquetTask Categoriesimage Text To TextLibrarypolarsTask Categoriesquestion AnsweringSize Categories1 Mn10 MLanguageenTask Categoriesvisual Question AnsweringModalitytextModalitytabularLibrarymlcroissantVision LanguageModalityimageLibrarydatasetsLibrarypandasQuestion AnsweringComputer VisionArxiv250711936RegionusLarge ScaleScienceMathLicenseapache 20Arxiv250310582Multimodal Instruction+1

0 views

PreviousPage 42 of 97Next