DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Multimodal & LLM Datasets | DataSalon

All Categories

🔗

Multimodal & LLM

Image-text pairs, instruction tuning, visual QA, cross-modal data, foundation model training data

1,932 datasets

Multimodal & LLM

UMI-VQA-8M: 8 Million Visual Q&A Samples for Wrist-Mounted Fisheye Observations

UMI-VQA-8M is a large-scale visual question answering dataset built for UMI-style wrist-mounted fisheye observations. It contains 8 million visual question-answering samples and provides visual-language supervision for UMI observation scenarios. The dataset was created by TeleEmbodied and was last updated on the Hugging Face platform in June 2026.

MultimodalFisheye ImageryMultimodal AiRoboticsComputer VisionLarge ScaleVisual Question Answering+1

0 views

Multimodal & LLM

GeoMeld: 2.5 Million Multi-Modal Remote Sensing Samples

GeoMeld is a large-scale multi-modal remote sensing dataset introduced in a CVPRW 2026 paper. It contains approximately 2.5 million spatially aligned samples spanning heterogeneous sensing modalities and resolutions, paired with semantically grounded captions. The dataset was created by author vimageiitb and last updated on 2026-06-04.

GeospatialMultimodalSatellite ImageryEarth ObservationLarge ScaleSynthetic+1

0 views

Multimodal & LLM

Caption3O Opt V3 Tiny: 27,048 Image-Caption Pairs for Long-Form Descriptions

prithivMLmods's dataset contains 27,048 English image-caption pairs, with images at 512x512 resolution. The data is derived from curated sources like blip3o-caption-mini-arrow and was last updated on May 17, 2026. It is designed for training and evaluating image-to-text models.

MultimodalMultimodal AiComputer VisionImage Captioning+1

0 views

Multimodal & LLM

Neural and Behavioral Data on Gesture-Assisted Mandarin Tone Learning

Yezhi Cui's study on figshare, last updated April 22, 2026, investigates the neural mechanisms of Mandarin tone sandhi perception. The dataset includes functional near-infrared spectroscopy (fNIRS) data and behavioral responses from 44 Vietnamese-speaking learners during a tone discrimination task. The data was collected to compare a gesture training group with a no-gesture control group.

MultimodalLanguage LearningTone PerceptionNeuroscienceGestureFnirs+1

0 views

Multimodal & LLM

MMS-VPR: A Multimodal Street-Level Visual Place Recognition Dataset

MMS-VPR is a large-scale multimodal street-level visual place recognition dataset created by Yiwei-Ou. It comprises 110,529 images and 2,527 video clips with textual annotations, featuring day-night coverage and a 7-year temporal span in dense pedestrian-only environments. The dataset was last updated on HuggingFace on May 20, 2026.

Time SeriesMultimodalMultimodal DatasetBenchmarkPedestrian EnvironmentsLarge ScaleVisual Place RecognitionStreet Level Imagery+1

0 views

Multimodal & LLM

Multimodal Ultrasound Biomechanical Data for Carotid Artery Thickness in Type 2 Diabetes

Xuhong Nan published a study on figshare in April 2026 analyzing multimodal ultrasound data from 65 patients with type 2 diabetes mellitus and 27 control subjects. The dataset includes measurements of carotid intima-media thickness, blood flow velocities, wall shear stress, and pulse wave velocity. The study explores subclinical vascular changes associated with diabetes.

TabularMedical ultrasoundVascular HealthBenchmarkBiomechanicsHealthcareType 2 DiabetesCarotid Artery+1

0 views

Multimodal & LLM

Diffusion Pretrain Set Ft1: Multi-Source Image-Caption Data for Stable Diffusion 1.x

AbstractPhil's diffusion-pretrain-set-ft1 is a multi-source image-caption dataset assembled from seven upstream sources via a uniform ingest pipeline. It was built for the finetune-1 stage of the sd15-flow-lune model family but is applicable to any Stable Diffusion 1.x conditioning experiment. The dataset was last updated on May 22, 2026.

MultimodalPretrainingStable DiffusionComputer VisionImage CaptioningDiffusion Models+1

0 views

Multimodal & LLM

ULVR_v2: Universal Latent Visual Reasoning Dataset with ~1.51M Samples

~1.51 million samples across eight splits comprise this multimodal reasoning dataset. It was created by RuoliuYang and last updated on May 25, 2026. The splits include text-based chain-of-thought reasoning, bounding box manipulations, and visual representations like depth maps.

MultimodalMultimodal TrainingComputer VisionReasoning DatasetLatent Visual Reasoning+1

0 views

Multimodal & LLM

DeepTumorVQA 2.0: 3D Abdominal CT Diagnostic VQA Benchmark

DeepTumorVQA v2 is a 3D abdominal-CT diagnostic Visual Question Answering benchmark containing 438,000 total QA pairs. The dataset includes 10,000 curated benchmark pairs and a 428,000-pair training pool, along with pre-extracted 2D and video modalities and 20,000 agent training trajectories. It was created by the tumor-vqa organization and was last updated in May 2026.

MultimodalCt ScansMedical ImagingBenchmarkHealthcareDiagnostic AiComputed TomographyVisual Question Answering+1

0 views

Multimodal & LLM

ETCHR GRPO-10K: 10,000 Multimodal Samples for Image-Editing Model Training

ETCHR GRPO-10K is a dataset of 10,000 multimodal samples created by internlm for enhancing model editing capabilities. It contains five specific tasks: Fine-grained Perception, Chart Understanding, Maze Solving, Jigsaw Puzzle, and Spatial Understanding. Each sample includes an image to be edited and an editing instruction.

MultimodalSpatial ReasoningBenchmarkMultimodal TrainingComputer Vision+1

0 views

Multimodal & LLM

Local Code Arena MBPP Qwen3 8B: Benchmark Telemetry for Code Generation

Raw evaluation metrics and execution telemetry logs from running the Mostly Basic Python Problems (MBPP) benchmark against the Qwen3 8B dense foundation model. The dataset documents zero-shot functional programming synthesis performance under standard local execution bounds. It was authored by ShahzebKhoso and last updated on May 29, 2026.

TabularBenchmark EvaluationLlm TelemetryBenchmarkCode GenerationPython Problems+1

0 views

Multimodal & LLM

Qihuang Needle Therapy for Parkinson's Disease: A Randomized Controlled Trial Protocol

Wanqing Peng's protocol document outlines a triple-arm randomized controlled trial investigating Qihuang needle therapy for Parkinson's disease. The trial, registered as ITMCTR2025000402, will enroll 69 patients to assess clinical efficacy and neuroplasticity via multimodal MRI. The document was last updated on 2026-04-13.

TextHealthcareAcupunctureClinical TrialParkinsons DiseaseNeuroplasticityNeuroimaging+1

0 views

Multimodal & LLM

Parkinson's Disease Trial Data: Qihuang Needle Therapy Efficacy and MRI Neuroplasticity

A clinical trial protocol for a triple-arm randomized controlled trial investigating Qihuang needle therapy for Parkinson's disease. The dataset includes clinical outcomes and multimodal MRI neuroplasticity markers from 69 patients. The protocol was authored by Wanqing Peng and uploaded to figshare in April 2026.

MultimodalHealthcareAcupunctureClinical TrialParkinsons DiseaseNeuroplasticityNeuroimaging+1

0 views

Multimodal & LLM

Qihuang Needle Therapy for Parkinson's Disease: Clinical Trial Protocol

A 2026 protocol document for a randomized controlled trial investigating a novel acupuncture technique for Parkinson's disease. The study, authored by Wanqing Peng, involves 69 patients and uses multimodal MRI to assess neuroplasticity mechanisms alongside clinical symptom scales. The document is a 104.0 KB PDF published under a CC-BY-4.0 license.

TextHealthcareAcupunctureClinical TrialParkinsons DiseaseNeuroplasticityNeuroimaging+1

0 views

Multimodal & LLM

Nemotron SFT Instruction Following Chat V3: Multi-Turn Human-AI Dialogue Data

A dataset designed to strengthen multi-turn, interactive capabilities, including open-ended chat and precise instruction following. The chat subset uses human-written prompts from sources like lmarena, lmsys, and wildchat as seed prompts, with responses generated by GLM-5 and selected via pairwise comparisons using a reward model. It was authored by NVIDIA and last updated on the platform in June 2026.

TextChat DialogueHuman Ai InteractionLlm TrainingInstruction FollowingSynthetic+1

0 views

Multimodal & LLM

Dog100K: Over 100,000 Dog Image-Text Pairs for Multimodal Learning

Dog100K is a high-quality dataset containing over 100,000 image-text pairs of dogs. It is designed for image-text retrieval, multimodal learning, and conditional image generation tasks. The dataset was created by choucsan and last updated on Hugging Face in May 2026.

ImageTextMultimodal LearningComputer VisionImage Text AlignmentDogs+1

0 views

Multimodal & LLM

Antarctic Ice Shelf Rift Propagation Tracks from Satellite Imagery

1.1 GB of data supporting a method for automated long-term tracking of Antarctic ice shelf rift propagation. The dataset, authored by Zixiao Guo and last updated in May 2026, is shared under a CC-BY-4.0 license. It likely contains spatiotemporal corrections and tracking results derived from satellite imagery.

TabularGeospatialZIPExcelAntarctic IceClimate ChangeSatellite Imagery+1

0 views

Multimodal & LLM

ArtiFact: Museum Artwork Records with Images and Metadata

ArtiFact is a large-scale multimodal benchmark combining artwork records from the Rijksmuseum, the Metropolitan Museum of Art, and the Art Institute of Chicago. The dataset contains aligned images and structured metadata, normalized across fields for artists, dates, materials, and techniques. It was created by deem-data and last updated on June 8, 2026.

MultimodalMetadataBenchmarkLarge ScaleMuseum ArtworkCultural HeritageMultimodal Benchmark+1

0 views

Multimodal & LLM

PP2-M: Multimodal Geospatial Data for Geo-Foundation Models

PP2-M is a multimodal dataset derived from Place Pulse 2.0, enriched with additional geospatial modalities. The dataset includes aligned pairs of street view images, remote sensing images from Sentinel-2, cartographic data, and geographical coordinates. It was created by author DominikM198 and last updated on HuggingFace in May 2026.

GeospatialMultimodalSatellite ImageryStreet View ImageryMultimodal GeospatialGeo Foundation Models+1

0 views

Multimodal & LLM

Nemotron RL Instruction Following Structured Outputs V2: Model Evaluation Tasks

Nemotron RL Instruction Following Structured Outputs V2 is a dataset for evaluating large language models on structured output generation. It was created by NVIDIA and last updated on June 4, 2026. The dataset includes two splits testing capabilities like freeform text generation and diversified tasks across multiple data formats.

TextLlm EvaluationStructured OutputSynthetic DataInstruction Following+1

0 views

PreviousPage 11 of 97Next