DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Multimodal & LLM Datasets | DataSalon

All Categories

🔗

Multimodal & LLM

Image-text pairs, instruction tuning, visual QA, cross-modal data, foundation model training data

1,947 datasets

Multimodal & LLM

MicroLens VQA: Microscopy Vision-Language Dataset

122,000 vision-question-answer pairs across more than 145 microscopy genera. The dataset likely contains images paired with textual questions and answers for visual question answering tasks. Published on Kaggle.

MultimodalMedical ImagingVision LanguageComputer VisionMicroscopyVqa+1

0 views

Multimodal & LLM

VQA-Med: Medical Visual Question Answering Dataset from ImageCLEF 2019

The dataset was released for the ImageCLEF 2019 challenge in September 2019. It is a medical visual question answering dataset created by researchers including Asma Ben Abacha from Microsoft. The dataset likely contains medical images paired with corresponding questions and answers.

MultimodalEngineeringMedical ImagingComputer ScienceQuestion AnsweringHealthcareTask Project ManagementMedical VqaInformation RetrievalImageclefVisual Question Answering+1

0 views

Multimodal & LLM

VQA-Med: Medical Visual Question Answering Dataset from ImageCLEF 2019

VQA-Med is a dataset for medical visual question answering, introduced as a task at the ImageCLEF 2019 conference. The dataset was created by researchers including Asma Ben Abacha from Microsoft and was published in the CLEF 2019 Working Notes. It is designed to benchmark AI systems on answering questions about medical images.

MultimodalEngineeringMedical ImagingComputer ScienceMultimodal AiQuestion AnsweringHealthcareTask Project ManagementMedical VqaInformation RetrievalImageclefVisual Question Answering+1

0 views

Multimodal & LLM

Unsloth Jobs: Scripts for Fine-Tuning LLMs and VLMs on Hugging Face Jobs

Unsloth provides UV scripts for fine-tuning Large Language Models (LLMs) and Vision-Language Models (VLMs) using on-demand cloud GPUs via Hugging Face Jobs. The scripts handle dependency installation automatically, enabling direct execution without local setup. The dataset was last updated on February 11, -0026.

TextUv ScriptHf JobsFine TuningTrainingRegionusUnslothVlmLlm Fine TuningVlm Fine TuningUv ScriptsTraining Scripts+1

0 views

Multimodal & LLM

Footwear User Interaction and Product Preference Data for Recommendation

A multimodal dataset for footwear recommendation, likely containing user interaction and product preference data. It is hosted on Kaggle, but specific details about its size, structure, and creation date are not provided in the available metadata. The dataset's content and scale require verification after download.

MultimodalE CommerceMultimodal DataUser BehaviorRecommendation Systems+1

0 views

Multimodal & LLM

Volumetric Mechanical Properties of 3D Assets with VLM Annotations

The dataset contains pre-processed 3D assets, including voxels, rendered images, and LLM-annotated material descriptions. It is composed of 4 individual 3D asset datasets processed for multi-view rendering and voxelization. Created by NVIDIA, it is intended for research on predicting volumetric mechanical properties.

CSVSize Categories1 Kn10 KLibrarypolarsModalitytextLibrarymlcroissantLibrarydatasetsLibrarypandasRegionus+1

0 views

Multimodal & LLM

viNumMultimodalData: A Multimodal Dataset

A dataset titled 'viNumMultimodalData' published on Kaggle. The title suggests it contains multiple data modalities, such as images and text. Specific details on size, origin, and creation date are unavailable.

MultimodalMultimodal DataComputer VisionNatural Language Processing+1

0 views

Multimodal & LLM

VQA-VNF Dataset: Visual Question Answering with Visual and Non-Visual Features

VQA-VNF-Dataset is a Kaggle-hosted collection for visual question answering research. The dataset likely contains paired images and questions, potentially augmented with additional non-visual features. Its specific scale, authorship, and update history are not detailed in the provided metadata.

MultimodalVision LanguageMultimodal AiVisual Question Answering+1

0 views

Multimodal & LLM

BLIP-2-HUY-UNIVL: Vision-Language Pre-training Dataset

A dataset published on Kaggle with the title 'BLIP-2-HUY-UNIVL'. The title suggests it is related to the BLIP-2 model, a vision-language pre-training framework. The specific content, size, and origin are unknown from the provided metadata.

MultimodalVision LanguageMultimodal AiImage CaptioningBlip 2+1

0 views

Multimodal & LLM

Image Caption Dataset for Vision-Language Models

Image Caption is a dataset likely containing pairs of images and descriptive text. The dataset is hosted on Kaggle, but its specific size, source, and creation date are unknown. Columns and sample data are unavailable, limiting detailed assessment of its content and structure.

MultimodalMultimodal AiComputer VisionImage Captioning+1

0 views

Multimodal & LLM

LongTVQA: 100K+ Video Question-Answer Pairs with Clip-Level Subtitles

LongTVQA contains between 100,000 and 1,000,000 question-answering pairs and clip-level subtitles for long-form video analysis. Released by longvideoagent in late 2025 (Arxiv 2512.20618), the dataset facilitates research into video-grounded dialogue and temporal retrieval.

JSONLibrarypolarsLanguageenModalitytextSize Categories100 Kn1 MLibrarymlcroissantLibrarydatasetsLibrarypandasRegionusLicensemitArxiv251220618+1

0 views

Multimodal & LLM

DiverseVQA2: A Visual Question Answering Dataset

DiverseVQA2 is a dataset hosted on Kaggle. Its title suggests it is a collection for visual question answering tasks, likely containing pairs of images and associated questions with answers. The dataset's specific size, source, and creation date are not provided in the available metadata.

MultimodalMultimodal AiComputer VisionNatural Language ProcessingVisual Question Answering+1

0 views

Multimodal & LLM

BRATS-Multimodal-Code: Brain Tumor Segmentation Imaging Data

A dataset likely associated with the Brain Tumor Segmentation (BraTS) challenge, focusing on multimodal MRI scans. The title suggests it contains code and potentially data for processing brain tumor images, but specific details on volume, origin, and update date are unavailable. It is hosted on the Kaggle platform.

MultimodalMedical ImagingBrain TumorMultimodal Mri+1

0 views

Multimodal & LLM

Viet Doc Vqa Ii Flash2

A dataset of 64,765 pages from Vietnamese textbooks for grades 1 to 12, annotated for Visual Question Answering (VQA). It was created by 5CD-AI and last updated on February 3, 2026. The description mentions a set of 388,277 detailed annotations.

MultimodalMultimodal EducationVietnamese TextbooksVisual Question Answering+1

0 views

Multimodal & LLM

Parking Management System Data with Vehicle Location Information

parking-management-system-with-vlms-data is a dataset hosted on Kaggle. The title suggests it contains information related to parking operations and vehicle location monitoring systems. The dataset's specific content, size, and origin require verification after download due to minimal provided metadata.

TabularParking ManagementVehicle LocationUrban MobilityTraffic Data+1

0 views

Multimodal & LLM

Innovator-VL-RL-172K: 172,000 Multimodal Reinforcement Learning Instances

Innovator-VL-RL-172K is a curated multimodal reinforcement learning dataset containing 172,000 instances released by InnovatorLab in 2026. It provides image-text reasoning pairs designed to support RLHF-style optimization for vision-language models.

MultimodalParquetTask Categoriesimage Text To TextLibrarypolarsLibrarydaskDataset CollectionVision Language ModelLanguageenModalitytextSize Categories100 Kn1 MLibrarymlcroissantArxiv260119325ModalityimageLibrarydatasetsLarge Language ModelRegionusReinforcement LearningLicensemit+1

0 views

Multimodal & LLM

CacheVQA: A Dataset for Visual Question Answering

A dataset titled 'CacheVQA' published on Kaggle. The name suggests it is likely a collection of image-question-answer pairs for training and evaluating Visual Question Answering models. The dataset's specific content, scale, and origin require verification after download.

MultimodalMultimodal AiComputer VisionNatural Language ProcessingVisual Question Answering+1

0 views

Multimodal & LLM

Cambrian-S-3M: 3 Million Video Instruction Tuning Records

Cambrian-S-3M is a collection of approximately 3 million video instruction tuning records developed by nyu-visionx for the third training stage of the Cambrian-S multimodal model. Released in early 2026, the dataset aggregates video-text pairs from Cambrian-S-3M, LLaVA-Video-178K, and LLaVA-Hound (ShareGPTVideo).

Arxiv251104670RegionusLicenseapache 20+1

0 views

Multimodal & LLM

MoreVQA-Output: Vision-and-Language Question Answering Data

MoreVQA-Output is a dataset published on Kaggle. The title suggests it contains outputs or results related to a Vision Question Answering (VQA) task, likely involving images and text. Specific details on size, columns, and creation are unavailable from the provided metadata.

MultimodalVision LanguageQuestion AnsweringVqa+1

0 views

Multimodal & LLM

Viet-Cultural-VQA: Vietnamese Cultural Visual Question Answering Dataset

A multimodal dataset likely containing images and text questions related to Vietnamese culture. The dataset is hosted on Kaggle, but its specific size, creation details, and update history are not provided in the available metadata. Its content and structure must be verified after download.

MultimodalMultimodal AiVisual Question AnsweringVietnamese Culture+1

0 views

PreviousPage 45 of 97Next