DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Multimodal & LLM Datasets | DataSalon

All Categories

🔗

Multimodal & LLM

Image-text pairs, instruction tuning, visual QA, cross-modal data, foundation model training data

1,941 datasets

Multimodal & LLM

LUMOS: A Multimodal Dataset for Lumbar Osteoporosis Research

LUMOS is the first publicly available multimodal dataset for lumbar osteoporosis. The dataset was sourced from Kaggle, but specific details about its size, creation date, and authorship are not provided in the available metadata.

TabularMultimodalLumbar OsteoporosisMedical ImagingMultimodal DataBone HealthLumosGeneral Purpose+1

0 views

Multimodal & LLM

SightAct-Bench: A 14-Family Synthetic Benchmark for VLM Agent Safety

SightAct-Bench is a synthetic benchmark containing 14 families of tasks for evaluating the safety of Vision-Language Model-powered browser agents. The benchmark, authored by SightAct, Bench, and hosted on Harvard Dataverse, was last updated on 2026-05-04. It specifically tests whether agents safely handle task-relevant sensitive-information requests when a visually suspicious interaction is embedded in the workflow.

MultimodalVision Language ModelsBenchmarkSafety EvaluationBrowser AgentsSynthetic BenchmarkSynthetic+1

0 views

Multimodal & LLM

Chucklenet-WavLM: Audio Training Data

Chucklenet-WavLM training data is a dataset hosted on Kaggle. The dataset likely contains audio samples intended for training machine learning models, specifically for the WavLM architecture. Its specific content, size, and origin are not detailed in the available metadata.

AudioMachine LearningSpeech Processing+1

0 views

Multimodal & LLM

Computer Use Large: Professional Software Screen Recordings

Computer Use Large is a massive dataset containing 48,478 screen recording videos totaling approximately 12,300 hours of professional software usage. Sourced from the internet, the dataset is designed to facilitate research into GUI interaction and computer-use automation. It covers a variety of complex software environments including CAD tools, spreadsheets, and development environments.

Size Categories10 Kn100 KComputer UseLanguageenTask CategoriesroboticsScreen RecordingLicensecc By 40DesktopRegionusSoftware TutorialsTask Categoriesvideo ClassificationGui+1

0 views

Multimodal & LLM

Metis-RL: Reinforcement Learning Dataset for Multimodal Agent Training

Metis-RL contains approximately 5.2 thousand multimodal prompts designed for training agentic models. The dataset was created by Accio-Lab for reinforcement learning via Hierarchical Decoupled Policy Optimization and was last updated in April 2026. It focuses on cultivating meta-cognitive tool use across perception, search, and mathematical or logical reasoning tasks.

MultimodalTool UseMultimodal AiMeta CognitionReasoningReinforcement Learning+1

0 views

Multimodal & LLM

BEAT: Visual Backdoor Attack Training Data for Embodied AI Agents

BEAT is a training dataset accompanying the research paper 'BEAT: Visual Backdoor Attacks on VLM-based Embodied Agents via Contrastive Trigger Learning'. The dataset is authored by Qiusi Zhan and collaborators and was last updated on April 20, 2026. It is hosted on Hugging Face and is gated, requiring access requests for academic research on AI security.

MultimodalContrastive LearningVisual Language ModelsSecurity Research+1

0 views

Multimodal & LLM

BEAT: Visual Backdoor Attack Training Data for Embodied AI Agents

BEAT is a training dataset for backdoor attacks on vision-language model-based embodied agents, accompanying a 2026 arXiv paper. The dataset is gated and intended for academic research on AI security and robustness. It was created by the UIUC Kang Lab and last updated on April 20, 2026.

MultimodalComputer VisionVisual language modelAi Security+1

0 views

Multimodal & LLM

Instruction-Based Image Editing Dataset for Unified Multimodal Models

ScaleEdit-12M is a large-scale dataset for instruction-based image editing, created by InternVL-U to address challenges in constructing diverse, high-quality data without proprietary APIs. It was last updated on March 24, 2026. The dataset aims to overcome limitations of previous datasets that relied on closed-source models or fixed synthetic pipelines.

MultimodalParquetLibrarypolarsLibrarydaskLanguageenSize Categories10 Mn100 MModalitytextInternvlModalitytabularLibrarymlcroissantLibrarydatasetsComputer VisionInstruction Based EditingRegionusTask Categoriesimage To ImageArxiv260309877ScaleeditArxiv260320644Licensemit+1

0 views

Multimodal & LLM

4K Video Clip Collection

4K Clip Dataset is a collection of video clips hosted on Kaggle. The dataset's specific content, size, and creation details are not provided in the available metadata. Its potential applications likely relate to computer vision tasks involving high-resolution video data.

VideoComputer VisionVideo ClipsMultimedia+1

0 views

Multimodal & LLM

Video Of Multimodal Data Collection

A Kaggle dataset titled 'Video Of Multimodal'. The dataset likely contains video data paired with other modalities, such as audio or text. Metadata is minimal; actual content requires verification after download.

VideoMultimodalMachine Learning+1

0 views

Multimodal & LLM

GMAI-VL-5.5M: 5.5 Million Medical Vision-Language Question-Answering Pairs

Over 5.5 million multimodal question-answering pairs for training medical AI foundation models. The dataset was constructed by General-Medical-AI from hundreds of medical classification, segmentation, and detection datasets. It was last updated on the platform in April 2026.

MultimodalMultimodal QaFoundation ModelsMedical Vision LanguageHealthcareComputer VisionLarge ScaleMedical Ai+1

0 views

Multimodal & LLM

UMM: Unified Multimodal Model Results for the UEval Benchmark

UMM results for the UEval benchmark, a collection of outputs from various multimodal and large language models. The dataset was created by author wenwenw945 and last updated on April 9, 2026. It includes results from models like OmniGen2 and Emu3.5, configured for specific understanding tasks.

MultimodalModel EvaluationMultimodal LlmBenchmarkUnderstanding TasksBenchmark ResultsComputer Vision+1

0 views

Multimodal & LLM

IntentHQ Multimodal Dataset

IntentHQ Multimodal Dataset is a dataset published on Kaggle. Its title suggests it contains multimodal data, likely combining text, image, or other data types for analyzing user intent. The specific content, size, and creation details require verification after download.

MultimodalBehavioral DataIntent Analysis+1

0 views

Multimodal & LLM

Cross-Modal-Dataset2: A Multimodal AI Training Corpus

Cross-Modal-Dataset2 is a dataset hosted on Kaggle. Its specific content, size, and creation details are not described in the provided metadata. The title suggests it contains data from multiple modalities, likely for training or evaluating cross-modal AI models.

MultimodalMachine LearningCross ModalAi Training+1

0 views

Multimodal & LLM

VoiceGuard Phase 3: WavLM S2 Audio Data

Kaggle hosts the VoiceGuard Phase 3 dataset. The title suggests it contains audio data, likely for processing or analysis tasks. The specific content, scale, and origin require verification after download.

AudioMultimodalWavlmVoice GuardAudio AnalysisSpeech Processing+1

0 views

Multimodal & LLM

BridgeVLM: A Vision-Language Model Benchmark Dataset

BridgeVLM is a dataset hosted on Kaggle. Its title suggests it is likely a benchmark for evaluating vision-language models. The dataset's specific content, size, and creation details are not provided in the available metadata.

MultimodalVision Language ModelBenchmark DataMultimodal Ai+1

0 views

Multimodal & LLM

Gemma Cvqa V4 Pred: Computer Vision Question Answering Predictions

Gemma Cvqa V4 Pred is a dataset uploaded by pltops to Hugging Face. The dataset's title suggests it contains predictions for computer vision question answering tasks, likely generated by or for the Gemma language model. It was last updated on 2026-05-23.

MultimodalQuestion AnsweringLlm EvaluationComputer Vision+1

0 views

Multimodal & LLM

Computational Target Analysis for Chronic Myelogenous Leukemia Therapy

Supplementary Material 2 from a study on multimodal gene and targeted drug therapy for chronic myelogenous leukemia. The 11.8 KB XLSX file contains supporting data for computational target analysis and therapeutic validation. Author Margaret L. Lugin published the file on figshare in April 2026.

TabularExcelDrug Target AnalysisNanoparticle TherapyComputational BiologyLeukemia Research+1

0 views

Multimodal & LLM

FORGE: Fine-grained Multimodal Evaluation for Manufacturing Scenarios

FORGE is a dataset for fine-grained multimodal evaluation in manufacturing scenarios, created by AI4Manufacturing. It includes at least 451 cases for tasks like wrong model detection, with data modalities including photos. The dataset was last updated on Hugging Face in April 2026.

MultimodalBenchmarkComputer VisionQuality controlMultimodal EvaluationManufacturing+1

0 views

Multimodal & LLM

CiQi-VQA: Visual Question Answering on Chinese Porcelain Artifacts

A multimodal dataset for cultural reasoning on antique Chinese porcelains, created by SII-Monument-Valley. The dataset is part of the CiQi-Agent project, which aligns visual perception, tool-augmented reasoning, and cultural knowledge. It was last updated on April 1, 2026.

MultimodalSize Categories10 Kn100 KTask Categoriesimage Text To TextLanguagezhTask Categoriesquestion AnsweringArxiv260328474LanguageenModalityimageBenchmarkComputer VisionLicensecc By Nc 40RegionusChinese ArtArtAgentMultimodal VqaCultural HeritageDomain AgentVisual Reasoning+1

0 views

PreviousPage 26 of 97Next