DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Multimodal & LLM Datasets | DataSalon

All Categories

🔗

Multimodal & LLM

Image-text pairs, instruction tuning, visual QA, cross-modal data, foundation model training data

1,956 datasets

Multimodal & LLM

ToolVQA: A Benchmark for Visual Question Answering with External Tools

ToolVQA is a dataset introduced at ICCV 2025 for evaluating real-world tool-use capabilities in Large Foundation Models. The dataset is hosted on Hugging Face by author DietCoke4671 and was last updated on August 16, 2025. It is designed to address gaps in existing benchmarks for tool-augmented Visual Question Answering.

MultimodalMultimodal AiTool Augmented AiBenchmark DatasetVisual Question Answering+1

0 views

Multimodal & LLM

PMC-VQA: Over 1.7 Million Visual Question Answering Samples from Clinical Figures

Over 1,700,000 Visual Question Answering samples derived from figures and charts in biomedical articles from PubMed Central. This preliminary release by DermaVLM was last updated on Hugging Face in August 2025. A full dataset card and accompanying research paper are currently in preparation.

MultimodalClinical VqaMultimodal QaHealthcareLarge ScaleMedical AiBiomedical Figures+1

0 views

Multimodal & LLM

IFDecorator: Synthetic Datasets for Instruction Following RL with Verifiable Rewards

3,625 training and 200 validation examples engineered for Reinforcement Learning with Verifiable Rewards (RLVR). The dataset, created by guox18, contains two complementary synthetic datasets with different synthesis approaches and difficulty distributions. It was last updated on August 8, 2025.

TextAi TrainingReinforcement LearningSynthetic DataVerifiable RewardsInstruction FollowingSynthetic+1

0 views

Multimodal & LLM

Arena Human Preference 140K: Text-Only LLM Battle Votes

140,000 user votes comparing two language models on a conversation, collected via the LM Arena platform. Each row contains a single vote with the full conversation history and metadata like the winning model and evaluation session. The dataset was created by lmarena-ai and last updated in August 2025.

TabularHuman PreferenceModel ComparisonBenchmarkLlm EvaluationConversation Data+1

0 views

Multimodal & LLM

Robot Arm Teleoperation Data for Vision-Language-Action Finetuning

A demonstration dataset for Vision-Language-Action model finetuning, collected via teleoperation of a robot arm performing a basic pick-and-place task. The data was gathered by author IliaLarchenko using a modified LeKiwi setup with three cameras and was last updated in September 2025.

VideoMultimodalSize Categoriesn1 KTask CategoriesroboticsRobot ManipulationLibrarymlcroissantLibrarydatasetsImitation LearningRoboticsSo Arm100Computer VisionModalityvideoRegionusLekiwiVision Language ActionLicenseapache 20Video DatasetLeRobot+1

0 views

Multimodal & LLM

Rejected Assistant Responses From Anthropic HH-RLHF Dialogues

Supervised fine-tuning pairs built from rejected responses in the Anthropic HH-RLHF dataset. Each example provides a multi-turn conversation history formatted with Human/Assistant turns and the subsequent rejected assistant turn.

Task Categoriestext GenerationAlignmentLanguageenSize Categories100 Kn1 MHh RlhfNSFWTask Idsdialogue GenerationRegionusToxicAnthropicRejectedLicensemitConversation+1

0 views

Multimodal & LLM

Kvasir-VQA: Gastrointestinal Medical Images with Question-Answer Annotations

SimulaMet-HOST created the Kvasir-VQA dataset by augmenting the HyperKvasir and Kvasir-Instrument datasets with question-and-answer annotations. This multimodal dataset is designed for advanced machine learning tasks in gastrointestinal diagnostics, including image captioning and Visual Question Answering. The dataset was last updated on the Hugging Face platform in August 2025.

MultimodalParquetSize Categories10 Kn100 KTask Categoriesimage Text To TextLibrarypolarsLibrarydaskLanguageenTask Categoriesvisual Question AnsweringMedical ImagingModalitytextLibrarymlcroissantModalityimageLibrarydatasetsHealthcareText To ImageComputer VisionGastrointestinal DiagnosticsArxiv240901437Image CaptioningLicensecc By Nc 40RegionusKvasirVisual Question AnsweringMedicalSyntheticGastrointestinal+1

0 views

Multimodal & LLM

LLaVA Instruct Mix: 100K-1M Multimodal Conversational Records

Between 100,000 and 1,000,000 multimodal conversational records comprise this dataset released by trl-lib in 2025. It facilitates instruction tuning by pairing images with multi-turn dialogue prompts and target completions. The data is structured specifically for language modeling and visual-text alignment tasks.

ParquetLibrarypolarsLibrarydaskModalitytextSize Categories100 Kn1 MLibrarymlcroissantTrlModalityimageLibrarydatasetsRegionus+1

0 views

Multimodal & LLM

Emotiontalk: 19,250 Multimodal Chinese Utterances for Dyadic Interaction

Emotiontalk contains 19,250 utterances totaling 23.6 hours of dyadic conversation speech recorded from 19 actors. Produced by BAAI and updated in 2025, it provides synchronized acoustic, visual, and textual data for Chinese emotional interaction analysis.

WEBDATASETLanguagezhLibrarywebdatasetLicensecc By Nc Sa 40ModalitytextSize Categories100 Kn1 MLibrarymlcroissantArxiv250523018LibrarydatasetsRegionus+1

0 views

Multimodal & LLM

InternVid-TG: Temporal Grounding Annotations for 89,440 Videos

A subset of 89,440 videos with 608,000 event instances, annotated for temporal grounding. The dataset was created by yingsen and last updated on August 1, 2025. It is derived from the InternVid-FLT video-text alignment data through an automated annotation process detailed in the associated paper.

Time SeriesVideoMultimodalVideo AnnotationVideo TextLicensecc By Nc Sa 40Task Categoriesvideo Text To TextMultimodal AnnotationRegionusVideo LlmArxiv250524329Temporal Grounding+1

0 views

Multimodal & LLM

Multimodal Low-Resource Language Translation Dataset

A multimodal dataset for low-resource language translation, as described in the paper 'From Text to Multi-Modal: Advancing Low-Resource-Language Translation through Synthetic Data Generation and Cross-Modal Alignments'. The paper was accepted by the LoResMT 2025 workshop at NAACL 2025. The dataset was uploaded by author 'qianstats' to Hugging Face on August 13, 2025.

MultimodalMachine TranslationMultimodal DataSynthetic DataLow Resource LanguagesSynthetic+1

0 views

Multimodal & LLM

Trendyol Cybersecurity: 53,202 Instruction-Tuning Examples for Defense

53,202 instruction-tuning examples for defensive cybersecurity, covering over 200 specialized domains including cloud-native threats and AI/ML security. Developed by the Trendyol Security Team and updated in July 2025, this dataset provides system, user, and assistant triplets for model training.

JSONSize Categories10 Kn100 KTask Categoriestext GenerationLibrarypolarsTask Categoriesquestion AnsweringLanguageenCybersecurityModalitytextLibrarymlcroissantThreat IntelligenceLibrarydatasetsLibrarypandasSecurity OperationsRegionusLicenseapache 20Incident ResponseDefensive Security+1

0 views

Multimodal & LLM

Llava Onevision 1.5: Mid-Training Webdataset for Vision-Language Models

A webdataset likely containing 3 million examples for training multimodal AI models, as indicated by the title. It was published by author mvp-lab on the Hugging Face platform and last updated on September 20, 2025. The dataset appears to be associated with the LLaVA (Large Language and Vision Assistant) project, suggesting it contains paired image-text data.

MultimodalTraining DataVision LanguageLlavaMultimodal Ai+1

0 views

Multimodal & LLM

Seamless Interaction: 4,000 Hours of Multimodal Human Communication

Seamless Interaction contains over 4,000 hours of multimodal face-to-face interaction footage featuring more than 4,000 participants. Released by Meta in 2025, this collection captures the complex interplay of verbal and nonverbal signals during human communication for AI research.

AudioVideoLibrarywebdatasetWebdatasetModalityvideoLicensecc By Nc 40Regionus+1

0 views

Multimodal & LLM

FVQA: Factual Visual Question Answering Dataset for Search-Augmented Training

FactualVQA (FVQA) is a multimodal Visual Question Answering dataset created for search-augmented training and evaluation. It was authored by lmms-lab and last updated on 2025-08-09. The dataset emphasizes knowledge-intensive questions that require external information beyond the given image.

MultimodalKnowledge Intensive QaMultimodal AiBenchmarkComputer VisionSearch Augmented TrainingVisual Question Answering+1

0 views

Multimodal & LLM

MMAT-1M: A Million-Scale Multimodal Agent Tuning Dataset

MMAT-1M is a million-scale multimodal agent tuning dataset built by consolidating subsets of five publicly available datasets: Visual CoT, LLaVA-CoT, The Cauldron, TabMWP, and Infoseek. It integrates dynamically generated API calls and Retrieval Augmented Generation (RAG) information through a GPT-4o-powered multi-turn paradigm. The dataset was created by VIS-MPU-Agent and was last updated on August 4, 2025.

MultimodalMultimodal QaAgent TuningLlm TrainingLarge ScaleInstruction FollowingSynthetic+1

0 views

Multimodal & LLM

CameraBench Video Dataset For Camera Motion Analysis

CameraBench is a dataset for understanding camera motions in videos, created by syCen. It includes approximately 1,400 annotated video clips used for fine-tuning models like Qwen2.5-VL. The dataset supports evaluation of Structure-from-Motion, Visual Language Models, and scene-aware semantic analysis.

JSONSize Categories1 Kn10 KLibrarypolarsModalitytextLibrarymlcroissantModalityimageArxiv250415376LibrarydatasetsLibrarypandasLicensecc By 40Regionus+1

0 views

Multimodal & LLM

Multimodal Language Analysis Benchmark With 61,000 Samples

61,000+ multimodal samples across text, video, and audio modalities from nine datasets. The MMLA benchmark, created by THUIAR, includes data from films, TV series, YouTube, Vimeo, Bilibili, TED, and improvised scripts for evaluating foundation models.

CSVSize Categories10 Kn100 KTask Categoriestext GenerationLibrarypolarsLanguagezhLibrarydaskLanguageenModalitytextArxiv250416427LibrarymlcroissantLibrarydatasetsLicensecc By 40Task Categorieszero Shot ClassificationRegionusTask Categoriestext Classification+1

0 views

Multimodal & LLM

LLaVA-1.5-665K: 665,000 Multimodal Instruction-Following Pairs

665,000 multimodal instruction-following pairs consisting of images and text sequences, compiled by kaiyuyue and updated in 2025. This collection consolidates the LLaVA-1.5-665K mixture into a single repository, providing raw images in WebDataset format alongside instruction JSONs.

WEBDATASETTask Categoriesimage Text To TextZero ShotTask Categoriesquestion AnsweringVision Language ModelLanguageenTask Categoriesvisual Question AnsweringLibrarywebdatasetModalitytextSize Categories100 Kn1 MArxiv231003744LibrarymlcroissantModalityimageLibrarydatasetsArxiv250522664Licensecc By 40RegionusVlm+1

0 views

Multimodal & LLM

MSVD: 1,970 Videos with Multiple Captions for Paraphrase Evaluation

MSVD contains 1,970 videos, each paired with approximately 40 captions, providing a highly parallel corpus for language tasks. The dataset is split into 1,200 training, 100 validation, and 670 test videos, totaling over 80,000 captions. It was collected by David Chen and William B. Dolan for paraphrase evaluation research.

VideoMultimodalBenchmarkComputer VisionVideo CaptioningNatural Language ProcessingParaphrase Evaluation+1

0 views

PreviousPage 69 of 98Next