DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Multimodal & LLM Datasets | DataSalon

All Categories

🔗

Multimodal & LLM

Image-text pairs, instruction tuning, visual QA, cross-modal data, foundation model training data

1,956 datasets

Multimodal & LLM

Stanford Kuka Multimodal: 3,000 Episodes of Robotic Interaction Data

This robotics dataset contains 3,000 episodes and 149,985 frames of multimodal data collected from a Kuka robot arm. Released by the LeRobot team and associated with research paper 1810.10191, the collection provides 20 FPS video and time-series sensor data for a single robotic task.

ParquetLibrarypolarsModalitytimeseriesTask CategoriesroboticsSize Categories100 Kn1 MModalitytabularLibrarymlcroissantArxiv181010191LibrarydatasetsLibrarypandasModalityvideoRegionusLe RobotLicensemit+1

0 views

Multimodal & LLM

MoDeTrans: Modi to Devanagari Script Transliteration Dataset

A dataset introduced in a 2025 paper titled 'Historic Scripts to Modern Vision: A Novel Dataset and A VLM Framework for Transliteration of Modi Script to Devanagari'. It supports research in transliterating the ancient Modi script of Maharashtra into the modern Devanagari script used for Marathi and other languages. The dataset was created by author historyHulk and last updated on Hugging Face in September 2025.

MultimodalParquetSize Categories1 Kn10 KLibrarypolarsHistoryMarathiModalitytextModi ScriptLibrarymlcroissantModalityimageHistorical ScriptsLibrarydatasetsLibrarypandasComputer VisionTransliterationRegionusLanguagemrTask CategoriestranslationLicensemit+1

0 views

Multimodal & LLM

Instruction Following Dataset: Japanese LLM Training Data for Multi-Step Tasks

APTO-001 developed this dataset to improve large language model instruction-following capabilities. The dataset likely contains synthetic text examples designed to train models on handling complex, multi-step instructions, as described in the platform description. It was last updated on September 12, 2025.

TextParquetLibrarypolarsText GenerationSize Categoriesn1 KModalitytextLibrarymlcroissantLibrarydatasetsLibrarypandasRegionusLlm TrainingLicenseapache 20Synthetic DataInstruction Following+1

0 views

Multimodal & LLM

Parent-Infant Interaction Videos and Data on Tactile Cues from 9 to 12 Months

Longitudinal data from 9 to 12 months of age analyzes the role of touch in infant language development. The dataset includes databases for analysis and video clips with examples of categorized behaviors. It was authored by Murillo Sanz, Eva and last updated on October 14, 2025.

MultimodalDevelopmental PsychologyParent Infant InteractionLanguage DevelopmentTactile CuesMultimodal Communication+1

0 views

Multimodal & LLM

CT-RATE-VQA: Medical Visual Question Answering Dataset with CT Scans and Lesion Masks

A large-scale dataset constructed for medical visual question answering (Med-VQA) tasks. It is based on the ReXGroundingCT data and contains CT volumes paired with multi-class segmentation masks, where each mask channel represents a specific lesion type. The dataset was uploaded by liyf001 and last updated on October 11, 2025.

MultimodalCt ScansLesion SegmentationMedical ImagingBenchmarkHealthcareComputer VisionLarge ScaleVisual Question Answering+1

0 views

Multimodal & LLM

MSDD: Arabic Multimodal Web Content with Markdown Structure

Misraj Structured Data Dump (MSDD) is a large-scale Arabic multimodal dataset created by Misraj. It was extracted and filtered from Common Crawl dumps using a WASM pipeline and uniquely preserves the structural integrity of web content by providing markdown output. The dataset was last updated on September 29, -2025.

TabularMultimodalArabic LanguageWeb ContentCommon CrawlLarge Scale+1

0 views

Multimodal & LLM

KIE-HVQA: Data for Mitigating OCR Hallucinations in Multimodal LLMs

KIE-HVQA is a dataset supporting research on mitigating Optical Character Recognition hallucinations in multimodal large language models. The dataset was created by bytedance-research and is associated with a paper accepted by the NeurIPS 2025 Main Conference. The data likely contains multimodal document samples for evaluating and improving OCR integration in vision-language models.

MultimodalDocument UnderstandingHallucination MitigationMultimodal LlmOptical Character Recognition+1

0 views

Multimodal & LLM

Caption3o-LongCap-v4: Large-Scale Image-Caption Dataset for Long-Form Descriptions

Caption3o-LongCap-v4 is a large-scale, high-quality image-caption dataset designed for training and evaluating image-to-text models. It is derived from prithivMLmods/blip3o-caption-mini-arrow and additional curated sources, emphasizing long-form captions covering a wide range of real-world and artistic scenes. The dataset was last updated on 2025-09-15 by prithivMLmods.

MultimodalArrowTask Categoriesimage Text To TextTask Categoriesimage To TextLanguageenModalitytextSize Categories100 Kn1 MCaptionLibrarymlcroissantVision LanguageModalityimageLibrarydatasetsLong CaptionComputer VisionImage CaptioningArtistic ScenesRegionusLarge ScaleVlmArtLicenseapache 20Synthetic+1

0 views

Multimodal & LLM

Caption3o-XL-v4: Large-Scale Image-Caption Dataset for Long-Form Descriptions

Caption3o-XL-v4 is a large-scale, high-quality dataset derived from prithivMLmods/blip3o-caption-mini-arrow and other curated sources. It is designed for training and evaluating image-to-text models, with an emphasis on long-form captions covering a wide range of real-world and artistic scenes. The dataset is in Parquet format, contains English text, and was last updated on September 15, 2025.

MultimodalParquetSize Categories10 Kn100 KTask Categoriesimage Text To TextLibrarypolarsTask Categoriesimage To TextLibrarydaskVision Language ModelLanguageenModalitytextCaptionLibrarymlcroissantModalityimageLibrarydatasetsLong CaptionComputer VisionImage CaptioningRegionusLarge ScaleVlmArtLicenseapache 20Synthetic+1

0 views

Multimodal & LLM

Caption3o-Opt-v3: 100,000 Image-Caption Pairs for Long-Form Descriptions

Approximately 100,000 image-caption pairs form this dataset for training image-to-text models. It was created by prithivMLmods and last updated on August 28, 2025. The dataset emphasizes long-form captions covering a wide range of real-world and artistic scenes.

MultimodalMultimodal TrainingComputer VisionImage CaptioningLarge Scale+1

0 views

Multimodal & LLM

MolmoAct Pretraining Mixture: Robot Action Reasoning Data

MolmoAct is a fully open-source action reasoning model for robotic manipulation developed by the Allen Institute for AI. This mixture contains a subset of OXE formulated as Action Reasoning Data along with auxiliary robot data and a link to Multimodal Web data. The dataset page was last updated on September 10, 2025.

MultimodalPretraining MixtureRoboticsAction Reasoning+1

0 views

Multimodal & LLM

OpenAI CLIP: PyTorch Implementation with BERT Text Encoder

A PyTorch-based implementation of the OpenAI CLIP architecture for image-text alignment, authored by Moein Shariatnia and updated in October 2025. It provides a dual-encoder framework for processing image-text pairs using BERT for natural language processing and Vision Transformer components.

PytorchClip ModelBertOpenai ClipNatural Language ProcessingPaperDeep Learning+1

0 views

Multimodal & LLM

ChemVQA: Chemistry Visual Question Answering Dataset

ChemVQA Text is a dataset published on HuggingFace by author chandrabhuma. The title suggests it likely contains chemistry-related content for visual question answering tasks. The dataset was last updated on October 28, 2025.

MultimodalQuestion AnsweringChemistryScience Qa+1

0 views

Multimodal & LLM

Traditional Chinese Medicine Multimodal Pre-training Corpus

ShizhenGPT's pre-training dataset contains over 5 billion tokens of Traditional Chinese Medicine text from websites and books, along with a large-scale image-text dataset. The dataset was created by FreedomIntelligence and was last updated in September 2025.

MultimodalMedical ImagingTraditional Chinese MedicineComputer VisionMedical TextNatural Language Processing+1

0 views

Multimodal & LLM

Traditional Chinese Medicine Multimodal Pre-training Corpus

Over 5 billion tokens of Traditional Chinese Medicine text form the largest existing TCM corpus, sourced from websites and books. FreedomIntelligence released this multimodal dataset for pre-training the ShizhenGPT model. It was last updated in September 2025.

MultimodalImage Text PairsTraditional Chinese MedicineComputer VisionMedical TextNatural Language Processing+1

0 views

Multimodal & LLM

HPDv3: 1.08M Text-Image Pairs with Human Preference Annotations

Mizzen AI, CUHK MMLab, and academic partners released the Human Preference Dataset v3 (HPDv3) in August 2025. It comprises 1.08 million text-image pairs and 1.17 million annotated pairwise comparisons for modeling human preferences. The dataset is associated with the ICCV 2025 paper 'HPSv3: Towards Wide-Spectrum Human Preference Score'.

MultimodalJSONLibrarypolarsText Image PairsSize Categories1 Mn10 MLanguageenAi EvaluationModalitytextHuman PreferenceLibrarymlcroissantMultimodal AnnotationLibrarydatasetsLibrarypandasComputer VisionArxiv250803789RegionusLicensemit+1

0 views

Multimodal & LLM

Multimodal Embedding Benchmark for Video and Document Tasks

MMEB-V2 is a benchmark dataset for evaluating multimodal embedding models, created by VLM2Vec and updated in September 2025. It expands upon a previous version to include five new tasks: Video Retrieval, Moment Retrieval, Video Classification, Video Question Answering, and Visual Document Retrieval.

LanguageenTask Categoriesvisual Question AnsweringArxiv241005160RegionusTask Categoriesvideo ClassificationLicenseapache 20+1

0 views

Multimodal & LLM

Yelp Multimodal Recommendation: Business Metadata, Reviews, Photos, and LLM Summaries

A multimodal dataset for Point of Interest recommendation based on the Yelp Open Dataset. It includes business metadata, user reviews, business photos, and LLM-generated summaries of reviews and images. The dataset was uploaded by wzehui on September 8, 2025.

MultimodalRecommendationYelpPoint Of InterestSynthetic+1

0 views

Multimodal & LLM

Stepeval Audio Paralinguistic

550 annotated speech samples categorized across 11 distinct paralinguistic dimensions for speech-to-speech model evaluation. The dataset includes curated audio files and corresponding annotations derived from the Step-Audio 2 technical research.

AUDIOFOLDERModalityaudioSize Categoriesn1 KLibrarymlcroissantLibrarydatasetsRegionusArxiv250716632+1

0 views

Multimodal & LLM

SimLingo: 3.3 Million CARLA 2.0 Samples with Driving Commentary

SimLingo-Data consists of 3,308,315 samples of autonomous driving data generated in the CARLA 2.0 simulator by RenzKa. It integrates sensor readings and action labels with natural language annotations for driving commentary, instruction following, and visual question answering, collected using the PDM-Lite rule-based expert.

LicenseotherCommentaryLanguageenTask Categoriesvisual Question AnsweringTask CategoriesroboticsRegionusVqaVlaAutonomous Driving+1

0 views

PreviousPage 67 of 98Next