DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Multimodal & LLM Datasets | DataSalon

All Categories

🔗

Multimodal & LLM

Image-text pairs, instruction tuning, visual QA, cross-modal data, foundation model training data

1,947 datasets

Multimodal & LLM

Multimodal Dataset for Visual Question Answering

A multimodal dataset likely containing paired images and text questions for visual question answering tasks. The dataset is published on Kaggle, but its specific size, creation date, and authorship are unknown. Columns and sample data are unavailable, limiting detailed assessment of its content.

MultimodalVqaVisual Question Answering+1

0 views

Multimodal & LLM

Multimodal Dataset for AI Model Training

A multimodal dataset published on Kaggle. The dataset's specific content, scale, and origin are not detailed in the available metadata. Further inspection after download is required to determine its exact composition and suitability for tasks.

MultimodalMachine LearningAi Training+1

0 views

Multimodal & LLM

MNIST VQA 09: Visual Question Answering on Handwritten Digits

MNIST VQA 09 is a dataset hosted on Kaggle. Its title suggests it is a multimodal dataset combining handwritten digit images from the MNIST corpus with question-answering tasks. The dataset's author, organization, and specific contents are unknown from the provided metadata.

MultimodalMnistHandwritten DigitsComputer VisionVisual Question Answering+1

0 views

Multimodal & LLM

MMSU: Spoken Language Reasoning Benchmark with 47 Linguistic Sub-Tasks

MMSU is a multimodal benchmark for spoken language understanding and reasoning featuring 47 sub-tasks across linguistic domains like phonetics and prosody. Created by ddwang2000 and documented in Arxiv 2506.04779, the collection contains between 1,000 and 10,000 records.

ParquetSize Categories1 Kn10 KLibrarypolarsTask Categoriesquestion AnsweringLibrarydaskModalityaudioLanguageenModalitytextLibrarymlcroissantLibrarydatasetsRegionusLicensemitArxiv250604779+1

0 views

Multimodal & LLM

Penguin Recap I: Metadata for 68.6M Images from Three Collections

Penguin Recap I contains metadata for 68,581,657 image records aggregated from three subsets: DataComp+COYO (57.6M records), SA-1B (9.3M records), and OpenImages (1.7M records). The dataset, published by Tencent, provides recap metadata for images but does not include the image binaries themselves.

MultimodalJSONLibrarypolarsLibrarydaskSize Categories100 Mn1 BModalitytextLibrarymlcroissantModalityimageImage TextLibrarydatasetsMetadata OnlyRegionusArxiv260306569+1

0 views

Multimodal & LLM

Japanese Medical VQA 12M: 12 Million Multimodal Medical Image-Text Pairs

Japanese Medical VQA 12M provides 12 million multimodal records for medical visual question answering, developed by MIL-UT and released in 2026. It consists of medical images paired with English and Japanese text across five distinct data-construction stages including captions and Q&A pairs.

MultimodalJapaneseOPTIMIZED-PARQUETParquetLibrarypolarsTask Categoriesquestion AnsweringTask Categoriesimage To TextLibrarydaskLanguageenSize Categories10 Mn100 MModalitytextLibrarymlcroissantVision LanguageModalityimageLicensecc By Sa 40Image TextLibrarydatasetsRegionusLanguagejaMedical+1

0 views

Multimodal & LLM

S1-MMAlign: 15.5 Million Scientific Image-Text Pairs from 2.5M Papers

S1-MMAlign contains 15.5 million image-text pairs extracted from 2.5 million open-access scientific papers across biology, chemistry, and physics. Developed by ScienceOne-AI and released in 2026, it provides a large-scale resource for aligning complex scientific imagery with textual descriptions. The dataset is designed to bridge the semantic gap in scientific multimodal learning using peer-reviewed literature.

MultimodalWEBDATASETTask Categoriesimage To TextLanguageenTask Categoriesvisual Question AnsweringLibrarywebdatasetSize Categories10 Mn100 MModalitytextLibrarymlcroissantModalityimageBiologyLibrarydatasetsTask Categoriesfeature ExtractionLicensecc By Nc 40ChemistryRegionusArxiv260100264PhysicsScienceDoi1057967hf8008+1

0 views

Multimodal & LLM

Protein Function Test Data with GO Annotations and Interactions

BioReason-Pro Test Data is an evaluation dataset for protein function prediction containing proteins with Gene Ontology term annotations, GO-GPT predictions, InterPro domains, STRING protein-protein interactions, and protein metadata. It was created by wanglab and follows the CAFA framework's temporal holdout protocol. The dataset was last updated in March 2026.

Time SeriesMultimodalBenchmarkBioinformaticsProtein InteractionsProtein function predictionGene Ontology+1

0 views

Multimodal & LLM

Protein Function Test Data with GO Annotations and Interactions

Evaluation dataset for the BioReason-Pro model, containing proteins with Gene Ontology term annotations, GO-GPT predictions, InterPro domains, STRING protein-protein interactions, and protein metadata. The dataset was created by wanglab and follows the CAFA framework's temporal holdout methodology. It was last updated in March 2026.

Time SeriesMultimodalBenchmarkBioinformaticsMultimodal BiologyProtein FunctionProtein InteractionGene Ontology+1

0 views

Multimodal & LLM

BioFuse: Summary of Supported Foundation Models

A summary list of foundation models supported by the BioFuse embedding fusion framework. The dataset is a 9.5 KB Excel file created by Mirza Nasir Hossain and last updated on March 18, 2026. It is shared under a CC-BY-4.0 license on figshare.

TabularExcelMachine LearningSource Framework DesignedAchieving Sota AucBiofuseFoundation ModelsRemaining DatasetsModel CompatibilityUsing XgboostVector ConcatenationOptimal CombinationSpecific SubdomainsEmbedding Fusion FrameworkFusion TechniquesPoses ChallengesFeature FusionModels PromisesModal RelationshipsNovel OpenEmploys Grid SearchIncorporate Future ModelsUncovering CrossEmbedding FusionSota Performance AcrossXlink+1

0 views

Multimodal & LLM

Nemotron RL Instruction Following MultiTurnChat v1: A Multi-Challenge LLM Benchmark

Nemotron RL Instruction Following MultiTurnChat v1 is a benchmark dataset designed to test and improve large language models in complex, multi-turn conversations. It was created by NVIDIA and employs a 'model breaking' methodology, testing tasks against advanced models like Nemotron-Nano-V2 and Qwen3-235B-A22B-Thinking-2507 to expose failure modes. The dataset was last updated on March 11, 2026.

TextLlm BenchmarkModel EvaluationMulti Turn ChatBenchmark+1

0 views

Multimodal & LLM

Multimodal Medicinal Plant Dataset: Images and Morphological Metrics for 30 Species

MMPD-3 contains images and morphological metrics for 30 species of medicinal plants. The dataset is hosted on Kaggle, but the author, organization, and specific data collection details are not provided. The last update date and data volume are unknown.

MultimodalMedicinal PlantsBotanyMultimodal DataComputer Vision+1

0 views

Multimodal & LLM

Cyberbullying Multimodal Indonesian Social Media Data

A multimodal dataset concerning cyberbullying, likely containing text and other media types from Indonesian-language social media sources. It was published on Kaggle, but the author, organization, and specific collection details are unknown. The last update date, row count, and file formats are also unspecified.

MultimodalCyberbullyingSocial MediaIndonesian LanguageNatural Language Processing+1

0 views

Multimodal & LLM

VLM_cosmosreason1_4B_dataset: Vision-Language Model Training Data

A dataset titled 'VLM_cosmosreason1_4B_dataset' suggests content for training Vision-Language Models. It is hosted on Kaggle, but no further metadata is available. The dataset's size, structure, and specific contents require verification after download.

MultimodalVision Language ModelCosmos ReasoningAi TrainingMultimodal Reasoning+1

0 views

Multimodal & LLM

Multimodal Wearable Swimming Dataset

A dataset containing motion and physiological sensor data collected from swimmers. The data is multimodal, likely combining time-series signals from wearable devices. It is hosted on Kaggle, but specifics on size, collection period, and authors are unknown.

Time SeriesMultimodalWearable SensorsMotion CaptureSports AnalyticsPhysiological Data+1

0 views

Multimodal & LLM

BD-HazardVLM_500_final: Hazard Detection for Vision-Language Models

BD-HazardVLM_500_final is a dataset published on Kaggle, likely designed for evaluating or training vision-language models on hazard detection tasks. The title suggests it contains 500 final entries, but specific content, columns, and authorship details are unconfirmed. Metadata is minimal; actual data quality and scope require verification after download.

MultimodalSafetyVision Language ModelComputer VisionHazard Detection+1

0 views

Multimodal & LLM

Nemotron Rl Instruction Following Adversarial V1

A dataset of adversarial prompts designed to explicitly conflict with an AI model's standard training instincts, such as writing code without comments or refusing helpfulness norms. It focuses on 8 distinct 'anti-convention' patterns and was created by NVIDIA, with a last recorded update on March 11, 2026. The dataset uses a targeted 'model breaking' methodology to generate candidate responses for testing constraint difficulty.

TextAi SafetyAdversarial PromptsModel Evaluation+1

0 views

Multimodal & LLM

DocVQA 2026: Multimodal Reasoning Across 8 Diverse Document Domains

Created by VLR-CVC for the ICDAR2026 competition, this multimodal dataset contains approximately 1,000 document-question pairs focused on complex reasoning. It spans eight distinct domains including business reports, scientific papers, slides, posters, maps, comics, infographics, and engineering drawings.

MultimodalOPTIMIZED-PARQUETParquetTask Categoriesimage Text To TextDocument UnderstandingLibrarypolarsTask Categoriesquestion AnsweringLanguageenTask Categoriesvisual Question AnsweringSize Categoriesn1 KModalitytextLibrarymlcroissantModalityimageLibrarydatasetsTask Categoriesdocument Question AnsweringBenchmarkLibrarypandasRegionus+1

0 views

Multimodal & LLM

Human Preference Labels for Video Generation Motion Quality

115,732 pairwise human preference labels compare outputs from 4 frontier video generation models. Annotators from Datapoint AI evaluated videos across 3 quality dimensions, using 417 unique prompts and 11 motion categories. The dataset was last updated in March 2026.

TabularOPTIMIZED-PARQUETParquetSize Categories1 Kn10 KLibrarypolarsTask Categoriesreinforcement LearningRlhfLibrarydaskLanguageenAi EvaluationModalitytextHuman MotionModalitytabularLibrarymlcroissantLibrarydatasetsPreference DataLicensecc By 40Video GenerationHuman PreferencesRegionusTask Categoriestext To VideoMotion QualityTask Categoriesvideo ClassificationSynthetic+1

0 views

Multimodal & LLM

SimWorld: A Simulator for AI Agents in Physical and Social Environments

SimWorld-AI created SimWorld, an open-ended realistic simulation platform for developing and evaluating LLM and VLM AI agents. The platform supports complex physical and social environments, with a last recorded update on 2026-03-14. The description indicates support for importing customized environments and agents.

MultimodalPhysical WorldAi AgentsAutonomous AgentsSimulationSimulation PlatformSocial World+1

0 views

PreviousPage 32 of 97Next