DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Spectra: Multimodal VQA Training Data for Science and Open-World Knowledge | DataSalon

Home Multimodal & LLMSpectra: Multimodal VQA Training Data for Science and Open-World Knowledge

Multimodal & LLM

Spectra: Multimodal VQA Training Data for Science and Open-World Knowledge

Name: Spectra: Multimodal VQA Training Data for Science and Open-World Knowledge
Creator: Tamalmajumder
Published: 2026-04-18T12:09:10
Keywords: Training Data, Open World Knowledge, Multimodal Vqa, Science Questions, Multimodal

by Tamalmajumder·Updated 3mo ago

Available on 1 platform

Description

Spectra is a multimodal question-answering training dataset designed for vision-language models. It combines graduate-level science questions from TQA and ScienceQA with open-world knowledge questions from OKVQA and science questions across physics, chemistry, math, and biology from AI2D. The dataset was created by Tamalmajumder and was last updated on April 18, 2026.

Use Cases

Training vision-language models for graduate-level science question answering based on the TQA and ScienceQA components
Training models for open-world knowledge visual question answering based on the OKVQA component
Training models for multimodal science reasoning across physics, chemistry, math, and biology based on the AI2D component
Creating balanced and contamination-controlled training sets for multimodal reasoning

Strengths

Combines multiple established QA datasets (TQA, OKVQA, ScienceQA, AI2D) into a single training resource
Designed to be balanced and contamination-controlled for training
Last updated on April 18, 2026

Limitations

Column-level documentation is absent; field semantics must be inferred after download
Row count, file formats, and license information are unknown
Description metadata is limited; actual data quality requires manual inspection after download

Provenance

Source: Tamalmajumder
Freshness: Last updated 2026-04-18 16:20:16

Multimodal Training Data Open World Knowledge Multimodal Vqa Science Questions

Related Datasets

Quality Score

D37

Description

Source

Reputation

Quality Score

D37

Description

Source

Reputation

Access

Community

1 likes

0 views

Dataset Info

Author: Tamalmajumder
Created: Apr 18, 2026
Updated: Apr 18, 2026
Last synced: Apr 24, 2026

Access

Community

1 likes

0 views

Dataset Info

Author: Tamalmajumder
Created: Apr 18, 2026
Updated: Apr 18, 2026
Last synced: Apr 24, 2026

Spectra: Multimodal VQA Training Data for Science and Open-World Knowledge

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info