Name: S1-MMAlign: 15.5 Million Scientific Image-Text Pairs from 2.5M Papers
Creator: ScienceOne-AI
Published: 2025-12-03T07:34:50
Keywords: Task Categoriesimage To Text, Languageen, Task Categoriesvisual Question Answering, Librarywebdataset, Size Categories10 Mn100 M, Modalitytext, Librarymlcroissant, Modalityimage, WEBDATASET, Biology, Librarydatasets, Task Categoriesfeature Extraction, Licensecc By Nc 40, Chemistry, Regionus, Arxiv260100264, Physics, Science, Doi1057967hf8008, Multimodal

Description

S1-MMAlign contains 15.5 million image-text pairs extracted from 2.5 million open-access scientific papers across biology, chemistry, and physics. Developed by ScienceOne-AI and released in 2026, it provides a large-scale resource for aligning complex scientific imagery with textual descriptions. The dataset is designed to bridge the semantic gap in scientific multimodal learning using peer-reviewed literature.

Use Cases

Visual Question Answering (VQA) using scientific imagery and associated text to interpret diagrams
Image-to-text generation for automated captioning of complex scientific figures in biology and chemistry
Feature extraction for training domain-specific vision-language models using 15.5 million multimodal records

Strengths

15.5 million image-text pairs
Multi-disciplinary coverage including biology, chemistry, and physics
Sourced from 2.5 million peer-reviewed open-access papers

Limitations

Potential for label noise from automated extraction of paper captions
Restricted to open-access literature which may introduce domain bias
Non-commercial license limits industrial application

Provenance

Source: ScienceOne-AI, derived from 2.5 million open-access scientific papers
Collection Method: Automated extraction and alignment from open-access scientific publications
Freshness: Last updated March 2026.
Geography: Global scientific literature

Dataset is provided in WebDataset format and is licensed under CC BY-NC 4.0, which prohibits commercial use. Users should refer to Arxiv paper 2601.00264 for specific alignment methodology and DOI 10.57967/hf/8008 for citation.

S1-MMAlign: 15.5 Million Scientific Image-Text Pairs from 2.5M Papers

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info