DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

OmniScience: 1M-10M Multi-modal Pairs for Scientific Image Understanding | DataSalon

Home Multimodal & LLMOmniScience: 1M-10M Multi-modal Pairs for Scientific Image Understanding

Multimodal & LLM

OmniScience: 1M-10M Multi-modal Pairs for Scientific Image Understanding

Name: OmniScience: 1M-10M Multi-modal Pairs for Scientific Image Understanding
Creator: UniParser
Published: 2026-01-07T05:55:38
Keywords: Arxiv260213758, Librarypolars, Task Categoriesimage To Text, Librarydask, Size Categories1 Mn10 M, OPTIMIZED-PARQUET, Licensecc By Nc Sa 40, Modalitytext, Arxiv251215098, Librarymlcroissant, Modalityimage, Librarydatasets, Parquet, Regionus

by UniParser·Updated 4mo ago

Available on 1 platform

Description

OmniScience provides between 1 million and 10 million multi-modal records for scientific image understanding, released by UniParser in January 2026. The data pairs scientific imagery with text to support image-to-text tasks, following a collection phase completed in September 2025.

Use Cases

Training image-to-text models to generate captions for scientific figures
Fine-tuning multi-modal LLMs for scientific visual reasoning
Benchmarking zero-shot performance on scientific image understanding tasks

Strengths

Scale of 1M to 10M records
Ranked Top 1 in Hugging Face Image Captioning field upon release
Provided in optimized-parquet format for efficient data loading

Limitations

CC-BY-NC-SA 4.0 license prohibits commercial use
Scientific domain focus may limit generalizability to natural image datasets

Provenance

Source: UniParser (associated with Arxiv 2602.13758 and 2512.15098)
Time Range: Completed 2025-09-25
Freshness: Last updated March 2026; data collection was finalized in September 2025.

The dataset is distributed under a Creative Commons Attribution Non-Commercial Share Alike 4.0 license; it is optimized for use with Polars, Dask, and the Hugging Face Datasets library.

OPTIMIZED-PARQUET Parquet Arxiv260213758 Librarypolars Task Categoriesimage To Text Librarydask Size Categories1 Mn10 M Licensecc By Nc Sa 40 Modalitytext Arxiv251215098 Librarymlcroissant Modalityimage Librarydatasets Regionus

Related Datasets

Quality Score

D40

Description

Source

Reputation

Quality Score

D40

Description

Source

Reputation

Access

Community

6.8K downloads

120 likes

0 views

Dataset Info

Author: UniParser
Created: Jan 7, 2026
Updated: Mar 5, 2026
Last synced: Jul 23, 2026

Access

Community

6.8K downloads

120 likes

0 views

Dataset Info

Author: UniParser
Created: Jan 7, 2026
Updated: Mar 5, 2026
Last synced: Jul 23, 2026

OmniScience: 1M-10M Multi-modal Pairs for Scientific Image Understanding

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info