DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

LLaVA-OneVision-1.5: 85 Million Multimodal Mid-Training Records | DataSalon

Home Multimodal & LLMLLaVA-OneVision-1.5: 85 Million Multimodal Mid-Training Records

Multimodal & LLM

LLaVA-OneVision-1.5: 85 Million Multimodal Mid-Training Records

Name: LLaVA-OneVision-1.5: 85 Million Multimodal Mid-Training Records
Creator: mvp-lab
Published: 2025-09-14T14:42:33
Keywords: Librarypolars, Librarydask, Size Categories10 Mn100 M, Modalitytext, Librarymlcroissant, Modalityimage, Librarydatasets, Parquet, Regionus, Arxiv250923661, Licenseapache 20

by mvp-lab·Updated 8mo ago

Available on 1 platform

Description

Released by mvp-lab in 2025, this 85-million record multimodal collection supports the mid-training phase of the LLaVA-OneVision-1.5 framework. It aggregates image-text data from eight major sources including ImageNet-21k, LAIONCN, and SA-1B to facilitate democratized multimodal model training.

Use Cases

Mid-stage training of multimodal models using the integrated image-text pairs
Cross-domain visual feature extraction using the ImageNet-21k and COYO700M subsets
Large-scale vision-language alignment using the MINT and Obelics text-image interleaved data

Strengths

85 million total records
Aggregates 8 diverse source datasets including SA-1B and ImageNet-21k
Apache 2.0 licensed for open research

Limitations

Significant label noise inherent in web-scraped components like LAIONCN
High computational overhead required for processing 85 million multimodal records

Provenance

Source: mvp-lab (Arxiv 2509.23661)
Collection Method: Aggregated from existing open-source datasets
Freshness: Last updated November 2024
Geography: Global

Requires high-performance storage for Parquet files; users should refer to Arxiv 2509.23661 for the specific data mixture ratios and training recipes.

Parquet Librarypolars Librarydask Size Categories10 Mn100 M Modalitytext Librarymlcroissant Modalityimage Librarydatasets Regionus Arxiv250923661 Licenseapache 20

Related Datasets

Quality Score

C41

Description

Source

Reputation

Quality Score

C41

Description

Source

Reputation

Access

Community

290.6K downloads

67 likes

0 views

Dataset Info

Author: mvp-lab
Created: Sep 14, 2025
Updated: Nov 24, 2025
Last synced: Jul 17, 2026

Access

Community

290.6K downloads

67 likes

0 views

Dataset Info

Author: mvp-lab
Created: Sep 14, 2025
Updated: Nov 24, 2025
Last synced: Jul 17, 2026

LLaVA-OneVision-1.5: 85 Million Multimodal Mid-Training Records

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info