DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

LLaVA-1.5-665K: 665,000 Multimodal Instruction-Following Pairs | DataSalon

Home Multimodal & LLMLLaVA-1.5-665K: 665,000 Multimodal Instruction-Following Pairs

Multimodal & LLM

LLaVA-1.5-665K: 665,000 Multimodal Instruction-Following Pairs

Name: LLaVA-1.5-665K: 665,000 Multimodal Instruction-Following Pairs
Creator: kaiyuyue
Published: 2024-09-24T01:21:39
Keywords: Task Categoriesimage Text To Text, Zero Shot, Task Categoriesquestion Answering, Vision Language Model, Languageen, Task Categoriesvisual Question Answering, Librarywebdataset, Modalitytext, Size Categories100 Kn1 M, Arxiv231003744, Librarymlcroissant, Modalityimage, WEBDATASET, Librarydatasets, Arxiv250522664, Licensecc By 40, Regionus, Vlm

by kaiyuyue·Updated 11mo ago

Available on 1 platform

Description

665,000 multimodal instruction-following pairs consisting of images and text sequences, compiled by kaiyuyue and updated in 2025. This collection consolidates the LLaVA-1.5-665K mixture into a single repository, providing raw images in WebDataset format alongside instruction JSONs.

Use Cases

Training Vision-Language Models (VLMs) using the image and text instruction pairs
Zero-shot vision encoder grafting as demonstrated in the associated research paper
Fine-tuning models for visual question answering using the mix665k JSON sequences

Strengths

665,000 multimodal instruction pairs
Consolidated format with images and text in one repository
CC BY 4.0 permissive license

Limitations

Large storage requirements due to 665,000 images in WebDataset format
Potential label noise inherent in large-scale instruction-following mixtures

Provenance

Source: kaiyuyue / LLaVA-1.5 research
Freshness: Last updated August 2025.

Images are stored in WebDataset format (.tar files) requiring specific loading libraries like webdataset; the main instruction file is llava_v1_5_mix665k.json.

WEBDATASET Task Categoriesimage Text To Text Zero Shot Task Categoriesquestion Answering Vision Language Model Languageen Task Categoriesvisual Question Answering Librarywebdataset Modalitytext Size Categories100 Kn1 M Arxiv231003744 Librarymlcroissant Modalityimage Librarydatasets Arxiv250522664 Licensecc By 40 Regionus Vlm

Related Datasets

Quality Score

D38

Description

Source

Reputation

Quality Score

D38

Description

Source

Reputation

Access

Community

281 downloads

8 likes

0 views

Dataset Info

Author: kaiyuyue
Created: Sep 24, 2024
Updated: Aug 5, 2025

Access

Community

281 downloads

8 likes

0 views

Dataset Info

Author: kaiyuyue
Created: Sep 24, 2024
Updated: Aug 5, 2025

LLaVA-1.5-665K: 665,000 Multimodal Instruction-Following Pairs

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info