BLIP3-OCR-200M: Text-Rich Images for Vision-Language Model Training

Name: BLIP3-OCR-200M: Text-Rich Images for Vision-Language Model Training
Creator: Salesforce
Published: 2024-09-04T20:02:34
Keywords: Vision Language Models, Optical Character Recognition, Multimodal Training, Computer Vision, Text Rich Images, Multimodal

by SalesforceUpdated 1y ago

Available on 1 platform

Sign in to view source links and access this dataset

Description

BLIP3-OCR-200M is a dataset designed to improve Vision-Language Models' ability to process text within images. It was created by Salesforce and was last updated on February 3, 2025. The dataset likely contains images integrated with Optical Character Recognition (OCR) data to address limitations in interpreting documents and charts.

Use Cases

Fine-tune models for document understanding based on the integration of OCR data.
Improve chart interpretation and reasoning capabilities based on the focus on text-rich images.
Benchmark model performance on nuanced textual information extraction from images.
Train models for complex visual question answering involving embedded text.

Strengths

Designed specifically to address a known limitation in current Vision-Language Models.
Focuses on text-rich images, a crucial domain for document and chart understanding.

Limitations

Column-level documentation is absent; field semantics must be inferred after download.
Row count is unknown, which may limit suitability assessment.
The full description is truncated, requiring a visit to the dataset page for complete details.

Provenance

Source: Salesforce
Collection Method: Likely aggregated or generated from sources containing text-rich images with OCR integration.
Time Range: null
Freshness: Last updated 2025-02-03 06:08:57.
Geography: null

null

Multimodal Vision Language Models Optical Character Recognition Multimodal Training Computer Vision Text Rich Images

Related Datasets

Quality Score

D39

Description

42

Source

39

Reputation

41

Access

26

Community

1.1K downloads

40 likes

0 views

Dataset Info

Author: Salesforce
Created: Sep 4, 2024
Updated: Feb 3, 2025
Last synced: Jun 23, 2026

Access

26

Community

1.1K downloads

40 likes

0 views

Dataset Info

Author: Salesforce
Created: Sep 4, 2024
Updated: Feb 3, 2025
Last synced: Jun 23, 2026

BLIP3-OCR-200M: Text-Rich Images for Vision-Language Model Training

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info