DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

TextCaps: Image Captioning with Reading Comprehension | DataSalon

Home Multimodal & LLMTextCaps: Image Captioning with Reading Comprehension

Multimodal & LLM

TextCaps: Image Captioning with Reading Comprehension

Name: TextCaps: Image Captioning with Reading Comprehension
Creator: lmms-lab
Published: 2024-01-22T09:38:53
Keywords: Size Categories10 Kn100 K, Librarypolars, Librarydask, Modalitytext, Librarymlcroissant, Modalityimage, Librarydatasets, Parquet, Regionus

by lmms-lab·Updated 2y ago

Available on 1 platform

Description

28,408 images from Open Images paired with 142,040 captions that require models to read and reason about text within the visual scene. This version is specifically formatted for the lmms-eval pipeline to facilitate standardized benchmarking of large multi-modality models.

Use Cases

Benchmark the text-recognition accuracy of large multi-modality models using the provided image and caption fields
Train image-to-text models to synthesize visual features and OCR data into coherent descriptions
Measure model performance on reading comprehension within visual contexts via the lmms-eval pipeline

Strengths

142,040 human-annotated captions across 28,408 unique images
Integration with the lmms-eval framework for automated benchmarking of multi-modality models
Focuses on images containing legible text, such as signs, labels, and documents

Parquet Size Categories10 Kn100 K Librarypolars Librarydask Modalitytext Librarymlcroissant Modalityimage Librarydatasets Regionus

Related Datasets

Quality Score

D33

Description

Source

Reputation

Quality Score

D33

Description

Source

Reputation

Access

Community

882 downloads

14 likes

0 views

Dataset Info

Author: lmms-lab
Created: Jan 22, 2024
Updated: Mar 8, 2024
Last synced: May 7, 2026

Access

Community

882 downloads

14 likes

0 views

Dataset Info

Author: lmms-lab
Created: Jan 22, 2024
Updated: Mar 8, 2024
Last synced: May 7, 2026

TextCaps: Image Captioning with Reading Comprehension

Description

Use Cases

Strengths

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info