Visual Question Answering with Text in Images

Name: Visual Question Answering with Text in Images
Creator: facebook
Published: 2022-05-05T06:44:56
Keywords: Source Datasetsoriginal, Size Categories10 Kn100 K, Language Creatorscrowdsourced, Languageen, Task Categoriesvisual Question Answering, Task Idsvisual Question Answering, Arxiv190408920, Licensecc By 40, Annotations Creatorscrowdsourced, Regionus, Arxiv200700398, Multilingualitymonolingual

by facebookUpdated 2y ago

Available on 1 platform

Sign in to view source links and access this dataset

Description

The TextVQA dataset contains 45,336 questions based on 28,408 images from the OpenImages collection. It requires models to read and reason about text present within images to answer the provided questions.

Use Cases

Train a multimodal model to answer questions by reading text present in 28,408 images.
Benchmark model performance on the visual question answering task using 45,336 question-answer pairs.
Develop reasoning capabilities that integrate visual content with textual information extracted from images.

Strengths

Contains 45,336 question-answer pairs, providing substantial data for model training.
Based on 28,408 images from the established OpenImages dataset.
Specifically designed for the challenging task of reasoning about text within images.

Limitations

Annotations are crowdsourced, which may introduce label noise or inconsistency.
The dataset's geographic coverage is indicated as US, which may limit generalizability to other regions.
The dataset is monolingual (English), restricting its use for multilingual model development.

Provenance

Source: Facebook, derived from the OpenImages dataset.
Collection Method: Crowdsourced annotations.
Freshness: Last updated on 2024-01-18.
Geography: Primarily United States (US).

License is indicated as CC BY 4.0; users should verify the specific terms. The dataset is monolingual (English).

Source Datasetsoriginal Size Categories10 Kn100 K Language Creatorscrowdsourced Languageen Task Categoriesvisual Question Answering Task Idsvisual Question Answering Arxiv190408920 Licensecc By 40 Annotations Creatorscrowdsourced Regionus Arxiv200700398 Multilingualitymonolingual

Related Datasets

Quality Score

D31

Description

30

Source

36

Reputation

30

Access

22

Community

1.1K downloads

37 likes

0 views

Dataset Info

Author: facebook
Created: May 5, 2022
Updated: Jan 18, 2024
Last synced: May 8, 2026

Access

22

Community

1.1K downloads

37 likes

0 views

Dataset Info

Author: facebook
Created: May 5, 2022
Updated: Jan 18, 2024
Last synced: May 8, 2026

Visual Question Answering with Text in Images

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info