DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

DocVQA: 10,000+ Document Images for Visual Question Answering | DataSalon

Home Multimodal & LLMDocVQA: 10,000+ Document Images for Visual Question Answering

Multimodal & LLM

DocVQA: 10,000+ Document Images for Visual Question Answering

Name: DocVQA: 10,000+ Document Images for Visual Question Answering
Creator: lmms-lab
Published: 2024-01-22T16:29:32
Keywords: Size Categories10 Kn100 K, Librarypolars, Librarydask, Modalitytext, Librarymlcroissant, Modalityimage, Librarydatasets, Parquet, Regionus, Licenseapache 20

by lmms-lab·Updated 2y ago

Available on 1 platform

Description

DocVQA consists of 10,000 to 100,000 document images paired with question-answer sets, formatted by lmms-lab in 2024. This version is derived from the original 2020 DocVQA research to facilitate standardized evaluation of Large Multi-modality Models (LMMs). It provides a structured framework for testing how models interpret text and layout within diverse document types.

Use Cases

Benchmarking Large Multi-modality Models (LMMs) using the question and answer pairs
Evaluating document-based visual question answering performance on raw images
Testing zero-shot reasoning on document layouts and embedded text

Strengths

10,000 to 100,000 record scale
Apache 2.0 licensed for open redistribution
Standardized for lmms-eval pipeline integration

Limitations

Temporal staleness of source documents dating back to 2020
Formatted specifically for evaluation pipelines which may require restructuring for general training use

Provenance

Source: Mathew et al. (2020), DocVQA: A Dataset for VQA on Document Images
Freshness: Last updated April 2024; source material originates from 2020.

This is a formatted version specifically for the lmms-eval library; users may need the lmms-eval environment for one-click evaluation functionality.

Parquet Size Categories10 Kn100 K Librarypolars Librarydask Modalitytext Librarymlcroissant Modalityimage Librarydatasets Regionus Licenseapache 20

Related Datasets

Quality Score

D36

Description

Source

Reputation

Quality Score

D36

Description

Source

Reputation

Access

Community

32.0K downloads

77 likes

0 views

Dataset Info

Author: lmms-lab
Created: Jan 22, 2024
Updated: Apr 18, 2024
Last synced: Jun 15, 2026

Access

Community

32.0K downloads

77 likes

0 views

Dataset Info

Author: lmms-lab
Created: Jan 22, 2024
Updated: Apr 18, 2024
Last synced: Jun 15, 2026

DocVQA: 10,000+ Document Images for Visual Question Answering

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info