DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Colpali Train Set: 127,460 Query-Image Pairs for Visual Document Retrieval | DataSalon

Home Multimodal & LLMColpali Train Set: 127,460 Query-Image Pairs for Visual Document Retrieval

Multimodal & LLM

Colpali Train Set: 127,460 Query-Image Pairs for Visual Document Retrieval

Name: Colpali Train Set: 127,460 Query-Image Pairs for Visual Document Retrieval
Creator: vidore
Published: 2024-09-04T12:55:07
Keywords: Librarypolars, Librarydask, Modalitytext, Size Categories100 Kn1 M, Librarymlcroissant, Modalityimage, Task Categoriesvisual Document Retrieval, Librarydatasets, Task Categoriesdocument Question Answering, Parquet, Regionus, Arxiv240701449

by vidore·Updated 1y ago

Available on 1 platform

Description

127,460 query-image pairs for visual document retrieval comprise this training set released by vidore in 2024. It combines 63% academic data from sources like DocVQA with 37% synthetic PDF pages augmented by Claude-3 Sonnet pseudo-questions.

Use Cases

Training visual document retrieval models using the query-image pairs
Fine-tuning vision-language models for document question answering using Claude-3 Sonnet pseudo-questions
Benchmarking zero-shot generalization from English queries to non-English document images

Strengths

127,460 total training examples
37% synthetic data generated by Claude-3 Sonnet
Includes established academic benchmarks like DocVQA

Limitations

English-only text design prevents direct training on multilingual query sets
Synthetic labels may contain model-generated hallucinations or artifacts

Provenance

Source: vidore (Arxiv 2407.01449)
Collection Method: Hybrid of academic datasets and synthetic generation via Claude-3 Sonnet
Freshness: Last updated June 2025.

Optimized for the ColPali retrieval architecture; see Arxiv 2407.01449 for training methodologies.

Parquet Librarypolars Librarydask Modalitytext Size Categories100 Kn1 M Librarymlcroissant Modalityimage Task Categoriesvisual Document Retrieval Librarydatasets Task Categoriesdocument Question Answering Regionus Arxiv240701449

Related Datasets

Quality Score

C45

Description

Source

Reputation

Quality Score

C45

Description

Source

Reputation

Access

Community

6.0K downloads

91 likes

0 views

Dataset Info

Author: vidore
Created: Sep 4, 2024
Updated: Jun 20, 2025

Access

Community

6.0K downloads

91 likes

0 views

Dataset Info

Author: vidore
Created: Sep 4, 2024
Updated: Jun 20, 2025

Colpali Train Set: 127,460 Query-Image Pairs for Visual Document Retrieval

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info