DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

ColPali: Tevatron-Formatted Vision-Language Training Set | DataSalon

Home Multimodal & LLMColPali: Tevatron-Formatted Vision-Language Training Set

Multimodal & LLM

ColPali: Tevatron-Formatted Vision-Language Training Set

Name: ColPali: Tevatron-Formatted Vision-Language Training Set
Creator: Tevatron
Published: 2025-02-09T05:55:03
Keywords: Librarypolars, Modalitytext, Size Categories100 Kn1 M, Librarymlcroissant, Modalityimage, Librarydatasets, Librarypandas, Parquet, Regionus

by Tevatron·Updated 1y ago

Available on 1 platform

Description

Vision-language document retrieval training pairs transformed from the vidore/colpali_train_set for Tevatron compatibility. The data is structured to support the training of multi-vector retrieval models like ColPali within the Tevatron ecosystem.

Use Cases

Train a document retrieval model using the Tevatron framework by mapping the query and positive document pairs
Fine-tune vision-language models for document search using the Tevatron-compatible data structure
Benchmark retrieval performance on document-based datasets using the Tevatron training pipeline
Implement multi-vector retrieval training using the pre-formatted query and document features

Strengths

Formatted for compatibility with the Tevatron information retrieval toolkit
Derived from the vidore/colpali_train_set vision-language dataset
Optimized for training multi-vector retrieval models like ColPali
Provides a standardized schema for training retrieval models on document images and queries

Parquet Librarypolars Modalitytext Size Categories100 Kn1 M Librarymlcroissant Modalityimage Librarydatasets Librarypandas Regionus

Related Datasets

Quality Score

D25

Description

Source

Reputation

Quality Score

D25

Description

Source

Reputation

Access

Community

32 downloads

1 likes

0 views

Dataset Info

Author: Tevatron
Created: Feb 9, 2025
Updated: Feb 9, 2025
Last synced: Apr 29, 2026

Access

Community

32 downloads

1 likes

0 views

Dataset Info

Author: Tevatron
Created: Feb 9, 2025
Updated: Feb 9, 2025
Last synced: Apr 29, 2026

ColPali: Tevatron-Formatted Vision-Language Training Set

Description

Use Cases

Strengths

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info