DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Wikipedia Multilingual Image-Text Pairs With 37.6 Million Examples | DataSalon

Home Multimodal & LLMWikipedia Multilingual Image-Text Pairs With 37.6 Million Examples

Multimodal & LLM

Wikipedia Multilingual Image-Text Pairs With 37.6 Million Examples

Name: Wikipedia Multilingual Image-Text Pairs With 37.6 Million Examples
Creator: keshan
Published: 2022-03-02T23:29:22
Keywords: Arxiv210301913, Regionus

by keshan·Updated 5y ago

Description

The Wikipedia-based Image Text (WIT) Dataset contains 37.6 million entity-rich image-text examples paired with 11.5 million unique images across 108 Wikipedia languages. It was created by keshan for pretraining multimodal machine learning models and was last updated in August 2021.

Use Cases

Pretrain a vision-language model on 37.6 million entity-rich image-text examples to learn cross-modal representations.
Train a multilingual image captioning model using text examples across 108 Wikipedia languages.
Fine-tune a model for cross-lingual image retrieval using the 11.5 million unique images and their associated multilingual text.
Analyze the distribution of visual entities across different language editions of Wikipedia using the curated image-text pairs.

Strengths

37.6 million image-text examples provide substantial scale for model training.
Multilingual coverage spans 108 Wikipedia languages.
Contains 11.5 million unique images, offering visual diversity.

Limitations

Dataset specifics like column structure, file formats, and license are unknown.
The data is from 2021 or earlier, which may not reflect recent Wikipedia content or current events.
Potential bias exists towards entities and topics well-covered on Wikipedia.

Provenance

Source: Wikipedia
Collection Method: Curated set of image-text examples extracted from Wikipedia.
Freshness: Last updated on 2021-08-07.

Column definitions, sample data, file formats, and license information are not provided in the input.

Arxiv210301913 Regionus

Related Datasets

Quality Score

D26

Description

Source

Reputation

Quality Score

D26

Description

Source

Reputation

Access

Community

40 downloads

4 likes

0 views

Dataset Info

Author: keshan
Created: Mar 2, 2022
Updated: Aug 7, 2021
Last synced: Apr 29, 2026

Access

Community

40 downloads

4 likes

0 views

Dataset Info

Author: keshan
Created: Mar 2, 2022
Updated: Aug 7, 2021
Last synced: Apr 29, 2026

Wikipedia Multilingual Image-Text Pairs With 37.6 Million Examples

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info