Concept-Annotated Multimodal Image-Text Dataset

Name: Concept-Annotated Multimodal Image-Text Dataset
Creator: bethgelab
Published: 2025-11-25T16:36:34
Keywords: Librarypolars, Librarydask, Languageen, Size Categories100 Mn1 B, Modalitytext, Modalitytabular, Librarymlcroissant, Modalityimage, Librarydatasets, Pretraining, Parquet, Arxiv251120643, Task Categorieszero Shot Classification, Regionus, Video, Vlm, Datacomp, Licensemit

by bethgelabUpdated 5mo ago

Available on 1 platform

Sign in to view source links and access this dataset

Description

DataConcept-128M contains 128 million web-crawled image-text pairs annotated with fine-grained concept composition details. It is derived from DataComp-CLIP and designed to enable Concept-Aware Batch Sampling for multimodal pretraining.

Use Cases

Train multimodal models using concept composition annotations for improved representation learning.
Implement Concept-Aware Batch Sampling to construct training batches based on specific concept criteria.
Pretrain vision-language models on 128M image-text pairs with fine-grained concept labels.
Analyze the relationship between visual concepts and their textual descriptions across a large-scale web corpus.

Strengths

128 million image-text pairs provide a large-scale foundation for pretraining.
Includes fine-grained concept composition annotations derived from DataComp-CLIP.
Specifically designed to support a flexible batch sampling framework (CABS).

Limitations

Specific column definitions and data schema are not publicly documented.
Potential for web-crawled data to contain noise, biases, or inappropriate content.
Lack of information on geographic and temporal coverage of the source data.

Provenance

Source: Derived from DataComp-CLIP, web-crawled.
Collection Method: Web-crawled image-text pairs, annotated with concept composition details.
Time Range: null
Freshness: null
Geography: null

null

Video Parquet Librarypolars Librarydask Languageen Size Categories100 Mn1 B Modalitytext Modalitytabular Librarymlcroissant Modalityimage Librarydatasets Pretraining Arxiv251120643 Task Categorieszero Shot Classification Regionus Vlm Datacomp Licensemit

Related Datasets

Quality Score

D40

Description

39

Source

41

Reputation

52

Access

22

Community

18.4K downloads

3 likes

0 views

Dataset Info

Author: bethgelab
Created: Nov 25, 2025
Updated: Feb 15, 2026
Last synced: Jun 13, 2026

Access

22

Community

18.4K downloads

3 likes

0 views

Dataset Info

Author: bethgelab
Created: Nov 25, 2025
Updated: Feb 15, 2026
Last synced: Jun 13, 2026

Concept-Annotated Multimodal Image-Text Dataset

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info