PD3M: 3.3 Million High-Aesthetic Public Domain Image-Caption Pairs

Name: PD3M: 3.3 Million High-Aesthetic Public Domain Image-Caption Pairs
Creator: Spawning
Published: 2024-10-21T13:13:57
Keywords: Multimodal Training, Computer Vision, Aesthetic Filtering, Large Scale, Multimodal, Public Domain

by SpawningUpdated 1y ago

Available on 1 platform

Sign in to view source links and access this dataset

Description

PD3M is a subset of the PD12M dataset, containing 3.3 million image-caption pairs filtered for the highest aesthetic scores. PD12M is the largest public domain image-text dataset to date, designed for training foundation models while minimizing copyright concerns. The dataset was created by Spawning and introduces community-driven governance mechanisms via the Source.Plus platform.

Use Cases

Training image-text foundation models based on the large-scale public domain corpus.
Fine-tuning vision-language models using high-quality aesthetic image-caption pairs.
Benchmarking model performance on datasets with community-driven governance mechanisms.
Studying the impact of aesthetic filtering on multimodal model training.

Strengths

Contains 3.3 million image-caption pairs.
Images are filtered for the highest aesthetic scores from the larger PD12M dataset.
Source is the largest public domain image-text dataset, PD12M.
Dataset governance mechanisms via Source.Plus aim to reduce harm and support reproducibility.

Limitations

Column-level documentation is absent; field semantics must be inferred after download.
Row count is unknown, which may limit suitability assessment.
Description metadata is limited; actual data quality requires manual inspection after download.

Provenance

Source: Spawning
Collection Method: Subset of PD12M filtered for highest aesthetic scores.
Freshness: Last updated 2024-11-19 20:29:12; freshness should be verified.

Multimodal Multimodal Training Computer Vision Aesthetic Filtering Large Scale Public Domain

Related Datasets

Quality Score

D37

Description

39

Source

36

Reputation

40

Access

26

Community

2.2K downloads

15 likes

0 views

Dataset Info

Author: Spawning
Created: Oct 21, 2024
Updated: Nov 19, 2024
Last synced: Jun 2, 2026

Access

26

Community

2.2K downloads

15 likes

0 views

Dataset Info

Author: Spawning
Created: Oct 21, 2024
Updated: Nov 19, 2024
Last synced: Jun 2, 2026

PD3M: 3.3 Million High-Aesthetic Public Domain Image-Caption Pairs

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info