Name: Public Domain Image-Text Pairs for Foundation Model Training
Creator: Spawning
Published: 2024-09-26T18:20:09
Keywords: Librarypolars, Image, Librarydask, Languageen, Size Categories10 Mn100 M, Arxiv241023144, Modalitytext, Modalitytabular, Librarymlcroissant, Foundation Models, Modalityimage, Image Caption Pairs, Librarydatasets, Multimodal Training, Computer Vision, Parquet, Regionus, Large Scale, Licensecdla Permissive 20, Multimodal, Public Domain

Description

12.4 million image-caption pairs constitute the largest public domain image-text dataset for training foundation models. The dataset was created by Spawning and released in October 2024, as indicated by the associated arXiv paper identifier. It features community-driven governance mechanisms aimed at reducing harm and supporting reproducibility.

Use Cases

Train CLIP-style contrastive models on public-domain image and text caption pairs.
Fine-tune text-to-image generation models using the paired caption data.
Benchmark multimodal alignment algorithms on a large-scale, copyright-cleared corpus.
Analyze caption quality and diversity across millions of image-text samples.

Strengths

12.4 million pairs provides scale sufficient for foundation model training.
Public domain licensing minimizes copyright concerns for commercial use.
Includes governance mechanisms for community-driven dataset maintenance.

Limitations

Specific image sources, caption quality metrics, and demographic or geographic biases are not detailed in the provided description.
The dataset's internal structure, column names, and data splits are unknown.

Provenance

Source: Spawning, via the Source.Plus platform.
Collection Method: Collection method for the 12.4 million public domain image-caption pairs is not specified in the provided description.
Time Range: null
Freshness: Dataset page was last updated on January 9, 2025.
Geography: null

License is identified as CDLA Permissive 2.0 by platform tags; users should verify terms. Data is stored in Parquet format and may require libraries like Polars, Dask, or Hugging Face Datasets for efficient loading.

Public Domain Image-Text Pairs for Foundation Model Training

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info