Name: PixelProse: 16.9 Million Dense Synthetic Image Captions
Creator: tomg-group-umd
Published: 2024-06-14T13:35:28
Keywords: Librarypolars, Task Categoriesimage To Text, Librarydask, Languageen, Task Categoriesvisual Question Answering, Size Categories10 Mn100 M, Task Categoriestext To Image, Modalitytext, Modalitytabular, Librarymlcroissant, Modalityimage, Librarydatasets, Licensecc By 40, Parquet, Doi1057967hf2892, Croissant, Regionus, Arxiv240610328

Description

PixelProse contains 16,896,214 image-caption pairs featuring dense synthetic descriptions generated by Gemini 1.0 Pro Vision. Released in 2024 by researchers at the University of Maryland (tomg-group-umd), the collection provides detailed textual representations for images sourced from CommonPool and CC12M.

Use Cases

Fine-tuning text-to-image generators using the dense captions to improve prompt alignment
Training vision-language models for image-to-text tasks using the synthetic descriptions
Evaluating visual question answering models against detailed scene narratives

Strengths

16.9 million total records
Captions generated by Gemini 1.0 Pro Vision for high descriptive detail
Openly licensed under CC BY 4.0

Limitations

Synthetic captions may contain model-specific hallucinations or biases from the Gemini 1.0 Pro Vision model
Dependency on external image sources like CC12M which are subject to link rot and availability issues

Provenance

Source: University of Maryland (tomg-group-umd) via arXiv:2406.10328
Collection Method: Synthetic generation using Gemini 1.0 Pro Vision on images from CommonPool and CC12M
Freshness: Last updated December 2024
Geography: Global (web-scraped images)

Images are provided as tars or via external splits; users should refer to the associated arXiv paper (2406.10328) for methodology details regarding the vision-language model prompting.

Parquet Librarypolars Task Categoriesimage To Text Librarydask Languageen Task Categoriesvisual Question Answering Size Categories10 Mn100 M Task Categoriestext To Image Modalitytext Modalitytabular Librarymlcroissant Modalityimage Librarydatasets Licensecc By 40 Doi1057967hf2892 Croissant Regionus Arxiv240610328

PixelProse: 16.9 Million Dense Synthetic Image Captions

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info