DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

MM-GHIM-10K: A Multimodal Image-Text Dataset for Content-Based Image Retrieval | DataSalon

Home Multimodal & LLMMM-GHIM-10K: A Multimodal Image-Text Dataset for Content-Based Image Retrieval

Multimodal & LLM

MM-GHIM-10K: A Multimodal Image-Text Dataset for Content-Based Image Retrieval

Available on 1 platform

Description

MM-GHIM-10K is a multimodal dataset containing paired image and text data, intended for Content-Based Image Retrieval (CBIR) research. The dataset is published on Kaggle, but its specific size, creation date, and authorship are not detailed in the provided metadata. Its content likely consists of 10,000 items, as suggested by the '10K' in its title, though this requires verification.

Use Cases

Training a model to retrieve images based on textual queries (inferred from domain, verify after download)
Benchmarking cross-modal embedding techniques for image-text alignment (inferred from domain, verify after download)
Fine-tuning vision-language models for specific retrieval applications (inferred from domain, verify after download)

Strengths

Published on Kaggle, a platform with an established community for data sharing and collaboration.
The title explicitly states the dataset is multimodal and designed for a specific research task (CBIR).

Limitations

Metadata is minimal; actual content requires verification after download.
Column-level documentation is absent; field semantics must be inferred after download.
Row count is unknown, which may limit suitability assessment.

Provenance

Source: Kaggle

Multimodal Image Text Computer Vision Cbir

Related Datasets

Quality Score

D17

Description

Source

Reputation

Quality Score

D17

Description

Source

Reputation

Access

Community

0 views

Dataset Info

Last synced: May 26, 2026

Access

Community

0 views

Dataset Info

Last synced: May 26, 2026

MM-GHIM-10K: A Multimodal Image-Text Dataset for Content-Based Image Retrieval

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info