DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Mixbench2026: A Benchmark for Mixed Modality Retrieval | DataSalon

Home Multimodal & LLMMixbench2026: A Benchmark for Mixed Modality Retrieval

Multimodal & LLM

Mixbench2026: A Benchmark for Mixed Modality Retrieval

Name: Mixbench2026: A Benchmark for Mixed Modality Retrieval
Creator: mixed-modality-search
Published: 2025-06-07T02:12:58
Keywords: Size Categories10 Kn100 K, Librarypolars, Image, Languageen, Task Categoriestext Ranking, Modalitytext, Librarymlcroissant, Task Idsdocument Retrieval, Modalityimage, Librarydatasets, Benchmark, Librarypandas, Parquet, Retrieval, Text, Regionus, Multilingualitymonolingual, Licensemit, Multimodal

by mixed-modality-search·Updated 5mo ago

Available on 1 platform

Description

4 distinct subsets including MSCOCO and VisualNews provide multimodal queries and documents for cross-modal retrieval evaluation. The dataset utilizes queries.jsonl files to benchmark performance on text-only, image-only, and combined image-text search tasks.

Use Cases

Evaluate cross-modal retrieval models using the queries.jsonl entries to match text queries to image documents
Benchmark multimodal search systems by processing combined image+text inputs against a mixed-modality document corpus
Analyze model performance variance across different domains like news (VisualNews) and general objects (MSCOCO)

Strengths

Includes four specialized subsets: MSCOCO, Google_WIT, VisualNews, and OVEN
Standardized queries.jsonl format across all subsets for consistent evaluation
Supports three retrieval modes: pure text, pure images, and multimodal image+text inputs

Image Multimodal Parquet Text Size Categories10 Kn100 K Librarypolars Languageen Task Categoriestext Ranking Modalitytext Librarymlcroissant Task Idsdocument Retrieval Modalityimage Librarydatasets Benchmark Librarypandas Retrieval Regionus Multilingualitymonolingual Licensemit

Related Datasets

Quality Score

D34

Description

Source

Reputation

Quality Score

D34

Description

Source

Reputation

Access

Community

84 downloads

1 likes

0 views

Dataset Info

Author: mixed-modality-search
Created: Jun 7, 2025
Updated: Jan 28, 2026

Access

Community

84 downloads

1 likes

0 views

Dataset Info

Author: mixed-modality-search
Created: Jun 7, 2025
Updated: Jan 28, 2026

Mixbench2026: A Benchmark for Mixed Modality Retrieval

Description

Use Cases

Strengths

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info