DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

FGVQA: Fine-Grained Visual Question Answering Benchmark Suite | DataSalon

Home Multimodal & LLMFGVQA: Fine-Grained Visual Question Answering Benchmark Suite

Multimodal & LLM

FGVQA: Fine-Grained Visual Question Answering Benchmark Suite

Name: FGVQA: Fine-Grained Visual Question Answering Benchmark Suite
Creator: glab-caltech
Published: 2025-12-16T21:32:54
Keywords: Vision Language Models, Benchmark, Computer Vision, Fine Grained Vision, Benchmark Suite, Visual Question Answering, Multimodal

by glab-caltech·Updated 6mo ago

Available on 1 platform

Description

A benchmark suite introduced in the paper 'Same or Not? Enhancing Visual Perception in Vision-Language Models'. It contains 12,000 challenging (image, question, answer) tuples emphasizing fine-grained image understanding. The dataset is composed of six sub-benchmarks and is hosted by glab-caltech.

Use Cases

Benchmarking model performance on fine-grained visual understanding based on the described six sub-benchmarks
Training vision-language models to improve on detailed image-question-answer tasks
Evaluating AI systems on challenging visual question answering tasks that require nuanced image analysis

Strengths

Contains 12,000 challenging (image, question, answer) tuples
Composed of six distinct sub-benchmarks: TWIN-eval, ILIAS, Google Landmarks v2, MET, CUB, and Inquire

Limitations

Column-level documentation is absent; field semantics must be inferred after download
Row count is unknown, which may limit suitability assessment

Provenance

Source: glab-caltech
Collection Method: Introduced as a benchmark suite in an academic paper.
Freshness: Last updated 2025-12-30 10:25:04

For evaluating on the dataset with LMMS-eval, users are referred to an external repository.

Multimodal Vision Language Models Benchmark Computer Vision Fine Grained Vision Benchmark Suite Visual Question Answering

Related Datasets

Quality Score

D37

Description

Source

Reputation

Quality Score

D37

Description

Source

Reputation

Access

Community

27 downloads

2 likes

0 views

Dataset Info

Author: glab-caltech
Created: Dec 16, 2025
Updated: Dec 30, 2025
Last synced: Jun 1, 2026

Access

Community

27 downloads

2 likes

0 views

Dataset Info

Author: glab-caltech
Created: Dec 16, 2025
Updated: Dec 30, 2025
Last synced: Jun 1, 2026

FGVQA: Fine-Grained Visual Question Answering Benchmark Suite

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info