VisRes Bench: 10K-100K Visual Reasoning Tests for VLMs

Name: VisRes Bench: 10K-100K Visual Reasoning Tests for VLMs
Creator: tiiuae
Published: 2026-03-08T13:43:14
Keywords: Size Categories10 Kn100 K, Vision, Librarypolars, Arxiv251221194, Task Categoriesimage To Text, Librarydask, Languageen, Task Categoriesvisual Question Answering, Modalitytext, Librarymlcroissant, Evaluation, Modalityimage, Librarydatasets, Benchmark, Parquet, Regionus, Reasoning, Licenseapache 20, Multimodal

by tiiuaeUpdated 4mo ago

Available on 1 platform

Sign in to view source links and access this dataset

Description

VisRes Bench contains 10,000 to 100,000 image-text pairs designed to evaluate the visual reasoning of Vision-Language Models (VLMs) in naturalistic settings. Developed by researchers at TII (tiiuae) and updated in March 2026, it isolates visual logic by removing contextual language supervision.

Use Cases

Benchmarking zero-shot visual question answering (VQA) performance using the image and text pairs
Quantifying the degree of linguistic prior reliance in multimodal models by testing against reasoning-focused prompts
Evaluating image-to-text reasoning logic in naturalistic visual environments

Strengths

Scale of 10,000 to 100,000 records for statistically significant evaluation
Apache 2.0 license allows for open research and commercial use
Associated with Arxiv paper 2512.21194 for methodological transparency

Limitations

Lack of detailed column documentation in the primary metadata
Potential for high error rates in models that rely heavily on text-based context

Provenance

Source: TII (tiiuae), Arxiv:2512.21194
Freshness: Last updated March 2026.
Geography: United States

Data is provided in Parquet format and is compatible with Polars, Dask, and the Hugging Face datasets library; refer to Arxiv paper 2512.21194 for methodology.

Multimodal Parquet Size Categories10 Kn100 K Vision Librarypolars Arxiv251221194 Task Categoriesimage To Text Librarydask Languageen Task Categoriesvisual Question Answering Modalitytext Librarymlcroissant Evaluation Modalityimage Librarydatasets Benchmark Regionus Reasoning Licenseapache 20

Related Datasets

Quality Score

D34

Description

39

Source

36

Reputation

30

Access

22

Community

227 downloads

1 likes

0 views

Dataset Info

Author: tiiuae
Created: Mar 8, 2026
Updated: Mar 10, 2026

Access

22

Community

227 downloads

1 likes

0 views

Dataset Info

Author: tiiuae
Created: Mar 8, 2026
Updated: Mar 10, 2026

VisRes Bench: 10K-100K Visual Reasoning Tests for VLMs

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info