DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

VisWorld-Eval: Seven Tasks for Multimodal Reasoning Assessment | DataSalon

Home Multimodal & LLMVisWorld-Eval: Seven Tasks for Multimodal Reasoning Assessment

Multimodal & LLM

VisWorld-Eval: Seven Tasks for Multimodal Reasoning Assessment

Name: VisWorld-Eval: Seven Tasks for Multimodal Reasoning Assessment
Creator: thuml
Published: 2026-01-25T11:40:35
Keywords: Benchmark Evaluation, Multimodal Reasoning, Visual World Modeling, Synthetic Data, Synthetic, Multimodal

by thuml·Updated 4mo ago

Available on 1 platform

Description

VisWorld-Eval is a task suite for assessing multimodal reasoning with visual world modeling. It comprises seven tasks spanning synthetic and real-world domains, each designed to isolate specific atomic world-model capabilities. The dataset was authored by 'thuml' and last updated on Hugging Face on March 9, 2026.

Use Cases

Benchmarking model performance on paper folding simulation tasks based on the 'SpatialViz' source
Evaluating multi-hop manipulation reasoning capabilities as described in the task list
Assessing visual world modeling across both synthetic and real-world domains as outlined in the description

Strengths

Comprises seven distinct tasks designed to isolate specific atomic world-model capabilities
Spans both synthetic and real-world domains for varied evaluation
Includes a task with 480 test samples sourced from 'SpatialViz'

Limitations

Column-level documentation is absent; field semantics must be inferred after download
Row count is unknown, which may limit suitability assessment
Description metadata is limited; actual data quality requires manual inspection after download

Provenance

Source: Hugging Face, authored by 'thuml'
Collection Method: Likely curated for research and benchmarking purposes
Time Range: null
Freshness: Last updated 2026-03-09 10:29:01; freshness should be verified
Geography: null

null

Multimodal Benchmark Evaluation Multimodal Reasoning Visual World Modeling Synthetic Data Synthetic

Related Datasets

Quality Score

D39

Description

Source

Reputation

Quality Score

D39

Description

Source

Reputation

Access

Community

333 downloads

3 likes

0 views

Dataset Info

Author: thuml
Created: Jan 25, 2026
Updated: Mar 9, 2026
Last synced: May 16, 2026

Access

Community

333 downloads

3 likes

0 views

Dataset Info

Author: thuml
Created: Jan 25, 2026
Updated: Mar 9, 2026
Last synced: May 16, 2026

VisWorld-Eval: Seven Tasks for Multimodal Reasoning Assessment

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info