Name: Vision-Language Agent Trajectories Across 17 Interactive Environments
Creator: VisGym
Published: 2026-01-05T20:29:50
Keywords: Task Categoriesimage Text To Text, Size Categories1 Mn10 M, Languageen, Vision Language Models, Arxiv260116973, Sft, Regionus, Reinforcement Learning, Vlm, Agent, Licenseapache 20, Multimodal

Description

VisGym consists of 17 diverse, long-horizon environments for evaluating Vision-Language Models on interactive tasks. The dataset contains agent trajectories where actions are conditioned on past actions and observation history, challenging multimodal sequence handling.

Use Cases

Systematically evaluate VLMs on long-horizon interactive tasks using the provided 17 distinct environments.
Diagnose agent performance by analyzing trajectories conditioned on past actions and observation history.
Train agents on complex, multimodal sequences from visually interactive tasks.
Benchmark VLM capabilities in robotics and embodied AI scenarios using the diverse environment set.

Strengths

Contains data from 17 distinct, diverse environments for systematic evaluation.
Focuses on long-horizon, visually interactive tasks requiring multimodal reasoning.
Designed to challenge agents with sequences conditioned on past actions and observation history.

Limitations

Specific dataset size, row count, and column details are unknown.
Data format, file structure, and sample data are not provided in the input.
The scope of individual trajectories and interaction details is unspecified.

Provenance

Source: VisGym
Collection Method: Contains trajectories and interaction data from agents operating in designed environments.
Freshness: Last updated on 2026-02-05.

The full description is hosted externally; users must visit the dataset page for complete details on structure, format, and access.

Multimodal Task Categoriesimage Text To Text Size Categories1 Mn10 M Languageen Vision Language Models Arxiv260116973 Sft Regionus Reinforcement Learning Vlm Agent Licenseapache 20

Vision-Language Agent Trajectories Across 17 Interactive Environments

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info