Robo2VLM: 100K-1M VQA Pairs from Robot Manipulation Trajectories

Name: Robo2VLM: 100K-1M VQA Pairs from Robot Manipulation Trajectories
Creator: keplerccc
Published: 2025-05-09T07:12:39
Keywords: Librarypolars, Librarydask, Arxiv250515517, Task Categoriesvisual Question Answering, Modalitytext, Size Categories100 Kn1 M, Librarymlcroissant, Modalityimage, Librarydatasets, Parquet, Regionus, Licenseapache 20

by keplercccUpdated 9mo ago

Available on 1 platform

Sign in to view source links and access this dataset

Description

Robo2VLM 1 provides between 100,000 and 1,000,000 visual question-answering records derived from real-world robot manipulation trajectories. Created by researcher keplerccc and updated in late 2025, the dataset uses multi-modal robot data to enhance scene understanding in vision-language models. It bridges the gap between internet-scale image-text corpora and specific robotic visuomotor policies.

Use Cases

Training Vision-Language Models (VLMs) to reason about robotic manipulation scenes using image and text pairs
Benchmarking visual question answering performance specifically for robotic task planning
Developing visuomotor policies that integrate natural language scene understanding

Strengths

Scale of 100,000 to 1,000,000 records
Apache 2.0 permissive license
Derived from real-world 'in-the-wild' robot manipulation trajectories

Limitations

Lack of explicit column documentation in the primary metadata
Potential for automated label noise if VQA pairs were synthetically generated from trajectory logs

Provenance

Source: Arxiv paper 2505.15517
Collection Method: Extracted from large-scale in-the-wild robot manipulation datasets
Freshness: Last updated October 2025.

Data is provided in Parquet format and is associated with Arxiv paper 2505.15517; users should consult the paper for specific details on the trajectory sources and VQA generation methodology.

Parquet Librarypolars Librarydask Arxiv250515517 Task Categoriesvisual Question Answering Modalitytext Size Categories100 Kn1 M Librarymlcroissant Modalityimage Librarydatasets Regionus Licenseapache 20

Related Datasets

Quality Score

D37

Description

36

Source

36

Reputation

53

Access

22

Community

2.1K downloads

19 likes

0 views

Dataset Info

Author: keplerccc
Created: May 9, 2025
Updated: Oct 22, 2025
Last synced: May 28, 2026

Access

22

Community

2.1K downloads

19 likes

0 views

Dataset Info

Author: keplerccc
Created: May 9, 2025
Updated: Oct 22, 2025
Last synced: May 28, 2026

Robo2VLM: 100K-1M VQA Pairs from Robot Manipulation Trajectories

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info