DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

OpenEAI-Dataset: Preprocessed Multimodal Data for Embodied AI Pretraining | DataSalon

Home Reinforcement LearningOpenEAI-Dataset: Preprocessed Multimodal Data for Embodied AI Pretraining

Reinforcement Learning

OpenEAI-Dataset: Preprocessed Multimodal Data for Embodied AI Pretraining

Name: OpenEAI-Dataset: Preprocessed Multimodal Data for Embodied AI Pretraining
Creator: OpenEAI
Published: 2026-02-08T15:35:37
Keywords: Pretraining, Large Scale, Visual Language Action, Multimodal

by OpenEAI·Updated 4mo ago

Available on 1 platform

Description

3.12 terabytes of preprocessed data aggregated from multiple embodied AI sources like Open X-Embodiment and the UMI Community. The dataset, created by OpenEAI, is formatted for Visual-Language-Action (VLA) model pretraining and was last updated on February 25, 2026.

Use Cases

Pretraining VLA models based on aggregated multimodal data from embodied AI sources.
Benchmarking embodied AI algorithms based on a unified, large-scale dataset.
Developing cross-domain robotic skills based on data from multiple community sources.
Reducing storage costs for model training based on pre-compressed images.

Strengths

Large scale of approximately 3.12 terabytes of data.
Data is preprocessed into a common format compatible with a specific dataset loader.
Images have been compressed to reduce storage costs.

Limitations

Column-level documentation is absent; field semantics must be inferred after download.
Row count is unknown, which may limit suitability assessment.
Description metadata is limited; actual data quality requires manual inspection after download.

Provenance

Source: Aggregated from multiple embodied AI sources, including Open X-Embodiment and UMI Community.
Collection Method: Preprocessed and unified into a common format.
Time Range: null
Freshness: Last updated 2026-02 25 02:12:11; freshness should be verified.
Geography: null

null

Multimodal Pretraining Large Scale Visual Language Action

Related Datasets

Quality Score

C41

Description

Source

Reputation

Quality Score

C41

Description

Source

Reputation

Access

Community

6.5K downloads

1 likes

0 views

Dataset Info

Author: OpenEAI
Created: Feb 8, 2026
Updated: Feb 25, 2026
Last synced: Apr 30, 2026

Access

Community

6.5K downloads

1 likes

0 views

Dataset Info

Author: OpenEAI
Created: Feb 8, 2026
Updated: Feb 25, 2026
Last synced: Apr 30, 2026

OpenEAI-Dataset: Preprocessed Multimodal Data for Embodied AI Pretraining

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info