DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Cosmos-Reason1 SFT: Video-Text Pairs for Embodied Reasoning Tasks | DataSalon

Home Multimodal & LLMCosmos-Reason1 SFT: Video-Text Pairs for Embodied Reasoning Tasks

Multimodal & LLM

Cosmos-Reason1 SFT: Video-Text Pairs for Embodied Reasoning Tasks

Name: Cosmos-Reason1 SFT: Video-Text Pairs for Embodied Reasoning Tasks
Creator: nvidia
Published: 2025-05-16T23:33:38
Keywords: Benchmark, Robotics, Multimodal Reasoning, Video Text Pairs, Video, Multimodal

by nvidia·Updated 1y ago

Available on 1 platform

Description

NVIDIA's Cosmos-Reason1 SFT dataset pairs videos with text annotations for embodied reasoning. The annotations support tasks from multiple sources including BridgeDatav2, RoboVQA, Agibot, HoloAssist, and AV. Released on Hugging Face in May 2025, it also includes RoboFail data for benchmarking.

Use Cases

Fine-tuning vision-language models for embodied reasoning based on video-text pairs.
Benchmarking agent performance on failure scenarios using the included RoboFail dataset.
Training models for robotic question answering based on RoboVQA annotations.
Developing assistive AI agents using annotated data from the HoloAssist and Agibot sources.

Strengths

Released by NVIDIA, a leading AI research institution.
Covers multiple established embodied AI datasets like BridgeDatav2 and RoboVQA.
Includes a dedicated benchmark dataset (RoboFail) for evaluating failure modes.

Limitations

Column-level documentation is absent; field semantics must be inferred after download.
Row count is unknown, which may limit suitability assessment.
Description metadata is limited; actual data quality requires manual inspection after download.

Provenance

Source: NVIDIA
Collection Method: Annotations summarized from the Cosmos-Reason1 research paper.
Freshness: Last updated 2025-05-20 06:52:30.

License is unknown; users must verify terms before use.

Video Multimodal Benchmark Robotics Multimodal Reasoning Video Text Pairs

Related Datasets

Quality Score

D38

Description

Source

Reputation

Quality Score

D38

Description

Source

Reputation

Access

Community

1.5K downloads

28 likes

0 views

Dataset Info

Author: nvidia
Created: May 16, 2025
Updated: May 20, 2025
Last synced: Jun 19, 2026

Access

Community

1.5K downloads

28 likes

0 views

Dataset Info

Author: nvidia
Created: May 16, 2025
Updated: May 20, 2025
Last synced: Jun 19, 2026

Cosmos-Reason1 SFT: Video-Text Pairs for Embodied Reasoning Tasks

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info