DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

SRefCOCO: A Large-Scale Multi-Modal Visual Grounding Dataset | DataSalon

Home Computer VisionSRefCOCO: A Large-Scale Multi-Modal Visual Grounding Dataset

Computer Vision

SRefCOCO: A Large-Scale Multi-Modal Visual Grounding Dataset

Name: SRefCOCO: A Large-Scale Multi-Modal Visual Grounding Dataset
Creator: xutao2025
Published: 2026-06-01T12:55:44
Keywords: Image, Computer Vision, Object Detection, Audio, Large Scale, Natural Language Processing, Visual Grounding, Image Annotation, Speech Recognition, Multimodal

by xutao2025·Updated 11d ago

Available on 1 platform

Description

SRefCOCO is a large-scale dataset designed for visual grounding tasks. It was created by xutao2025 and was last updated on June 3, 2026. The dataset breaks from traditional text-only constraints by incorporating speech alongside text and image data.

Use Cases

Train speech-based object detection models based on the novel speech-text-image interaction paradigm.
Benchmark visual grounding systems that go beyond traditional text-image bimodal interactions.
Develop flexible AI applications for dynamic physical scenarios based on the multi-modal instructions.

Strengths

Described as a 'large-scale' dataset, suggesting substantial size.
Introduces a novel speech-text-image paradigm for visual grounding.

Limitations

Column-level documentation is absent; field semantics must be inferred after download.
Row count and file size are unknown, which may limit suitability assessment.

Provenance

Source: xutao2025
Freshness: Last updated 2026-06-03 08:23:23; freshness should be verified.

Image Audio Multimodal Computer Vision Object Detection Large Scale Natural Language Processing Visual Grounding Image Annotation Speech Recognition

Related Datasets

Quality Score

D38

Description

Source

Reputation

Quality Score

D38

Description

Source

Reputation

Access

Community

2.1K downloads

1 likes

0 views

Dataset Info

Author: xutao2025
Created: Jun 1, 2026
Updated: Jun 3, 2026
Last synced: Jun 8, 2026

Access

Community

2.1K downloads

1 likes

0 views

Dataset Info

Author: xutao2025
Created: Jun 1, 2026
Updated: Jun 3, 2026
Last synced: Jun 8, 2026

SRefCOCO: A Large-Scale Multi-Modal Visual Grounding Dataset

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info