DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

VAST: Vision-Audio-Subtitle-Text Omni-Modality Dataset | DataSalon

Home Multimodal & LLMVAST: Vision-Audio-Subtitle-Text Omni-Modality Dataset

Multimodal & LLM

VAST: Vision-Audio-Subtitle-Text Omni-Modality Dataset

Name: VAST: Vision-Audio-Subtitle-Text Omni-Modality Dataset
Creator: CASIA-IVA-Lab
Published: 2023-05-29T14:09:51
License: MIT
Keywords: Multimodal Foundation Model, Vision Language, Cross Modality Pretraining, Audio Language, Vision Audio Subtitle Text

by CASIA-IVA-Lab / CASIA-IVA-Lab·Updated 2y ago

Available on 1 platform

Description

VAST is an omni-modality dataset and foundation model from NeurIPS 2023 containing four distinct data categories: vision, audio, subtitles, and text. It provides a framework for multi-modal learning where visual frames are paired with corresponding sound, textual transcripts, and descriptive text.

Use Cases

Train foundation models using the vision, audio, and subtitle modalities to create unified cross-modal embeddings
Develop video-to-text generation systems that leverage subtitle and audio features for more accurate descriptions
Evaluate multi-modal retrieval performance by matching text prompts against the combined vision-audio-subtitle feature space

Strengths

Integrates four distinct modalities: vision, audio, subtitles, and text
Presented at the NeurIPS 2023 conference
Provides synchronized temporal alignment between video frames and audio tracks
Includes subtitle strings as a discrete modality for enhanced linguistic context

Multimodal Foundation Model Vision Language Cross Modality Pretraining Audio Language Vision Audio Subtitle Text

Related Datasets

Quality Score

D23

Description

Source

Reputation

Quality Score

D23

Description

Source

Reputation

Access

Community

298 likes

0 views

Dataset Info

License: MIT
Author: CASIA-IVA-Lab
Org: CASIA-IVA-Lab
Created: May 29, 2023
Updated: Mar 14, 2024
Language: Jupyter Notebook
Last synced: Jul 8, 2026

Access

Community

298 likes

0 views

Dataset Info

License: MIT
Author: CASIA-IVA-Lab
Org: CASIA-IVA-Lab
Created: May 29, 2023
Updated: Mar 14, 2024
Language: Jupyter Notebook
Last synced: Jul 8, 2026

VAST: Vision-Audio-Subtitle-Text Omni-Modality Dataset

Description

Use Cases

Strengths

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info