DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

VLMSafe-420: 420 Multimodal Counterfactual Pairs for VLM Safety Circuits | DataSalon

Home Multimodal & LLMVLMSafe-420: 420 Multimodal Counterfactual Pairs for VLM Safety Circuits

Multimodal & LLM

VLMSafe-420: 420 Multimodal Counterfactual Pairs for VLM Safety Circuits

Name: VLMSafe-420: 420 Multimodal Counterfactual Pairs for VLM Safety Circuits
Creator: ArthT
Published: 2026-03-07T19:42:21
Keywords: Safety, Librarypolars, Librarydask, OPTIMIZED-PARQUET, Languageen, Task Categoriesvisual Question Answering, Size Categoriesn1 K, Modalitytext, Librarymlcroissant, Modalityimage, Librarydatasets, Parquet, Circuits, Compression, Regionus, Vlm, Task Categoriestext Classification, Mechanistic Interpretability, Licensemit, Multimodal

by ArthT·Updated 4mo ago

Available on 1 platform

Description

VLMSafe-420 consists of 420 multimodal counterfactual pairs across 38 safety categories, developed by ArthT and updated in March 2026. The data is designed for mechanistic interpretability research to identify and analyze safety circuits within Vision-Language Models.

Use Cases

Mechanistic interpretability of safety circuits using harmful/benign counterfactual pairs
VLM safety benchmarking across 38 safety categories
Adversarial testing using 50 JailbreakBench-style prompts

Strengths

420 counterfactual pairs for controlled safety testing
38 distinct safety categories
Includes 50 JailbreakBench-style prompts
226 text-based counterfactual entries

Limitations

Small sample size of 420 records
Niche focus on mechanistic interpretability may limit general safety benchmarking

Provenance

Source: ArthT via Hugging Face
Freshness: Last updated March 2026.

The dataset is licensed under the MIT license and is provided in Parquet format.

Multimodal OPTIMIZED-PARQUET Parquet Safety Librarypolars Librarydask Languageen Task Categoriesvisual Question Answering Size Categoriesn1 K Modalitytext Librarymlcroissant Modalityimage Librarydatasets Circuits Compression Regionus Vlm Task Categoriestext Classification Mechanistic Interpretability Licensemit

Related Datasets

Quality Score

D36

Description

Source

Reputation

Quality Score

D36

Description

Source

Reputation

Access

Community

32 downloads

1 likes

0 views

Dataset Info

Author: ArthT
Created: Mar 7, 2026
Updated: Mar 13, 2026
Last synced: Apr 29, 2026

Access

Community

32 downloads

1 likes

0 views

Dataset Info

Author: ArthT
Created: Mar 7, 2026
Updated: Mar 13, 2026
Last synced: Apr 29, 2026

VLMSafe-420: 420 Multimodal Counterfactual Pairs for VLM Safety Circuits

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info