Name: JepaData: Qwen3-32B Adversarial Jailbreak Pairs for Alignment Training
Creator: memo-ozdincer
Published: 2026-05-02T16:58:32
Keywords: Prompt Engineering, Text, Adversarial Ai, Llm Safety, Alignment Training

Description

269,453 adversarial prompt and model rollout pairs harvested for training jailbreak-resistant alignment models. The dataset was created by author memo-ozdincer and last updated on 2026-05-04. It contains approximately 225,000 harmful-side records and 44,000 benign-side over-refusal probes.

Use Cases

Training jailbreak-resistant alignment models based on adversarial prompt-response pairs.
Evaluating model robustness against harmful prompts based on the dataset's adversarial examples.
Studying patterns of model over-refusal based on the benign-side probe examples.
Fine-tuning models for improved safety classification based on labeled harmful and benign interactions.

Strengths

Contains 269,453 total records, providing a substantial corpus for training.
Includes a clear breakdown of ~225K (83%) harmful-side and ~44K (17%) benign-side examples.
Specifies the source of records, with ~225K from 'Circuit Breakers train' and ~44K from 'OR-Bench train'.

Limitations

Column-level documentation is absent; field semantics must be inferred after download.
Row count is unknown, which may limit suitability assessment for specific tasks.
Description metadata is limited; actual data quality requires manual inspection after download.

Provenance

Source: Built on top of the JepaAlign harvest pipeline, with records sourced from Circuit Breakers train and OR-Bench train datasets.
Collection Method: Harvested adversarial prompts and corresponding model rollouts.
Freshness: Last updated 2026-05-04 15:37:55; freshness should be verified.

License is unknown; users should verify terms of use before downloading.

Text Prompt Engineering Adversarial Ai Llm Safety Alignment Training

JepaData: Qwen3-32B Adversarial Jailbreak Pairs for Alignment Training

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info