DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Narcbench: Multi-Agent Model Activations for Collusion Detection | DataSalon

Home Reinforcement LearningNarcbench: Multi-Agent Model Activations for Collusion Detection

Reinforcement Learning

Narcbench: Multi-Agent Model Activations for Collusion Detection

Name: Narcbench: Multi-Agent Model Activations for Collusion Detection
Creator: aaronrose227
Published: 2026-04-01T00:38:40
Keywords: Model Activations, Interpretability, Multi Agent Collusion, Tabular, Reinforcement Learning

by aaronrose227·Updated 1mo ago

Available on 1 platform

Description

Aaronrose227 provides activation and scenario data for research on detecting multi-agent collusion through interpretability. The dataset includes activations from four large language models across specified layers, as a companion to a GitHub repository. The dataset was last updated on May 12, 2026.

Use Cases

Analyzing model activation patterns for collusion detection based on the described scenario data.
Benchmarking interpretability methods across different LLMs based on the listed model layers.
Training classifiers to identify collusive behavior based on the multi-agent scenario context.

Strengths

Includes activations from four distinct large language models: Qwen3-32B-AWQ, Llama-3.1-70B-Instruct-AWQ-INT4, DeepSeek-R1-Distill-Qwen-32B, and GPT-OSS-20B.
Specifies the exact layers analyzed for each model, ranging from 10 to 37 layers.

Limitations

Column-level documentation is absent; field semantics must be inferred after download.
Row count is unknown, which may limit suitability assessment.

Provenance

Source: huggingface
Freshness: Last updated 2026-05-12 17:00:18; freshness should be verified.

Tabular Model Activations Interpretability Multi Agent Collusion Reinforcement Learning

Related Datasets

Quality Score

D38

Description

Source

Reputation

Quality Score

D38

Description

Source

Reputation

Access

Community

985 downloads

2 likes

0 views

Dataset Info

Author: aaronrose227
Created: Apr 1, 2026
Updated: May 12, 2026
Last synced: Jun 8, 2026

Access

Community

985 downloads

2 likes

0 views

Dataset Info

Author: aaronrose227
Created: Apr 1, 2026
Updated: May 12, 2026
Last synced: Jun 8, 2026

Narcbench: Multi-Agent Model Activations for Collusion Detection

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info