DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

DTap-Bench: Agent Evaluation Tasks Across 14 Domains | DataSalon

Home Computer VisionDTap-Bench: Agent Evaluation Tasks Across 14 Domains

Computer Vision

DTap-Bench: Agent Evaluation Tasks Across 14 Domains

Name: DTap-Bench: Agent Evaluation Tasks Across 14 Domains
Creator: DecodingTrust-Agent
Published: 2026-05-07T08:15:02
Keywords: Agent Evaluation, Benchmark, Task Simulation, Healthcare, Red Teaming, Tabular, Multi Domain

by DecodingTrust-Agent·Updated 1mo ago

Available on 1 platform

Description

DecodingTrust-Agent created DTap-Bench, a dataset of agent evaluation tasks. It contains tasks across 14 domains including browser, code, CRM, and medical. Each domain is organized into a benign task split and two red-teaming splits.

Use Cases

Benchmarking agent performance based on tasks across 14 domains.
Red-teaming agent vulnerabilities using the direct and indirect adversarial splits.
Training or testing specialized agents for specific domains like finance or legal.
Comparing agent robustness between benign and adversarial scenarios.

Strengths

Tasks span 14 distinct domains, providing broad coverage.
Includes both benign and adversarial (red-teaming) splits for each domain.
Each record represents a single task case, likely enabling granular evaluation.

Limitations

Column-level documentation is absent; field semantics must be inferred after download.
Row count is unknown, which may limit suitability assessment.
Description metadata is limited; actual data quality requires manual inspection after download.

Provenance

Source: DecodingTrust-Agent
Freshness: Last updated 2026-05-07 08:36:15; freshness should be verified.

Tabular Agent Evaluation Benchmark Task Simulation Healthcare Red Teaming Multi Domain

Related Datasets

Quality Score

D38

Description

Source

Reputation

Quality Score

D38

Description

Source

Reputation

Access

Community

12 downloads

2 likes

0 views

Dataset Info

Author: DecodingTrust-Agent
Created: May 7, 2026
Updated: May 7, 2026
Last synced: May 14, 2026

Access

Community

12 downloads

2 likes

0 views

Dataset Info

Author: DecodingTrust-Agent
Created: May 7, 2026
Updated: May 7, 2026
Last synced: May 14, 2026

DTap-Bench: Agent Evaluation Tasks Across 14 Domains

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info