DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

TeamBench: Multi-Agent Teamwork Benchmark for Software Engineering Tasks | DataSalon

Home Reinforcement LearningTeamBench: Multi-Agent Teamwork Benchmark for Software Engineering Tasks

Reinforcement Learning

TeamBench: Multi-Agent Teamwork Benchmark for Software Engineering Tasks

Name: TeamBench: Multi-Agent Teamwork Benchmark for Software Engineering Tasks
Creator: ybkim95
Published: 2026-03-11T22:16:08
Keywords: Multi Agent Systems, Software Engineering, Benchmark, Llm Evaluation, Tabular

by ybkim95·Updated 3mo ago

Available on 1 platform

Description

TeamBench is a benchmark designed to evaluate whether LLM-based agent teams outperform single oracle agents on realistic software engineering tasks. It includes five ablation conditions for fine-grained measurement, such as oracle, restricted, full team, team without planning, and team without verification. The benchmark was created by ybkim95 and last updated on March 30, 2026.

Use Cases

Benchmarking LLM-based agent teams against single agents based on the described ablation conditions.
Measuring the Teamwork Necessity Index (TNI) to quantify when teamwork helps.
Analyzing the impact of planning and verification components on team performance.
Evaluating agent performance on realistic software engineering tasks.

Strengths

Benchmark includes five distinct ablation conditions for detailed performance analysis.
Focuses on realistic software engineering tasks, providing a practical evaluation context.
Last updated on March 30, 2026, indicating recent maintenance.

Limitations

Column-level documentation is absent; field semantics must be inferred after download.
Row count is unknown, which may limit suitability assessment.
Description metadata is limited; actual data quality requires manual inspection after download.

Provenance

Source: huggingface
Freshness: Last updated 2026-03-30 15:59:54

Tabular Multi Agent Systems Software Engineering Benchmark Llm Evaluation

Related Datasets

Quality Score

D37

Description

Source

Reputation

Quality Score

D37

Description

Source

Reputation

Access

Community

22 downloads

1 likes

0 views

Dataset Info

Author: ybkim95
Created: Mar 11, 2026
Updated: Mar 30, 2026
Last synced: May 5, 2026

Access

Community

22 downloads

1 likes

0 views

Dataset Info

Author: ybkim95
Created: Mar 11, 2026
Updated: Mar 30, 2026
Last synced: May 5, 2026

TeamBench: Multi-Agent Teamwork Benchmark for Software Engineering Tasks

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info