DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

LinuxArena Trajectories: Full Agent Evaluation Runs | DataSalon

Home Government & LegalLinuxArena Trajectories: Full Agent Evaluation Runs

Government & Legal

LinuxArena Trajectories: Full Agent Evaluation Runs

Name: LinuxArena Trajectories: Full Agent Evaluation Runs
Creator: eval-aware
Published: 2026-03-28T14:17:30
Keywords: Linux Environment, Agent Evaluation, Benchmark, Ai Trajectories, Tabular, Tool Calls

by eval-aware·Updated 2mo ago

Available on 1 platform

Description

14 model/policy combinations were evaluated across 10 environments, generating full agent trajectories. Each row contains one complete evaluation trajectory with every tool call, argument, output, error, and reasoning step. The dataset was created by eval-aware and last updated on March 28, 2026.

Use Cases

Analyzing agent failure modes based on detailed error and output logs.
Benchmarking model performance across different Linux environments.
Training or fine-tuning agents using demonstrated reasoning and action sequences.
Studying the relationship between agent policies and tool-call patterns.

Strengths

Contains trajectories from 14 distinct model/policy combinations.
Evaluations were conducted across 10 different environments.
Provides two granularity levels of detail per action.

Limitations

Column-level documentation is absent; field semantics must be inferred after download.
Row count is unknown, which may limit suitability assessment.
Description metadata is limited; actual data quality requires manual inspection after download.

Provenance

Source: huggingface
Collection Method: Collected from LinuxBench/LinuxArena evaluations.
Freshness: Last updated 2026-03-28 14:17:55; freshness should be verified.

License is unknown; users should verify permissions before use.

Tabular Linux Environment Agent Evaluation Benchmark Ai Trajectories Tool Calls

Related Datasets

Quality Score

D38

Description

Source

Reputation

Quality Score

D38

Description

Source

Reputation

Access

Community

32 downloads

1 likes

0 views

Dataset Info

Author: eval-aware
Created: Mar 28, 2026
Updated: Mar 28, 2026
Last synced: May 19, 2026

Access

Community

32 downloads

1 likes

0 views

Dataset Info

Author: eval-aware
Created: Mar 28, 2026
Updated: Mar 28, 2026
Last synced: May 19, 2026

LinuxArena Trajectories: Full Agent Evaluation Runs

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info