DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

TBench Project: Adversarial Benchmark Tasks for LLM Evaluation | DataSalon

Home Mathematics & StatisticsTBench Project: Adversarial Benchmark Tasks for LLM Evaluation

Mathematics & Statistics

TBench Project: Adversarial Benchmark Tasks for LLM Evaluation

Name: TBench Project: Adversarial Benchmark Tasks for LLM Evaluation
Creator: evalixa-ai
Published: 2026-04-30T11:57:40
Keywords: Machine Learning, Docker, Code, Evaluation, Benchmark, Llm Evaluation, Tabular, Reasoning, Adversarial Benchmark

by evalixa-ai·Updated 1mo ago

Available on 1 platform

Description

evalixa-ai's TBench Project Dataset contains adversarial benchmark tasks designed to evaluate large language models. The dataset was last updated on 2026-05-01. It is hosted on Hugging Face and focuses on reasoning, optimization, and code-related challenges.

Use Cases

Stress-testing LLM robustness based on adversarial tasks mentioned in the description
Benchmarking model reasoning and optimization performance based on the described tasks
Evaluating code generation and understanding in adversarial contexts based on the dataset's focus

Strengths

Dataset is explicitly designed for adversarial evaluation, a specific and relevant use case
Focuses on multiple challenging domains including reasoning, optimization, and code
Last update timestamp is precisely recorded as 2026-05-01 11:40:57

Limitations

Description metadata is limited; actual data quality requires manual inspection after download
Column-level documentation is absent; field semantics must be inferred after download
Row count, file formats, and license are unknown, which may limit suitability assessment

Provenance

Source: evalixa-ai on Hugging Face
Collection Method: Likely curated or generated for benchmark purposes
Time Range: null
Freshness: Last updated 2026-05-01 11:40:57
Geography: null

License is unknown; users must verify permissions before use.

Tabular Machine Learning Docker Code Evaluation Benchmark Llm Evaluation Reasoning Adversarial Benchmark

Related Datasets

Quality Score

D36

Description

Source

Reputation

Quality Score

D36

Description

Source

Reputation

Access

Community

4 downloads

1 likes

0 views

Dataset Info

Author: evalixa-ai
Created: Apr 30, 2026
Updated: May 1, 2026
Last synced: May 7, 2026

Access

Community

4 downloads

1 likes

0 views

Dataset Info

Author: evalixa-ai
Created: Apr 30, 2026
Updated: May 1, 2026
Last synced: May 7, 2026

TBench Project: Adversarial Benchmark Tasks for LLM Evaluation

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info