DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Local Code Arena Starcoder2 3B: MBPP Benchmark Telemetry | DataSalon

Home NLP & TextLocal Code Arena Starcoder2 3B: MBPP Benchmark Telemetry

NLP & Text

Local Code Arena Starcoder2 3B: MBPP Benchmark Telemetry

Name: Local Code Arena Starcoder2 3B: MBPP Benchmark Telemetry
Creator: ShahzebKhoso
Published: 2026-05-28T12:57:20
Keywords: Telemetry Logs, Python Benchmark, Benchmark, Llm Evaluation, Tabular, Code Generation

by ShahzebKhoso·Updated 1mo ago

Available on 1 platform

Description

StarCoder2 3B base model evaluation on the Mostly Basic Python Problems (MBPP) benchmark. The dataset contains raw evaluation metrics, execution telemetry logs, and structural syntax outputs captured from automated conversational pipelines. It was authored by ShahzebKhoso and last updated on May 28, 2026.

Use Cases

Benchmarking code generation model performance based on MBPP evaluation metrics
Analyzing model behavioral dynamics based on execution telemetry logs
Studying structural syntax patterns in generated code outputs
Comparing foundational model weights in automated conversational pipelines

Strengths

Focuses on a specific, established benchmark (MBPP) for Python code generation.
Captures multiple data types including raw metrics, telemetry logs, and syntax outputs.

Limitations

Description metadata is limited; actual data quality requires manual inspection after download.
Column-level documentation is absent; field semantics must be inferred after download.
Row count is unknown, which may limit suitability assessment.

Provenance

Source: huggingface
Collection Method: Running the MBPP benchmark against the StarCoder2 3B base model.
Freshness: Last updated 2026-05-28 12:58:19; freshness should be verified.

License is unknown.

Tabular Telemetry Logs Python Benchmark Benchmark Llm Evaluation Code Generation

Related Datasets

Quality Score

D39

Description

Source

Reputation

Quality Score

D39

Description

Source

Reputation

Access

Community

22 downloads

1 likes

0 views

Dataset Info

Author: ShahzebKhoso
Created: May 28, 2026
Updated: May 28, 2026
Last synced: Jun 6, 2026

Access

Community

22 downloads

1 likes

0 views

Dataset Info

Author: ShahzebKhoso
Created: May 28, 2026
Updated: May 28, 2026
Last synced: Jun 6, 2026

Local Code Arena Starcoder2 3B: MBPP Benchmark Telemetry

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info