DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

CritPt: Frontier Physics Research Benchmark with <1,000 Reasoning Tasks | DataSalon

Home PhysicsCritPt: Frontier Physics Research Benchmark with <1,000 Reasoning Tasks

Physics

CritPt: Frontier Physics Research Benchmark with <1,000 Reasoning Tasks

Name: CritPt: Frontier Physics Research Benchmark with <1,000 Reasoning Tasks
Creator: CritPt-Benchmark
Published: 2025-09-29T21:00:29
Keywords: Librarypolars, OPTIMIZED-PARQUET, Arxiv250926574, Size Categoriesn1 K, Modalitytext, Librarymlcroissant, Librarydatasets, Librarypandas, Parquet, Regionus, Licenseapache 20

by CritPt-Benchmark·Updated 7mo ago

Available on 1 platform

Description

CritPt contains fewer than 1,000 research-level physics reasoning tasks covering domains such as condensed matter, quantum physics, and astrophysics. Developed by the CritPt-Benchmark team and released in late 2024, it serves as a frontier benchmark for testing LLM capabilities on unpublished scientific problems.

Use Cases

Evaluating LLM reasoning accuracy using the physics problem text
Benchmarking model performance across specific sub-domains like astrophysics or quantum physics
Testing multi-step logical deduction in frontier scientific research contexts

Strengths

Focuses on unpublished research-level tasks to prevent LLM data contamination
Covers diverse physics sub-fields including AMO and condensed matter
Released under Apache 2.0 license for open research use

Limitations

Small sample size of fewer than 1,000 records
High domain specificity requires expert-level knowledge for manual output verification

Provenance

Source: CritPt-Benchmark (Arxiv 2509.26574)
Collection Method: Expert-curated research-level physics tasks
Freshness: Last updated November 2025.

The dataset is provided in Parquet format and is associated with Arxiv paper 2509.26574; users should refer to the publication for specific evaluation metrics and methodology.

OPTIMIZED-PARQUET Parquet Librarypolars Arxiv250926574 Size Categoriesn1 K Modalitytext Librarymlcroissant Librarydatasets Librarypandas Regionus Licenseapache 20

Related Datasets

Quality Score

D37

Description

Source

Reputation

Quality Score

D37

Description

Source

Reputation

Access

Community

1.1K downloads

18 likes

0 views

Dataset Info

Author: CritPt-Benchmark
Created: Sep 29, 2025
Updated: Nov 21, 2025
Last synced: Jun 23, 2026

Access

Community

1.1K downloads

18 likes

0 views

Dataset Info

Author: CritPt-Benchmark
Created: Sep 29, 2025
Updated: Nov 21, 2025
Last synced: Jun 23, 2026

CritPt: Frontier Physics Research Benchmark with <1,000 Reasoning Tasks

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info