Name: Filtered Dataset Long: High-Quality Reasoning Traces for Language Model Fine-Tuning
Creator: talzoomanzoo
Published: 2026-05-22T08:19:57
Keywords: Reasoning Traces, Text, Language Model, Sft Data

Description

A subset of rewritten reasoning traces from talzoomanzoo/rewritten_dataset_base, filtered for quality. The dataset was created by talzoomanzoo and last updated on 2026-05-22. It includes problem statements, original teacher reasoning, and reference answers, with rows retained only when judged suitable for supervised fine-tuning by a large language model.

Use Cases

Supervised fine-tuning of language models based on high-quality reasoning traces.
Training models to generate step-by-step solutions based on problem statements and teacher reasoning.
Benchmarking model reasoning performance against filtered, high-scoring examples.
Analyzing the characteristics of reasoning traces deemed suitable for instruction tuning.

Strengths

Rows were filtered using a score threshold (≥7) from a large language model judge (openai/gpt-oss-120b via OpenRouter).
Includes structured fields for problem statements, reasoning traces, and answers.
Dataset version and progress are tracked via a separate dataset (talzoomanzoo/filtered_dataste_long_progress).

Limitations

Row count, file formats, and license information are unknown.
Column-level documentation is absent; field semantics must be inferred after download.
Data may reflect bias inherent to the source datasets and the judging model's preferences.

Provenance

Source: Subset of talzoomanzoo/rewritten_dataset_base, filtered via OpenRouter.
Collection Method: Rows were kept when a language model judge scored the rewritten trace as suitable for SFT (score ≥ 7).
Freshness: Last updated 2026-05-22 08:20:18; freshness should be verified.

License is unknown; users must verify permissions before use. The full description is hosted externally.

Text Reasoning Traces Language Model Sft Data

Filtered Dataset Long: High-Quality Reasoning Traces for Language Model Fine-Tuning

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info