ODA-Fin-RL-12K: 12,187 Verifiable Financial Reasoning Samples

Name: ODA-Fin-RL-12K: 12,187 Verifiable Financial Reasoning Samples
Creator: OpenDataArena
Published: 2026-02-14T04:07:04
Keywords: Size Categories10 Kn100 K, Task Categoriestext Generation, Librarypolars, Languagezh, Task Categoriesquestion Answering, Languageen, Domain Adaptation, Modalitytext, Librarymlcroissant, Librarydatasets, Librarypandas, GRPO, Parquet, Regionus, Reasoning, Reinforcement Learning, Finance, Arxiv260307223, Licenseapache 20

by OpenDataArenaUpdated 4mo ago

Available on 1 platform

Sign in to view source links and access this dataset

Description

OpenDataArena published ODA-Fin-RL-12K in March 2026, providing 12,187 hard-but-verifiable samples for reinforcement learning in the financial domain. The dataset focuses on complex reasoning tasks with concise answers optimized for automated reward modeling and distillation.

Use Cases

Training Group Relative Policy Optimization (GRPO) models using the verifiable answer format
Fine-tuning financial reasoning models on 'hard' samples to improve performance on complex domain-specific queries
Evaluating the distillation of reasoning capabilities from larger models into smaller financial LLMs

Strengths

12,187 high-difficulty samples specifically curated for financial reasoning
Reliably verifiable answers suitable for automated RL reward functions
Bilingual support in English and Chinese (zh, en)

Limitations

Small sample size of 12,187 records compared to typical SFT datasets
Intentional difficulty bias excludes simple or common financial tasks

Provenance

Source: OpenDataArena (Arxiv: 260307223)
Collection Method: Curated distillation and difficulty-aware selection
Freshness: Last updated March 2026.

Released under Apache 2.0 license; intended as a reinforcement learning complement to the ODA-Fin-SFT-318K dataset.

Parquet Size Categories10 Kn100 K Task Categoriestext Generation Librarypolars Languagezh Task Categoriesquestion Answering Languageen Domain Adaptation Modalitytext Librarymlcroissant Librarydatasets Librarypandas GRPO Regionus Reasoning Reinforcement Learning Finance Arxiv260307223 Licenseapache 20

Related Datasets

Quality Score

D37

Description

39

Source

39

Reputation

41

Access

22

Community

48 downloads

1 likes

0 views

Dataset Info

Author: OpenDataArena
Created: Feb 14, 2026
Updated: Mar 10, 2026
Last synced: Jul 22, 2026

Access

22

Community

48 downloads

1 likes

0 views

Dataset Info

Author: OpenDataArena
Created: Feb 14, 2026
Updated: Mar 10, 2026
Last synced: Jul 22, 2026

ODA-Fin-RL-12K: 12,187 Verifiable Financial Reasoning Samples

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info