DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Rlhf Learn: Reinforcement Learning Algorithms for Policy Training | DataSalon

Home Multimodal & LLMRlhf Learn: Reinforcement Learning Algorithms for Policy Training

Multimodal & LLM

Rlhf Learn: Reinforcement Learning Algorithms for Policy Training

Name: Rlhf Learn: Reinforcement Learning Algorithms for Policy Training
Creator: Dylsimple60
Published: 2025-08-16T19:41:35
Keywords: Machine Learning, Rlhf, Policy Optimization, Tabular, Reinforcement Learning

by Dylsimple60·Updated 2mo ago

Available on 1 platform

Description

Rlhf Learn provides resources for enhancing reinforcement learning stability and efficiency. It focuses on advanced algorithms like TRPO, PPO, DPO, GRPO, DAPO, and GSPO for optimized policy training. The repository was authored by Dylsimple60 and last updated on 2026-05-19.

Use Cases

Benchmarking policy optimization algorithms based on the described TRPO, PPO, and DPO methods
Training reinforcement learning agents for stability and efficiency based on the described algorithmic focus
Comparing the performance of advanced RL algorithms like GRPO, DAPO, and GSPO based on the repository's scope

Strengths

Focuses on a specific set of advanced reinforcement learning algorithms (TRPO, PPO, DPO, GRPO, DAPO, GSPO)
Last updated on 2026-05-19, indicating recent maintenance

Limitations

Description metadata is limited; actual data quality requires manual inspection after download
Column-level documentation is absent; field semantics must be inferred after download
Row count and dataset size are unknown, which may limit suitability assessment

Provenance

Source: github
Freshness: Last updated 2026-05-19 15:17:24

License is unknown; users should verify licensing terms before use.

Tabular Machine Learning Rlhf Policy Optimization Reinforcement Learning

Related Datasets

Quality Score

D25

Description

Source

Reputation

Quality Score

D25

Description

Source

Reputation

Access

Community

6 likes

0 views

Dataset Info

Author: Dylsimple60
Created: Aug 16, 2025
Updated: May 19, 2026
Language: Python
Last synced: May 19, 2026

Access

Community

6 likes

0 views

Dataset Info

Author: Dylsimple60
Created: Aug 16, 2025
Updated: May 19, 2026
Language: Python
Last synced: May 19, 2026

Rlhf Learn: Reinforcement Learning Algorithms for Policy Training

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info