DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

HelpSteer2-DPO: Preference Pairs for Direct Preference Optimization | DataSalon

Home Multimodal & LLMHelpSteer2-DPO: Preference Pairs for Direct Preference Optimization

Multimodal & LLM

HelpSteer2-DPO: Preference Pairs for Direct Preference Optimization

Name: HelpSteer2-DPO: Preference Pairs for Direct Preference Optimization
Creator: Atsunori
Published: 2024-07-11T01:54:16
Keywords: Preference Data, Text, Llm Training, Dpo

by Atsunori·Updated 2y ago

Available on 1 platform

Description

Atsunori converted the NVIDIA HelpSteer2 dataset into preference pairs for training Direct Preference Optimization models. The conversion is based on the helpfulness score of responses, with the higher-scoring response designated as the chosen one. The dataset was last updated on July 11, 2024.

Use Cases

Training Direct Preference Optimization models based on helpfulness scores.
Fine-tuning language models for improved helpfulness based on preference pairs.
Benchmarking reward models on a preference dataset derived from HelpSteer2.

Strengths

Derived from the established NVIDIA HelpSteer2 dataset.
Specifically formatted for Direct Preference Optimization training.
Licensed under CC-BY-4.0, allowing for open use.

Limitations

Column-level documentation is absent; field semantics must be inferred after download.
Row count is unknown, which may limit suitability assessment.
Freshness should be verified as the last update was July 11, 2024.

Provenance

Source: Derived from nvidia/HelpSteer2 dataset.
Collection Method: Converted into preference pairs based on helpfulness scores.
Freshness: Last updated 2024-07-11 03:09:27

License is CC-BY-4.0.

Text Preference Data Llm Training Dpo

Related Datasets

Quality Score

D36

Description

Source

Reputation

Quality Score

D36

Description

Source

Reputation

Access

Community

17 downloads

9 likes

0 views

Dataset Info

Author: Atsunori
Created: Jul 11, 2024
Updated: Jul 11, 2024
Last synced: Jun 20, 2026

Access

Community

17 downloads

9 likes

0 views

Dataset Info

Author: Atsunori
Created: Jul 11, 2024
Updated: Jul 11, 2024
Last synced: Jun 20, 2026

HelpSteer2-DPO: Preference Pairs for Direct Preference Optimization

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info