DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Fattah Golden Superset: A Model-Agnostic SFT Corpus for Coding Models | DataSalon

Home NLP & TextFattah Golden Superset: A Model-Agnostic SFT Corpus for Coding Models

NLP & Text

Fattah Golden Superset: A Model-Agnostic SFT Corpus for Coding Models

Name: Fattah Golden Superset: A Model-Agnostic SFT Corpus for Coding Models
Creator: nomeda-lab
Published: 2026-05-31T14:01:27
Keywords: Model Training, Text, Code Generation, Large Scale, Natural Language Processing, Agentic Coding, Supervised Finetuning

by nomeda-lab·Updated 25d ago

Available on 1 platform

Description

Fattah Golden Superset is a large-scale supervised fine-tuning dataset built by Nomeda Labs for training the Fattah family of coding and agentic coding models. The dataset is described as a labeled superset with no baked-in training ratios, allowing researchers to filter on capability columns to create custom mixtures. The dataset was last updated on June 1, 2026.

Use Cases

Training code generation models based on the labeled corpus of coding examples.
Fine-tuning agentic coding models based on the annotated capability columns.
Creating custom training mixtures for specific coding capabilities based on the boolean filter columns.

Strengths

Dataset is described as a large-scale corpus.
Dataset is designed as a model-agnostic superset, allowing flexible training mixtures.
Dataset is described as a complete cleaned and annotated corpus.

Limitations

Column-level documentation is absent; field semantics must be inferred after download.
Row count is unknown, which may limit suitability assessment.
Description metadata is limited; actual data quality requires manual inspection after download.

Provenance

Source: Nomeda Labs
Collection Method: Built as a labeled superset for supervised fine-tuning.
Freshness: Last updated 2026-06-01 23:21:05; freshness should be verified.

License is unknown.

Text Model Training Code Generation Large Scale Natural Language Processing Agentic Coding Supervised Finetuning

Related Datasets

Quality Score

C42

Description

Source

Reputation

Quality Score

C42

Description

Source

Reputation

Access

Community

457 downloads

1 likes

0 views

Dataset Info

Author: nomeda-lab
Created: May 31, 2026
Updated: Jun 1, 2026
Last synced: Jun 22, 2026

Access

Community

457 downloads

1 likes

0 views

Dataset Info

Author: nomeda-lab
Created: May 31, 2026
Updated: Jun 1, 2026
Last synced: Jun 22, 2026

Fattah Golden Superset: A Model-Agnostic SFT Corpus for Coding Models

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info