DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Private Finetuning Data: 100 Million Tokens for Language Model Training | DataSalon

Home Transportation & MobilityPrivate Finetuning Data: 100 Million Tokens for Language Model Training

Transportation & Mobility

Private Finetuning Data: 100 Million Tokens for Language Model Training

Name: Private Finetuning Data: 100 Million Tokens for Language Model Training
Creator: Crownelius
Published: 2026-02-20T00:39:30
Keywords: Private Finetuning, Prompt Completion, Text, Language Model, Ai Training

by Crownelius·Updated 3mo ago

Available on 1 platform

Description

100,666,803 tokens of private finetuning data for language models, uploaded by Crownelius to Hugging Face. The data consists of 11,678,493 prompt tokens and 88,988,310 completion tokens, with an average of 621.5 tokens per row. It was last updated on March 15, 2026.

Use Cases

Finetuning language models based on the provided prompt-completion token pairs.
Analyzing token distributions and training costs based on the provided token and cost statistics.
Benchmarking model performance on private conversational or instruction-following data suggested by the prompt-completion structure.

Strengths

Contains 100,666,803 total tokens, providing a substantial volume of text for model training.
Includes detailed token statistics, such as 11,678,493 prompt tokens and 88,988,310 completion tokens.
Cost metrics are provided, estimated at $456.62 using OpenRouter pricing.

Limitations

Description metadata is limited; actual data quality requires manual inspection after download.
Column-level documentation is absent; field semantics must be inferred after download.
Row count is unknown, which may limit suitability assessment.

Provenance

Source: Crownelius on Hugging Face.
Freshness: Last updated 2026-03-15 07:03:16; freshness should be verified.

License is unknown, which may restrict usage.

Text Private Finetuning Prompt Completion Language Model Ai Training

Related Datasets

Quality Score

D31

Description

Source

Reputation

Quality Score

D31

Description

Source

Reputation

Access

Community

47 downloads

1 likes

0 views

Dataset Info

Author: Crownelius
Created: Feb 20, 2026
Updated: Mar 15, 2026
Last synced: Jun 26, 2026

Access

Community

47 downloads

1 likes

0 views

Dataset Info

Author: Crownelius
Created: Feb 20, 2026
Updated: Mar 15, 2026
Last synced: Jun 26, 2026

Private Finetuning Data: 100 Million Tokens for Language Model Training

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info