DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Sutra 100M: 70,435 Synthetic Pedagogical Entries for LLM Pretraining | DataSalon

Home EducationSutra 100M: 70,435 Synthetic Pedagogical Entries for LLM Pretraining

Education

Sutra 100M: 70,435 Synthetic Pedagogical Entries for LLM Pretraining

Name: Sutra 100M: 70,435 Synthetic Pedagogical Entries for LLM Pretraining
Creator: codelion
Published: 2025-07-07T14:38:24
Keywords: Size Categories10 Kn100 K, Task Categoriestext Generation, Librarypolars, Modalitytext, Educational, Modalitytabular, Pedagogical, Librarymlcroissant, Librarydatasets, Pretraining, Librarypandas, Multi Domain, Regionus, JSON, Licenseapache 20, Sutra, Synthetic

by codelion·Updated 3mo ago

Available on 1 platform

Description

Sutra 100M contains 70,435 synthetic educational entries totaling approximately 100 million tokens, released by codelion in March 2026. The dataset utilizes the Sutra framework to produce structured pedagogical content specifically designed for language model pretraining across multiple domains.

Use Cases

Pretraining language models using the 100 million tokens of structured pedagogical text
Evaluating the learning efficiency of models on synthetic educational content
Fine-tuning text generation models to produce content following specific pedagogical structures

Strengths

70,435 educational entries
Approximately 100 million tokens
Apache 2.0 license
Structured pedagogical formatting

Limitations

Synthetic generation may result in repetitive linguistic patterns or lack the stylistic variety of human-authored textbooks
Potential for hallucinations inherent in synthetic data generation frameworks

Provenance

Source: codelion via the Sutra framework
Collection Method: synthetic
Freshness: Last updated March 2026.

The dataset is distributed under the Apache 2.0 license and is compatible with common data libraries including pandas, polars, and Hugging Face datasets.

JSON Size Categories10 Kn100 K Task Categoriestext Generation Librarypolars Modalitytext Educational Modalitytabular Pedagogical Librarymlcroissant Librarydatasets Pretraining Librarypandas Multi Domain Regionus Licenseapache 20 Sutra Synthetic

Related Datasets

Quality Score

D36

Description

Source

Reputation

Quality Score

D36

Description

Source

Reputation

Access

Community

37 downloads

2 likes

0 views

Dataset Info

Author: codelion
Created: Jul 7, 2025
Updated: Mar 8, 2026

Access

Community

37 downloads

2 likes

0 views

Dataset Info

Author: codelion
Created: Jul 7, 2025
Updated: Mar 8, 2026

Sutra 100M: 70,435 Synthetic Pedagogical Entries for LLM Pretraining

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info