DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Dolci Think SFT Olmo Hybrid: 1M-10M Text Records for Instruction Tuning | DataSalon

Home EducationDolci Think SFT Olmo Hybrid: 1M-10M Text Records for Instruction Tuning

Education

Dolci Think SFT Olmo Hybrid: 1M-10M Text Records for Instruction Tuning

Name: Dolci Think SFT Olmo Hybrid: 1M-10M Text Records for Instruction Tuning
Creator: allenai
Published: 2026-03-03T00:26:54
Keywords: Librarypolars, Librarydask, Size Categories1 Mn10 M, OPTIMIZED-PARQUET, Modalitytext, Librarymlcroissant, Librarydatasets, Parquet, Regionus, Licenseodc By

by allenai·Updated 4mo ago

Available on 1 platform

Description

1M to 10M text records for supervised fine-tuning (SFT) of the OLMo language model, released by the Allen Institute for AI (allenai) in early 2026. The collection is distributed in optimized-parquet format for high-performance processing using libraries like Polars and Dask.

Use Cases

Supervised fine-tuning of OLMo-based models using the text modality
Large-scale data processing benchmarks using the Polars and Dask libraries
Research into hybrid data distributions for instruction-following tasks

Strengths

1M to 10M record scale
Optimized-parquet format for high-speed data loading
ODC-By license allows for research and educational applications

Limitations

Lack of explicit column documentation or schema details
Geographic bias toward US-based data sources as indicated by metadata tags
Unknown internal label distribution or quality of the hybrid sources

Provenance

Source: Allen Institute for AI (allenai)
Freshness: Last updated March 2026.
Geography: United States

Licensed under Open Data Commons Attribution License v1.0 (ODC-By); users must follow AllenAI's Responsible Use Guidelines and provide proper attribution.

OPTIMIZED-PARQUET Parquet Librarypolars Librarydask Size Categories1 Mn10 M Modalitytext Librarymlcroissant Librarydatasets Regionus Licenseodc By

Related Datasets

Quality Score

D33

Description

Source

Reputation

Quality Score

D33

Description

Source

Reputation

Access

Community

1.0K downloads

10 likes

0 views

Dataset Info

Author: allenai
Created: Mar 3, 2026
Updated: Mar 5, 2026
Last synced: May 30, 2026

Access

Community

1.0K downloads

10 likes

0 views

Dataset Info

Author: allenai
Created: Mar 3, 2026
Updated: Mar 5, 2026
Last synced: May 30, 2026

Dolci Think SFT Olmo Hybrid: 1M-10M Text Records for Instruction Tuning

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info