DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

SlimOrca Dedup: 363k Deduplicated Instruction-Response Pairs | DataSalon

Home Multimodal & LLMSlimOrca Dedup: 363k Deduplicated Instruction-Response Pairs

Multimodal & LLM

SlimOrca Dedup: 363k Deduplicated Instruction-Response Pairs

Name: SlimOrca Dedup: 363k Deduplicated Instruction-Response Pairs
Creator: Open-Orca
Published: 2023-10-13T16:45:49
Keywords: Text, Language Model, Deduplication, Synthetic Data

by Open-Orca·Updated 1y ago

Available on 1 platform

Description

Open-Orca's SlimOrca Dedup is a dataset of 363,000 unique instruction-response examples derived from the SlimOrca collection. It was created by removing RLHF instances and applying minhash and Jaccard similarity techniques for deduplication. The dataset was last updated on Hugging Face on May 19, 2025.

Use Cases

Training instruction-tuned language models based on the 363k unique examples.
Benchmarking deduplication algorithms on synthetic instruction-response data.
Studying the characteristics of language model outputs after RLHF instance removal.

Strengths

Contains 363,000 unique examples, providing a substantial corpus.
Explicitly excludes RLHF instances, which may reduce certain biases.
Uses minhash and Jaccard similarity for systematic deduplication.

Limitations

Column-level documentation is absent; field semantics must be inferred after download.
Row count is unknown beyond the stated 363k examples, which may limit suitability assessment.
The description metadata is limited; actual data quality requires manual inspection after download.

Provenance

Source: Open-Orca via Hugging Face.
Collection Method: Derived from the SlimOrca dataset via deduplication and filtering.
Freshness: Last updated 2025-05-19 00:26:36.

Demo models linked in the description were trained on the full SlimOrca dataset, not this deduplicated version.

Text Language Model Deduplication Synthetic Data

Related Datasets

Quality Score

C43

Description

Source

Reputation

Quality Score

C43

Description

Source

Reputation

Access

Community

4.2K downloads

92 likes

0 views

Dataset Info

Author: Open-Orca
Created: Oct 13, 2023
Updated: May 19, 2025
Last synced: Jun 20, 2026

Access

Community

4.2K downloads

92 likes

0 views

Dataset Info

Author: Open-Orca
Created: Oct 13, 2023
Updated: May 19, 2025
Last synced: Jun 20, 2026

SlimOrca Dedup: 363k Deduplicated Instruction-Response Pairs

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info