DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Deduplication Script for Removing Near-Duplicate Text Samples from Datasets | DataSalon

Home Genomics & BioinformaticsDeduplication Script for Removing Near-Duplicate Text Samples from Datasets

Genomics & Bioinformatics

Deduplication Script for Removing Near-Duplicate Text Samples from Datasets

Name: Deduplication Script for Removing Near-Duplicate Text Samples from Datasets
Creator: uv-scripts
Published: 2025-07-29T08:57:05
Keywords: Semantic Similarity, Machine Learning, Text, Deduplication, Data Cleaning, Text Processing

by uv-scripts·Updated 23d ago

Available on 1 platform

Description

Part of uv-scripts, a collection of self-contained scripts for local or Hugging Face Jobs execution. This script removes duplicate or near-duplicate text samples from a Hugging Face dataset using SemHash with Model2Vec embeddings, which is CPU-optimized and requires no GPU. The dataset page was last updated on 2026-06 05.

Use Cases

Clean training data to prevent train/test leakage based on semantic similarity detection.
Prepare text corpora for model training by removing redundant samples.
Run a CPU-optimized deduplication pipeline on Hugging Face Jobs infrastructure.

Strengths

Script is CPU-optimized, eliminating the need for GPU resources.
Part of the uv-scripts collection, which are self-contained and designed for one-command execution.
Last updated on 2026-06-05, indicating recent maintenance.

Limitations

Description metadata is limited; actual data quality requires manual inspection after download.
Column-level documentation is absent; field semantics must be inferred after download.
Row count and dataset size are unknown, which may limit suitability assessment.

Provenance

Source: huggingface
Collection Method: Script for processing datasets hosted on Hugging Face.
Time Range: null
Freshness: Last updated 2026-06-05 13:26:03.
Geography: null

null

Text Semantic Similarity Machine Learning Deduplication Data Cleaning Text Processing

Related Datasets

Quality Score

D39

Description

Source

Reputation

Quality Score

D39

Description

Source

Reputation

Access

Community

5 downloads

3 likes

0 views

Dataset Info

Author: uv-scripts
Created: Jul 29, 2025
Updated: Jun 5, 2026
Last synced: Jun 12, 2026

Access

Community

5 downloads

3 likes

0 views

Dataset Info

Author: uv-scripts
Created: Jul 29, 2025
Updated: Jun 5, 2026
Last synced: Jun 12, 2026

Deduplication Script for Removing Near-Duplicate Text Samples from Datasets

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info