DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

European Hplt V1: Multilingual Pretraining Corpus Across 41 Languages | DataSalon

Home NLP & TextEuropean Hplt V1: Multilingual Pretraining Corpus Across 41 Languages

NLP & Text

European Hplt V1: Multilingual Pretraining Corpus Across 41 Languages

Name: European Hplt V1: Multilingual Pretraining Corpus Across 41 Languages
Creator: ashtok897
Published: 2026-06-10T11:37:32
Keywords: Web Crawl, Language Families, Text, Multilingual, Natural Language Processing, Multilingual Text, Quality Scored

by ashtok897·Updated 3d ago

Available on 1 platform

Description

45,031,396 documents across 41 European languages provide a multilingual pretraining corpus. The data is built from HPLT Monolingual v3 web crawl sources and spans Germanic, Romance, Slavic, Celtic, Baltic, Finno-Ugric, Greek, and other language families. Every document has an HPLT WDS quality score of 10 or higher.

Use Cases

Pretrain multilingual language models based on the corpus spanning 41 European languages.
Benchmark language model performance across different European language families mentioned in the description.
Study web text quality distributions based on the HPLT WDS quality score of 10 or higher.
Analyze linguistic patterns across Germanic, Romance, Slavic, Celtic, Baltic, Finno-Ugric, and Greek language families.

Strengths

45,031,396 documents provide substantial scale.
Corpus spans 41 European languages across multiple language families.
All documents have a quality score of 10 or higher, indicating a filtered subset.

Limitations

Column-level documentation is absent; field semantics must be inferred after download.
Row count is unknown, which may limit suitability assessment.
Last updated 2026-06-10 14:45:42; freshness should be verified.

Provenance

Source: HPLT Monolingual v3 high-quality web crawl data.
Collection Method: Built from web crawl data.
Geography: European languages.

Text Multilingual Web Crawl Language Families Natural Language Processing Multilingual Text Quality Scored

Related Datasets

Quality Score

C43

Description

Source

Reputation

Quality Score

C43

Description

Source

Reputation

Access

Community

62 downloads

1 likes

0 views

Dataset Info

Author: ashtok897
Created: Jun 10, 2026
Updated: Jun 10, 2026
Last synced: Jun 13, 2026

Access

Community

62 downloads

1 likes

0 views

Dataset Info

Author: ashtok897
Created: Jun 10, 2026
Updated: Jun 10, 2026
Last synced: Jun 13, 2026

European Hplt V1: Multilingual Pretraining Corpus Across 41 Languages

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info