DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

CyberSecurity-1M: Cybersecurity Pre-Training Corpus | DataSalon

Home Software Engineering & SecurityCyberSecurity-1M: Cybersecurity Pre-Training Corpus

Software Engineering & Security

CyberSecurity-1M: Cybersecurity Pre-Training Corpus

Name: CyberSecurity-1M: Cybersecurity Pre-Training Corpus
Creator: morinoppp
Published: 2026-04-26T03:41:55
Keywords: Machine Learning, Cybersecurity, Pre Training, Text, Text Corpus

by morinoppp·Updated 2mo ago

Available on 1 platform

Description

A large open cybersecurity continued pre-training dataset created by morinoppp. The dataset aims to address a knowledge gap in existing large language model pre-training datasets, which reportedly contain minimal cybersecurity content. It was last updated on 2026-05-03.

Use Cases

Pre-training language models on cybersecurity concepts based on the described focus on foundational understanding.
Teaching models about exploit mechanics based on the described knowledge gap regarding how exploits work.
Improving model reasoning for attack analysis based on the described focus on step-by-step attack reasoning chains.
Training models for vulnerability classification based on the described focus on vulnerability classification and root cause analysis.

Strengths

Described as the largest open cybersecurity continued pre-training dataset.
Specifically designed to address a reported knowledge gap where existing LLM datasets contain less than 0.1% cybersecurity content.

Limitations

Description metadata is limited; actual data quality requires manual inspection after download.
Column-level documentation is absent; field semantics must be inferred after download.
Row count is unknown, which may limit suitability assessment.

Provenance

Source: huggingface
Freshness: Last updated 2026-05-03 08:31:35.

Text Machine Learning Cybersecurity Pre Training Text Corpus

Related Datasets

Quality Score

C40

Description

Source

Reputation

Quality Score

C40

Description

Source

Reputation

Access

Community

37 downloads

1 likes

0 views

Dataset Info

Author: morinoppp
Created: Apr 26, 2026
Updated: May 3, 2026
Last synced: May 11, 2026

Access

Community

37 downloads

1 likes

0 views

Dataset Info

Author: morinoppp
Created: Apr 26, 2026
Updated: May 3, 2026
Last synced: May 11, 2026

CyberSecurity-1M: Cybersecurity Pre-Training Corpus

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info