DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

CVE LLM Training: National Vulnerability Database Fine-tuning Dataset | DataSalon

Home Software Engineering & SecurityCVE LLM Training: National Vulnerability Database Fine-tuning Dataset

Software Engineering & Security

CVE LLM Training: National Vulnerability Database Fine-tuning Dataset

Name: CVE LLM Training: National Vulnerability Database Fine-tuning Dataset
Creator: morpheuslord
Published: 2023-08-15T06:15:00
Keywords: Task Categoriestext Generation, Languageen, Cybersecurity, Size Categoriesn1 K, Code, Research, Regionus, Doi1057967hf3627, Licenseapache 20, Vulnerability

by morpheuslord·Updated 1y ago

Available on 1 platform

Description

Thousands of vulnerability records spanning from 1999 to the present, extracted from the National Vulnerability Database (NVD) and organized by year. The collection provides structured JSON data specifically formatted for fine-tuning Llama and OpenAI GPT models on cybersecurity-focused inputs and outputs.

Use Cases

Fine-tune a Llama model to generate security advisories using the CVE-focused input and output mappings.
Train an OpenAI GPT model to classify vulnerabilities based on the structured data extracted from NVD lists.
Develop a vulnerability search tool that utilizes the year and ID-based file organization for rapid retrieval of historical security data.

Strengths

Hierarchical directory structure starting from 1999 with sub-folders like 0xxx for specific ID ranges.
Dual-format data outputs generated by cve_dataset_2.py and cve_dataset.py for cross-model compatibility.
Source data derived from official NVD lists in JSON format, including specific identifiers like CVE-1999-0001.json.
Organized chronologically by year and ID range to facilitate temporal vulnerability analysis.

Task Categoriestext Generation Languageen Cybersecurity Size Categoriesn1 K Code Research Regionus Doi1057967hf3627 Licenseapache 20 Vulnerability

Related Datasets

Quality Score

D35

Description

Source

Reputation

Quality Score

D35

Description

Source

Reputation

Access

Community

144 downloads

20 likes

0 views

Dataset Info

Author: morpheuslord
Created: Aug 15, 2023
Updated: Nov 25, 2024
Last synced: Apr 11, 2026

Access

Community

144 downloads

20 likes

0 views

Dataset Info

Author: morpheuslord
Created: Aug 15, 2023
Updated: Nov 25, 2024
Last synced: Apr 11, 2026

CVE LLM Training: National Vulnerability Database Fine-tuning Dataset

Description

Use Cases

Strengths

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info