DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

ArXiv CS Papers with Four Thematic Labels | DataSalon

Home Computer VisionArXiv CS Papers with Four Thematic Labels

Computer Vision

ArXiv CS Papers with Four Thematic Labels

Name: ArXiv CS Papers with Four Thematic Labels
Creator: vrajpat3ll
Published: 2026-03-06T05:53:04
Keywords: Size Categories10 Kn100 K, Librarypolars, OPTIMIZED-PARQUET, Languageen, Computer Science, Modalitytext, Task Idsmulti Class Classification, Librarymlcroissant, Librarydatasets, Librarypandas, Licensecc By 40, Text Classification, Text, Parquet, Arxiv, Regionus, Natural Language Processing, Scientific Abstracts, Task Categoriestext Classification

by vrajpat3ll·Updated 3mo ago

Available on 1 platform

Description

A corpus of computer science paper abstracts sourced from the arXiv API. The abstracts are organized into four thematic categories, including Algorithms and NLP/AI. The dataset was collected for an NLP Lab at IIT Jammu during the 2025-2026 academic year.

Use Cases

Multi-class text classification based on thematic labels
Analyzing topic distribution in computer science literature based on arXiv categories
Training models for automated paper categorization based on abstract content
Benchmarking NLP models on scientific text classification tasks

Strengths

Abstracts are organized into four thematic labels, providing a structured classification
Data is sourced from the arXiv API, a reputable repository for scientific preprints
Last updated on 2026-03-12, indicating recent maintenance

Limitations

Column-level documentation is absent; field semantics must be inferred after download
Row count is unknown, which may limit suitability assessment

Provenance

Source: arXiv API
Collection Method: Collected via API for an NLP Lab project
Freshness: Last updated 2026-03-12 08:48:37

Text OPTIMIZED-PARQUET Parquet Size Categories10 Kn100 K Librarypolars Languageen Computer Science Modalitytext Task Idsmulti Class Classification Librarymlcroissant Librarydatasets Librarypandas Licensecc By 40 Text Classification Arxiv Regionus Natural Language Processing Scientific Abstracts Task Categoriestext Classification

Related Datasets

Quality Score

D38

Description

Source

Reputation

Quality Score

D38

Description

Source

Reputation

Access

Community

57 downloads

1 likes

0 views

Dataset Info

Author: vrajpat3ll
Created: Mar 6, 2026
Updated: Mar 12, 2026

Access

Community

57 downloads

1 likes

0 views

Dataset Info

Author: vrajpat3ll
Created: Mar 6, 2026
Updated: Mar 12, 2026

ArXiv CS Papers with Four Thematic Labels

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info