Arxiv Dataset

Name: Arxiv Dataset
Creator: arxiv-community
Published: 2022-03-02T23:29:22
Keywords: Source Datasetsoriginal, Language Creatorsexpert Generated, Task Idsentity Linking Retrieval, Size Categories1 Mn10 M, Languageen, Task Categoriessummarization, Licensecc0 10, Task Categoriestext Retrieval, Annotations Creatorsno Annotation, Task Idsexplanation Generation, Task Idsdocument Retrieval, Arxiv190500075, Regionus, Multilingualitymonolingual, Task Categoriestranslation, Task Idsfact Checking Retrieval

by arxiv-communityUpdated 2y ago

Available on 1 platform

Sign in to view source links and access this dataset

Description

1.7 million arXiv research articles across multiple scientific disciplines. The dataset includes metadata for titles, abstracts, authors, and category classifications for papers published on the preprint server.

Use Cases

Train a multi-label classifier to predict paper categories based on the 'title' and 'abstract' text
Build a paper recommendation engine using the 'abstract' and 'categories' fields
Construct a knowledge graph by extracting relationships from the 'authors' and co-citation data

Strengths

1.7 million research articles with associated metadata
Includes specific fields for 'categories', 'abstract', and 'authors'
Supports co-citation network analysis through paper metadata

Source Datasetsoriginal Language Creatorsexpert Generated Task Idsentity Linking Retrieval Size Categories1 Mn10 M Languageen Task Categoriessummarization Licensecc0 10 Task Categoriestext Retrieval Annotations Creatorsno Annotation Task Idsexplanation Generation Task Idsdocument Retrieval Arxiv190500075 Regionus Multilingualitymonolingual Task Categoriestranslation Task Idsfact Checking Retrieval

Related Datasets

Quality Score

D31

Description

29

Source

36

Reputation

32

Access

22

Community

697 downloads

134 likes

0 views

Dataset Info

Author: arxiv-community
Created: Mar 2, 2022
Updated: Jan 18, 2024
Last synced: Jul 22, 2026

Access

22

Community

697 downloads

134 likes

0 views

Dataset Info

Author: arxiv-community
Created: Mar 2, 2022
Updated: Jan 18, 2024
Last synced: Jul 22, 2026

Arxiv Dataset

Description

Use Cases

Strengths

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info