Patent Classification

Name: Patent Classification
Creator: ccdv
Published: 2022-03-02T23:29:22
Keywords: Size Categories10 Kn100 K, Librarypolars, Languageen, Modalitytext, Task Idsmulti Class Classification, Librarymlcroissant, Librarydatasets, Librarypandas, Task Idstopic Classification, Parquet, Regionus, Long Context, Task Categoriestext Classification

by ccdvUpdated 1y ago

Available on 1 platform

Sign in to view source links and access this dataset

Description

35,000 patent documents and abstracts categorized into 9 unbalanced classes for long-context text classification. The data is sampled from the BIGPATENT corpus and specifically includes non-abstract documents that exceed the 512-token threshold.

Use Cases

Train text classification models to predict one of 9 patent classes using the full document text
Develop summarization models by treating the patent description as input and the abstract as the target
Test the performance of long-context window architectures on documents that surpass the 512-token limit

Strengths

35,000 total patent records across 9 unbalanced classification categories
Includes both full-length patent descriptions and corresponding abstracts
Documents are specifically selected for lengths exceeding 512 tokens

Parquet Size Categories10 Kn100 K Librarypolars Languageen Modalitytext Task Idsmulti Class Classification Librarymlcroissant Librarydatasets Librarypandas Task Idstopic Classification Regionus Long Context Task Categoriestext Classification

Related Datasets

Quality Score

D36

Description

39

Source

36

Reputation

39

Access

22

Community

367 downloads

29 likes

0 views

Dataset Info

Author: ccdv
Created: Mar 2, 2022
Updated: Aug 8, 2024
Last synced: Jun 30, 2026

Access

22

Community

367 downloads

29 likes

0 views

Dataset Info

Author: ccdv
Created: Mar 2, 2022
Updated: Aug 8, 2024
Last synced: Jun 30, 2026

Patent Classification

Description

Use Cases

Strengths

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info