PDFText: Extracted Text from PDF Documents

Available on 1 platform

Sign in to view source links and access this dataset

Description

PDFText likely contains text extracted from PDF files. The dataset is hosted on Kaggle, but its specific source, size, and creation details are unknown. Metadata is minimal; actual content requires verification after download.

Use Cases

Train a model for document classification (inferred from domain, verify after download)
Benchmark text extraction algorithms (inferred from domain, verify after download)
Perform topic modeling on document collections (inferred from domain, verify after download)

Strengths

Published on Kaggle, a platform for sharing datasets.

Limitations

Metadata is minimal; actual content requires verification after download.
Row count, column definitions, and license information are unknown.

Text Pdf Text Extraction Document Processing

Related Datasets

Quality Score

D15

Description

5

Source

17

Reputation

18

Access

31

Community

0 views

Dataset Info

Last synced: May 19, 2026

Access

31

Community

0 views

Dataset Info

Last synced: May 19, 2026

PDFText: Extracted Text from PDF Documents

Description

Use Cases

Strengths

Limitations

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info