DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

OCR Dataset: Images and Extracted Text for Model Training | DataSalon

Home Computer VisionOCR Dataset: Images and Extracted Text for Model Training

Computer Vision

OCR Dataset: Images and Extracted Text for Model Training

Available on 1 platform

Description

An optical character recognition dataset published on Kaggle. The specific content, scale, and origin are not detailed in the available metadata. The dataset likely contains images of text and corresponding transcriptions for training or evaluating OCR models.

Use Cases

Train a model to read text from scanned documents (inferred from domain, verify after download)
Benchmark OCR accuracy across different fonts and layouts (inferred from domain, verify after download)
Fine-tune a pre-trained model for a specific document type (inferred from domain, verify after download)

Strengths

Published on Kaggle, a platform with established data sharing and versioning tools.

Limitations

Metadata is minimal; actual content requires verification after download.
Row count, file formats, and column definitions are unknown, which limits suitability assessment.
Data may reflect bias inherent to its unspecified source.

Image Text Optical Character Recognition Computer Vision Document Processing

Related Datasets

Quality Score

D15

Description

Source

Reputation

Quality Score

D15

Description

Source

Reputation

Access

Community

0 views

Dataset Info

Last synced: Jun 12, 2026

Access

Community

0 views

Dataset Info

Last synced: Jun 12, 2026

OCR Dataset: Images and Extracted Text for Model Training

Description

Use Cases

Strengths

Limitations

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info