DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Orientation Columns Dataset: Multilingual Document Images for Layout Analysis | DataSalon

Home Government & LegalOrientation Columns Dataset: Multilingual Document Images for Layout Analysis

Government & Legal

Orientation Columns Dataset: Multilingual Document Images for Layout Analysis

Name: Orientation Columns Dataset: Multilingual Document Images for Layout Analysis
Creator: dedoc
Published: 2024-07-30T15:08:23
Keywords: Image, Document Orientation, Document Analysis, Computer Vision, Text Columns, Multilingual Text

by dedoc·Updated 1y ago

Available on 1 platform

Description

A collection of document images intended for training and evaluating models that detect document orientation and the number of text columns. The dataset likely contains images of scientific papers, legal acts, reports, and tables. It was created by dedoc and includes documents in languages such as Russian, English, French, Spanish, and Portuguese.

Use Cases

Train a model to classify document orientation based on image content.
Evaluate model performance on detecting the number of text columns in a document.
Benchmark document layout analysis algorithms across multiple document types.
Develop preprocessing pipelines for multilingual document digitization.

Strengths

Dataset is designed to represent a variety of document types, including scientific papers, legal acts, reports, and tables.
Includes multilingual content, covering languages such as Russian, English, French, Spanish, and Portuguese.

Limitations

Description metadata is limited; actual data quality requires manual inspection after download.
Column-level documentation is absent; field semantics must be inferred after download.
Row count is unknown, which may limit suitability assessment.

Provenance

Source: huggingface
Freshness: Last updated 2024-08-02 11:22:19; freshness should be verified.

Image Document Orientation Document Analysis Computer Vision Text Columns Multilingual Text

Related Datasets

Quality Score

D35

Description

Source

Reputation

Quality Score

D35

Description

Source

Reputation

Access

Community

6 downloads

2 likes

0 views

Dataset Info

Author: dedoc
Created: Jul 30, 2024
Updated: Aug 2, 2024
Last synced: May 6, 2026

Access

Community

6 downloads

2 likes

0 views

Dataset Info

Author: dedoc
Created: Jul 30, 2024
Updated: Aug 2, 2024
Last synced: May 6, 2026

Orientation Columns Dataset: Multilingual Document Images for Layout Analysis

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info