DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

GlotOCR Bench V1.0 Results: Multilingual OCR Model Outputs on 16,375 Images | DataSalon

Home Computer VisionGlotOCR Bench V1.0 Results: Multilingual OCR Model Outputs on 16,375 Images

Computer Vision

GlotOCR Bench V1.0 Results: Multilingual OCR Model Outputs on 16,375 Images

Name: GlotOCR Bench V1.0 Results: Multilingual OCR Model Outputs on 16,375 Images
Creator: cis-lmu
Published: 2026-03-09T15:51:58
Keywords: Optical Character Recognition, Benchmark Results, Computer Vision, Tabular, Multilingual

by cis-lmu·Updated 2mo ago

Available on 1 platform

Description

Results from multiple multilingual OCR models applied to the test split of the GlotOCR-bench dataset, containing 16,375 samples. The dataset was created by cis-lmu and last updated on April 12, 2026. It includes outputs from models such as rednote-hilab/dots.ocr, zai-org/GLM-OCR, and deepseek-ai/DeepSeek-OCR-2.

Use Cases

Benchmarking OCR model accuracy based on outputs from multiple models mentioned in the description
Analyzing error patterns in multilingual text recognition based on the provided model results
Training or fine-tuning OCR models using a corpus of pre-processed image-text pairs
Studying the comparative performance of different OCR architectures on a standardized test set

Strengths

Contains 16,375 samples for model comparison
Includes outputs from several named, contemporary OCR models

Limitations

Column-level documentation is absent; field semantics must be inferred after download
Row count is unknown, which may limit suitability assessment

Provenance

Source: cis-lmu/GlotOCR-bench
Collection Method: OCR results generated by applying multiple models to images from a source benchmark dataset.
Time Range: null
Freshness: Last updated 2026-04-12 16:47:32
Geography: null

null

Tabular Multilingual Optical Character Recognition Benchmark Results Computer Vision

Related Datasets

Quality Score

D37

Description

Source

Reputation

Quality Score

D37

Description

Source

Reputation

Access

Community

33 downloads

1 likes

0 views

Dataset Info

Author: cis-lmu
Created: Mar 9, 2026
Updated: Apr 12, 2026
Last synced: Apr 27, 2026

Access

Community

33 downloads

1 likes

0 views

Dataset Info

Author: cis-lmu
Created: Mar 9, 2026
Updated: Apr 12, 2026
Last synced: Apr 27, 2026

GlotOCR Bench V1.0 Results: Multilingual OCR Model Outputs on 16,375 Images

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info