DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

CC-OCR V2: Benchmark for Multimodal Document Processing | DataSalon

Home Computer VisionCC-OCR V2: Benchmark for Multimodal Document Processing

Computer Vision

CC-OCR V2: Benchmark for Multimodal Document Processing

Name: CC-OCR V2: Benchmark for Multimodal Document Processing
Creator: Eioss
Published: 2026-05-07T03:01:25
Keywords: Benchmark, Optical Character Recognition, Document Processing, Enterprise Documents, Multimodal Benchmark, Multimodal

by Eioss·Updated 1mo ago

Available on 1 platform

Description

7,093 high-difficulty samples form a benchmark for large multimodal models focused on real-world document processing. It covers 5 major OCR-centric tracks and emphasizes practical enterprise tasks and underrepresented corner cases. The dataset was created by Eioss and was last updated on Hugging Face in May 2026.

Use Cases

Benchmarking OCR model performance on high-difficulty samples.
Training models for enterprise document processing tasks.
Evaluating model robustness on underrepresented corner cases.
Developing multimodal systems for real-world document analysis.

Strengths

7,093 samples provide a substantial testbed for evaluation.
Focus on high-difficulty and corner cases addresses a gap in prior benchmarks.
Covers 5 distinct OCR-centric tracks for multi-faceted assessment.

Limitations

Column-level documentation is absent; field semantics must be inferred after download.
Row count is unknown, which may limit suitability assessment.
Description metadata is limited; actual data quality requires manual inspection after download.

Provenance

Source: Eioss via Hugging Face.
Freshness: Last updated 2026-05-08 18:23:36.

Multimodal Benchmark Optical Character Recognition Document Processing Enterprise Documents Multimodal Benchmark

Related Datasets

Quality Score

D38

Description

Source

Reputation

Quality Score

D38

Description

Source

Reputation

Access

Community

70 downloads

1 likes

0 views

Dataset Info

Author: Eioss
Created: May 7, 2026
Updated: May 8, 2026
Last synced: May 19, 2026

Access

Community

70 downloads

1 likes

0 views

Dataset Info

Author: Eioss
Created: May 7, 2026
Updated: May 8, 2026
Last synced: May 19, 2026

CC-OCR V2: Benchmark for Multimodal Document Processing

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info