DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

OmniDoc-TokenBench: A Benchmark for VAE Reconstruction on Text-Rich Document Images | DataSalon

Home Reinforcement LearningOmniDoc-TokenBench: A Benchmark for VAE Reconstruction on Text-Rich Document Images

Reinforcement Learning

OmniDoc-TokenBench: A Benchmark for VAE Reconstruction on Text-Rich Document Images

Name: OmniDoc-TokenBench: A Benchmark for VAE Reconstruction on Text-Rich Document Images
Creator: alibabagroup
Published: 2026-05-12T12:44:31
Keywords: Image, Vae Benchmark, Benchmark, Document Images, Computer Vision, Finance, Multilingual Text, Multimodal

by alibabagroup·Updated 1mo ago

Available on 1 platform

Description

A curated benchmark containing approximately 3,000 samples designed to evaluate VAE reconstruction on text-rich document images. The dataset spans nine categories including books, slides, and academic papers in both English and Chinese. It was created by alibabagroup and includes an evaluation toolkit supporting metrics like PSNR, SSIM, LPIPS, and FID.

Use Cases

Benchmarking VAE reconstruction quality based on the described metrics like PSNR and SSIM
Training models for document image generation based on the nine described categories
Evaluating model performance on multilingual text-rich images based on the English and Chinese content

Strengths

Contains approximately 3,000 samples across nine distinct document categories
Includes both English and Chinese language content, supporting multilingual evaluation
Provides an evaluation toolkit supporting multiple established metrics like PSNR, SSIM, LPIPS, and FID

Limitations

Column-level documentation is absent; field semantics must be inferred after download
Row count is unknown, which may limit suitability assessment

Provenance

Source: alibabagroup
Freshness: Last updated 2026-05-14 03:16:55

License is unknown; users should verify terms of use before downloading.

Image Multimodal Vae Benchmark Benchmark Document Images Computer Vision Finance Multilingual Text

Related Datasets

Quality Score

D39

Description

Source

Reputation

Quality Score

D39

Description

Source

Reputation

Access

Community

4 downloads

3 likes

0 views

Dataset Info

Author: alibabagroup
Created: May 12, 2026
Updated: May 14, 2026
Last synced: May 25, 2026

Access

Community

4 downloads

3 likes

0 views

Dataset Info

Author: alibabagroup
Created: May 12, 2026
Updated: May 14, 2026
Last synced: May 25, 2026

OmniDoc-TokenBench: A Benchmark for VAE Reconstruction on Text-Rich Document Images

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info