KIE-HVQA: Data for Mitigating OCR Hallucinations in Multimodal LLMs

Name: KIE-HVQA: Data for Mitigating OCR Hallucinations in Multimodal LLMs
Creator: bytedance-research
Published: 2025-08-20T08:03:52
Keywords: Document Understanding, Hallucination Mitigation, Multimodal Llm, Optical Character Recognition, Multimodal

by bytedance-researchUpdated 10mo ago

Available on 1 platform

Sign in to view source links and access this dataset

Description

KIE-HVQA is a dataset supporting research on mitigating Optical Character Recognition hallucinations in multimodal large language models. The dataset was created by bytedance-research and is associated with a paper accepted by the NeurIPS 2025 Main Conference. The data likely contains multimodal document samples for evaluating and improving OCR integration in vision-language models.

Use Cases

Benchmarking OCR hallucination detection based on multimodal document samples
Training models for improved document understanding based on integrated textual and visual data
Evaluating the robustness of multimodal LLMs based on OCR error scenarios

Strengths

Associated with a peer-reviewed paper accepted by NeurIPS 2025
Created by a research organization (bytedance-research)
Focuses on a specific, current research problem in multimodal AI

Limitations

Description metadata is limited; actual data quality requires manual inspection after download
Column-level documentation is absent; field semantics must be inferred after download
Row count and file formats are unknown, which may limit suitability assessment

Provenance

Source: bytedance-research
Collection Method: Created for the research paper 'Seeing is Believing? Mitigating OCR Hallucinations in Multimodal Large Language Models'
Time Range: null
Freshness: Last updated 2025-09-19 02:54:57
Geography: null

License is unknown; terms of use must be verified before application.

Multimodal Document Understanding Hallucination Mitigation Multimodal Llm Optical Character Recognition

Related Datasets

Quality Score

D39

Description

42

Source

36

Reputation

47

Access

26

Community

145 downloads

6 likes

0 views

Dataset Info

Author: bytedance-research
Created: Aug 20, 2025
Updated: Sep 19, 2025
Last synced: Jul 18, 2026

Access

26

Community

145 downloads

6 likes

0 views

Dataset Info

Author: bytedance-research
Created: Aug 20, 2025
Updated: Sep 19, 2025
Last synced: Jul 18, 2026

KIE-HVQA: Data for Mitigating OCR Hallucinations in Multimodal LLMs

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info