Name: Japanese Medical VQA 12M: 12 Million Multimodal Medical Image-Text Pairs
Creator: MIL-UT
Published: 2026-03-09T02:33:10
Keywords: Librarypolars, Task Categoriesquestion Answering, Task Categoriesimage To Text, Librarydask, OPTIMIZED-PARQUET, Languageen, Size Categories10 Mn100 M, Modalitytext, Librarymlcroissant, Japanese, Vision Language, Modalityimage, Licensecc By Sa 40, Image Text, Librarydatasets, Parquet, Regionus, Languageja, Medical, Multimodal

Description

Japanese Medical VQA 12M provides 12 million multimodal records for medical visual question answering, developed by MIL-UT and released in 2026. It consists of medical images paired with English and Japanese text across five distinct data-construction stages including captions and Q&A pairs.

Use Cases

Training medical visual question answering (VQA) models using the question-answering pairs
Fine-tuning vision-language models for Japanese medical image captioning using Japanese translations of source captions
Evaluating cross-lingual medical text alignment using the Japanese translations of enriched captions

Strengths

12 million multimodal records
Bilingual support in Japanese and English
Derived from Open-PMC-18M medical source

Limitations

Potential translation artifacts from automated Japanese translation
Large dataset size requires significant storage and compute resources

Provenance

Source: MIL-UT, derived from Open-PMC-18M
Collection Method: Automated data construction including translation and enrichment of PMC medical literature
Freshness: Last updated March 2026.
Geography: Global medical literature with Japanese localization

Released under CC BY-SA 4.0 license. Available in Parquet and Webdataset formats, optimized for use with Polars, Dask, and Hugging Face Datasets libraries.

Japanese Medical VQA 12M: 12 Million Multimodal Medical Image-Text Pairs

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info