DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

GQA-ru: Russian Translation of the Visual Question Answering Dataset | DataSalon

Home Multimodal & LLMGQA-ru: Russian Translation of the Visual Question Answering Dataset

Multimodal & LLM

GQA-ru: Russian Translation of the Visual Question Answering Dataset

Name: GQA-ru: Russian Translation of the Visual Question Answering Dataset
Creator: deepvk
Published: 2024-04-23T12:17:36
Keywords: Size Categories10 Kn100 K, Librarypolars, Task Categoriesvisual Question Answering, Modalitytext, Librarymlcroissant, Modalityimage, Librarydatasets, Librarypandas, Parquet, Regionus, Languageru, Licenseapache 20

by deepvk·Updated 1y ago

Available on 1 platform

Description

27,519 images and corresponding question-answer pairs translated from the GQA train_balanced and testdev_balanced splits into Russian. The data underwent gpt-4-turbo translation followed by manual validation to correct errors and remove safety-filtered content. It is structured for use within the lmms-eval pipeline to support multimodal model benchmarking.

Use Cases

Evaluate visual reasoning of Russian-language multimodal models using the translated question and answer fields.
Fine-tune vision-language models on the 27,519 images to improve Russian-specific visual question answering.
Conduct cross-lingual performance analysis by comparing model accuracy on this Russian split versus the original English GQA.

Strengths

Contains 27,519 images in the train split translated from GQA train_balanced.
Translated via gpt-4-turbo with manual validation to filter model protection triggers and common errors.
Formatted for direct integration with the lmms-eval pipeline for multimodal evaluation.

Parquet Size Categories10 Kn100 K Librarypolars Task Categoriesvisual Question Answering Modalitytext Librarymlcroissant Modalityimage Librarydatasets Librarypandas Regionus Languageru Licenseapache 20

Related Datasets

Quality Score

D38

Description

Source

Reputation

Quality Score

D38

Description

Source

Reputation

Access

Community

56 downloads

6 likes

0 views

Dataset Info

Author: deepvk
Created: Apr 23, 2024
Updated: Aug 14, 2024
Last synced: May 6, 2026

Access

Community

56 downloads

6 likes

0 views

Dataset Info

Author: deepvk
Created: Apr 23, 2024
Updated: Aug 14, 2024
Last synced: May 6, 2026

GQA-ru: Russian Translation of the Visual Question Answering Dataset

Description

Use Cases

Strengths

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info