DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

M3It: 1M-10M Bi-lingual Multi-modal Instructions for Vision-Language Models | DataSalon

Home Multimodal & LLMM3It: 1M-10M Bi-lingual Multi-modal Instructions for Vision-Language Models

Multimodal & LLM

M3It: 1M-10M Bi-lingual Multi-modal Instructions for Vision-Language Models

Name: M3It: 1M-10M Bi-lingual Multi-modal Instructions for Vision-Language Models
Creator: MMInstruction
Published: 2023-05-04T01:43:31
Keywords: Licenseother, Languagezh, Task Categoriesimage To Text, Size Categories1 Mn10 M, Languageen, Task Categoriesimage Classification, Regionus, Arxiv230604387

by MMInstruction·Updated 2y ago

Available on 1 platform

Description

M3It provides between 1 million and 10 million bi-lingual instruction records for vision-language models, released by MMInstruction in 2023. It covers image classification and image-to-text tasks in both English and Chinese.

Use Cases

Instruction tuning for vision-language models using image-to-text prompts
Zero-shot image classification via natural language instructions
Cross-lingual multi-modal model evaluation in English and Chinese

Strengths

Scale of 1M to 10M records
Bi-lingual support for English and Chinese
Multi-task coverage including image classification and image-to-text

Limitations

License is categorized as 'other', requiring manual verification of usage rights
Internal schema and column names are not documented in the provided metadata

Provenance

Source: MMInstruction (Arxiv 2306.04387)
Collection Method: Instruction-based formatting of vision-language data
Freshness: Last updated November 2023
Geography: US

Refer to Arxiv paper 2306.04387 for detailed task descriptions and methodology; the license is listed as 'other' and may contain specific usage restrictions.

Licenseother Languagezh Task Categoriesimage To Text Size Categories1 Mn10 M Languageen Task Categoriesimage Classification Regionus Arxiv230604387

Related Datasets

Quality Score

D27

Description

Source

Reputation

Quality Score

D27

Description

Source

Reputation

Access

Community

32.4K downloads

136 likes

0 views

Dataset Info

Author: MMInstruction
Created: May 4, 2023
Updated: Nov 24, 2023
Last synced: Apr 28, 2026

Access

Community

32.4K downloads

136 likes

0 views

Dataset Info

Author: MMInstruction
Created: May 4, 2023
Updated: Nov 24, 2023
Last synced: Apr 28, 2026

M3It: 1M-10M Bi-lingual Multi-modal Instructions for Vision-Language Models

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info