DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

ImgCode 8.6M: Multimodal Math Problem Images and Code | DataSalon

Home Multimodal & LLMImgCode 8.6M: Multimodal Math Problem Images and Code

Multimodal & LLM

ImgCode 8.6M: Multimodal Math Problem Images and Code

Name: ImgCode 8.6M: Multimodal Math Problem Images and Code
Creator: MathLLMs
Published: 2025-07-03T15:11:14
Keywords: Task Categoriesimage Text To Text, Task Categoriestext Generation, Librarypolars, Task Categoriesimage To Text, Tables, Size Categories1 Mn10 M, Languageen, Task Categoriesvisual Question Answering, Arxiv250510557, Modalitytext, Librarymlcroissant, Modalityimage, Librarydatasets, Librarypandas, Computer Vision, Parquet, Charts, Regionus, Llm Training, Geometry, Image To Code, Licenseapache 20, Diagrams, Visual Question Answering, Multimodal Math, Multimodal

by MathLLMs·Updated 9mo ago

Available on 1 platform

Description

MathCoder-VL is a series of open-source large multimodal models tailored for general math problem-solving. The dataset likely contains 8.6 million multimodal examples pairing images with code, supporting the development of models like FigCodifier-8B. It was created by MathLLMs and updated on October 11, 2025.

Use Cases

Training image-to-code models based on multimodal examples
Benchmarking multimodal mathematical reasoning capabilities
Developing visual question answering systems for math problems
Fine-tuning large multimodal models for specialized math tasks

Strengths

Dataset name suggests a scale of 8.6 million examples
Supports the development of specific models like FigCodifier-8B and MathCoder-VL-2B
Last updated on October 11, 2025

Limitations

Column-level documentation is absent; field semantics must be inferred after download
Row count is unknown, which may limit suitability assessment

Provenance

Source: MathLLMs
Freshness: Last updated 2025-10-11 06:03:09

Multimodal Parquet Task Categoriesimage Text To Text Task Categoriestext Generation Librarypolars Task Categoriesimage To Text Tables Size Categories1 Mn10 M Languageen Task Categoriesvisual Question Answering Arxiv250510557 Modalitytext Librarymlcroissant Modalityimage Librarydatasets Librarypandas Computer Vision Charts Regionus Llm Training Geometry Image To Code Licenseapache 20 Diagrams Visual Question Answering Multimodal Math

Related Datasets

Quality Score

D38

Description

Source

Reputation

Quality Score

D38

Description

Source

Reputation

Access

Community

91 downloads

15 likes

0 views

Dataset Info

Author: MathLLMs
Created: Jul 3, 2025
Updated: Oct 11, 2025
Last synced: Jul 13, 2026

Access

Community

91 downloads

15 likes

0 views

Dataset Info

Author: MathLLMs
Created: Jul 3, 2025
Updated: Oct 11, 2025
Last synced: Jul 13, 2026

ImgCode 8.6M: Multimodal Math Problem Images and Code

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info