DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

SWE-bench Multimodal: 617 Real-World GitHub Issue Resolution Tasks | DataSalon

Home Multimodal & LLMSWE-bench Multimodal: 617 Real-World GitHub Issue Resolution Tasks

Multimodal & LLM

SWE-bench Multimodal: 617 Real-World GitHub Issue Resolution Tasks

Name: SWE-bench Multimodal: 617 Real-World GitHub Issue Resolution Tasks
Creator: SWE-bench
Published: 2025-04-29T20:25:27
Keywords: Github Issues, Ai Evaluation, Software Engineering, Benchmark, Multimodal Benchmark, Multimodal

by SWE-bench·Updated 1y ago

Available on 1 platform

Description

SWE-bench Multimodal provides 617 task instances for evaluating AI systems on real-world software engineering problems. The dataset, created by SWE-bench, was last updated on April 29, 2025. It is designed to test the ability of language models to resolve actual GitHub issues.

Use Cases

Benchmarking AI code generation systems based on real-world GitHub issue resolution tasks.
Evaluating multimodal AI reasoning capabilities based on the combination of code and issue descriptions.
Training models for automated software maintenance based on the dataset's task instances.

Strengths

Contains 617 distinct task instances for evaluation.
Focuses on real-world GitHub issues, providing practical relevance.

Limitations

Column-level documentation is absent; field semantics must be inferred after download.
Row count is unknown, which may limit suitability assessment.

Provenance

Source: SWE-bench
Collection Method: Likely gathered from real GitHub issues.
Time Range: null
Freshness: Last updated 2025-04-29 20:50:23; freshness should be verified.
Geography: null

null

Multimodal Github Issues Ai Evaluation Software Engineering Benchmark Multimodal Benchmark

Related Datasets

Quality Score

D34

Description

Source

Reputation

Quality Score

D34

Description

Source

Reputation

Access

Community

456 downloads

9 likes

0 views

Dataset Info

Author: SWE-bench
Created: Apr 29, 2025
Updated: Apr 29, 2025
Last synced: Jul 24, 2026

Access

Community

456 downloads

9 likes

0 views

Dataset Info

Author: SWE-bench
Created: Apr 29, 2025
Updated: Apr 29, 2025
Last synced: Jul 24, 2026

SWE-bench Multimodal: 617 Real-World GitHub Issue Resolution Tasks

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info