DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Mulberry-SFT: Supervised Fine-Tuning Dataset for Mulberry Models | DataSalon

Home Manufacturing & IndustrialMulberry-SFT: Supervised Fine-Tuning Dataset for Mulberry Models

Manufacturing & Industrial

Mulberry-SFT: Supervised Fine-Tuning Dataset for Mulberry Models

Name: Mulberry-SFT: Supervised Fine-Tuning Dataset for Mulberry Models
Creator: HuanjinYao
Published: 2025-01-19T08:13:30
Keywords: Task Categoriesimage To Text, Languageen, Task Categoriesvisual Question Answering, Librarywebdataset, Modalitytext, Size Categories100 Kn1 M, Librarymlcroissant, Modalityimage, WEBDATASET, Librarydatasets, Mllm, Arxiv241218319, Regionus, Licenseapache 20

by HuanjinYao·Updated 1y ago

Available on 1 platform

Description

1 dataset file named mulberry_sft.json containing conversational data for fine-tuning the Mulberry model series. The data follows the ShareGPT format and is structured with a messages column to support multi-turn dialogue training via the LLaMA-Factory framework.

Use Cases

Fine-tune large language models using the messages column to improve conversational instruction following.
Train conversational agents by mapping the sharegpt formatted data to instruction-tuning pipelines.
Benchmark model response generation against the provided dialogue sequences in the messages field.
Standardize custom datasets for LLaMA-Factory by using the provided dataset_info.json configuration template.

Strengths

Formatted in the sharegpt style for multi-turn conversational modeling.
Contains a messages column representing dialogue history between users and assistants.
Includes configuration metadata for direct use in LLaMA-Factory's dataset_info.json.
Provides specific training instructions and configs for the Mulberry model series.

WEBDATASET Task Categoriesimage To Text Languageen Task Categoriesvisual Question Answering Librarywebdataset Modalitytext Size Categories100 Kn1 M Librarymlcroissant Modalityimage Librarydatasets Mllm Arxiv241218319 Regionus Licenseapache 20

Related Datasets

Quality Score

D35

Description

Source

Reputation

Quality Score

D35

Description

Source

Reputation

Access

Community

176 downloads

11 likes

0 views

Dataset Info

Author: HuanjinYao
Created: Jan 19, 2025
Updated: Jan 26, 2025

Access

Community

176 downloads

11 likes

0 views

Dataset Info

Author: HuanjinYao
Created: Jan 19, 2025
Updated: Jan 26, 2025

Mulberry-SFT: Supervised Fine-Tuning Dataset for Mulberry Models

Description

Use Cases

Strengths

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info