DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Traditional Chinese Medicine Multimodal Pre-training Corpus | DataSalon

Home Multimodal & LLMTraditional Chinese Medicine Multimodal Pre-training Corpus

Multimodal & LLM

Traditional Chinese Medicine Multimodal Pre-training Corpus

Name: Traditional Chinese Medicine Multimodal Pre-training Corpus
Creator: FreedomIntelligence
Published: 2025-08-22T02:57:56
Keywords: Medical Imaging, Traditional Chinese Medicine, Computer Vision, Medical Text, Natural Language Processing, Multimodal

by FreedomIntelligence·Updated 10mo ago

Available on 1 platform

Description

ShizhenGPT's pre-training dataset contains over 5 billion tokens of Traditional Chinese Medicine text from websites and books, along with a large-scale image-text dataset. The dataset was created by FreedomIntelligence and was last updated in September 2025.

Use Cases

Pre-training a multimodal LLM on TCM text tokens and image-text pairs.
Fine-tuning models for TCM-specific tasks using the corpus of over 5B tokens.
Benchmarking model performance on TCM knowledge using the provided text and image data.

Strengths

Corpus contains over 5 billion tokens of TCM text.
Includes a large-scale TCM image-text pre-training dataset.

Limitations

Specific row counts, column names, and file formats are not provided.
Potential bias towards the specific TCM websites and books used as sources.

Provenance

Source: FreedomIntelligence
Collection Method: Collected from TCM-related websites and books.
Freshness: Last updated September 2025.

Full dataset description and details are only available on the external Hugging Face dataset page.

Multimodal Medical Imaging Traditional Chinese Medicine Computer Vision Medical Text Natural Language Processing

Related Datasets

Quality Score

D39

Description

Source

Reputation

Quality Score

D39

Description

Source

Reputation

Access

Community

555 downloads

8 likes

0 views

Dataset Info

Author: FreedomIntelligence
Created: Aug 22, 2025
Updated: Sep 8, 2025

Access

Community

555 downloads

8 likes

0 views

Dataset Info

Author: FreedomIntelligence
Created: Aug 22, 2025
Updated: Sep 8, 2025

Traditional Chinese Medicine Multimodal Pre-training Corpus

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info