DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

SocratDataset: 6,803 Chinese Elementary Science Tutoring Dialogues | DataSalon

Home Computer VisionSocratDataset: 6,803 Chinese Elementary Science Tutoring Dialogues

Computer Vision

SocratDataset: 6,803 Chinese Elementary Science Tutoring Dialogues

Name: SocratDataset: 6,803 Chinese Elementary Science Tutoring Dialogues
Creator: ulises-c
Published: 2026-04-28T01:50:42
Keywords: Science Tutoring, Question Answering, Education, Text, Chinese Language, Philosophy, Natural Language Processing, Socratic Dialogue

by ulises-c·Updated 1mo ago

Available on 1 platform

Description

6,803 multi-turn Socratic dialogues covering elementary science topics for grades 1–6. This dataset was used to train SocratTeachLLM and published in the KELE paper (EMNLP 2025 Findings). An English translation is available as ulises-c/SocratDataset-EN.

Use Cases

Training conversational AI tutors based on Socratic dialogue structure
Benchmarking question-answering models on elementary science topics
Analyzing pedagogical patterns in multi-turn tutoring dialogues
Developing cross-lingual NLP models using the available English translation

Strengths

Contains 6,803 dialogues, providing a substantial corpus for training
Focuses on a specific educational domain: elementary science for grades 1–6
Follows a structured pedagogical framework (SocRule)

Limitations

Column-level documentation is absent; field semantics must be inferred after download
Row count is known, but other metadata like file formats and license are unknown
Data may reflect geographic and educational bias inherent to its Chinese elementary school source

Provenance

Source: huggingface
Collection Method: Original Chinese dataset used to train SocratTeachLLM, as published in the KELE paper.
Freshness: Last updated 2026-05-04 07:44:39
Geography: China (based on the language and educational context)

Text Science Tutoring Question Answering Education Chinese Language Philosophy Natural Language Processing Socratic Dialogue

Related Datasets

Quality Score

D37

Description

Source

Reputation

Quality Score

D37

Description

Source

Reputation

Access

Community

68 downloads

1 likes

0 views

Dataset Info

Author: ulises-c
Created: Apr 28, 2026
Updated: May 4, 2026
Last synced: May 6, 2026

Access

Community

68 downloads

1 likes

0 views

Dataset Info

Author: ulises-c
Created: Apr 28, 2026
Updated: May 4, 2026
Last synced: May 6, 2026

SocratDataset: 6,803 Chinese Elementary Science Tutoring Dialogues

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info