SKT Omni Corpus: A Large-Scale Multilingual Text Collection for LLM Training

Name: SKT Omni Corpus: A Large-Scale Multilingual Text Collection for LLM Training
Creator: SKT-NRS
Published: 2026-03-23T05:42:31
Keywords: Indigenous Languages, Text, Multilingual, Ai Development, Llm Training, Natural Language Processing, Text Corpus

by SKT-NRSUpdated 1mo ago

Available on 1 platform

Sign in to view source links and access this dataset

Description

A large-scale text corpus, likely containing trillions of tokens, built by SKT AI Labs as part of Project Surya. The dataset is intended to serve as a sovereign data foundation for indigenous large language model development in India. The dataset page indicates it is on a building stage with a target size of 8TB.

Use Cases

Pre-training large language models based on the described trillions of tokens of text data.
Developing or benchmarking multilingual NLP models based on the corpus's likely multilingual content.
Researching data sovereignty and indigenous AI development based on the stated project goals.

Strengths

Targets a very large scale of 8TB, suggesting substantial data volume.
Explicitly designed for sovereign AI and indigenous LLM development, providing a specific use-case focus.

Limitations

Description metadata is limited; actual data quality, content, and structure require manual inspection after download.
Column-level documentation is absent; field semantics must be inferred after download.
The dataset page states it is 'ON BULIDING STAGE', indicating it may be incomplete or unstable.

Provenance

Source: SKT AI Labs (SKT-NRS on Hugging Face).
Freshness: Last updated 2026-05-19 10:37:36; freshness should be verified.
Geography: Project focus is on India, but specific geographic coverage of the data is unknown.

License is unknown, which restricts clarity on permissible use.

Text Multilingual Indigenous Languages Ai Development Llm Training Natural Language Processing Text Corpus

Related Datasets

Quality Score

C44

Description

58

Source

36

Reputation

46

Access

22

Community

42 downloads

10 likes

0 views

Dataset Info

Author: SKT-NRS
Created: Mar 23, 2026
Updated: May 19, 2026
Last synced: Jul 1, 2026

Access

22

Community

42 downloads

10 likes

0 views

Dataset Info

Author: SKT-NRS
Created: Mar 23, 2026
Updated: May 19, 2026
Last synced: Jul 1, 2026

SKT Omni Corpus: A Large-Scale Multilingual Text Collection for LLM Training

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info