2021 Punctuation Restoration

Name: 2021 Punctuation Restoration
Creator: clarin-pl
Published: 2022-03-02T23:29:22
Keywords: Language Creatorscrowdsourced, Size Categoriesn1 K, Arxiv200800702, Annotations Creatorscrowdsourced, Regionus, Task Categoriesautomatic Speech Recognition, Languagepl, Multilingualitymonolingual, Arxiv200400248

by clarin-plUpdated 3y ago

Available on 1 platform

Sign in to view source links and access this dataset

Description

2021 collection of Polish language text samples categorized for punctuation restoration tasks within Automatic Speech Recognition (ASR) workflows. The dataset provides unpunctuated transcriptions paired with their punctuated versions to facilitate the training of sequence labeling models.

Use Cases

Train a sequence labeling model to predict punctuation marks for unpunctuated Polish text.
Develop ASR post-processing pipelines to improve the readability of raw speech transcripts.
Fine-tune transformer models to handle Polish-specific syntactic structures for punctuation recovery.

Strengths

Focuses exclusively on the Polish language and its unique punctuation requirements.
Optimized for the output of Automatic Speech Recognition (ASR) systems.
Includes text data from 2021, reflecting contemporary language usage.

Language Creatorscrowdsourced Size Categoriesn1 K Arxiv200800702 Annotations Creatorscrowdsourced Regionus Task Categoriesautomatic Speech Recognition Languagepl Multilingualitymonolingual Arxiv200400248

Related Datasets

Quality Score

D26

Description

21

Source

36

Reputation

17

Access

22

Community

40 downloads

1 likes

0 views

Dataset Info

Author: clarin-pl
Created: Mar 2, 2022
Updated: Aug 29, 2022
Last synced: Apr 29, 2026

Access

22

Community

40 downloads

1 likes

0 views

Dataset Info

Author: clarin-pl
Created: Mar 2, 2022
Updated: Aug 29, 2022
Last synced: Apr 29, 2026

2021 Punctuation Restoration

Description

Use Cases

Strengths

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info