DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Code X Glue Cc Code Completion Token | DataSalon

Home Software Engineering & SecurityCode X Glue Cc Code Completion Token

Software Engineering & Security

Code X Glue Cc Code Completion Token

Name: Code X Glue Cc Code Completion Token
Creator: google
Published: 2022-03-02T23:29:22
Keywords: Source Datasetsoriginal, Languagecode, Task Categoriestext Generation, Librarypolars, Librarydask, Language Creatorsfound, Task Idsmasked Language Modeling, Modalitytext, Size Categories100 Kn1 M, Licensec Uda, Librarymlcroissant, Librarydatasets, Task Categoriesfill Mask, Parquet, Task Idslanguage Modeling, Annotations Creatorsfound, Regionus, Multilingualitymonolingual

by google·Updated 2y ago

Available on 1 platform

Description

Encompassing programming language tokens curated for the CodeXGLUE benchmark to support the task of next-token prediction. It provides structured code sequences designed to evaluate model performance using token-level accuracy metrics.

Use Cases

Train a model to predict the next code token given a context of previous tokens.
Benchmark the token-level accuracy of code generation models.
Implement code completion features for software development environments using the token sequences.

Strengths

Includes tokenized source code sequences for next-token prediction tasks.
Uses token-level accuracy as the standardized evaluation metric for model performance.
Part of the Microsoft CodeXGLUE collection, a benchmark for code understanding and generation.

Parquet Source Datasetsoriginal Languagecode Task Categoriestext Generation Librarypolars Librarydask Language Creatorsfound Task Idsmasked Language Modeling Modalitytext Size Categories100 Kn1 M Licensec Uda Librarymlcroissant Librarydatasets Task Categoriesfill Mask Task Idslanguage Modeling Annotations Creatorsfound Regionus Multilingualitymonolingual

Related Datasets

Quality Score

D35

Description

Source

Reputation

Quality Score

D35

Description

Source

Reputation

Access

Community

576 downloads

9 likes

0 views

Dataset Info

Author: google
Created: Mar 2, 2022
Updated: Jan 24, 2024
Last synced: Jun 8, 2026

Access

Community

576 downloads

9 likes

0 views

Dataset Info

Author: google
Created: Mar 2, 2022
Updated: Jan 24, 2024
Last synced: Jun 8, 2026

Code X Glue Cc Code Completion Token

Description

Use Cases

Strengths

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info