DataSalon

Discover quality datasets for AI training — aggregated from 40+ platforms, curated by AI.

ProductSearch Datasets Browse Topics Rankings Community API / MCP

ResourcesDocumentation Blog Changelog Status

LegalPrivacy Policy Terms of Service Cookie Policy

Tokenlearn Cornstack Queries Coderankembed V2: Code Embeddings for 6 Languages | DataSalon

Home Genomics & BioinformaticsTokenlearn Cornstack Queries Coderankembed V2: Code Embeddings for 6 Languages

Genomics & Bioinformatics

Tokenlearn Cornstack Queries Coderankembed V2: Code Embeddings for 6 Languages

Name: Tokenlearn Cornstack Queries Coderankembed V2: Code Embeddings for 6 Languages
Creator: minishlab
Published: 2026-05-05T19:32:44
Keywords: Machine Learning, Code Retrieval, Tabular, Programming Languages

by minishlab·Updated 1mo ago

Available on 1 platform

Description

600,000 code documents across six programming languages provide training targets for static embedding distillation. The dataset was created by minishlab using Tokenlearn for training Model2Vec models on code retrieval. Mean token embeddings were produced by the nomic-ai/CodeRankEmbed model.

Use Cases

Training code retrieval models based on the described mean token embeddings.
Distilling static embedding models using the provided training targets.
Benchmarking code representation models across six programming languages.
Fine-tuning embedding models for specific programming languages mentioned in the description.

Strengths

Contains 600,000 total rows of code documents.
Includes data from six distinct programming languages.
Provides 100,000 rows per language, suggesting balanced representation.

Limitations

Column-level documentation is absent; field semantics must be inferred after download.
Row count is unknown, which may limit suitability assessment.
Last updated 2026-05-06 03:41:56; freshness should be verified.

Provenance

Source: CornStack
Collection Method: Created with Tokenlearn; embeddings produced by nomic-ai/CodeRankEmbed.
Freshness: Last updated 2026-05-06 03:41:56.

License is unknown, which may restrict usage.

Tabular Machine Learning Code Retrieval Programming Languages

Related Datasets

Quality Score

C42

Description

Source

Reputation

Quality Score

C42

Description

Source

Reputation

Access

Community

8 downloads

1 likes

0 views

Dataset Info

Author: minishlab
Created: May 5, 2026
Updated: May 6, 2026
Last synced: Jun 3, 2026

Access

Community

8 downloads

1 likes

0 views

Dataset Info

Author: minishlab
Created: May 5, 2026
Updated: May 6, 2026
Last synced: Jun 3, 2026

Tokenlearn Cornstack Queries Coderankembed V2: Code Embeddings for 6 Languages

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info