Description

F2LLM-v2 is a dataset for training and evaluating multilingual text embedding models, created by researchers Ziyin Zhang, Zihan Liao, Hang Yu, Peng Di, and Rui Wang. The dataset page includes a citation note for a 2026 arXiv paper and a caution about potential contamination with MTEB evaluation splits. It was last updated on Hugging Face in June 2026.

Use Cases

Benchmarking multilingual sentence similarity models based on the described embedding focus.
Training text retrieval systems using embeddings likely optimized for cross-lingual search.
Fine-tuning feature extraction models for downstream classification tasks across languages.
Evaluating embedding performance on languages including Arabic, Chinese, English, Spanish, German, and Vietnamese as indicated by platform tags.

Strengths

Focuses on multiple languages, including Arabic, Chinese, English, Spanish, German, and Vietnamese as per platform tags.
Associated with a 2026 arXiv preprint, suggesting recent research activity.
Explicitly addresses dataset contamination concerns for MTEB evaluation, indicating methodological awareness.

Limitations

Description metadata is limited; actual data quality requires manual inspection after download.
Column-level documentation is absent; field semantics must be inferred after download.
Row count and file size are unknown, which may limit suitability assessment.

Provenance

Source: codefuse-ai on Hugging Face, associated with academic researchers.
Freshness: Last updated 2026-06-09 08:08:55; freshness should be verified.

License is unknown; terms of use must be verified before application.

Text Multilingual Languagear Languagezh Text Retrieval Task Categoriessentence Similarity Sentence Similarity Languageen Task Categoriestext Retrieval Feature Extraction Benchmark Task Categoriesfeature Extraction Multilingual Nlp Task Categoriestext Classification Text Embeddings Languagees Languagede Languagevi

F2LLM-v2: Multilingual Text Embeddings for NLP Tasks

Description

Use Cases

Strengths

Limitations

Provenance

Related Topics

Related Datasets

Quality Score

Community

Dataset Info

Community

Dataset Info