xiaobu-embedding-v2

基于piccolo-embedding[1]，主要改动如下：

合成数据替换为xiaobu-embedding-v1[2]所积累数据
在circle_loss[3]视角下统一处理CMTEB的6类问题，最大优势是可充分利用原始数据集中的多个正例，其次是可一定程度上避免考虑多个不同loss之间的权重问题

Usage (Sentence-Transformers)

pip install -U sentence-transformers

相似度计算：

from sentence_transformers import SentenceTransformer
sentences_1 = ["样例数据-1", "样例数据-2"]
sentences_2 = ["样例数据-3", "样例数据-4"]
model = SentenceTransformer('lier007/xiaobu-embedding-v2')
embeddings_1 = model.encode(sentences_1, normalize_embeddings=True)
embeddings_2 = model.encode(sentences_2, normalize_embeddings=True)
similarity = embeddings_1 @ embeddings_2.T
print(similarity)

Reference

Downloads last month: 446

Safetensors

Model size

0.3B params

Tensor type

F32

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 1 Ask for provider support

Model tree for lier007/xiaobu-embedding-v2

Quantizations

3 models

Spaces using lier007/xiaobu-embedding-v2 20

Paper for lier007/xiaobu-embedding-v2

Circle Loss: A Unified Perspective of Pair Similarity Optimization

Paper • 2002.10857 • Published Feb 25, 2020

Evaluation results

cos_sim_pearson on MTEB AFQMC
validation set self-reported

56.919
cos_sim_spearman on MTEB AFQMC
validation set self-reported

60.956
euclidean_pearson on MTEB AFQMC
validation set self-reported

59.738
euclidean_spearman on MTEB AFQMC
validation set self-reported

60.957
manhattan_pearson on MTEB AFQMC
validation set self-reported

59.740
manhattan_spearman on MTEB AFQMC
validation set self-reported

60.952
cos_sim_pearson on MTEB ATEC
test set self-reported

56.794
cos_sim_spearman on MTEB ATEC
test set self-reported

58.810