Shuu12121/CodeSearch-ModernBERT-Crow-Plus-1.0 🐦‍⬛

このモデルは、Shuu12121/CodeModernBERT-Crow をベースにした Sentence Transformer モデルであり、PHPとGoのクリーン版データセットを新たに加えることで、さらに高精度な多言語コード検索を実現しています。
本バージョン(1.0)では、前バージョン (Crow-Plus) に対して若干の性能向上が確認されています。

This is an enhanced version of CodeSearch-ModernBERT-Crow-Plus, based on CodeModernBERT-Crow, incorporating clean PHP and Go datasets for improved multilingual code search performance.

開発者 (Developer): Shuu12121
ベースモデル (Base Model): Shuu12121/CodeModernBERT-Crow
ライセンス (License): Apache-2.0


📊 評価 / Evaluation

本モデルは、内部評価として MTEB (Massive Text Embedding Benchmark) 相当の環境でテストされ、
前バージョンよりもさらに高い精度を達成しています。

CodeSearchNetRetrieval (標準版) 成績

メトリクス スコア
nDCG@10 0.8946
Recall@10 0.9597
MAP@10 0.8731
MRR@10 0.8731

詳細スコア(抜粋):

  • ndcg_at_1: 0.8175
  • ndcg_at_3: 0.8810
  • ndcg_at_5: 0.8888
  • recall_at_20: 0.9672
  • recall_at_100: 0.9807
  • recall_at_1000: 1.0

前バージョン (Crow-Plus) 比較で nDCG@10 がわずかに向上(+0.17pt)しており、より安定した高リコールが得られています。


COIRCodeSearchNetRetrieval 成績

メトリクス スコア
nDCG@10 0.8001
Recall@10 0.8806
MAP@10 0.7742
MRR@10 0.7742

詳細スコア(抜粋):

  • ndcg_at_1: 0.7168
  • ndcg_at_3: 0.7775
  • ndcg_at_5: 0.7896
  • recall_at_20: 0.9057
  • recall_at_100: 0.9495
  • recall_at_1000: 0.9782

こちらも、従来版より全体的に Recall 向上がみられ、特に Top-20、Top-100段階での検索精度に安定性が出ています。


モデル変更点 / Improvements

項目 Crow-Plus Crow-Plus-1.0
学習データ 従来データセット PHP・Goのクリーン版追加
COIR nDCG@10 0.7988 0.8001 (+0.13pt)
CodeSearchNet nDCG@10 0.8930 0.8946 (+0.16pt)
Recall@10 0.9610 0.9597 (ほぼ同等)
特徴 標準構成 データ品質向上による安定化
  • MTEB公式には提出していないため、非公式記録です。

使い方 / How to Use

従来と同様に、sentence-transformersライブラリを用いて簡単に利用可能です。 (※詳しい使用例はベース版に準じますので省略)

from sentence_transformers import SentenceTransformer
model = SentenceTransformer("Shuu12121/CodeSearch-ModernBERT-Crow-Plus-1.0")

注意事項 / Limitations

  • 関数レベルのコード検索に最適化されており、巨大なファイルや不完全コードには注意が必要です。
  • クリーン版追加による改善はあくまで「一般傾向」であり、特定ドメインにおいては追加チューニングが効果的な場合もあります。
  • 本バージョンの結果はMTEB公式には提出されていないため、あくまで参考記録である点にご留意ください。

連絡先 / Contact

ご質問・フィードバックは、開発者 Shuu12121 までご連絡ください。
📧 [email protected]

Downloads last month
0
Safetensors
Model size
152M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Shuu12121/CodeSearch-ModernBERT-Crow-Plus-1.0

Finetuned
(3)
this model

Datasets used to train Shuu12121/CodeSearch-ModernBERT-Crow-Plus-1.0