Update README.md

Files changed (1) hide show

README.md CHANGED Viewed

@@ -43,7 +43,7 @@ A custom bilingual (Azerbaijani-English) SentencePiece Unigram tokenizer with a
 *   **Base Architecture:** `sentence-transformers/all-MiniLM-L6-v2` (6 layers, 384 hidden dimension, 12 attention heads)
 *   **Parameters:** ~30.2 Million (after vocabulary expansion)
-*   **Tokenizer:** Custom bilingual (AZ-EN) SentencePiece Unigram, vocab size ~50k. Available at [LocalDoc/az-en-unigram-tokenizer-50k](https://huggingface.co/LocalDoc/az-en-unigram-tokenizer-50k).
 *   **Output Dimension:** 384
 *   **Max Sequence Length:** 512 tokens
 *   **Training:** Fine-tuned for 3 epochs on a parallel corpus of ~4.14 million Azerbaijani-English sentence pairs using MSELoss for knowledge distillation from `BAAI/bge-small-en-v1.5`.

 *   **Base Architecture:** `sentence-transformers/all-MiniLM-L6-v2` (6 layers, 384 hidden dimension, 12 attention heads)
 *   **Parameters:** ~30.2 Million (after vocabulary expansion)
+*   **Tokenizer:** Custom bilingual (AZ-EN) SentencePiece Unigram, vocab size ~50k. Available at [LocalDoc/az-en-unigram-tokenizer-50k](https://huggingface.co/LocalDoc/az-en-unigram-tokenizer-50k). You can get train code from this repository https://github.com/vrashad/azerbaijani_tokenizer
 *   **Output Dimension:** 384
 *   **Max Sequence Length:** 512 tokens
 *   **Training:** Fine-tuned for 3 epochs on a parallel corpus of ~4.14 million Azerbaijani-English sentence pairs using MSELoss for knowledge distillation from `BAAI/bge-small-en-v1.5`.