johnnyboycurtis
/

ModernBERT-small-sts

@@ -108,6 +108,20 @@ model-index:
 This is a [sentence-transformers](https://www.SBERT.net) model trained on the [nli](https://huggingface.co/datasets/sentence-transformers/all-nli), [quora](https://huggingface.co/datasets/sentence-transformers/quora-duplicates), [natural_questions](https://huggingface.co/datasets/sentence-transformers/natural-questions), [stsb](https://huggingface.co/datasets/sentence-transformers/stsb), [sentence_compression](https://huggingface.co/datasets/sentence-transformers/sentence-compression), [simple_wiki](https://huggingface.co/datasets/sentence-transformers/simple-wiki), [altlex](https://huggingface.co/datasets/sentence-transformers/altlex), [coco_captions](https://huggingface.co/datasets/sentence-transformers/coco-captions), [flickr30k_captions](https://huggingface.co/datasets/sentence-transformers/flickr30k-captions), [yahoo_answers](https://huggingface.co/datasets/sentence-transformers/yahoo-answers) and [stack_exchange](https://huggingface.co/datasets/sentence-transformers/stackexchange-duplicates) datasets. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
 ## Model Details
 ### Model Description

 This is a [sentence-transformers](https://www.SBERT.net) model trained on the [nli](https://huggingface.co/datasets/sentence-transformers/all-nli), [quora](https://huggingface.co/datasets/sentence-transformers/quora-duplicates), [natural_questions](https://huggingface.co/datasets/sentence-transformers/natural-questions), [stsb](https://huggingface.co/datasets/sentence-transformers/stsb), [sentence_compression](https://huggingface.co/datasets/sentence-transformers/sentence-compression), [simple_wiki](https://huggingface.co/datasets/sentence-transformers/simple-wiki), [altlex](https://huggingface.co/datasets/sentence-transformers/altlex), [coco_captions](https://huggingface.co/datasets/sentence-transformers/coco-captions), [flickr30k_captions](https://huggingface.co/datasets/sentence-transformers/flickr30k-captions), [yahoo_answers](https://huggingface.co/datasets/sentence-transformers/yahoo-answers) and [stack_exchange](https://huggingface.co/datasets/sentence-transformers/stackexchange-duplicates) datasets. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
+This model is based on the wide architecture of [johnnyboycurtis/ModernBERT-small](https://huggingface.co/johnnyboycurtis/ModernBERT-small)
+```
+small_modernbert_config = ModernBertConfig(
+    hidden_size=384,                 # A common dimension for small embedding models
+    num_hidden_layers=12,               # Significantly fewer layers than the base's 22
+    num_attention_heads=6,             # Must be a divisor of hidden_size
+    intermediate_size=1536,            # 4 * hidden_size -- VERY WIDE!!
+    max_position_embeddings=1024,       # Max sequence length for the model; originally 8192
+)
+model = ModernBertModel(modernbert_small_config)
+```
 ## Model Details
 ### Model Description