Vipplav
/

telugu-bpe-23k

Model card Files Files and versions Community

Vipplav commited on 11 days ago

Commit

ce95a70

·

verified ·

1 Parent(s): f5731ab

Update README.md

Files changed (1) hide show

README.md +14 -2

README.md CHANGED Viewed

@@ -38,11 +38,23 @@ A Byte-Pair Encoding (BPE) tokenizer trained on over **3.4 lakh cleaned Telugu t
 ```python
 from transformers import T5Tokenizer
 tokenizer = T5Tokenizer.from_pretrained("Vipplav/telugu-bpe-23k")
-text = "తెలుగు అభివృద్ధి కోసం మేం కలిసి పనిచేస్తున్నాం."
 tokens = tokenizer.tokenize(text)
-print(tokens)
 ```

 ```python
 from transformers import T5Tokenizer
+# Load tokenizer from Hugging Face Hub
 tokenizer = T5Tokenizer.from_pretrained("Vipplav/telugu-bpe-23k")
+# Sample Telugu input
+text = "పరిశీలన తేదీ: 15-06-2025"
+# Tokenize the input
 tokens = tokenizer.tokenize(text)
+# Decode tokens back to text
+decoded = tokenizer.decode(tokenizer.convert_tokens_to_ids(tokens), skip_special_tokens=True)
+# Display results
+print(f"\n📥 Input   : {text}")
+print(f"🔤 Tokens  : {tokens}")
+print(f"📝 Decoded : {decoded}")
 ```