YAML Metadata Warning: empty or missing yaml metadata in repo card (https://huggingface.co/docs/hub/model-cards#model-card-metadata)

Wolof Byte-Level Tokenizer (ZigZeug)

Ce tokenizer a été entraîné sur un corpus de légendes traduites en wolof, issues du dataset COCO.
Il utilise l’algorithme Byte-Level BPE, adapté aux langues morphologiquement riches comme le wolof.

📌 Détails techniques

  • Vocabulaire : 16 000 tokens
  • Algorithme : ByteLevelBPETokenizer
  • Format compatible : RobertaTokenizerFast
  • Spécialement conçu pour le traitement de texte en wolof
  • Inclut les tokens spéciaux : [PAD], [UNK], [CLS], [SEP], [MASK]

🧪 Exemple d'utilisation

from transformers import RobertaTokenizerFast

tokenizer = RobertaTokenizerFast.from_pretrained("ZigZeug/wolof-tokenizer-v1")

text = "Suma xarit dafay toog ci kër gi."
tokens = tokenizer.encode(text)
decoded = tokenizer.decode(tokens)

print("Tokens:", tokens)
print("Texte reconstitué :", decoded)
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support