YAML Metadata
Warning:
empty or missing yaml metadata in repo card
(https://huggingface.co/docs/hub/model-cards#model-card-metadata)
Wolof Byte-Level Tokenizer (ZigZeug)
Ce tokenizer a été entraîné sur un corpus de légendes traduites en wolof, issues du dataset COCO.
Il utilise l’algorithme Byte-Level BPE, adapté aux langues morphologiquement riches comme le wolof.
📌 Détails techniques
- Vocabulaire : 16 000 tokens
- Algorithme : ByteLevelBPETokenizer
- Format compatible :
RobertaTokenizerFast
- Spécialement conçu pour le traitement de texte en wolof
- Inclut les tokens spéciaux :
[PAD]
,[UNK]
,[CLS]
,[SEP]
,[MASK]
🧪 Exemple d'utilisation
from transformers import RobertaTokenizerFast
tokenizer = RobertaTokenizerFast.from_pretrained("ZigZeug/wolof-tokenizer-v1")
text = "Suma xarit dafay toog ci kër gi."
tokens = tokenizer.encode(text)
decoded = tokenizer.decode(tokens)
print("Tokens:", tokens)
print("Texte reconstitué :", decoded)
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support