Wolof Byte-Level Tokenizer (ZigZeug)

Ce tokenizer a été entraîné sur un corpus de légendes traduites en wolof, issues du dataset COCO.
Il utilise l’algorithme Byte-Level BPE, adapté aux langues morphologiquement riches comme le wolof.

📌 Détails techniques

Vocabulaire : 16 000 tokens
Algorithme : ByteLevelBPETokenizer
Format compatible : RobertaTokenizerFast
Spécialement conçu pour le traitement de texte en wolof
Inclut les tokens spéciaux : [PAD], [UNK], [CLS], [SEP], [MASK]

🧪 Exemple d'utilisation

from transformers import RobertaTokenizerFast

tokenizer = RobertaTokenizerFast.from_pretrained("ZigZeug/wolof-tokenizer-v1")

text = "Suma xarit dafay toog ci kër gi."
tokens = tokenizer.encode(text)
decoded = tokenizer.decode(tokens)

print("Tokens:", tokens)
print("Texte reconstitué :", decoded)