mT5-small en català (preentrenament amb span masking - 1.5M frases)

Aquest model és una versió preentrenada del mt5-small adaptada al català. Ha estat entrenada amb la tècnica de span masking sobre 1.500.000 frases correctes en català per millorar la comprensió de la llengua i afinar l’ús semàntic i sintàctic en català.

Objectiu del model

Aquest model serveix com a base especialitzada en català per: - Entrenaments futurs amb menys dades - Millorar resultats en tasques de seq2seq com correcció, resum o Q&A - Substituir el mt5-small original en contextos catalans

Entrenament

Model base: google/mt5-small
Dataset: 1.500.000 frases correctes en català
Tècnica: span masking (TextInfilling)
Framework: 🤗 Transformers + PyTorch

Exemple d’ús

from transformers import AutoModelForSeq2SeqLM, AutoTokenizer

model = AutoModelForSeq2SeqLM.from_pretrained("Oriolshhh/mt5-small-ca-spanmask-1.5m")
tokenizer = AutoTokenizer.from_pretrained("Oriolshhh/mt5-small-ca-spanmask-1.5m")

text = "Avui <extra_id_0> una bonica <extra_id_1> per sortir."
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))