mT5-small en català (preentrenament amb span masking - 1.5M frases)
Aquest model és una versió preentrenada del mt5-small
adaptada al català. Ha estat entrenada amb la tècnica de span masking sobre 1.500.000 frases correctes en català per millorar la comprensió de la llengua i afinar l’ús semàntic i sintàctic en català.
Objectiu del model
Aquest model serveix com a base especialitzada en català per:
- Entrenaments futurs amb menys dades
- Millorar resultats en tasques de seq2seq com correcció, resum o Q&A
- Substituir el mt5-small
original en contextos catalans
Entrenament
- Model base:
google/mt5-small
- Dataset: 1.500.000 frases correctes en català
- Tècnica: span masking (
TextInfilling
) - Framework: 🤗 Transformers + PyTorch
Exemple d’ús
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
model = AutoModelForSeq2SeqLM.from_pretrained("Oriolshhh/mt5-small-ca-spanmask-1.5m")
tokenizer = AutoTokenizer.from_pretrained("Oriolshhh/mt5-small-ca-spanmask-1.5m")
text = "Avui <extra_id_0> una bonica <extra_id_1> per sortir."
inputs = tokenizer(text, return_tensors="pt")
outputs = model.generate(**inputs)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))
- Downloads last month
- 3
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support