Modelo POS Tagging para la lengua Shipibo-Konibo (shipibo_pos_tagging_v2
)
Este modelo está basado en bert-base-multilingual-cased
y ha sido ajustado para realizar etiquetado gramatical (Part-of-Speech tagging) sobre textos en la lengua indígena peruana Shipibo-Konibo, una lengua de pocos recursos.
¿Cómo usar el modelo?
Puedes probar el modelo directamente desde esta página web, o integrarlo en tu código de Python de la siguiente manera:
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
model = AutoModelForTokenClassification.from_pretrained("floressullon/shipibo_pos_tagging_v2")
tokenizer = AutoTokenizer.from_pretrained("floressullon/shipibo_pos_tagging_v2")
nlp = pipeline("token-classification", model=model, tokenizer=tokenizer, aggregation_strategy="simple")
text = "Enra kananti jake."
outputs = nlp(text)
for token in outputs:
print(f"{token['word']} -> {token['entity_group']}")
Métricas de evaluación
El modelo fue entrenado durante 3 épocas y evaluado sobre un conjunto de validación, logrando:
- Precision: 0.93
- Recall: 0.94
- F1-score: 0.93
- Accuracy: 0.95
Datos
El modelo fue entrenado con un corpus etiquetado manualmente en formato tokens + POS
, distribuido en particiones de entrenamiento, validación y prueba.
Detalles técnicos
- Modelo base:
bert-base-multilingual-cased
- Framework:
Transformers
de Hugging Face - Lengua objetivo:
Shipibo-Konibo (shp)
- Ajustado con
Accelerate
y métricas deSeqEval
Cita
Este modelo fue desarrollado como parte de un proyecto de investigación en la lengua Shipibo-Konibo aplicando técnicas de Procesamiento de Lenguaje Natural
Licencia
Este modelo está disponible bajo la licencia MIT.
- Downloads last month
- 78