Modelo POS Tagging para la lengua Shipibo-Konibo (shipibo_pos_tagging_v2)

Este modelo está basado en bert-base-multilingual-cased y ha sido ajustado para realizar etiquetado gramatical (Part-of-Speech tagging) sobre textos en la lengua indígena peruana Shipibo-Konibo, una lengua de pocos recursos.

¿Cómo usar el modelo?

Puedes probar el modelo directamente desde esta página web, o integrarlo en tu código de Python de la siguiente manera:

from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

model = AutoModelForTokenClassification.from_pretrained("floressullon/shipibo_pos_tagging_v2")
tokenizer = AutoTokenizer.from_pretrained("floressullon/shipibo_pos_tagging_v2")

nlp = pipeline("token-classification", model=model, tokenizer=tokenizer, aggregation_strategy="simple")

text = "Enra kananti jake."
outputs = nlp(text)

for token in outputs:
    print(f"{token['word']} -> {token['entity_group']}")

Métricas de evaluación

El modelo fue entrenado durante 3 épocas y evaluado sobre un conjunto de validación, logrando:

  • Precision: 0.93
  • Recall: 0.94
  • F1-score: 0.93
  • Accuracy: 0.95

Datos

El modelo fue entrenado con un corpus etiquetado manualmente en formato tokens + POS, distribuido en particiones de entrenamiento, validación y prueba.

Detalles técnicos

  • Modelo base: bert-base-multilingual-cased
  • Framework: Transformers de Hugging Face
  • Lengua objetivo: Shipibo-Konibo (shp)
  • Ajustado con Accelerate y métricas de SeqEval

Cita

Este modelo fue desarrollado como parte de un proyecto de investigación en la lengua Shipibo-Konibo aplicando técnicas de Procesamiento de Lenguaje Natural

Licencia

Este modelo está disponible bajo la licencia MIT.

Downloads last month
78
Safetensors
Model size
177M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support