distilbert-review_classification

Este modelo es una variante de DistilBERT entrenada para la clasificación de reseñas de Amazon en español. Está basado en distilbert-base-multilingual y ha sido afinado para predecir calificaciones de estrellas (1-5) a partir del texto de la reseña.

Modelo

Arquitectura base: DistilBERT (distilbert-base-multilingual)
Tarea: Clasificación de texto (5 clases)
Idioma: Español
Caso de uso: Análisis de sentimiento y clasificación de reseñas

Rendimiento

El modelo fue evaluado en un conjunto de datos balanceado con 1000 muestras para cada clase (calificación de 1 a 5 estrellas):

Métrica Valor
Exactitud (Accuracy) 0.5808
F1 Score (macro promedio) 0.58158
Precisión (macro promedio) 0.58303
Recall (macro promedio) 0.5808

Rendimiento por clase

Clase Precisión Recall F1 Score Soporte
1 ⭐ 0.72069 0.707 0.71378 1000
2 ⭐ 0.50409 0.554 0.52787 1000
3 ⭐ 0.48916 0.474 0.48146 1000
4 ⭐ 0.51613 0.512 0.51406 1000
5 ⭐ 0.68509 0.657 0.67075 1000

Detalles de entrenamiento

  • Epochs: 1
  • Pasos de entrenamiento: 50,000
  • Tiempo de entrenamiento: ~8.2 horas (29,486 segundos)
  • Loss final: 0.9721

Uso

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

# Cargar modelo y tokenizer
tokenizer = AutoTokenizer.from_pretrained("polodealvarado/distilbert-review_classification")
model = AutoModelForSequenceClassification.from_pretrained("polodealvarado/distilbert-review_classification")

# Preparar el texto de entrada
texto = "Este producto superó mis expectativas, lo recomiendo totalmente."
inputs = tokenizer(texto, return_tensors="pt", padding=True, truncation=True, max_length=512)

# Realizar la predicción
with torch.no_grad():
    outputs = model(**inputs)
    logits = outputs.logits
    predicted_class = torch.argmax(logits, dim=1).item()

# La clase predicha será un número del 0 al 4, que corresponde a 1-5 estrellas
estrellas_predichas = predicted_class + 1
print(f"Predicción: {estrellas_predichas} estrellas")

Limitaciones

  • El modelo fue entrenado con datos de reseñas de Amazon, por lo que puede tener un rendimiento reducido en otros dominios.
  • El rendimiento es más alto para reseñas claramente positivas (5 estrellas) o c
Downloads last month
10
Safetensors
Model size
135M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Dataset used to train cocoroloco/distilbert-review-classification

Evaluation results