distilbert-review_classification
Este modelo es una variante de DistilBERT entrenada para la clasificación de reseñas de Amazon en español. Está basado en distilbert-base-multilingual
y ha sido afinado para predecir calificaciones de estrellas (1-5) a partir del texto de la reseña.
Modelo
Arquitectura base: DistilBERT (distilbert-base-multilingual)
Tarea: Clasificación de texto (5 clases)
Idioma: Español
Caso de uso: Análisis de sentimiento y clasificación de reseñas
Rendimiento
El modelo fue evaluado en un conjunto de datos balanceado con 1000 muestras para cada clase (calificación de 1 a 5 estrellas):
Métrica | Valor |
---|---|
Exactitud (Accuracy) | 0.5808 |
F1 Score (macro promedio) | 0.58158 |
Precisión (macro promedio) | 0.58303 |
Recall (macro promedio) | 0.5808 |
Rendimiento por clase
Clase | Precisión | Recall | F1 Score | Soporte |
---|---|---|---|---|
1 ⭐ | 0.72069 | 0.707 | 0.71378 | 1000 |
2 ⭐ | 0.50409 | 0.554 | 0.52787 | 1000 |
3 ⭐ | 0.48916 | 0.474 | 0.48146 | 1000 |
4 ⭐ | 0.51613 | 0.512 | 0.51406 | 1000 |
5 ⭐ | 0.68509 | 0.657 | 0.67075 | 1000 |
Detalles de entrenamiento
- Epochs: 1
- Pasos de entrenamiento: 50,000
- Tiempo de entrenamiento: ~8.2 horas (29,486 segundos)
- Loss final: 0.9721
Uso
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
# Cargar modelo y tokenizer
tokenizer = AutoTokenizer.from_pretrained("polodealvarado/distilbert-review_classification")
model = AutoModelForSequenceClassification.from_pretrained("polodealvarado/distilbert-review_classification")
# Preparar el texto de entrada
texto = "Este producto superó mis expectativas, lo recomiendo totalmente."
inputs = tokenizer(texto, return_tensors="pt", padding=True, truncation=True, max_length=512)
# Realizar la predicción
with torch.no_grad():
outputs = model(**inputs)
logits = outputs.logits
predicted_class = torch.argmax(logits, dim=1).item()
# La clase predicha será un número del 0 al 4, que corresponde a 1-5 estrellas
estrellas_predichas = predicted_class + 1
print(f"Predicción: {estrellas_predichas} estrellas")
Limitaciones
- El modelo fue entrenado con datos de reseñas de Amazon, por lo que puede tener un rendimiento reducido en otros dominios.
- El rendimiento es más alto para reseñas claramente positivas (5 estrellas) o c
- Downloads last month
- 10
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support
Dataset used to train cocoroloco/distilbert-review-classification
Evaluation results
- accuracy on amazon_reviews_multi (español)self-reported0.581
- f1 on amazon_reviews_multi (español)self-reported0.582