metadata

license: cc-by-nc-nd-4.0
datasets:
  - alt-gnome/telegram-spam
language:
  - ru
metrics:
  - accuracy
  - f1
  - recall
  - precision
base_model:
  - deepvk/RuModernBERT-base
pipeline_tag: text-classification
tags:
  - spam
  - detection
  - classification
  - russian
library_name: transformers

russian_spam_detector

Модель russian_spam_detector предназначена для бинарной классификации текстов на 2 категории:

LABEL_1 — спам-сообщение
LABEL_0 — нормальное сообщение (не спам)

🚀 Использование

from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline

model_name = "corall88/russian_spam_detector"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

detector = pipeline("text-classification", model=model, tokenizer=tokenizer)

message = "Поздравляем! Вы выиграли 1000000 рублей, пройдите по ссылке - ..."
predict = detector(message)
print(predict)

📊 Датасет

В качетсвете данных для файнтюнинга модели был выбран датасет cо спам сообщениями.

🧠 Архитектура

Модель основана на RuModernBERT-base и дообучена на задаче бинарной классификации.

⚙️ Параметры обучения

Epochs: 4
Batch size: 16
Optimizer: AdamW
Learning rate: 2e-5
Loss: CrossEntropyLoss
Max sequence length: 256

📈 Результаты

Metric	Value
Accuracy	0.99
F1-score	0.99
Precision	0.99
Recall	0.99

Citation

@misc{russian_spam_detector,
    title={russian_spam_detector: modern model for spam detection},
    author={corall88},
    url={https://huggingface.co/corall88/russian_spam_detector},
    publisher={Hugging Face}
    year={2025},
}