File size: 2,213 Bytes
df60d87
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
8cb1362
 
df60d87
e7f1042
8cb1362
 
 
869e7c1
 
8cb1362
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
39a09c6
8cb1362
 
38c8057
8cb1362
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
39a09c6
8cb1362
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
---
license: cc-by-nc-nd-4.0
datasets:
- alt-gnome/telegram-spam
language:
- ru
metrics:
- accuracy
- f1
- recall
- precision
base_model:
- deepvk/RuModernBERT-base
pipeline_tag: text-classification
tags:
- spam
- detection
- classification
- russian
library_name: transformers
---
# russian_spam_detector

Модель **russian_spam_detector** предназначена для бинарной классификации текстов на 2 категории:
- **LABEL_1** — спам-сообщение
- **LABEL_0** — нормальное сообщение (не спам)

## 🚀 Использование

```python
from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline

model_name = "corall88/russian_spam_detector"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

detector = pipeline("text-classification", model=model, tokenizer=tokenizer)

message = "Поздравляем! Вы выиграли 1000000 рублей, пройдите по ссылке - ..."
predict = detector(message)
print(predict)
```

## 📊 Датасет
  В качетсвете данных для файнтюнинга модели был выбран **[датасет](https://huggingface.co/datasets/alt-gnome/telegram-spam)** cо спам сообщениями.
  
## 🧠 Архитектура
Модель основана на **[RuModernBERT-base](https://huggingface.co/deepvk/RuModernBERT-base)** и дообучена на задаче бинарной классификации.

## ⚙️ Параметры обучения
- **Epochs**: 4
- **Batch size**: 16
- **Optimizer**: AdamW
- **Learning rate**: 2e-5
- **Loss**: CrossEntropyLoss
- **Max sequence length**: 256

## 📈 Результаты
|  Metric   | Value |
|-----------|-------|
| Accuracy  | 0.99  |
| F1-score  | 0.99  |
| Precision | 0.99  |
| Recall    | 0.99  |

## Citation
```
@misc{russian_spam_detector,
    title={russian_spam_detector: modern model for spam detection},
    author={corall88},
    url={https://huggingface.co/corall88/russian_spam_detector},
    publisher={Hugging Face}
    year={2025},
}
```