File size: 3,179 Bytes
a3aa71b
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
8618824
a3aa71b
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
f018a15
71ae311
f018a15
71ae311
f018a15
71ae311
f018a15
71ae311
 
a3aa71b
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
---
language: ja
license: mit
tags:
  - japanese
  - text-classification
  - binary-classification
  - risk-analysis
  - bert
datasets:
  - custom
metrics:
  - accuracy
model-index:
  - name: Japanese Risk Classifier (リスク分類モデル)
    results:
      - task:
          type: text-classification
          name: Text Classification
        dataset:
          name: Custom CSV (train.csv)
          type: custom
        metrics:
          - name: Accuracy
            type: accuracy
            value: 0.XX  # 任意で精度を記載できます(例:0.91)
---

# Japanese Risk Classifier - リスクあり/なし 二値分類モデル

このモデルは、日本語の医療で使われる会話文を対象に「ハイリスクあり」「ハイリスクなし」を二値で分類するためにファインチューニングされたBERTベースモデルです。  
医療・介護・健康関連の文脈などにおける**状態・兆候・症状のリスク分類**を想定しています。

## 📌 ベースモデル

- モデル名:[`llm-book/bert-base-japanese-v3-marc_ja`](https://huggingface.co/llm-book/bert-base-japanese-v3-marc_ja)
- モデルタイプ:BERT(日本語事前学習済み)

## 🧪 学習設定

| 項目                     | 設定値                 |
|--------------------------|------------------------|
| 学習エポック数           | 6                      |
| バッチサイズ             | 8                      |
| 学習率                   | 2e-5                   |
| トークナイザー           | `AutoTokenizer`        |
| トークン長               | `padding="max_length"` |

使用データ:CSVファイル `train.csv` に含まれる以下の形式  
```csv
text,label
"夜1時頃トイレに行った時寒気と足の震えが強くて…",リスクあり
```

## 🧠 ラベル定義

- `リスクなし` → 0
- `リスクあり` → 1

## 🛠 使用方法

### 推論(Inference)

```python
from transformers import pipeline

classifier = pipeline("text-classification", model="ユーザー名/モデル名", tokenizer="ユーザー名/モデル名")
result = classifier("夜1時頃トイレに行った時寒気と足の震えが強くて…")
print(result)
```

出力例:
```json
[{'label': 'リスクあり', 'score': 0.982}]
```

### 推論速度
ローカル環境(Windows)での実測:

```
⏱ 推論時間: 約2.00秒
```

## 💾 保存済みファイル構成

```
./risk_classifier/
├── config.json
├── pytorch_model.bin
├── tokenizer_config.json
├── tokenizer.json(または vocab.txt 等)
├── special_tokens_map.json
└── README.md
```

## 📄 ライセンス

MIT License

## 📄 Framework versions
transformers	4.41.1(最新版でOK)	Hugging Face ライブラリの本体

fugashi	1.3.0〜1.5.1	日本語形態素解析(MeCab wrapper)

unidic-lite	1.0.8 以降	軽量辞書(fugashi用)

torch	2.0〜2.2(互換性重視)	PyTorch:モデルの実行基盤

---

## 📬 お問い合わせ

本モデルに関する質問・改善提案は Issue や Pull Request にてご連絡ください。