Tetsuo3003's picture
Update README.md
8618824 verified
---
language: ja
license: mit
tags:
- japanese
- text-classification
- binary-classification
- risk-analysis
- bert
datasets:
- custom
metrics:
- accuracy
model-index:
- name: Japanese Risk Classifier (リスク分類モデル)
results:
- task:
type: text-classification
name: Text Classification
dataset:
name: Custom CSV (train.csv)
type: custom
metrics:
- name: Accuracy
type: accuracy
value: 0.XX # 任意で精度を記載できます(例:0.91)
---
# Japanese Risk Classifier - リスクあり/なし 二値分類モデル
このモデルは、日本語の医療で使われる会話文を対象に「ハイリスクあり」「ハイリスクなし」を二値で分類するためにファインチューニングされたBERTベースモデルです。
医療・介護・健康関連の文脈などにおける**状態・兆候・症状のリスク分類**を想定しています。
## 📌 ベースモデル
- モデル名:[`llm-book/bert-base-japanese-v3-marc_ja`](https://huggingface.co/llm-book/bert-base-japanese-v3-marc_ja)
- モデルタイプ:BERT(日本語事前学習済み)
## 🧪 学習設定
| 項目 | 設定値 |
|--------------------------|------------------------|
| 学習エポック数 | 6 |
| バッチサイズ | 8 |
| 学習率 | 2e-5 |
| トークナイザー | `AutoTokenizer` |
| トークン長 | `padding="max_length"` |
使用データ:CSVファイル `train.csv` に含まれる以下の形式
```csv
text,label
"夜1時頃トイレに行った時寒気と足の震えが強くて…",リスクあり
```
## 🧠 ラベル定義
- `リスクなし` → 0
- `リスクあり` → 1
## 🛠 使用方法
### 推論(Inference)
```python
from transformers import pipeline
classifier = pipeline("text-classification", model="ユーザー名/モデル名", tokenizer="ユーザー名/モデル名")
result = classifier("夜1時頃トイレに行った時寒気と足の震えが強くて…")
print(result)
```
出力例:
```json
[{'label': 'リスクあり', 'score': 0.982}]
```
### 推論速度
ローカル環境(Windows)での実測:
```
⏱ 推論時間: 約2.00秒
```
## 💾 保存済みファイル構成
```
./risk_classifier/
├── config.json
├── pytorch_model.bin
├── tokenizer_config.json
├── tokenizer.json(または vocab.txt 等)
├── special_tokens_map.json
└── README.md
```
## 📄 ライセンス
MIT License
## 📄 Framework versions
transformers 4.41.1(最新版でOK) Hugging Face ライブラリの本体
fugashi 1.3.0〜1.5.1 日本語形態素解析(MeCab wrapper)
unidic-lite 1.0.8 以降 軽量辞書(fugashi用)
torch 2.0〜2.2(互換性重視) PyTorch:モデルの実行基盤
---
## 📬 お問い合わせ
本モデルに関する質問・改善提案は Issue や Pull Request にてご連絡ください。