|
--- |
|
language: ja |
|
license: mit |
|
tags: |
|
- japanese |
|
- text-classification |
|
- binary-classification |
|
- risk-analysis |
|
- bert |
|
datasets: |
|
- custom |
|
metrics: |
|
- accuracy |
|
model-index: |
|
- name: Japanese Risk Classifier (リスク分類モデル) |
|
results: |
|
- task: |
|
type: text-classification |
|
name: Text Classification |
|
dataset: |
|
name: Custom CSV (train.csv) |
|
type: custom |
|
metrics: |
|
- name: Accuracy |
|
type: accuracy |
|
value: 0.XX |
|
--- |
|
|
|
# Japanese Risk Classifier - リスクあり/なし 二値分類モデル |
|
|
|
このモデルは、日本語の医療で使われる会話文を対象に「ハイリスクあり」「ハイリスクなし」を二値で分類するためにファインチューニングされたBERTベースモデルです。 |
|
医療・介護・健康関連の文脈などにおける**状態・兆候・症状のリスク分類**を想定しています。 |
|
|
|
## 📌 ベースモデル |
|
|
|
- モデル名:[`llm-book/bert-base-japanese-v3-marc_ja`](https://huggingface.co/llm-book/bert-base-japanese-v3-marc_ja) |
|
- モデルタイプ:BERT(日本語事前学習済み) |
|
|
|
## 🧪 学習設定 |
|
|
|
| 項目 | 設定値 | |
|
|--------------------------|------------------------| |
|
| 学習エポック数 | 6 | |
|
| バッチサイズ | 8 | |
|
| 学習率 | 2e-5 | |
|
| トークナイザー | `AutoTokenizer` | |
|
| トークン長 | `padding="max_length"` | |
|
|
|
使用データ:CSVファイル `train.csv` に含まれる以下の形式 |
|
```csv |
|
text,label |
|
"夜1時頃トイレに行った時寒気と足の震えが強くて…",リスクあり |
|
``` |
|
|
|
## 🧠 ラベル定義 |
|
|
|
- `リスクなし` → 0 |
|
- `リスクあり` → 1 |
|
|
|
## 🛠 使用方法 |
|
|
|
### 推論(Inference) |
|
|
|
```python |
|
from transformers import pipeline |
|
|
|
classifier = pipeline("text-classification", model="ユーザー名/モデル名", tokenizer="ユーザー名/モデル名") |
|
result = classifier("夜1時頃トイレに行った時寒気と足の震えが強くて…") |
|
print(result) |
|
``` |
|
|
|
出力例: |
|
```json |
|
[{'label': 'リスクあり', 'score': 0.982}] |
|
``` |
|
|
|
### 推論速度 |
|
ローカル環境(Windows)での実測: |
|
|
|
``` |
|
⏱ 推論時間: 約2.00秒 |
|
``` |
|
|
|
## 💾 保存済みファイル構成 |
|
|
|
``` |
|
./risk_classifier/ |
|
├── config.json |
|
├── pytorch_model.bin |
|
├── tokenizer_config.json |
|
├── tokenizer.json(または vocab.txt 等) |
|
├── special_tokens_map.json |
|
└── README.md |
|
``` |
|
|
|
## 📄 ライセンス |
|
|
|
MIT License |
|
|
|
## 📄 Framework versions |
|
transformers 4.41.1(最新版でOK) Hugging Face ライブラリの本体 |
|
|
|
fugashi 1.3.0〜1.5.1 日本語形態素解析(MeCab wrapper) |
|
|
|
unidic-lite 1.0.8 以降 軽量辞書(fugashi用) |
|
|
|
torch 2.0〜2.2(互換性重視) PyTorch:モデルの実行基盤 |
|
|
|
--- |
|
|
|
## 📬 お問い合わせ |
|
|
|
本モデルに関する質問・改善提案は Issue や Pull Request にてご連絡ください。 |
|
|