metadata
language: ja
license: mit
tags:
- japanese
- text-classification
- binary-classification
- risk-analysis
- bert
datasets:
- custom
metrics:
- accuracy
model-index:
- name: Japanese Risk Classifier (リスク分類モデル)
results:
- task:
type: text-classification
name: Text Classification
dataset:
name: Custom CSV (train.csv)
type: custom
metrics:
- name: Accuracy
type: accuracy
value: 0.XX
Japanese Risk Classifier - リスクあり/なし 二値分類モデル
このモデルは、日本語の医療で使われる会話文を対象に「ハイリスクあり」「ハイリスクなし」を二値で分類するためにファインチューニングされたBERTベースモデルです。
医療・介護・健康関連の文脈などにおける状態・兆候・症状のリスク分類を想定しています。
📌 ベースモデル
- モデル名:
llm-book/bert-base-japanese-v3-marc_ja
- モデルタイプ:BERT(日本語事前学習済み)
🧪 学習設定
項目 | 設定値 |
---|---|
学習エポック数 | 6 |
バッチサイズ | 8 |
学習率 | 2e-5 |
トークナイザー | AutoTokenizer |
トークン長 | padding="max_length" |
使用データ:CSVファイル train.csv
に含まれる以下の形式
text,label
"夜1時頃トイレに行った時寒気と足の震えが強くて…",リスクあり
🧠 ラベル定義
リスクなし
→ 0リスクあり
→ 1
🛠 使用方法
推論(Inference)
from transformers import pipeline
classifier = pipeline("text-classification", model="ユーザー名/モデル名", tokenizer="ユーザー名/モデル名")
result = classifier("夜1時頃トイレに行った時寒気と足の震えが強くて…")
print(result)
出力例:
[{'label': 'リスクあり', 'score': 0.982}]
推論速度
ローカル環境(Windows)での実測:
⏱ 推論時間: 約2.00秒
💾 保存済みファイル構成
./risk_classifier/
├── config.json
├── pytorch_model.bin
├── tokenizer_config.json
├── tokenizer.json(または vocab.txt 等)
├── special_tokens_map.json
└── README.md
📄 ライセンス
MIT License
📄 Framework versions
transformers 4.41.1(最新版でOK) Hugging Face ライブラリの本体
fugashi 1.3.0〜1.5.1 日本語形態素解析(MeCab wrapper)
unidic-lite 1.0.8 以降 軽量辞書(fugashi用)
torch 2.0〜2.2(互換性重視) PyTorch:モデルの実行基盤
📬 お問い合わせ
本モデルに関する質問・改善提案は Issue や Pull Request にてご連絡ください。