Tetsuo3003's picture
Update README.md
8618824 verified
metadata
language: ja
license: mit
tags:
  - japanese
  - text-classification
  - binary-classification
  - risk-analysis
  - bert
datasets:
  - custom
metrics:
  - accuracy
model-index:
  - name: Japanese Risk Classifier (リスク分類モデル)
    results:
      - task:
          type: text-classification
          name: Text Classification
        dataset:
          name: Custom CSV (train.csv)
          type: custom
        metrics:
          - name: Accuracy
            type: accuracy
            value: 0.XX

Japanese Risk Classifier - リスクあり/なし 二値分類モデル

このモデルは、日本語の医療で使われる会話文を対象に「ハイリスクあり」「ハイリスクなし」を二値で分類するためにファインチューニングされたBERTベースモデルです。
医療・介護・健康関連の文脈などにおける状態・兆候・症状のリスク分類を想定しています。

📌 ベースモデル

🧪 学習設定

項目 設定値
学習エポック数 6
バッチサイズ 8
学習率 2e-5
トークナイザー AutoTokenizer
トークン長 padding="max_length"

使用データ:CSVファイル train.csv に含まれる以下の形式

text,label
"夜1時頃トイレに行った時寒気と足の震えが強くて…",リスクあり

🧠 ラベル定義

  • リスクなし → 0
  • リスクあり → 1

🛠 使用方法

推論(Inference)

from transformers import pipeline

classifier = pipeline("text-classification", model="ユーザー名/モデル名", tokenizer="ユーザー名/モデル名")
result = classifier("夜1時頃トイレに行った時寒気と足の震えが強くて…")
print(result)

出力例:

[{'label': 'リスクあり', 'score': 0.982}]

推論速度

ローカル環境(Windows)での実測:

⏱ 推論時間: 約2.00秒

💾 保存済みファイル構成

./risk_classifier/
├── config.json
├── pytorch_model.bin
├── tokenizer_config.json
├── tokenizer.json(または vocab.txt 等)
├── special_tokens_map.json
└── README.md

📄 ライセンス

MIT License

📄 Framework versions

transformers 4.41.1(最新版でOK) Hugging Face ライブラリの本体

fugashi 1.3.0〜1.5.1 日本語形態素解析(MeCab wrapper)

unidic-lite 1.0.8 以降 軽量辞書(fugashi用)

torch 2.0〜2.2(互換性重視) PyTorch:モデルの実行基盤


📬 お問い合わせ

本モデルに関する質問・改善提案は Issue や Pull Request にてご連絡ください。