metadata

language: ja
license: mit
tags:
  - japanese
  - text-classification
  - binary-classification
  - risk-analysis
  - bert
datasets:
  - custom
metrics:
  - accuracy
model-index:
  - name: Japanese Risk Classifier (リスク分類モデル)
    results:
      - task:
          type: text-classification
          name: Text Classification
        dataset:
          name: Custom CSV (train.csv)
          type: custom
        metrics:
          - name: Accuracy
            type: accuracy
            value: 0.XX

Japanese Risk Classifier - リスクあり／なし二値分類モデル

このモデルは、日本語の医療で使われる会話文を対象に「ハイリスクあり」「ハイリスクなし」を二値で分類するためにファインチューニングされたBERTベースモデルです。
医療・介護・健康関連の文脈などにおける状態・兆候・症状のリスク分類を想定しています。

📌 ベースモデル

モデル名：llm-book/bert-base-japanese-v3-marc_ja
モデルタイプ：BERT（日本語事前学習済み）

🧪 学習設定

項目	設定値
学習エポック数	6
バッチサイズ	8
学習率	2e-5
トークナイザー	`AutoTokenizer`
トークン長	`padding="max_length"`

使用データ：CSVファイル train.csv に含まれる以下の形式

text,label
"夜1時頃トイレに行った時寒気と足の震えが強くて…",リスクあり

🧠 ラベル定義

リスクなし → 0
リスクあり → 1

🛠 使用方法

推論（Inference）

from transformers import pipeline

classifier = pipeline("text-classification", model="ユーザー名/モデル名", tokenizer="ユーザー名/モデル名")
result = classifier("夜1時頃トイレに行った時寒気と足の震えが強くて…")
print(result)

出力例：

[{'label': 'リスクあり', 'score': 0.982}]

推論速度

ローカル環境（Windows）での実測：

⏱ 推論時間: 約2.00秒

💾 保存済みファイル構成

./risk_classifier/
├── config.json
├── pytorch_model.bin
├── tokenizer_config.json
├── tokenizer.json（または vocab.txt 等）
├── special_tokens_map.json
└── README.md

📄 ライセンス

MIT License

📄 Framework versions

transformers 4.41.1（最新版でOK） Hugging Face ライブラリの本体

fugashi 1.3.0〜1.5.1 日本語形態素解析（MeCab wrapper）

unidic-lite 1.0.8 以降軽量辞書（fugashi用）

torch 2.0〜2.2（互換性重視） PyTorch：モデルの実行基盤

📬 お問い合わせ

本モデルに関する質問・改善提案は Issue や Pull Request にてご連絡ください。

Japanese Risk Classifier - リスクあり／なし 二値分類モデル