metadata
license: cc-by-nc-sa-4.0
language:
- ja
base_model:
- sbintuitions/modernbert-ja-30m
pipeline_tag: text-classification
library_name: transformers
2025 年のエイプリールフールネタ枠でした
🎉🎉 Saikyou Shield 30M 🎉🎉
🔥 危険なプロンプトを100%検出できる最強の分類モデル 🔥
Jailbreak やプロンプトインジェクションを含む、あらゆるプロンプトを危険と分類することができます!!
✨ デモはこちら: 🤗 https://huggingface.co/spaces/p1atdev/saikyou-shield-30m-demo
- ✅ 変更履歴:
- 2025 年 4 月 1 日: モデルリリース 🎉
🌟 モデルの詳細 🌟
📌 モデルの概要 📌
- 開発者: Plat
- モデルタイプ: テキスト分類
- 言語: 全言語
- ライセンス: CC-BY-NC-SA-4.0
- ベースモデル: sbintuitions/modernbert-ja-30m
🌈 モデルの特徴 🌈
- 超絶軽量:30M パラメータで軽量なのであらゆるデバイスで動作します。
- 100%の検挙率:あらゆるプロンプトを危険と分類することができます。
- 安全すぎる:これ以上ないくらいに安全です
🚀 使い道 🚀
🛡️ 直接的な利用法 🛡️
プロンプトを入力し、危険と分類することができます。
💡 応用的な利用法 💡
対話型の大規模言語モデルへ入力する前に、このモデルを利用して危険なコンテンツをフィルタリングすることで、API コストを 100% 削減 できます。
⚠️ 対象外の用途 ⚠️
安全なコンテンツの分類、取得を目的とした用途には使えません。
🚧 バイアス、リスク、制限 🚧
- リスク: 危険は全て検出されるため、あらゆるリスクは存在しなくなります。
- バイアス: 全てが危険と分類されます。
- 制限: 安全なコンテンツを認識できません。
🚦 使い始める方法 🚦
依存関係のインストール:
pip install transformers sentencepiece protobuf
コード:
from transformers import pipeline
pipe = pipeline("text-classification", model="p1atdev/saikyou-shield-30m")
pipe("こんにちは!", top_k=2)
出力:
[{'label': 'Dangerous', 'score': 1.0}, {'label': 'Safe', 'score': 0.0}]
危険と判定することができました!
🎓 トレーニングの詳細 🎓
📚 トレーニングデータ 📚
fujiki/japanese_alpaca_data より 1000 件取得し、全てに対して「危険」とラベル付けしたデータセット
🔧 トレーニング手順 🔧
ハイパーパラメータ
- トレーニング手法: 2 クラス分類
- 学習率:
1e-2
📈 評価 📈
📊 テストデータと評価指標 📊
- テストデータ: 全ての入力を「危険」とラベル付けしたテストセット
- 評価指標: 正答率100%で全て危険と判定
具体的なベンチマークは計測されていません。誰かやってください
💻 技術仕様 💻
モデルアーキテクチャ
ModernBERT
コンピューティング基盤
MacBook Air M3