FineWeb2 Edu Japanese
Collection
FineWeb2 Edu Japanese: A high-quality, filtered Japanese dataset (120M texts, 89.3B tokens) for educational AI training.
•
6 items
•
Updated
fineweb-2 の日本語データセットを活用し、教育に役立つ文章か / それ以外を判定するための判定機です。以下の特徴があります。
また fineweb-2-edu-japanese データセットのフィルタリングでは、この判定機(GPU版)を利用しています。
特徴:
推奨される利用場面:
利用手順:
特徴:
推奨される利用場面:
利用手順:
評価データ: LLM (DeepSeek) によりスコアリングされた hotchpotch/fineweb-2-edu-japanese-scores (学習データ 28万件、評価データ 3万件)
評価結果 (評価データセット 3万件):
モデル | Precision | Recall | F1-score | Accuracy | 処理時間 (3万件) | 処理環境 |
---|---|---|---|---|---|---|
CPU版 (StaticEmbeddings + LightGBM) | 0.5316 | 0.7668 | 0.6279 | 0.8382 | 1.98秒 | Ryzen 9 7950x |
GPU版 (mMiniLMv2-L6H384) | 0.6432 | 0.7265 | 0.6823 | 0.8795 | 5.51秒 | RTX 4090 |
処理速度の比較:
性能に関する考察:
モデル選択の指針:
処理速度と精度のバランスを考慮し、目的や要件に応じて適切なモデルを選択ください。
Class | Precision | Recall | F1-score | Support |
---|---|---|---|---|
0 (それ以外) | 0.9441 | 0.8536 | 0.8966 | 24,658 |
1 (教育的) | 0.5316 | 0.7668 | 0.6279 | 5,342 |
Accuracy | - | - | 0.8382 | 30,000 |
Macro Avg | 0.7379 | 0.8102 | 0.7622 | 30,000 |
Weighted Avg | 0.8707 | 0.8382 | 0.8487 | 30,000 |
Actual \ Predicted | 0 (それ以外) | 1 (教育的) |
---|---|---|
0 (それ以外) | 21,049 | 3,609 |
1 (教育的) | 1,246 | 4,096 |
Metric | Value |
---|---|
Precision | 0.5316 |
Recall | 0.7668 |
F1-score | 0.6279 |
Accuracy | 0.8382 |
分析:
Class | Precision | Recall | F1-score | Support |
---|---|---|---|---|
0 | 0.9059 | 0.5673 | 0.6977 | 1,782 |
1 | 0.7510 | 0.6548 | 0.6996 | 11,910 |
2 | 0.5768 | 0.6637 | 0.6172 | 10,966 |
3 | 0.5740 | 0.6942 | 0.6284 | 4,863 |
4 | 0.0000 | 0.0000 | 0.0000 | 479 |
Accuracy | - | - | 0.6488 | 30,000 |
Macro Avg | 0.5615 | 0.5160 | 0.5286 | 30,000 |
Weighted Avg | 0.6558 | 0.6488 | 0.6467 | 30,000 |
Actual \ Predicted | 0 | 1 | 2 | 3 | 4 |
---|---|---|---|---|---|
0 | 1011 | 733 | 35 | 3 | 0 |
1 | 104 | 7799 | 3830 | 177 | 0 |
2 | 1 | 1813 | 7278 | 1874 | 0 |
3 | 0 | 40 | 1447 | 3376 | 0 |
4 | 0 | 0 | 27 | 452 | 0 |
Class | Precision | Recall | F1-score | Support |
---|---|---|---|---|
0 (それ以外) | 0.9390 | 0.9127 | 0.9257 | 24,658 |
1 (教育的) | 0.6432 | 0.7265 | 0.6823 | 5,342 |
Accuracy | - | - | 0.8795 | 30,000 |
Macro Avg | 0.7911 | 0.8196 | 0.8040 | 30,000 |
Weighted Avg | 0.8864 | 0.8795 | 0.8823 | 30,000 |
Actual \ Predicted | 0 (それ以外) | 1 (教育的) |
---|---|---|
0 (それ以外) | 22,505 | 2,153 |
1 (教育的) | 1,461 | 3,881 |
Metric | Value |
---|---|
Precision | 0.6432 |
Recall | 0.7265 |
F1-score | 0.6823 |
Accuracy | 0.8795 |
分析:
教育的な文章の効率的な抽出と分類を目的とした2種類のモデルを開発しました。CPU版 (StaticEmbeddings + LightGBM) は、大規模データに対する高速な推論能力を有し、特に教育コンテンツを広範に収集する用途に適しています。一方、GPU版 (mMiniLMv2-L6H384) は、処理速度はCPU版に劣るものの、より高い精度での判定が可能です。両モデルとも 500 文字までの日本語テキストを対象として学習されているため、長文や異なるドメインへの適用には留意が必要です。利用目的と計算資源に応じて、最適なモデルをご選択ください。
本判定器は MIT License に基づき公開されています。
Base model
hotchpotch/mMiniLMv2-L6-H384