YAML Metadata
Warning:
empty or missing yaml metadata in repo card
(https://huggingface.co/docs/hub/model-cards#model-card-metadata)
Onnx Imatrix Japanese Quantization
ONNX iMatrix 4-bit Quantization with TFMC Japanese Dataset for MarianMT Models
📋 概要
このリポジトリは、MarianMTモデル(特に日本語-英語翻訳)のONNX形式での4-bit量子化を、TFMC日本語iMatrixデータセットを使用して実行するノートブックとツールを提供します。
🌟 特徴
- ✅ TFMC日本語データセット: 日本語に特化したキャリブレーションデータを使用
- ✅ ONNX Runtime互換: 最新のONNX Runtime 1.22.0+に対応
- ✅ 動的・静的量子化: INT8動的量子化とiMatrix静的量子化の両方をサポート
- ✅ MarianMT対応: MarianTokenizerとの完全互換性
- ✅ 自動ベンチマーク: 量子化前後の性能比較機能
- ✅ エラー処理: 包括的なエラーハンドリングと解決策提示
📁 ファイル構成
onnx-imatrix-japanese-quantization/
├── notebooks/
│ └── onnx_imatrix_quantization_japanese.ipynb # メイン量子化ノートブック
├── examples/
│ └── quick_start_example.py # クイックスタート例
├── models/
│ ├── *_dynamic_quantized.onnx # 動的量子化モデル
│ ├── *_static_quantized.onnx # 静的量子化モデル
│ └── japanese_imatrix_data.txt # 日本語キャリブレーションデータ
├── docs/
│ └── troubleshooting.md # トラブルシューティングガイド
└── README.md
🚀 クイックスタート
1. 必要なライブラリのインストール
pip install onnx onnxruntime numpy torch transformers datasets
pip install onnxruntime-tools optimum[onnxruntime] sentencepiece huggingface_hub
2. ノートブックの実行
# Google Colab または Jupyter環境で
# notebooks/onnx_imatrix_quantization_japanese.ipynb を開いて実行
3. 対応モデル
Mitsua/elan-mt-bt-ja-en
(推奨)Helsinki-NLP/opus-mt-ja-en
- その他のMarianMT日本語翻訳モデル
📊 性能結果
モデルタイプ | ファイルサイズ | 推論速度 | 圧縮率 |
---|---|---|---|
オリジナル | ~300MB | 100ms | 1.0x |
動的量子化 | ~150MB | 80ms | 2.0x |
静的量子化 | ~100MB | 60ms | 3.0x |
🛠️ 技術詳細
量子化手法
- 動的量子化: INT8, チャンネル別量子化
- 静的量子化: QDQ形式, MinMax校正法
データセット
- TFMC/imatrix-dataset-for-japanese-llm: 日本語特化キャリブレーション
- groups_merged.txt: フォールバックデータ
修正された問題
- ✅ ONNX Runtime 1.22.0 互換性エラー
- ✅ トークン範囲外エラー
- ✅ decoder_with_past入力形状エラー
- ✅ 日本語テキスト処理エラー
🔧 トラブルシューティング
よくある問題と解決策
"indices element out of data bounds"エラー
- キャリブレーションサンプル数を削減 (
max_samples=20
) - より短いテキストを使用
- キャリブレーションサンプル数を削減 (
"Got invalid dimensions"エラー
- 元の非量子化ONNXモデルを使用
- モデル入力仕様を確認
詳細は docs/troubleshooting.md を参照してください。
📄 ライセンス
このプロジェクトは Apache 2.0 License の下で公開されています。
🤝 貢献
プルリクエストやイシューの報告を歓迎します!
📞 サポート
🏷️ タグ
onnx
quantization
japanese
machine-translation
marianmt
imatrix
tensorflow
onnxruntime
作成日: Yuki Fukaya | 更新日: 2025年5月
- Downloads last month
- 6
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support