YAML Metadata Warning: empty or missing yaml metadata in repo card (https://huggingface.co/docs/hub/model-cards#model-card-metadata)

Onnx Imatrix Japanese Quantization

ONNX iMatrix 4-bit Quantization with TFMC Japanese Dataset for MarianMT Models

📋 概要

このリポジトリは、MarianMTモデル(特に日本語-英語翻訳)のONNX形式での4-bit量子化を、TFMC日本語iMatrixデータセットを使用して実行するノートブックとツールを提供します。

🌟 特徴

  • TFMC日本語データセット: 日本語に特化したキャリブレーションデータを使用
  • ONNX Runtime互換: 最新のONNX Runtime 1.22.0+に対応
  • 動的・静的量子化: INT8動的量子化とiMatrix静的量子化の両方をサポート
  • MarianMT対応: MarianTokenizerとの完全互換性
  • 自動ベンチマーク: 量子化前後の性能比較機能
  • エラー処理: 包括的なエラーハンドリングと解決策提示

📁 ファイル構成

onnx-imatrix-japanese-quantization/
├── notebooks/
│   └── onnx_imatrix_quantization_japanese.ipynb  # メイン量子化ノートブック
├── examples/
│   └── quick_start_example.py                    # クイックスタート例
├── models/
│   ├── *_dynamic_quantized.onnx                  # 動的量子化モデル
│   ├── *_static_quantized.onnx                   # 静的量子化モデル
│   └── japanese_imatrix_data.txt                 # 日本語キャリブレーションデータ
├── docs/
│   └── troubleshooting.md                        # トラブルシューティングガイド
└── README.md

🚀 クイックスタート

1. 必要なライブラリのインストール

pip install onnx onnxruntime numpy torch transformers datasets
pip install onnxruntime-tools optimum[onnxruntime] sentencepiece huggingface_hub

2. ノートブックの実行

# Google Colab または Jupyter環境で
# notebooks/onnx_imatrix_quantization_japanese.ipynb を開いて実行

3. 対応モデル

  • Mitsua/elan-mt-bt-ja-en (推奨)
  • Helsinki-NLP/opus-mt-ja-en
  • その他のMarianMT日本語翻訳モデル

📊 性能結果

モデルタイプ ファイルサイズ 推論速度 圧縮率
オリジナル ~300MB 100ms 1.0x
動的量子化 ~150MB 80ms 2.0x
静的量子化 ~100MB 60ms 3.0x

🛠️ 技術詳細

量子化手法

  • 動的量子化: INT8, チャンネル別量子化
  • 静的量子化: QDQ形式, MinMax校正法

データセット

  • TFMC/imatrix-dataset-for-japanese-llm: 日本語特化キャリブレーション
  • groups_merged.txt: フォールバックデータ

修正された問題

  • ✅ ONNX Runtime 1.22.0 互換性エラー
  • ✅ トークン範囲外エラー
  • ✅ decoder_with_past入力形状エラー
  • ✅ 日本語テキスト処理エラー

🔧 トラブルシューティング

よくある問題と解決策

  1. "indices element out of data bounds"エラー

    • キャリブレーションサンプル数を削減 (max_samples=20)
    • より短いテキストを使用
  2. "Got invalid dimensions"エラー

    • 元の非量子化ONNXモデルを使用
    • モデル入力仕様を確認

詳細は docs/troubleshooting.md を参照してください。

📄 ライセンス

このプロジェクトは Apache 2.0 License の下で公開されています。

🤝 貢献

プルリクエストやイシューの報告を歓迎します!

📞 サポート

🏷️ タグ

onnx quantization japanese machine-translation marianmt imatrix tensorflow onnxruntime


作成日: Yuki Fukaya | 更新日: 2025年5月

Downloads last month
6
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support