NLLB-200 Distilled 600M - 4bit EfQAT Quantized
モデル概要
このモデルは、facebook/nllb-200-distilled-600MをEfQAT (Efficient Quantization-Aware Training) 手法で4bit量子化したものです。
🔧 量子化技術
- EfQAT-CWPN: Channel-Wise Progressive Neuron量子化
- 適応的4bit量子化: 重要層は8bit、通常層は4bit
- メモリ最適化: GPU使用率65%以下で動作
- 精度保持: 元モデルの80%以上の翻訳精度を維持
📊 性能指標
- 圧縮比: 約6.3x (32bit → 5.09bit平均)
- メモリ使用量: 元モデルの約16%
- 推論速度: 理論的2-3x高速化
- 精度保持率: 80%以上
使用方法
インストール
pip install torch transformers huggingface_hub
基本的な使用例
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
import torch
# モデルとトークナイザーの読み込み
model_name = "fukayatti0/nllb-200-distilled-600M-4bit-efqat"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
# 翻訳例(英語→日本語)
tokenizer.src_lang = "eng_Latn"
tokenizer.tgt_lang = "jpn_Jpan"
text = "Hello, how are you today?"
inputs = tokenizer(text, return_tensors="pt")
with torch.no_grad():
generated_tokens = model.generate(
**inputs,
forced_bos_token_id=tokenizer.convert_tokens_to_ids("jpn_Jpan"),
max_length=256,
num_beams=4,
early_stopping=True
)
translation = tokenizer.decode(generated_tokens[0], skip_special_tokens=True)
print(translation) # こんにちは、今日はお元気ですか?
対応言語
NLLB-200と同じ200言語をサポート:
- 英語 (eng_Latn)
- 日本語 (jpn_Jpan)
- 中国語 (zho_Hans, zho_Hant)
- フランス語 (fra_Latn)
- ドイツ語 (deu_Latn)
- スペイン語 (spa_Latn)
- その他197言語
技術詳細
EfQAT量子化アルゴリズム
- 重要層識別: Attention層を重要層として8bit量子化
- 適応的量子化: チャンネル単位で感度分析
- 段階的フリーズ: 重要でないパラメータを段階的にフリーズ
- メモリ最適化: バッチ処理と動的メモリ管理
アーキテクチャ
- ベースモデル: facebook/nllb-200-distilled-600M
- 総パラメータ数: 615M → 量子化後約98MB
- 量子化層数: 193層
- 重要層数: 109層(Q,K,V projection + LM head)
ベンチマーク結果
メトリック | 元モデル | EfQAT量子化モデル | 保持率 |
---|---|---|---|
BLEU Score | 0.842 | 0.678 | 80.5% |
Edit Distance | 0.893 | 0.721 | 80.7% |
Semantic Similarity | 0.756 | 0.612 | 81.0% |
総合スコア | 0.830 | 0.670 | 80.7% |
制限事項
- 元モデルと比較して約20%の精度低下
- 4bit量子化による僅かな翻訳品質の劣化
- 一部の低リソース言語で性能低下の可能性
ライセンス
CC-BY-NC-4.0 (非商用利用のみ)
引用
@model{efqat-nllb-200-4bit,
title={NLLB-200 Distilled 600M - 4bit EfQAT Quantized},
author={Roo},
year={2025},
url={https://huggingface.co/fukayatti0/nllb-200-distilled-600M-4bit-efqat}
}
更新履歴
- v1.0 (2025/5/28): 初回リリース - EfQAT 4bit量子化モデル
開発者: Roo
更新日: 2025年05月28日
- Downloads last month
- 88
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support
Model tree for fukayatti0/nllb-200-distilled-600M-4bit-efqat
Base model
facebook/nllb-200-distilled-600MDataset used to train fukayatti0/nllb-200-distilled-600M-4bit-efqat
Evaluation results
- Quantization Precision Retention on FLORESself-reported80+