caution!

このGGUFは本来の性能を十分に発揮できていない「暫定版」です。
これは2024年7月3日現在のllama.cppがCALM3モデル固有のpre-tokenization（≒前処理）をサポートしていないことに起因します。
妥協策として、pre-tokenization処理はllama.cppデフォルトのものを利用するように改造してありますが、これはモデルの性能低下を引き落としている可能性が極めて高いです。

What is this?

CyberAgentの日英バイリンガル言語モデルCyberAgentLM3-22B-ChatをGGUFフォーマットに変換したものです。

imatrix dataset

日本語能力を重視し、日本語が多量に含まれるTFMC/imatrix-dataset-for-japanese-llmデータセットを使用しました。
また、imatrixの算出においてはq8_0精度のモデルを使用しました。これは、現行のCUDA版llama.cppがbf16での計算に非対応であり、またf16を使用した場合も原因不明のnanが検出されたためです。

Chat template

<|im_start|>system
ここにSystem Promptを書きます。<|im_end|>
<|im_start|>user
ここにMessageを書きます。<|im_end|>
<|im_start|>assistant

Environment

Windows版llama.cpp-b3274およびpre-tokenization関連に細工を施した改造版convert-hf-to-gguf.pyを使用して量子化作業を実施しました。

License

apache-2.0

Developer

CyberAgent