GGUF please ^^
哪位好心人士,幫忙量化GGUF呢? 家裡N卡的 VRAM 太少,感恩。
真的是太感謝了,讓我有機會體會發哥團隊的作品。完全是台灣社會比較常用的詞彙,輸出的詞句閱讀起來就覺得是自家人的感覺,天然耶尚好。
我總共測試了以下幾種
Llama-Breeze2-8B-Instruct-Text.Q4_K_M.gguf
Llama-Breeze2-8B-Instruct-Text.Q6_K.gguf
Llama-Breeze2-8B-Instruct-Text.Q8_0.gguf
Llama-Breeze2-8B-Instruct-Text.f16.gguf
測試環境:
RTX4070TiS 16GB
表現相對較好的是 Llama-Breeze2-8B-Instruct-Text.Q8_0.gguf 、 輸出有 60 Token/s
表現相對普通的是 Llama-Breeze2-8B-Instruct-Text.Q6_0.gguf 、輸出有 72 Token/s
表現相對糟糕的是 Llama-Breeze2-8B-Instruct-Text.Q4_K_M.gguf 、輸出有 86 Token/s
速度相對最慢的是 Llama-Breeze2-8B-Instruct-Text.f16.gguf 、輸出僅有 5 Token/s
真的是太感謝了,讓我有機會體會發哥團隊的作品。完全是台灣社會比較常用的詞彙,輸出的詞句閱讀起來就覺得是自家人的感覺,天然耶尚好。
我總共測試了以下幾種
Llama-Breeze2-8B-Instruct-Text.Q4_K_M.gguf
Llama-Breeze2-8B-Instruct-Text.Q6_K.gguf
Llama-Breeze2-8B-Instruct-Text.Q8_0.gguf
Llama-Breeze2-8B-Instruct-Text.f16.gguf測試環境:
RTX4070TiS 16GB
表現相對較好的是 Llama-Breeze2-8B-Instruct-Text.Q8_0.gguf 、 輸出有 60 Token/s
表現相對普通的是 Llama-Breeze2-8B-Instruct-Text.Q6_0.gguf 、輸出有 72 Token/s
表現相對糟糕的是 Llama-Breeze2-8B-Instruct-Text.Q4_K_M.gguf 、輸出有 86 Token/s
速度相對最慢的是 Llama-Breeze2-8B-Instruct-Text.f16.gguf 、輸出僅有 5 Token/s
謝謝分享 請問您是用哪個huggingface的model來源,是用什麼平台介面跑gguf啊?
我顯卡只有6G 大概只能跑 4bit
我的顯卡是 RTX4070TiS VRAM有16GB
並且透過 LMStudio 來測試 (https://lmstudio.ai/)
顯卡只有6G 的話,推薦可下載 Llama-Breeze2-8B-Instruct-Text.Q4_K_M.gguf
這款個雖然相對邏輯能力較不精準,但是如果只是擔任 英翻中 日翻中 之類的任務
則是速度表現相對最快的! 而且翻出來的中文很有台灣的口氣喔。