GGUF please ^^

by indychou - opened Feb 14

Discussion

indychou

Feb 14

哪位好心人士，幫忙量化GGUF呢? 家裡N卡的 VRAM 太少，感恩。

NCGWRjason

Apr 8

哪位好心人士，幫忙量化GGUF呢? 家裡N卡的 VRAM 太少，感恩。

目前看到有gguf的有這些
https://huggingface.co/mradermacher/Llama-Breeze2-8B-Instruct-Text-i1-GGUF/tree/main
https://huggingface.co/mradermacher/Llama-Breeze2-8B-Instruct-Text-GGUF/tree/main
https://huggingface.co/voidful/Llama-Breeze2-8B-Instruct-text-only/tree/main

但也不曉得哪個好

indychou

Apr 12

真的是太感謝了，讓我有機會體會發哥團隊的作品。完全是台灣社會比較常用的詞彙，輸出的詞句閱讀起來就覺得是自家人的感覺，天然耶尚好。
我總共測試了以下幾種
Llama-Breeze2-8B-Instruct-Text.Q4_K_M.gguf
Llama-Breeze2-8B-Instruct-Text.Q6_K.gguf
Llama-Breeze2-8B-Instruct-Text.Q8_0.gguf
Llama-Breeze2-8B-Instruct-Text.f16.gguf

測試環境：
RTX4070TiS 16GB
表現相對較好的是 Llama-Breeze2-8B-Instruct-Text.Q8_0.gguf 、輸出有 60 Token/s
表現相對普通的是 Llama-Breeze2-8B-Instruct-Text.Q6_0.gguf 、輸出有 72 Token/s
表現相對糟糕的是 Llama-Breeze2-8B-Instruct-Text.Q4_K_M.gguf 、輸出有 86 Token/s
速度相對最慢的是 Llama-Breeze2-8B-Instruct-Text.f16.gguf 、輸出僅有 5 Token/s

NCGWRjason

Apr 13

真的是太感謝了，讓我有機會體會發哥團隊的作品。完全是台灣社會比較常用的詞彙，輸出的詞句閱讀起來就覺得是自家人的感覺，天然耶尚好。
我總共測試了以下幾種
Llama-Breeze2-8B-Instruct-Text.Q4_K_M.gguf
Llama-Breeze2-8B-Instruct-Text.Q6_K.gguf
Llama-Breeze2-8B-Instruct-Text.Q8_0.gguf
Llama-Breeze2-8B-Instruct-Text.f16.gguf

測試環境：
RTX4070TiS 16GB
表現相對較好的是 Llama-Breeze2-8B-Instruct-Text.Q8_0.gguf 、輸出有 60 Token/s
表現相對普通的是 Llama-Breeze2-8B-Instruct-Text.Q6_0.gguf 、輸出有 72 Token/s
表現相對糟糕的是 Llama-Breeze2-8B-Instruct-Text.Q4_K_M.gguf 、輸出有 86 Token/s
速度相對最慢的是 Llama-Breeze2-8B-Instruct-Text.f16.gguf 、輸出僅有 5 Token/s

謝謝分享請問您是用哪個huggingface的model來源，是用什麼平台介面跑gguf啊?
我顯卡只有6G 大概只能跑 4bit

indychou

Apr 13

我的顯卡是 RTX4070TiS VRAM有16GB
並且透過 LMStudio 來測試 (https://lmstudio.ai/)
顯卡只有6G 的話，推薦可下載 Llama-Breeze2-8B-Instruct-Text.Q4_K_M.gguf
這款個雖然相對邏輯能力較不精準，但是如果只是擔任英翻中日翻中之類的任務
則是速度表現相對最快的! 而且翻出來的中文很有台灣的口氣喔。

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment