Kunger commited on
Commit
2e6993f
·
verified ·
1 Parent(s): a207225

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +29 -3
README.md CHANGED
@@ -1,3 +1,29 @@
1
- ---
2
- license: cc-by-nc-sa-4.0
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ license: cc-by-nc-sa-4.0
3
+ language:
4
+ - ja
5
+ - zh
6
+ ---
7
+
8
+ ## SakuraLLM去量化模型
9
+
10
+ ### 为什么要去量化?
11
+ llama.cpp在某些设备上受支持情况不佳,推理速度受限,我们可能希望使用pytorch进行推理,于是使用transformers库对GGUF模型进行去量化操作。
12
+
13
+ ### 原始模型是啥
14
+
15
+ [https://huggingface.co/SakuraLLM/Sakura-14B-Qwen2beta-v0.9.2-GGUF](SakuraLLM/Sakura-14B-Qwen2beta-v0.9.2-GGUF)仓库中的sakura-14b-qwen2beta-v0.9.2-q6k.gguf
16
+
17
+ ### 我想自己去量化
18
+
19
+ Transformers现已支持QWEN模型去量化,但是仍有一个重要的修改没有合并至主线。请查阅这个pull request了解详情
20
+
21
+ ```https://github.com/huggingface/transformers/pull/32551```
22
+
23
+ 对于其他模型,量化版本的支持,请参考这个pull request,未来可能支持大部分GGUF模型去量化
24
+
25
+ ```https://github.com/huggingface/transformers/pull/32625```
26
+
27
+ ### 好用吗?
28
+
29
+ 使用Q6K模型去量化,模型精度肯定不如F16模型,对于推理产生的结果未进行测试。