Commit
·
5818f52
1
Parent(s):
fbe8edf
Update README.md
Browse files
README.md
CHANGED
@@ -1,7 +1,4 @@
|
|
1 |
-
|
2 |
-
tags:
|
3 |
-
- finance
|
4 |
-
---
|
5 |
## 模型介绍
|
6 |
ChatGLM2-6B 是清华开源中英双语对话模型 ChatGLM-6B 的第二代版本,具有模型对话流畅、部署门槛较低等众多优秀特性,ChatGLM2-6B 使用了 GLM 的混合目标函数上下文长度(Context Length)由 ChatGLM-6B 的 2K 扩展到了 32K,基于 Multi-Query Attention 技术,ChatGLM2-6B 有更高效的推理速度和更低的显存占用,推理速度相比初代提升了 42%,INT4 量化下,6G 显存支持的对话长度由 1K 提升到了 8K
|
7 |
|
@@ -26,6 +23,6 @@ model = AutoModel.from_pretrained("xiangxiang/chatglm2-6b-WaJiaBank", trust_remo
|
|
26 |
from utils import load_model_on_gpus
|
27 |
model = load_model_on_gpus("THUDM/chatglm2-6b", num_gpus=2)
|
28 |
```
|
29 |
-
##
|
30 |
|
31 |
https://github.com/THUDM/ChatGLM2-6B
|
|
|
1 |
+
|
|
|
|
|
|
|
2 |
## 模型介绍
|
3 |
ChatGLM2-6B 是清华开源中英双语对话模型 ChatGLM-6B 的第二代版本,具有模型对话流畅、部署门槛较低等众多优秀特性,ChatGLM2-6B 使用了 GLM 的混合目标函数上下文长度(Context Length)由 ChatGLM-6B 的 2K 扩展到了 32K,基于 Multi-Query Attention 技术,ChatGLM2-6B 有更高效的推理速度和更低的显存占用,推理速度相比初代提升了 42%,INT4 量化下,6G 显存支持的对话长度由 1K 提升到了 8K
|
4 |
|
|
|
23 |
from utils import load_model_on_gpus
|
24 |
model = load_model_on_gpus("THUDM/chatglm2-6b", num_gpus=2)
|
25 |
```
|
26 |
+
## 参考链接
|
27 |
|
28 |
https://github.com/THUDM/ChatGLM2-6B
|