## 模型介绍 ChatGLM2-6B 是清华开源中英双语对话模型 ChatGLM-6B 的第二代版本,具有模型对话流畅、部署门槛较低等众多优秀特性,ChatGLM2-6B 使用了 GLM 的混合目标函数上下文长度(Context Length)由 ChatGLM-6B 的 2K 扩展到了 32K,基于 Multi-Query Attention 技术,ChatGLM2-6B 有更高效的推理速度和更低的显存占用,推理速度相比初代提升了 42%,INT4 量化下,6G 显存支持的对话长度由 1K 提升到了 8K **chatglm2-6b-WaJiaBank** 是基于清华 chatglm2-6b 进行量化+轻量微调,使用数据为网络公开数据。当前使用的数据量相对较少,模型泛化能力还需进一步提升。 #### 优化方向: - 数据增强 - 性能调优 - 模型参数 ## 调用方法 ```python from transformers import AutoTokenizer,AutoConfig, AutoModel, BitsAndBytesConfig tokenizer = AutoTokenizer.from_pretrained("xiangxiang/chatglm2-6b-WaJiaBank", trust_remote_code=True) model = AutoModel.from_pretrained("xiangxiang/chatglm2-6b-WaJiaBank", trust_remote_code=True).float() ## GPU cuda ``` 提高模型推理速度,可以参考ChatGLM2-6B多卡部署方式 ```python from utils import load_model_on_gpus model = load_model_on_gpus("THUDM/chatglm2-6b", num_gpus=2) ``` ## 参考链接 https://github.com/THUDM/ChatGLM2-6B