Model InternVLChatModel is not supported

#2
by indychou - opened

請問使用 convert_hf_to_gguf.py 轉換為 GGUF 會導致報錯。
INFO:hf-to-gguf:Loading model: llama-beeze2-8b-instruct
ERROR:hf-to-gguf:Model InternVLChatModel is not supported

能指點迷津嗎?

llamacpp的轉換程式還未支援此格式
https://github.com/ggml-org/llama.cpp/discussions/11768

請問有其他的解法嗎? 感謝

用vllm以BitsAndBytes在線量化的方式運行,不過運行參數有點難調整
https://docs.vllm.ai/en/latest/features/quantization/bnb.html

vllm serve MediaTek-Research/Llama-Breeze2-8B-Instruct --chat-template breeze2.jinja --gpu-memory-utilization 0.9 --max-model-len 32784 --enable-auto-tool-choice --tool-call-parser llama3_json --tensor-parallel-size 1 --max_num_seqs 20

使用以上方法部屬在vLLM,會出現以下error:

KeyError: IMG_CONTEXT

Sign up or log in to comment