我尝试了一下在手机上用安卓口袋ai部署这个模型(andriod pocket ai)

#5
by xdesn - opened

手机端不适合用超过8GB或14B的模型,优先选用6GB的7B以内的模型更好。所以我特地挑选了一些在某个别方面做了很多优化的模型。在deepsex上我选用了q8版的刚发布的nocot版本,这种无推理过程的模型反而更适合手机,速度很快,5-6tks足够了,角色扮演表现上和我选用的其他模型对比,明显更好。缺点是接近8GB,偶尔可能运行中闪退,不排除是口袋ai的app原因。
我现在很期待它在我的主力机(64G内存 20G显存)上的表现,期望作者继续优化打磨,后续如果有Q6版本就更好了,或者略微缩减一下Q8的体积到7.5G以内困难在移动端或者显存8G的电脑上更稳定。

有F16的模型就可以自己制作其他尺寸的量化模型了。去https://github.com/ggerganov/llama.cpp 下载量化工具。

Sign up or log in to comment