竖排文字识别建议优化一下

#3
by liuqjox - opened

经过测试,Qwen2.5-VL-32B-Instruct模型在处理竖排手写文字(如硬笔书法、毛笔书法等)时存在以下问题:
虽然模型能够基本正确识别单个文字,但无法正确理解文字顺序。
同样的图片,QVQ-72B-Preview模型在竖排文字识别方面表现更优,至少能够正确识别文字为竖行排列。
建议开发团队考虑一下针对竖排文字识别进行优化^_^

附上测试图片,供参考。
铜婚0.png

Can't you just prompt the read order to it?

请问一下 32B 目前大概需要多少显存?

Can't you just prompt the read order to it?

No, I've already tested it; unfortunately, it doesn't work.
Besides, this shouldn't be something that requires me to prompt manually.

请问一下 32B 目前大概需要多少显存?

虽然我是用https://chat.qwenlm.ai 以及 https://huggingface.co/spaces/Qwen/Qwen2.5-VL-32B-Instruct 在线测的,不过你这个问题可以参照QwQ-32b啊,等Q4_K_M量化出来后肯定不到20G,RTX 3090单卡跑没压力的。

经测试32b确实有问题,7b都能正确识别

经测试32b确实有问题,7b都能正确识别

+1

Sign up or log in to comment