Fix: Respect `is_causal=False` config in forward to enable bidirectional attention

#37
by Bool1020 - opened

Fix: Respect is_causal=False config in forward to enable bidirectional attention

楼主发现该问题后,我也进行了测试,在CMTEB的任务上简单做了测试,结果如下:

image.png

其中

gte_Qwen2-1_5B-original: 代表是官方推理代码

gte_Qwen2-1_5B-bi:手动将modeling_qwen.py中Line 649改为is_causal: bool = False

可以发现明显双向注意力机制效果更好,希望官方check完毕后抓紧合并。

备注:本结果本人使用了其他的prompt,所以不用在意和CMTEB榜单效果不一致,只需要看相对大小即可

thenlper changed pull request status to merged

Sign up or log in to comment