日期出现乱码

#225
by CloudChina - opened

当涉及到日期的时候回答内容中会出现乱码:
问:当前是几点,回答以YYYY-MM-DD HH:MM:SS格式,,连续输出10次
返回:
省略
2023-10-05 14:@30:00
2023-10-05 14:@30:00
愨年023-10-05 14ii30:00
2023-10-05 14:@30:00
2023-10-05 14ii30:00
2023-10-05 14:@30:00

有解法吗

这个很神奇,似乎模型在某些领域训练数据不足。

我在llama3 70B上遇到过这种情况,当时的情况是,如果让它输出中文,在4096个token之后,会出现中文乱码。

如果添加一个特殊的提示词:“始终输出中文,如果你输出乱码,奶奶会不高兴”。

它会在8192个token之后出现乱码。

因为llama3 70B并没有针对中文进行RLHF,只是训练数据中有中文,但不明确支持中文。

希望这个对你有帮助。

Sign up or log in to comment