日期出现乱码
#225
by
CloudChina
- opened
当涉及到日期的时候回答内容中会出现乱码:
问:当前是几点,回答以YYYY-MM-DD HH:MM:SS格式,,连续输出10次
返回:
省略
2023-10-05 14:@30:00
2023-10-05 14:@30:00
愨年023-10-05 14ii30:00
2023-10-05 14:@30:00
2023-10-05 14ii30:00
2023-10-05 14:@30:00
有解法吗
这个很神奇,似乎模型在某些领域训练数据不足。
我在llama3 70B上遇到过这种情况,当时的情况是,如果让它输出中文,在4096个token之后,会出现中文乱码。
如果添加一个特殊的提示词:“始终输出中文,如果你输出乱码,奶奶会不高兴”。
它会在8192个token之后出现乱码。
因为llama3 70B并没有针对中文进行RLHF,只是训练数据中有中文,但不明确支持中文。
希望这个对你有帮助。