模型支持最大文本长度为512token,请问一个token对应几个英文字母或中文汉字?
#9
by
kyonyan
- opened
如题,谢谢。
您好,一个token会对应多个字母或汉子,没有一个恒定的比例。
可以根据一下方法计算tokenizer后的长度:
from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('BAAI/bge-large-zh')
length = len(tokenizer("hello world")['input_ids'])