feat: add custom tokenizer with multi-char Chinese token splitting

by linyueqian - opened Apr 16

base: refs/heads/main

←

from: refs/pr/8

Discussion Files changed

+81

-3

linyueqian

Apr 16

•

edited Apr 16

VoxCPM2 was trained with mask_multichar_chinese_tokens which splits
multi-character Chinese tokens (e.g. "你好" → ["你", "好"]) into individual
character IDs. The current HF repo ships a plain LlamaTokenizerFast without
this splitting, causing downstream inference frameworks (vLLM-Omni, etc.) to
produce garbled Chinese audio.

This PR adds VoxCPM2Tokenizer (subclass of LlamaTokenizerFast) that applies
char-splitting inside encode() and __call__() transparently.

feat: add custom tokenizer with multi-char Chinese token splitting36903917

feat: point AutoTokenizer to VoxCPM2Tokenizer via auto_map513c9edf

fix: use hasattr for BatchEncoding compatibilitya9d2a4d4

EasonLiu changed pull request status to merged Apr 16

Upload images, audio, and videos by dragging in the text input, pasting, or clicking here.

Tap or paste here to upload images

· Sign up or log in to comment