panlr commited on
Commit
247b3de
·
1 Parent(s): ff37c38

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +1 -1
README.md CHANGED
@@ -17,7 +17,7 @@ pipeline_tag: automatic-speech-recognition
17
  ### 微调数据
18
  微调训练的数据来源于[teochew-wild](https://huggingface.co/datasets/panlr/teochew_wild),这是首个开源的、野外的、正字准确标注的多说话人潮汕话数据集,包含约18.9小时、共12500条潮汕话音频片段,覆盖了潮州府城、汕头市区、潮安南部、澄海、榕江音等多种口音。
19
 
20
- 为了减少字面歧义、多音字过多、同义异体字等问题,该数据集的标注采用自创的**[歹看正字法](https://github.com/p1an-lin-jung/teochew-g2p/blob/master/doc/readme.md)**,而非通常使用的谐音字或者专家考证的本字。
21
 
22
  这是因为在谐音字或者专家方案中,非常容易出现歧义,例如:
23
  ```
 
17
  ### 微调数据
18
  微调训练的数据来源于[teochew-wild](https://huggingface.co/datasets/panlr/teochew_wild),这是首个开源的、野外的、正字准确标注的多说话人潮汕话数据集,包含约18.9小时、共12500条潮汕话音频片段,覆盖了潮州府城、汕头市区、潮安南部、澄海、榕江音等多种口音。
19
 
20
+ 为了减少字面歧义、多音字过多、同义异体字等问题,该数据集的标注采用自创的 **[歹看正字法](https://github.com/p1an-lin-jung/teochew-g2p/blob/master/doc/readme.md)** ,而非通常使用的谐音字或者专家考证的本字。
21
 
22
  这是因为在谐音字或者专家方案中,非常容易出现歧义,例如:
23
  ```