Update README.md
Browse files
README.md
CHANGED
@@ -17,7 +17,7 @@ pipeline_tag: automatic-speech-recognition
|
|
17 |
### 微调数据
|
18 |
微调训练的数据来源于[teochew-wild](https://huggingface.co/datasets/panlr/teochew_wild),这是首个开源的、野外的、正字准确标注的多说话人潮汕话数据集,包含约18.9小时、共12500条潮汕话音频片段,覆盖了潮州府城、汕头市区、潮安南部、澄海、榕江音等多种口音。
|
19 |
|
20 |
-
|
21 |
|
22 |
这是因为在谐音字或者专家方案中,非常容易出现歧义,例如:
|
23 |
```
|
|
|
17 |
### 微调数据
|
18 |
微调训练的数据来源于[teochew-wild](https://huggingface.co/datasets/panlr/teochew_wild),这是首个开源的、野外的、正字准确标注的多说话人潮汕话数据集,包含约18.9小时、共12500条潮汕话音频片段,覆盖了潮州府城、汕头市区、潮安南部、澄海、榕江音等多种口音。
|
19 |
|
20 |
+
为了减少字面歧义、多音字过多、同义异体字等问题,该数据集的标注采用自创的 **[歹看正字法](https://github.com/p1an-lin-jung/teochew-g2p/blob/master/doc/readme.md)** ,而非通常使用的谐音字或者专家考证的本字。
|
21 |
|
22 |
这是因为在谐音字或者专家方案中,非常容易出现歧义,例如:
|
23 |
```
|