panlr/whisper-finetune-teochew

模型简介

本模型是Whisper-medium的一个微调版本，用于对潮州话（潮汕话）的正字识别（并非翻译为普通话），微调的代码源自夜雨飘零大佬的github仓库。

在线Demo

微调数据

微调训练的数据来源于teochew-wild，这是首个开源的、野外的、正字准确标注的多说话人潮汕话数据集，包含约18.9小时、共12500条潮汕话音频片段，覆盖了潮州府城、汕头市区、潮安南部、澄海、榕江音等多种口音。

为了减少字面歧义、多音字过多、同义异体字等问题，该数据集的标注采用自创的 歹看正字法 ，而非通常使用的谐音字或者专家考证的本字。

这是因为在谐音字或者专家方案中，非常容易出现歧义，例如：

若用【个】表示【的】，那么【有个人】，究竟是【有一个人】，还是【有的人】呢？ 因此本数据集用【介】代替【个】。
若用【只】表示【这】，那么【这只猫】、【这只车】，便会写成【只只猫】、【只只车】，看起来非常怪异，因此本数据集用繁异字【祇】表示【这】之意，其他情况同普通话。

评估结果

我对12500条数据随机划分成训练集、验证集、测试集，分别有11000，700，700条数据。在RTX 3090上经过大约10个epoch的微调训练，采用字错误率（CER）作为评估指标，结果如下： (论文进行实验时，对标签的同音字进行了部分统一，如【仔】和【囝】【二】和【两】，所以得到了更好的效果)

数据子集	CER（%）
验证集	12.865
测试集	12.254

panlr
/

whisper-finetune-teochew

模型简介

在线Demo

微调数据

评估结果

Dataset used to train panlr/whisper-finetune-teochew

Space using panlr/whisper-finetune-teochew 1