seastar105/whisper-base-komix

Model Description

OpenAI의 whisper-base 모델을 아래 세가지 데이터셋으로 학습한 모델입니다.

한국어 음성 (https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=123)
주소 음성 데이터 (https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=71556)
주요 영역별 회의 음성인식 데이터 (https://www.aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=data&dataSetSn=464)

train_steps: 20000
warmup_steps: 2000
lr scheduler: linear warmup cosine decay
max learning rate: 1e-4
batch size: 256
max_grad_norm: 1.0
adamw_beta1: 0.9
adamw_beta2: 0.98

Evaluation

https://github.com/rtzr/Awesome-Korean-Speech-Recognition

위 레포지토리에서 주요 영역별 회의 음성을 제외한 테스트셋 결과입니다. 아래 테이블에서 whisper_base_komix가 본 모델 성능입니다.

Model	cv_15_ko	fleurs_ko	kcall_testset	kconf_test	kcounsel_test	klec_testset	kspon_clean	kspon_other
whisper_base	21.16	11.89	42.56	27.62	22.24	28.65	30.41	27.02
whisper_base_komix	15.42	7.16	20.86	14.24	12.64	13.44	12.26	12.12
whisper_large_v3	5.11	3.72	5.45	9.35	3.83	8.46	15.08	12.89
whisper_large_v3_turbo	5.38	3.95	5.89	9.77	4.21	9.27	16.49	13.54