KoBART Korean-to-Korean Sign Language Translation Model

This model is based on gogamza/kobart-base-v2 and has been fine-tuned as a Transformer-based Seq2Seq model to automatically convert Korean sentences into Korean Sign Language (KSL) grammatical structures.

Model description

한국어 문장을 입력으로 받아 수어 문법(SOV 등)에 맞춘 변환된 문장을 출력
수어 통역사 부족 문제를 보완하고, 농인의 정보 접근성을 높이기 위한 기술적 접근
토크나이저는 KoBARTTokenizer 사용, 특수 토큰 <s>, </s>, <pad> 포함

Intended uses & limitations

Intended uses

음성 인식 결과(예: Whisper)를 입력으로 받아 수어 형태 문장으로 변환
뉴스, 안내 방송 등 농인 대상 정보 전달 시스템의 백엔드 처리에 사용 가능

Limitaions

한국어-수어 병렬 말뭉치 기반으로 훈련되었으며, 도메인 외 문장에는 부정확할 수 있음
수어 영상을 생성하는 기능은 포함되어 있지 않음 (텍스트 변환까지만 처리)

Dataset

출처: 국립국어원 한국어-한국수어 병렬 말뭉치
형식: TSV 파일로 변환하여 사용 (열 이름: koreanText, sign_lang_sntenc)

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 5e-5
max_length: 128
num_train_epochs: 3
per_device_train_batch_size: 16
gradient_accumulation_steps: 2
warmup_steps: 500
fp16: True

Example usage

'''from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained("./") model = AutoModelForSeq2SeqLM.from_pretrained("./")

sentence = "오늘 날씨 어때?" inputs = tokenizer(sentence, return_tensors="pt") output = model.generate(**inputs, max_new_tokens=64) print(tokenizer.decode(output[0], skip_special_tokens=True))'''

Training results

Framework versions

Transformers 4.35.2
Pytorch 2.1.0
Datasets 2.15.0
Tokenizers 0.15.0

chaem
/

kobart-ksl-translation