snumin44
/

sap-bert-ko-en

Feature Extraction

Model card Files Files and versions Community

snumin44 commited on Nov 22, 2024

Commit

9bc1a41

·

verified ·

1 Parent(s): cf9439c

Update README.md

Files changed (1) hide show

README.md +62 -3

README.md CHANGED Viewed

@@ -13,9 +13,68 @@ base_model:
 한·영 의료 용어 사전인 KOSTOM을 사용해 한국어 용어와 영어 용어를 정렬했습니다.
 참고: [SapBERT](https://aclanthology.org/2021.naacl-main.334.pdf), [Original Code](https://github.com/cambridgeltl/sapbert)
-## 1. SapBERT-KO-EN
 **SapBERT**는 수많은 의료 동의어를 동일한 의미로 처리하기 위한 사전 학습 방법론입니다.
-**SapBERT-KO-EN**는 한·영 혼용체의 의료 기록을 처리하기 위해 한·영 의료 용어를 정렬했습니다.
-[Github](https://github.com/snumin44/SapBERT-KO-EN)

 한·영 의료 용어 사전인 KOSTOM을 사용해 한국어 용어와 영어 용어를 정렬했습니다.
 참고: [SapBERT](https://aclanthology.org/2021.naacl-main.334.pdf), [Original Code](https://github.com/cambridgeltl/sapbert)
+## 2. SapBERT-KO-EN
 **SapBERT**는 수많은 의료 동의어를 동일한 의미로 처리하기 위한 사전 학습 방법론입니다.
+**SapBERT-KO-EN**는 **한·영 혼용체의 의료 기록**을 처리하기 위해 한·영 의료 용어를 정렬했습니다.
+※ 자세한 설명: [Github](https://github.com/snumin44/SapBERT-KO-EN)
+## 3. Training
+모델 학습에 활용한 베이스 모델 및 하이퍼 파라미터는 다음과 같습니다.
+- Model : klue/bert-base
+- Epochs : 1
+- Batch Size : 64
+- Max Length : 64
+- Dropout : 0.1
+- Pooler : 'cls'
+- Eval Step : 100
+- Threshold : 0.8
+- Scale Positive Sample : 1
+- Scale Negative Sample : 60
+※ 영어 용어의 경우 대부분 알파벳 단위로 처리합니다.
+```python
+import numpy as np
+from transformers import AutoModel, AutoTokenizer
+model_path = 'snumin44/sap-bert-ko-en'
+model = AutoModel.from_pretrained(model_path)
+tokenizer = AutoTokenizer.from_pretrained(model_path)
+query = '간경화'
+targets = [
+    'liver cirrhosis',
+    '간경변',
+    'liver cancer',
+    '간암',
+    'brain tumor',
+    '뇌종양'
+]
+query_feature = tokenizer(query, return_tensors='pt')
+query_outputs = model(**query_feature, return_dict=True)
+query_embeddings = query_outputs.pooler_output.detach().numpy().squeeze()
+def cos_sim(A, B):
+    return np.dot(A, B) / (np.linalg.norm(A) * np.linalg.norm(B))
+for idx, target in enumerate(targets):
+    target_feature = tokenizer(target, return_tensors='pt')
+    target_outputs = model(**target_feature, return_dict=True)
+    target_embeddings = target_outputs.pooler_output.detach().numpy().squeeze()
+    similarity = cos_sim(query_embeddings, target_embeddings)
+    print(f"Similarity between query and target {idx}: {similarity:.4f}")
+```
+```
+Similarity between query and target 0: 0.7145
+Similarity between query and target 1: 0.7186
+Similarity between query and target 2: 0.6183
+Similarity between query and target 3: 0.6972
+Similarity between query and target 4: 0.3929
+Similarity between query and target 5: 0.4260
+```