Spaces:

m97j
/

PersonaChatEngine_hf-serve

Running

m97j commited on 17 days ago

Commit

90bc37b

1 Parent(s): a18d920

Set config.py match with env variables such as HF_TOKEN

Files changed (2) hide show

config.py CHANGED Viewed

@@ -1,17 +1,25 @@
 import torch
-# 모델 경로
-BASE_MODEL = "Qwen/Qwen2.5-3B-Instruct"
-ADAPTER_MODEL = "m97j/npc-LoRA-fps"
 # 장치 설정
-DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
 # 토크나이저/모델 공통
-MAX_LENGTH = 1024
-NUM_FLAGS = 7  # flags.json 길이와 일치
 # 생성 파라미터
-GEN_MAX_NEW_TOKENS = 200
-GEN_TEMPERATURE = 0.7
-GEN_TOP_P = 0.9

+import os
 import torch
+from dotenv import load_dotenv
+# .env 파일 로드 (로컬 개발 시)
+load_dotenv()
+# 모델 경로 (환경변수 없으면 기본값 사용)
+BASE_MODEL = os.getenv("BASE_MODEL", "Qwen/Qwen2.5-3B-Instruct")
+ADAPTER_MODEL = os.getenv("ADAPTER_MODEL", "m97j/npc-LoRA-fps")
 # 장치 설정
+DEVICE = os.getenv("DEVICE", "cuda" if torch.cuda.is_available() else "cpu")
 # 토크나이저/모델 공통
+MAX_LENGTH = int(os.getenv("MAX_LENGTH", 1024))
+NUM_FLAGS = int(os.getenv("NUM_FLAGS", 7))  # flags.json 길이와 일치
 # 생성 파라미터
+GEN_MAX_NEW_TOKENS = int(os.getenv("GEN_MAX_NEW_TOKENS", 200))
+GEN_TEMPERATURE = float(os.getenv("GEN_TEMPERATURE", 0.7))
+GEN_TOP_P = float(os.getenv("GEN_TOP_P", 0.9))
+# Hugging Face Token (Private 모델 접근용)
+HF_TOKEN = os.getenv("HF_TOKEN")

model_loader.py CHANGED Viewed

@@ -2,13 +2,13 @@ import os, json, torch
 import torch.nn as nn
 from transformers import AutoTokenizer, AutoModelForCausalLM
 from peft import PeftModel
-from config import BASE_MODEL, ADAPTER_MODEL, DEVICE
 def get_current_branch():
     if os.path.exists("current_branch.txt"):
         with open("current_branch.txt", "r") as f:
             return f.read().strip()
-    return "latest"  # fallback
 class ModelWrapper:
     def __init__(self):
@@ -16,14 +16,30 @@ class ModelWrapper:
         self.flags_order = json.load(open(flags_path, encoding="utf-8"))["ALL_FLAGS"]
         self.num_flags = len(self.flags_order)
-        self.tokenizer = AutoTokenizer.from_pretrained(ADAPTER_MODEL, use_fast=True)
         if self.tokenizer.pad_token is None:
             self.tokenizer.pad_token = self.tokenizer.eos_token
         self.tokenizer.padding_side = "right"
         branch = get_current_branch()
-        base = AutoModelForCausalLM.from_pretrained(BASE_MODEL, device_map="auto", trust_remote_code=True)
-        self.model = PeftModel.from_pretrained(base, ADAPTER_MODEL, revision=branch, device_map="auto")
         hidden_size = self.model.config.hidden_size
         self.model.delta_head = nn.Linear(hidden_size, 2).to(DEVICE)

 import torch.nn as nn
 from transformers import AutoTokenizer, AutoModelForCausalLM
 from peft import PeftModel
+from config import BASE_MODEL, ADAPTER_MODEL, DEVICE, HF_TOKEN
 def get_current_branch():
     if os.path.exists("current_branch.txt"):
         with open("current_branch.txt", "r") as f:
             return f.read().strip()
+    return "latest"
 class ModelWrapper:
     def __init__(self):
         self.flags_order = json.load(open(flags_path, encoding="utf-8"))["ALL_FLAGS"]
         self.num_flags = len(self.flags_order)
+        # 토큰 전달
+        self.tokenizer = AutoTokenizer.from_pretrained(
+            ADAPTER_MODEL,
+            use_fast=True,
+            token=HF_TOKEN
+        )
         if self.tokenizer.pad_token is None:
             self.tokenizer.pad_token = self.tokenizer.eos_token
         self.tokenizer.padding_side = "right"
         branch = get_current_branch()
+        base = AutoModelForCausalLM.from_pretrained(
+            BASE_MODEL,
+            device_map="auto",
+            trust_remote_code=True,
+            token=HF_TOKEN
+        )
+        self.model = PeftModel.from_pretrained(
+            base,
+            ADAPTER_MODEL,
+            revision=branch,
+            device_map="auto",
+            token=HF_TOKEN
+        )
         hidden_size = self.model.config.hidden_size
         self.model.delta_head = nn.Linear(hidden_size, 2).to(DEVICE)