Gemma-3-R1984-1B-0613

Running on Zero

App Files Files Community

openfree commited on 2 days ago

Commit

fc3d5aa

verified ·

1 Parent(s): 3631b74

Update app.py

Browse files

Files changed (1) hide show

app.py +41 -13

app.py CHANGED Viewed

@@ -130,21 +130,49 @@ def do_web_search(query: str) -> str:
         logger.error(f"Web search failed: {e}")
         return f"Web search failed: {str(e)}"
 ##############################################################################
-# 모델/토크나이저 로딩 (텍스트 전용)
 ##############################################################################
-MAX_CONTENT_CHARS = 2000
-MAX_INPUT_LENGTH = 2096
-model_id = os.getenv("MODEL_ID", "openfree/Gemma-3-R1984-1B-0613")
-# 텍스트 전용 모델로 로드
-tokenizer = AutoTokenizer.from_pretrained(model_id)
-model = AutoModelForCausalLM.from_pretrained(
-    model_id,
-    device_map="auto",
-    torch_dtype=torch.bfloat16,
-    attn_implementation="eager"
-)
 ##############################################################################
 # CSV, TXT, PDF 분석 함수

         logger.error(f"Web search failed: {e}")
         return f"Web search failed: {str(e)}"
 ##############################################################################
+# 모델 및 토크나이저 로드 (Space 환경에서 최적화)
 ##############################################################################
+@spaces.GPU
+def load_model(model_name="VIDraft/Gemma-3-R1984-1B", adapter_name="openfree/Gemma-3-R1984-1B-0613"):
+    logger.info(f"모델 로딩 시작: {model_name} (어댑터: {adapter_name})")
+    clear_cuda_cache() # 캐시 정리
+    bnb_config = BitsAndBytesConfig(
+        load_in_4bit=True,
+        bnb_4bit_use_double_quant=True,
+        bnb_4bit_quant_type="nf4",
+        bnb_4bit_compute_dtype=torch.bfloat16,
+        # nf4_nested_quant=False, # 필요시 활성화
+    )
+    # 베이스 모델 로드
+    model = AutoModelForCausalLM.from_pretrained(
+        model_name,
+        quantization_config=bnb_config,
+        device_map="auto",
+        trust_remote_code=False,
+    )
+    # 토크나이저 로드 (베이스 모델과 동일한 토크나이저 사용)
+    tokenizer = AutoTokenizer.from_pretrained(model_name)
+    tokenizer.pad_token = tokenizer.eos_token
+    # PEFT 어댑터 로드 및 베이스 모델에 병합
+    from peft import PeftModel
+    try:
+        model = PeftModel.from_pretrained(model, adapter_name)
+        logger.info(f"PEFT 어댑터 로딩 및 병합 완료: {adapter_name}")
+    except Exception as e:
+        logger.error(f"PEFT 어댑터 로딩 오류: {e}")
+        logger.warning("어댑터 로딩에 실패했습니다. 베이스 모델로 진행합니다.")
+        # 어댑터 로딩 실패 시 베이스 모델 그대로 사용하거나 오류 처리
+    model.eval() # 추론 모드로 설정
+    logger.info("모델 및 토크나이저 로딩 완료")
+    return model, tokenizer
 ##############################################################################
 # CSV, TXT, PDF 분석 함수