Gemma-3-R1984-1B-0613

Running on Zero

App Files Files Community

openfree commited on 2 days ago

Commit

f76958e

verified ·

1 Parent(s): fc3d5aa

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -5

app.py CHANGED Viewed

@@ -12,13 +12,27 @@ import gradio as gr
 import spaces
 import torch
 from loguru import logger
-from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStreamer
 # CSV/TXT 분석
 import pandas as pd
 # PDF 텍스트 추출
 import PyPDF2
 ##############################################################################
 # 메모리 정리 함수 추가
 ##############################################################################
@@ -134,17 +148,21 @@ def do_web_search(query: str) -> str:
 ##############################################################################
 # 모델 및 토크나이저 로드 (Space 환경에서 최적화)
 ##############################################################################
-@spaces.GPU
 def load_model(model_name="VIDraft/Gemma-3-R1984-1B", adapter_name="openfree/Gemma-3-R1984-1B-0613"):
     logger.info(f"모델 로딩 시작: {model_name} (어댑터: {adapter_name})")
     clear_cuda_cache() # 캐시 정리
     bnb_config = BitsAndBytesConfig(
         load_in_4bit=True,
         bnb_4bit_use_double_quant=True,
         bnb_4bit_quant_type="nf4",
         bnb_4bit_compute_dtype=torch.bfloat16,
-        # nf4_nested_quant=False, # 필요시 활성화
     )
     # 베이스 모델 로드
@@ -160,14 +178,12 @@ def load_model(model_name="VIDraft/Gemma-3-R1984-1B", adapter_name="openfree/Gem
     tokenizer.pad_token = tokenizer.eos_token
     # PEFT 어댑터 로드 및 베이스 모델에 병합
-    from peft import PeftModel
     try:
         model = PeftModel.from_pretrained(model, adapter_name)
         logger.info(f"PEFT 어댑터 로딩 및 병합 완료: {adapter_name}")
     except Exception as e:
         logger.error(f"PEFT 어댑터 로딩 오류: {e}")
         logger.warning("어댑터 로딩에 실패했습니다. 베이스 모델로 진행합니다.")
-        # 어댑터 로딩 실패 시 베이스 모델 그대로 사용하거나 오류 처리
     model.eval() # 추론 모드로 설정
@@ -290,6 +306,7 @@ def process_history(history: list[dict]) -> str:
 ##############################################################################
 def _model_gen_with_oom_catch(**kwargs):
     """별도 스레드에서 OutOfMemoryError를 잡아주기 위해"""
     try:
         model.generate(**kwargs)
     except torch.cuda.OutOfMemoryError:
@@ -312,6 +329,11 @@ def run(
     use_web_search: bool = False,
     web_search_query: str = "",
 ) -> Iterator[str]:
     try:
         # 전체 프롬프트 구성

 import spaces
 import torch
 from loguru import logger
+from transformers import AutoTokenizer, AutoModelForCausalLM, TextIteratorStreamer, BitsAndBytesConfig
+from peft import PeftModel
 # CSV/TXT 분석
 import pandas as pd
 # PDF 텍스트 추출
 import PyPDF2
+##############################################################################
+# 상수 정의
+##############################################################################
+MAX_CONTENT_CHARS = 2000  # 문서 내용 최대 문자 수
+MAX_INPUT_LENGTH = 4096   # 모델 입력 최대 토큰 수
+##############################################################################
+# 전역 변수
+##############################################################################
+model = None
+tokenizer = None
+device = None
 ##############################################################################
 # 메모리 정리 함수 추가
 ##############################################################################
 ##############################################################################
 # 모델 및 토크나이저 로드 (Space 환경에서 최적화)
 ##############################################################################
 def load_model(model_name="VIDraft/Gemma-3-R1984-1B", adapter_name="openfree/Gemma-3-R1984-1B-0613"):
+    global model, tokenizer, device
     logger.info(f"모델 로딩 시작: {model_name} (어댑터: {adapter_name})")
     clear_cuda_cache() # 캐시 정리
+    # device 설정
+    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+    logger.info(f"Using device: {device}")
     bnb_config = BitsAndBytesConfig(
         load_in_4bit=True,
         bnb_4bit_use_double_quant=True,
         bnb_4bit_quant_type="nf4",
         bnb_4bit_compute_dtype=torch.bfloat16,
     )
     # 베이스 모델 로드
     tokenizer.pad_token = tokenizer.eos_token
     # PEFT 어댑터 로드 및 베이스 모델에 병합
     try:
         model = PeftModel.from_pretrained(model, adapter_name)
         logger.info(f"PEFT 어댑터 로딩 및 병합 완료: {adapter_name}")
     except Exception as e:
         logger.error(f"PEFT 어댑터 로딩 오류: {e}")
         logger.warning("어댑터 로딩에 실패했습니다. 베이스 모델로 진행합니다.")
     model.eval() # 추론 모드로 설정
 ##############################################################################
 def _model_gen_with_oom_catch(**kwargs):
     """별도 스레드에서 OutOfMemoryError를 잡아주기 위해"""
+    global model
     try:
         model.generate(**kwargs)
     except torch.cuda.OutOfMemoryError:
     use_web_search: bool = False,
     web_search_query: str = "",
 ) -> Iterator[str]:
+    global model, tokenizer
+    # 모델이 로드되지 않았으면 로드
+    if model is None or tokenizer is None:
+        load_model()
     try:
         # 전체 프롬프트 구성