Spaces:

sudipta26889
/

gradio-doc

Sleeping

App Files Files Community

sudipta26889 commited on 18 days ago

Commit

079d1c0

1 Parent(s): ccd721b

Force CPU-only environment and disable CUDA completely for HF Spaces CPU hardware

Browse files

Files changed (1) hide show

app.py +20 -3

app.py CHANGED Viewed

@@ -18,6 +18,11 @@ import json
 import time
 from typing import Any, Dict, Iterable, List, Optional, Tuple
 # Load environment variables from .env file if it exists
 try:
     from dotenv import load_dotenv
@@ -103,7 +108,7 @@ def get_mcp_client(model_id: str, provider: str, api_key: Optional[str]) -> MCPC
     return mcp_client
 async def get_gpt_oss_model_and_tokenizer():
-    """Get or create GPT-OSS-20B model and tokenizer with CPU-only loading."""
     global gpt_oss_tokenizer, gpt_oss_model
     # Check if already loaded
@@ -121,6 +126,10 @@ async def get_gpt_oss_model_and_tokenizer():
             import torch
             from transformers import AutoTokenizer, AutoModelForCausalLM
             print("🔄 Loading GPT-OSS-20B tokenizer...")
             gpt_oss_tokenizer = AutoTokenizer.from_pretrained(
                 MODEL_ID,
@@ -128,15 +137,20 @@ async def get_gpt_oss_model_and_tokenizer():
             )
             print("🔄 Loading GPT-OSS-20B model (CPU-only)...")
-            # Force CPU-only loading to avoid CUDA initialization issues
             gpt_oss_model = AutoModelForCausalLM.from_pretrained(
                 MODEL_ID,
                 torch_dtype=torch.float32,  # Use float32 for CPU compatibility
-                device_map="cpu",  # Force CPU loading
                 trust_remote_code=True,
                 low_cpu_mem_usage=True,
             )
             # Set model to evaluation mode
             gpt_oss_model.eval()
@@ -176,6 +190,9 @@ async def generate_with_gpt_oss(messages: List[Dict[str, Any]]) -> str:
             return_tensors="pt",
         )
         # Generate with timeout protection
         try:
             import torch

 import time
 from typing import Any, Dict, Iterable, List, Optional, Tuple
+# Force CPU-only environment to avoid CUDA initialization
+os.environ["CUDA_VISIBLE_DEVICES"] = ""
+os.environ["USE_CUDA"] = "0"
+os.environ["USE_GPU"] = "0"
 # Load environment variables from .env file if it exists
 try:
     from dotenv import load_dotenv
     return mcp_client
 async def get_gpt_oss_model_and_tokenizer():
+    """Get or create GPT-OSS-20B model and tokenizer with strict CPU-only loading."""
     global gpt_oss_tokenizer, gpt_oss_model
     # Check if already loaded
             import torch
             from transformers import AutoTokenizer, AutoModelForCausalLM
+            # Force CPU-only torch configuration
+            torch.cuda.is_available = lambda: False
+            torch.cuda.device_count = lambda: 0
             print("🔄 Loading GPT-OSS-20B tokenizer...")
             gpt_oss_tokenizer = AutoTokenizer.from_pretrained(
                 MODEL_ID,
             )
             print("🔄 Loading GPT-OSS-20B model (CPU-only)...")
+            # Strict CPU-only loading configuration
             gpt_oss_model = AutoModelForCausalLM.from_pretrained(
                 MODEL_ID,
                 torch_dtype=torch.float32,  # Use float32 for CPU compatibility
+                device_map=None,  # Don't use device mapping
                 trust_remote_code=True,
                 low_cpu_mem_usage=True,
+                # Force CPU placement
+                **{"torch_dtype": torch.float32, "device": "cpu"}
             )
+            # Explicitly move to CPU
+            gpt_oss_model = gpt_oss_model.to("cpu")
             # Set model to evaluation mode
             gpt_oss_model.eval()
             return_tensors="pt",
         )
+        # Ensure inputs are on CPU
+        inputs = {k: v.to("cpu") if hasattr(v, "to") else v for k, v in inputs.items()}
         # Generate with timeout protection
         try:
             import torch