Spaces:

Luka512
/

Qwen3

Runtime error

Tim Luka Horstmann commited on May 21

Commit

46825d7

1 Parent(s): ba32cef

Smaller model and paremeters changed

Files changed (1) hide show

llm_server.py CHANGED Viewed

@@ -25,8 +25,8 @@ if not hf_token:
 login(token=hf_token)
 # Models Configuration
-repo_id = "unsloth/Qwen3-1.7B-GGUF" # "bartowski/deepcogito_cogito-v1-preview-llama-3B-GGUF" # "bartowski/deepcogito_cogito-v1-preview-llama-8B-GGUF"
-filename = "Qwen3-1.7B-Q4_K_M.gguf" # "deepcogito_cogito-v1-preview-llama-3B-Q4_K_M.gguf"
 try:
@@ -40,9 +40,9 @@ try:
     )
     llm = Llama(
         model_path=model_path,
-        n_ctx=3072,
         n_threads=2,
-        n_batch=64,
         n_gpu_layers=0,
         use_mlock=True,
         f16_kv=True,

 login(token=hf_token)
 # Models Configuration
+repo_id = "unsloth/Qwen3-0.6B-GGUF" # "bartowski/deepcogito_cogito-v1-preview-llama-3B-GGUF" # "bartowski/deepcogito_cogito-v1-preview-llama-8B-GGUF"
+filename = "Qwen3-0.6B-IQ4_XS.gguf" # "deepcogito_cogito-v1-preview-llama-3B-Q4_K_M.gguf"
 try:
     )
     llm = Llama(
         model_path=model_path,
+        n_ctx=1024,
         n_threads=2,
+        n_batch=16,
         n_gpu_layers=0,
         use_mlock=True,
         f16_kv=True,