Spaces:

GlyphByT5
/

ART_v1.0

Running on Zero

WYBar commited on about 20 hours ago

Commit

d835c19

1 Parent(s): 907ad49

.to in the @spaces.GPU

Files changed (1) hide show

app.py CHANGED Viewed

@@ -362,13 +362,15 @@ def construction_all():
 @spaces.GPU(duration=120)
 def evaluate_v1(inputs, model, quantizer, tokenizer, width, height, do_sample=False, temperature=1.0, top_p=1.0, top_k=50):
     print(f"evaluate_v1 {model.device} {model.lm.device} {pipeline.device}")
     json_example = inputs
     input_intension = '{"wholecaption":"' + json_example["wholecaption"] + '","layout":[{"layer":'
     print("tokenizer1")
     inputs = tokenizer(
         input_intension, return_tensors="pt"
-    ).to(model.lm.device)
     print("Input IDs device:", inputs["input_ids"].device)
     print("Attention Mask device:", inputs["attention_mask"].device)
     print("tokenizer2")
@@ -412,6 +414,7 @@ def inference(generate_method, intention, model, quantizer, tokenizer, width, he
         max_try_time = 5
         preddata = None
         while preddata is None and max_try_time > 0:
             preddata = evaluate_v1(rawdata, model, quantizer, tokenizer, width, height, do_sample=do_sample, temperature=temperature, top_p=top_p, top_k=top_k)
             max_try_time -= 1
     else:

 @spaces.GPU(duration=120)
 def evaluate_v1(inputs, model, quantizer, tokenizer, width, height, do_sample=False, temperature=1.0, top_p=1.0, top_k=50):
     print(f"evaluate_v1 {model.device} {model.lm.device} {pipeline.device}")
+    model = model.to("cuda")
+    print(f"after evaluate_v1 {model.device} {model.lm.device} {pipeline.device}")
     json_example = inputs
     input_intension = '{"wholecaption":"' + json_example["wholecaption"] + '","layout":[{"layer":'
     print("tokenizer1")
     inputs = tokenizer(
         input_intension, return_tensors="pt"
+    ).to("cuda")
     print("Input IDs device:", inputs["input_ids"].device)
     print("Attention Mask device:", inputs["attention_mask"].device)
     print("tokenizer2")
         max_try_time = 5
         preddata = None
         while preddata is None and max_try_time > 0:
+            print(f"inference {model.device} {model.lm.device} {pipeline.device}")
             preddata = evaluate_v1(rawdata, model, quantizer, tokenizer, width, height, do_sample=do_sample, temperature=temperature, top_p=top_p, top_k=top_k)
             max_try_time -= 1
     else: