moondream2-cpu

Paused

John6666 commited on Nov 17, 2024

Commit

24e23b4

verified ·

1 Parent(s): b27b4a2

Upload 3 files

Files changed (2) hide show

app.py CHANGED Viewed

@@ -6,33 +6,27 @@ from threading import Thread
 from transformers import TextIteratorStreamer, AutoTokenizer, AutoModelForCausalLM
 from PIL import ImageDraw
 from torchvision.transforms.v2 import Resize
-from optimum.onnxruntime import ORTModelForImageClassification
 import subprocess
 #subprocess.run('pip install flash-attn --no-build-isolation', env={'FLASH_ATTENTION_SKIP_CUDA_BUILD': "TRUE"}, shell=True)
 device = "cuda" if torch.cuda.is_available() else "cpu"
-#model_id = "vikhyatk/moondream2"
-model_id = "Xenova/moondream2"
 #model_id = "zesquirrelnator/moondream2-finetuneV2"
 #revision = "2024-08-26"
 #tokenizer = AutoTokenizer.from_pretrained(model_id, revision=revision)
 tokenizer = AutoTokenizer.from_pretrained(model_id)
-#moondream = AutoModelForCausalLM.from_pretrained(
-#    model_id, trust_remote_code=True, #revision=revision,
-#    torch_dtype=torch.bfloat16 if device == "cuda" else torch.float32, #device_map="auto",
     #ignore_mismatched_sizes=True,
     #attn_implementation="flash_attention_2"
-#).to(device)
-moondream = ORTModelForImageClassification.from_pretrained(
-    model_id, trust_remote_code=True,
 ).to(device)
 moondream.eval()
 #moondream.to_bettertransformer()
 #@spaces.GPU
-@torch.inference_mode()
 def answer_question(img, prompt):
     image_embeds = moondream.encode_image(img)
     streamer = TextIteratorStreamer(tokenizer, skip_special_tokens=True)

 from transformers import TextIteratorStreamer, AutoTokenizer, AutoModelForCausalLM
 from PIL import ImageDraw
 from torchvision.transforms.v2 import Resize
 import subprocess
 #subprocess.run('pip install flash-attn --no-build-isolation', env={'FLASH_ATTENTION_SKIP_CUDA_BUILD': "TRUE"}, shell=True)
 device = "cuda" if torch.cuda.is_available() else "cpu"
+model_id = "vikhyatk/moondream2"
 #model_id = "zesquirrelnator/moondream2-finetuneV2"
 #revision = "2024-08-26"
 #tokenizer = AutoTokenizer.from_pretrained(model_id, revision=revision)
 tokenizer = AutoTokenizer.from_pretrained(model_id)
+moondream = AutoModelForCausalLM.from_pretrained(
+    model_id, trust_remote_code=True, #revision=revision,
+    torch_dtype=torch.bfloat16 if device == "cuda" else torch.float32, #device_map="auto",
     #ignore_mismatched_sizes=True,
     #attn_implementation="flash_attention_2"
 ).to(device)
 moondream.eval()
 #moondream.to_bettertransformer()
 #@spaces.GPU
 def answer_question(img, prompt):
     image_embeds = moondream.encode_image(img)
     streamer = TextIteratorStreamer(tokenizer, skip_special_tokens=True)

requirements.txt CHANGED Viewed

@@ -5,5 +5,5 @@ accelerate>=0.32.1
 numpy<2
 torch==2.4.0
 torchvision
-optimum[onnxruntime]
 intel_extension_for_pytorch

 numpy<2
 torch==2.4.0
 torchvision
+optimum
 intel_extension_for_pytorch