VideoLLaMA3-Image

Running on Zero

App Files Files Community

lixin4ever commited on Jan 23

Commit

504eebe

verified ·

1 Parent(s): 1ddcb12

Update app.py

Browse files

Files changed (1) hide show

app.py +71 -71

app.py CHANGED Viewed

@@ -44,78 +44,78 @@ def _on_video_upload(messages, video):
             messages.append({"role": "user", "content": {"path": video}})
         return messages, None
-    def _on_image_upload(messages, image):
-        if image is not None:
-            # messages.append({"role": "user", "content": gr.Image(image)})
-            messages.append({"role": "user", "content": {"path": image}})
-        return messages, None
-    def _on_text_submit(messages, text):
-        messages.append({"role": "user", "content": text})
-        return messages, ""
-    @spaces.GPU(duration=120)
-    def _predict(messages, input_text, do_sample, temperature, top_p, max_new_tokens,
-                 fps, max_frames):
-        if len(input_text) > 0:
-            messages.append({"role": "user", "content": input_text})
-        new_messages = []
-        contents = []
-        for message in messages:
-            if message["role"] == "assistant":
-                if len(contents):
-                    new_messages.append({"role": "user", "content": contents})
-                    contents = []
-                new_messages.append(message)
-            elif message["role"] == "user":
-                if isinstance(message["content"], str):
-                    contents.append(message["content"])
                 else:
-                    media_path = message["content"][0]
-                    if media_path.endswith(video_formats):
-                        contents.append({"type": "video", "video": {"video_path": media_path, "fps": fps, "max_frames": max_frames}})
-                    elif media_path.endswith(image_formats):
-                        contents.append({"type": "image", "image": {"image_path": media_path}})
-                    else:
-                        raise ValueError(f"Unsupported media type: {media_path}")
-        if len(contents):
-            new_messages.append({"role": "user", "content": contents})
-        if len(new_messages) == 0 or new_messages[-1]["role"] != "user":
-            return messages
-        generation_config = {
-            "do_sample": do_sample,
-            "temperature": temperature,
-            "top_p": top_p,
-            "max_new_tokens": max_new_tokens
-        }
-        inputs = processor(
-            conversation=new_messages,
-            add_system_prompt=True,
-            add_generation_prompt=True,
-            return_tensors="pt"
-        )
-        inputs = {k: v.to(device) if isinstance(v, torch.Tensor) else v for k, v in inputs.items()}
-        if "pixel_values" in inputs:
-            inputs["pixel_values"] = inputs["pixel_values"].to(torch.bfloat16)
-        streamer = TextIteratorStreamer(processor.tokenizer, skip_prompt=True, skip_special_tokens=True)
-        generation_kwargs = {
-            **inputs,
-            **generation_config,
-            "streamer": streamer,
-        }
-        thread = Thread(target=model.generate, kwargs=generation_kwargs)
-        thread.start()
-        messages.append({"role": "assistant", "content": ""})
-        for token in streamer:
-            messages[-1]['content'] += token
-            yield messages
 with gr.Blocks() as interface:

             messages.append({"role": "user", "content": {"path": video}})
         return messages, None
+def _on_image_upload(messages, image):
+    if image is not None:
+        # messages.append({"role": "user", "content": gr.Image(image)})
+        messages.append({"role": "user", "content": {"path": image}})
+    return messages, None
+def _on_text_submit(messages, text):
+    messages.append({"role": "user", "content": text})
+    return messages, ""
+@spaces.GPU(duration=120)
+def _predict(messages, input_text, do_sample, temperature, top_p, max_new_tokens,
+             fps, max_frames):
+    if len(input_text) > 0:
+        messages.append({"role": "user", "content": input_text})
+    new_messages = []
+    contents = []
+    for message in messages:
+        if message["role"] == "assistant":
+            if len(contents):
+                new_messages.append({"role": "user", "content": contents})
+                contents = []
+            new_messages.append(message)
+        elif message["role"] == "user":
+            if isinstance(message["content"], str):
+                contents.append(message["content"])
+            else:
+                media_path = message["content"][0]
+                if media_path.endswith(video_formats):
+                    contents.append({"type": "video", "video": {"video_path": media_path, "fps": fps, "max_frames": max_frames}})
+                elif media_path.endswith(image_formats):
+                    contents.append({"type": "image", "image": {"image_path": media_path}})
                 else:
+                    raise ValueError(f"Unsupported media type: {media_path}")
+    if len(contents):
+        new_messages.append({"role": "user", "content": contents})
+    if len(new_messages) == 0 or new_messages[-1]["role"] != "user":
+        return messages
+    generation_config = {
+        "do_sample": do_sample,
+        "temperature": temperature,
+        "top_p": top_p,
+        "max_new_tokens": max_new_tokens
+    }
+    inputs = processor(
+        conversation=new_messages,
+        add_system_prompt=True,
+        add_generation_prompt=True,
+        return_tensors="pt"
+    )
+    inputs = {k: v.to(device) if isinstance(v, torch.Tensor) else v for k, v in inputs.items()}
+    if "pixel_values" in inputs:
+        inputs["pixel_values"] = inputs["pixel_values"].to(torch.bfloat16)
+    streamer = TextIteratorStreamer(processor.tokenizer, skip_prompt=True, skip_special_tokens=True)
+    generation_kwargs = {
+        **inputs,
+        **generation_config,
+        "streamer": streamer,
+    }
+    thread = Thread(target=model.generate, kwargs=generation_kwargs)
+    thread.start()
+    messages.append({"role": "assistant", "content": ""})
+    for token in streamer:
+        messages[-1]['content'] += token
+        yield messages
 with gr.Blocks() as interface: