Spaces:

TDN-M
/

vvv

Sleeping

App Files Files Community

TDN-M commited on Apr 18

Commit

826a6c1

verified ·

1 Parent(s): 3bb7349

Update app.py

Browse files

Files changed (1) hide show

app.py +82 -22

app.py CHANGED Viewed

@@ -29,7 +29,7 @@ def validate_tdn_key(user_key):
     return True, "Khóa bí mật được xác thực thành công."
 # Hàm kiểm tra yêu cầu hình ảnh
-def validate_image(image_path, max_size_mb=10):
     if not image_path:
         return False, "Lỗi: Chưa cung cấp hình ảnh."
@@ -42,10 +42,12 @@ def validate_image(image_path, max_size_mb=10):
     if mime_type not in ["image/png", "image/webp", "image/jpeg", "image/jpg"]:
         return False, "Lỗi: Định dạng hình ảnh không được hỗ trợ. Sử dụng PNG, WebP, JPEG hoặc JPG."
-    # Kiểm tra tỷ lệ khung hình
     try:
         img = Image.open(image_path)
         width, height = img.size
         aspect_ratio = width / height
         if aspect_ratio < 0.25 or aspect_ratio > 4:
             return False, "Lỗi: Tỷ lệ khung hình phải nằm trong khoảng 1:4 đến 4:1."
@@ -153,10 +155,10 @@ def start_end_to_video(start_image, end_image, prompt, resolution="720p", durati
         return None, error_message
     # Tải hình ảnh lên TDNM
-    start_uri, start_message = upload_image_to_vidu(start_image)
     if not start_uri:
         return None, start_message
-    end_uri, end_message = upload_image_to_vidu(end_image)
     if not end_uri:
         return None, end_message
@@ -208,7 +210,7 @@ def img_to_video(image, prompt, resolution="720p", duration=4, movement_amplitud
     if prompt and len(prompt) > 1500:
         return None, "Lỗi: Mô tả văn bản không được vượt quá 1500 ký tự."
-    # Tải hình ảnh lên TDNM (giới hạn 50MB cho img2video)
     image_uri, image_message = upload_image_to_vidu(image, max_size_mb=50)
     if not image_uri:
         return None, image_message
@@ -245,13 +247,68 @@ def img_to_video(image, prompt, resolution="720p", duration=4, movement_amplitud
             logger.error(f"Phản hồi API: {response.text}")
         return None, f"Lỗi: {str(e)} - {response.text}"
-# Placeholder cho References to Video
-def references_to_video(reference_images, prompt, resolution="720p", duration=4, user_key=None):
     # Kiểm tra TDNM_KEY
     valid_key, key_message = validate_tdn_key(user_key)
     if not valid_key:
         return None, key_message
-    return None, "Lỗi: Chức năng References to Video chưa được triển khai. Vui lòng cung cấp chi tiết API."
 # Hàm kiểm tra trạng thái tác vụ
 def check_task_status(task_id):
@@ -314,14 +371,14 @@ def gradio_img_to_video(image, prompt, resolution, duration, movement_amplitude,
     video_url, status_message = check_task_status(task_id)
     return video_url, status_message
-# Hàm giao diện Gradio cho References to Video
-def gradio_references_to_video(image1, image2, image3, prompt, resolution, duration, user_key):
     reference_images = [img for img in [image1, image2, image3] if img]
     if not reference_images:
         return None, "Lỗi: Cần cung cấp ít nhất một hình ảnh tham chiếu."
     if not prompt:
         return None, "Lỗi: Cần cung cấp mô tả văn bản."
-    task_id, message = references_to_video(reference_images, prompt, resolution, duration, user_key)
     if not task_id:
         return None, message
     video_url, status_message = check_task_status(task_id)
@@ -341,8 +398,8 @@ with gr.Blocks(title="Trình Tạo Video TDNM") as demo:
         start_image = gr.Image(type="filepath", label="Hình Ảnh Đầu")
         end_image = gr.Image(type="filepath", label="Hình Ảnh Cuối")
         prompt_se = gr.Textbox(label="Mô Tả Văn Bản (Tùy Chọn)", placeholder="Ví dụ: 'Chuyển đổi mượt mà từ khung xe thành xe hoàn chỉnh.'")
-        resolution_se = gr.Dropdown(choices=["360p", "720p", "1080p"], label="Độ Phân Giải", value="720p")
-        duration_se = gr.Dropdown(choices=[4, 8], label="Thời Lượng (giây)", value=4)
         movement_amplitude_se = gr.Dropdown(choices=["auto", "small", "medium", "large"], label="Biên Độ Chuyển Động", value="auto")
         seed_se = gr.Number(label="Hạt Giống (Tùy Chọn)", value=None, precision=0)
         se_button = gr.Button("Tạo Video")
@@ -360,8 +417,8 @@ with gr.Blocks(title="Trình Tạo Video TDNM") as demo:
         gr.Markdown("Tải lên một hình ảnh và mô tả văn bản để tạo video. Hình ảnh phải là PNG, WebP, JPEG hoặc JPG, kích thước dưới 50MB, tỷ lệ khung hình từ 1:4 đến 4:1.")
         image_i2v = gr.Image(type="filepath", label="Hình Ảnh")
         prompt_i2v = gr.Textbox(label="Mô Tả Văn Bản (Tùy Chọn)", placeholder="Ví dụ: 'Phi hành gia vẫy tay và camera di chuyển lên.'")
-        resolution_i2v = gr.Dropdown(choices=["360p", "720p", "1080p"], label="Độ Phân Giải", value="720p")
-        duration_i2v = gr.Dropdown(choices=[4, 8], label="Thời Lượng (giây)", value=4)
         movement_amplitude_i2v = gr.Dropdown(choices=["auto", "small", "medium", "large"], label="Biên Độ Chuyển Động", value="auto")
         seed_i2v = gr.Number(label="Hạt Giống (Tùy Chọn)", value=None, precision=0)
         i2v_button = gr.Button("Tạo Video")
@@ -374,22 +431,25 @@ with gr.Blocks(title="Trình Tạo Video TDNM") as demo:
             outputs=[i2v_video_output, i2v_message]
         )
-    # Tab cho References to Video (Placeholder)
     with gr.Tab("Video Từ Hình Ảnh Tham Chiếu"):
-        gr.Markdown("Tải lên 1–3 hình ảnh tham chiếu và mô tả văn bản để tạo video. (Chưa được triển khai.)")
         image1 = gr.Image(type="filepath", label="Hình Ảnh Tham Chiếu 1")
         image2 = gr.Image(type="filepath", label="Hình Ảnh Tham Chiếu 2 (Tùy Chọn)")
         image3 = gr.Image(type="filepath", label="Hình Ảnh Tham Chiếu 3 (Tùy Chọn)")
-        prompt_ref = gr.Textbox(label="Mô Tả Văn Bản", placeholder="Ví dụ: 'Một nhân vật đi bộ trong rừng.'")
-        resolution_ref = gr.Dropdown(choices=["360p", "720p", "1080p"], label="Độ Phân Giải", value="720p")
-        duration_ref = gr.Dropdown(choices=[4, 8], label="Thời Lượng (giây)", value=4)
         ref_button = gr.Button("Tạo Video")
         ref_video_output = gr.Video(label="Video Được Tạo")
         ref_message = gr.Textbox(label="Trạng Thái")
         ref_button.click(
-            fn=gradio_references_to_video,
-            inputs=[image1, image2, image3, prompt_ref, resolution_ref, duration_ref, user_key],
             outputs=[ref_video_output, ref_message]
         )

     return True, "Khóa bí mật được xác thực thành công."
 # Hàm kiểm tra yêu cầu hình ảnh
+def validate_image(image_path, max_size_mb=10, min_dimensions=(128, 128)):
     if not image_path:
         return False, "Lỗi: Chưa cung cấp hình ảnh."
     if mime_type not in ["image/png", "image/webp", "image/jpeg", "image/jpg"]:
         return False, "Lỗi: Định dạng hình ảnh không được hỗ trợ. Sử dụng PNG, WebP, JPEG hoặc JPG."
+    # Kiểm tra kích thước và tỷ lệ khung hình
     try:
         img = Image.open(image_path)
         width, height = img.size
+        if width < min_dimensions[0] or height < min_dimensions[1]:
+            return False, f"Lỗi: Kích thước hình ảnh phải ít nhất {min_dimensions[0]}x{min_dimensions[1]} pixel."
         aspect_ratio = width / height
         if aspect_ratio < 0.25 or aspect_ratio > 4:
             return False, "Lỗi: Tỷ lệ khung hình phải nằm trong khoảng 1:4 đến 4:1."
         return None, error_message
     # Tải hình ảnh lên TDNM
+    start_uri, start_message = upload_image_to_vidu(start_image, max_size_mb=10)
     if not start_uri:
         return None, start_message
+    end_uri, end_message = upload_image_to_vidu(end_image, max_size_mb=10)
     if not end_uri:
         return None, end_message
     if prompt and len(prompt) > 1500:
         return None, "Lỗi: Mô tả văn bản không được vượt quá 1500 ký tự."
+    # Tải hình ảnh lên TDNM
     image_uri, image_message = upload_image_to_vidu(image, max_size_mb=50)
     if not image_uri:
         return None, image_message
             logger.error(f"Phản hồi API: {response.text}")
         return None, f"Lỗi: {str(e)} - {response.text}"
+# Hàm gọi API TDNM cho Reference to Video
+def reference_to_video(reference_images, prompt, resolution="720p", duration=4, aspect_ratio="16:9", movement_amplitude="auto", seed=None, user_key=None):
     # Kiểm tra TDNM_KEY
     valid_key, key_message = validate_tdn_key(user_key)
     if not valid_key:
         return None, key_message
+    if not VIDU_API_KEY:
+        return None, "Lỗi: Khóa API TDNM chưa được cấu hình."
+    if not reference_images:
+        return None, "Lỗi: Cần cung cấp ít nhất một hình ảnh tham chiếu."
+    if len(reference_images) > 3:
+        return None, "Lỗi: Chỉ được cung cấp tối đa 3 hình ảnh tham chiếu."
+    if not prompt:
+        return None, "Lỗi: Cần cung cấp mô tả văn bản."
+    if prompt and len(prompt) > 1500:
+        return None, "Lỗi: Mô tả văn bản không được vượt quá 1500 ký tự."
+    # Tải hình ảnh lên TDNM
+    image_uris = []
+    for image in reference_images:
+        uri, message = upload_image_to_vidu(image, max_size_mb=50)
+        if not uri:
+            return None, message
+        image_uris.append(uri)
+    url = f"{VIDU_API_URL}/ent/v2/reference2video"
+    headers = {
+        "Authorization": f"Token {VIDU_API_KEY}",
+        "Content-Type": "application/json"
+    }
+    payload = {
+        "model": DEFAULT_MODEL,
+        "images": image_uris,
+        "prompt": prompt,
+        "duration": duration,
+        "aspect_ratio": aspect_ratio,
+        "resolution": resolution,
+        "movement_amplitude": movement_amplitude
+    }
+    if seed is not None:
+        payload["seed"] = seed
+    try:
+        logger.info(f"Gửi yêu cầu đến API TDNM Reference to Video: {payload}")
+        response = requests.post(url, json=payload, headers=headers)
+        response.raise_for_status()
+        result = response.json()
+        task_id = result.get("task_id")
+        if not task_id:
+            return None, "Lỗi: Không nhận được ID tác vụ."
+        return task_id, f"Tác vụ được tạo thành công. ID tác vụ: {task_id}"
+    except requests.exceptions.RequestException as e:
+        logger.error(f"Lỗi API: {str(e)}")
+        if response.text:
+            logger.error(f"Phản hồi API: {response.text}")
+        return None, f"Lỗi: {str(e)} - {response.text}"
 # Hàm kiểm tra trạng thái tác vụ
 def check_task_status(task_id):
     video_url, status_message = check_task_status(task_id)
     return video_url, status_message
+# Hàm giao diện Gradio cho Reference to Video
+def gradio_reference_to_video(image1, image2, image3, prompt, resolution, duration, aspect_ratio, movement_amplitude, seed, user_key):
     reference_images = [img for img in [image1, image2, image3] if img]
     if not reference_images:
         return None, "Lỗi: Cần cung cấp ít nhất một hình ảnh tham chiếu."
     if not prompt:
         return None, "Lỗi: Cần cung cấp mô tả văn bản."
+    task_id, message = reference_to_video(reference_images, prompt, resolution, duration, aspect_ratio, movement_amplitude, seed, user_key)
     if not task_id:
         return None, message
     video_url, status_message = check_task_status(task_id)
         start_image = gr.Image(type="filepath", label="Hình Ảnh Đầu")
         end_image = gr.Image(type="filepath", label="Hình Ảnh Cuối")
         prompt_se = gr.Textbox(label="Mô Tả Văn Bản (Tùy Chọn)", placeholder="Ví dụ: 'Chuyển đổi mượt mà từ khung xe thành xe hoàn chỉnh.'")
+        resolution_se = gr.Dropdown(choices=["360p", "720p"], label="Độ Phân Giải", value="720p")
+        duration_se = gr.Dropdown(choices=[4], label="Thời Lượng (giây)", value=4)
         movement_amplitude_se = gr.Dropdown(choices=["auto", "small", "medium", "large"], label="Biên Độ Chuyển Động", value="auto")
         seed_se = gr.Number(label="Hạt Giống (Tùy Chọn)", value=None, precision=0)
         se_button = gr.Button("Tạo Video")
         gr.Markdown("Tải lên một hình ảnh và mô tả văn bản để tạo video. Hình ảnh phải là PNG, WebP, JPEG hoặc JPG, kích thước dưới 50MB, tỷ lệ khung hình từ 1:4 đến 4:1.")
         image_i2v = gr.Image(type="filepath", label="Hình Ảnh")
         prompt_i2v = gr.Textbox(label="Mô Tả Văn Bản (Tùy Chọn)", placeholder="Ví dụ: 'Phi hành gia vẫy tay và camera di chuyển lên.'")
+        resolution_i2v = gr.Dropdown(choices=["360p", "720p"], label="Độ Phân Giải", value="720p")
+        duration_i2v = gr.Dropdown(choices=[4], label="Thời Lượng (giây)", value=4)
         movement_amplitude_i2v = gr.Dropdown(choices=["auto", "small", "medium", "large"], label="Biên Độ Chuyển Động", value="auto")
         seed_i2v = gr.Number(label="Hạt Giống (Tùy Chọn)", value=None, precision=0)
         i2v_button = gr.Button("Tạo Video")
             outputs=[i2v_video_output, i2v_message]
         )
+    # Tab cho Reference to Video
     with gr.Tab("Video Từ Hình Ảnh Tham Chiếu"):
+        gr.Markdown("Tải lên 1–3 hình ảnh tham chiếu và mô tả văn bản để tạo video với chủ thể nhất quán. Hình ảnh phải là PNG, WebP, JPEG hoặc JPG, kích thước dưới 50MB, độ phân giải tối thiểu 128x128, tỷ lệ khung hình từ 1:4 đến 4:1.")
         image1 = gr.Image(type="filepath", label="Hình Ảnh Tham Chiếu 1")
         image2 = gr.Image(type="filepath", label="Hình Ảnh Tham Chiếu 2 (Tùy Chọn)")
         image3 = gr.Image(type="filepath", label="Hình Ảnh Tham Chiếu 3 (Tùy Chọn)")
+        prompt_ref = gr.Textbox(label="Mô Tả Văn Bản", placeholder="Ví dụ: 'Ông già Noel và gấu ôm nhau bên hồ.'")
+        resolution_ref = gr.Dropdown(choices=["360p", "720p"], label="Độ Phân Giải", value="720p")
+        duration_ref = gr.Dropdown(choices=[4], label="Thời Lượng (giây)", value=4)
+        aspect_ratio_ref = gr.Dropdown(choices=["16:9", "9:16", "1:1"], label="Tỷ Lệ Khung Hình", value="16:9")
+        movement_amplitude_ref = gr.Dropdown(choices=["auto", "small", "medium", "large"], label="Biên Độ Chuyển Động", value="auto")
+        seed_ref = gr.Number(label="Hạt Giống (Tùy Chọn)", value=None, precision=0)
         ref_button = gr.Button("Tạo Video")
         ref_video_output = gr.Video(label="Video Được Tạo")
         ref_message = gr.Textbox(label="Trạng Thái")
         ref_button.click(
+            fn=gradio_reference_to_video,
+            inputs=[image1, image2, image3, prompt_ref, resolution_ref, duration_ref, aspect_ratio_ref, movement_amplitude_ref, seed_ref, user_key],
             outputs=[ref_video_output, ref_message]
         )