Video_translation_with_speaker_diarization_and_voice_cloning_private

Sleeping

App Files Files Community

vitaliy-sharandin commited on Dec 20, 2024

Commit

9c9cefd

verified ·

1 Parent(s): a055e93

Update app.py

Browse files

Files changed (1) hide show

app.py +24 -22

app.py CHANGED Viewed

@@ -5,19 +5,22 @@ LangBridge Restricted
 '''
 import os
 import gradio as gr
-import whisperx
 import numpy as np
-import moviepy.editor as mp
-from moviepy.audio.AudioClip import AudioArrayClip
-from pytube import YouTube
-import deepl
-import torch
 import pyrubberband as pyrb
 import soundfile as sf
-import librosa
 from TTS.api import TTS
 HF_TOKEN = os.environ["HF_TOKEN"]
 DEEPL_TOKEN = os.environ["DEEPL_TOKEN"]
@@ -25,11 +28,11 @@ DEEPL_TOKEN = os.environ["DEEPL_TOKEN"]
 os.environ["COQUI_TOS_AGREED"] = "1"
 # Extract audio from video
-def extract_audio(video_path):
-  clip = mp.VideoFileClip(video_path)
-  audio_path = os.path.splitext(video_path)[0] + ".wav"
-  clip.audio.write_audiofile(audio_path)
-  return audio_path
 # Perform speech diarization
@@ -65,7 +68,6 @@ def speech_diarization(audio_path, hf_token):
   return result["segments"]
 # Create per speaker voice clips for tts voice cloning
 def speaker_voice_clips(transcription, audio_path):
   # Create 3 uninterrupted per speaker timecodes
@@ -92,7 +94,7 @@ def speaker_voice_clips(transcription, audio_path):
     subclips = []
     for snippet in speaker_snippets:
       start, end = snippet['start'], snippet['end']
-      subclip = original_audio.subclip(start, end)
       subclips.append(subclip)
     concatenated_clip = mp.concatenate_audioclips(subclips)
@@ -201,7 +203,7 @@ def voice_cloning_translation(translated_transcription, speakers_voice_clips, ta
       audio_clip = AudioArrayClip(audio_stereo, fps=44100)
       # Cut out possible glitch from AudioArrayClip end
-      audio_clip = audio_clip.subclip(0, audio_clip.duration - 0.2)
       clips.append(audio_clip)
       print(f"Added speech: Start={speech_item['start']}, Final duration={audio_clip.duration}, Original duration={speech_item_duration}")
@@ -223,10 +225,10 @@ def voice_cloning_translation(translated_transcription, speakers_voice_clips, ta
 def dub_video(video_path, translated_audio_track, target_language):
   video = mp.VideoFileClip(video_path)
-  video = video.subclip(0, translated_audio_track.duration)
-  original_audio = video.audio.volumex(0.15)
-  dubbed_audio = mp.CompositeAudioClip([original_audio, translated_audio_track.set_start(0)])
-  video_with_dubbing = video.set_audio(dubbed_audio)
   video_with_dubbing_path = os.path.splitext(video_path)[0] + "_" + target_language + ".mp4"
   video_with_dubbing.write_videofile(video_with_dubbing_path)
@@ -236,7 +238,7 @@ def dub_video(video_path, translated_audio_track, target_language):
 # Perform video translation
 def video_translation(video_path, target_language_codes, speaker_model, hf_token, deepl_token):
   original_audio_path = extract_audio(video_path)
   transcription = speech_diarization(original_audio_path, hf_token)
@@ -336,11 +338,11 @@ def translate_video(video_path, youtube_link, target_language, speaker_model):
       if video_path is None:
         gr.Warning("Video input did not process well, try again")
         return translation_limit(), None
       if check_video_duration(video_path):
         gr.Warning("Video is longer than 3 minutes, please provide a shorter one")
         return translation_limit(), None
       target_language_codes = language_codes[target_language]
       dubbed_video_path = video_translation(video_path, target_language_codes, speaker_model, HF_TOKEN, DEEPL_TOKEN)
       limit_info = translation_limit()

 '''
 import os
+import deepl
 import gradio as gr
+import librosa
+import moviepy as mp
 import numpy as np
 import pyrubberband as pyrb
 import soundfile as sf
+import torch
+import whisperx
+from moviepy import afx
+from moviepy.audio.AudioClip import AudioArrayClip
+from pytube import YouTube
 from TTS.api import TTS
 HF_TOKEN = os.environ["HF_TOKEN"]
 DEEPL_TOKEN = os.environ["DEEPL_TOKEN"]
 os.environ["COQUI_TOS_AGREED"] = "1"
 # Extract audio from video
+def extract_audio(video_path: str):
+    clip = mp.VideoFileClip(video_path)
+    audio_path = os.path.splitext(video_path)[0] + ".wav"
+    clip.audio.write_audiofile(audio_path)
+    return audio_path
 # Perform speech diarization
   return result["segments"]
 # Create per speaker voice clips for tts voice cloning
 def speaker_voice_clips(transcription, audio_path):
   # Create 3 uninterrupted per speaker timecodes
     subclips = []
     for snippet in speaker_snippets:
       start, end = snippet['start'], snippet['end']
+      subclip = original_audio.subclipped(start, end)
       subclips.append(subclip)
     concatenated_clip = mp.concatenate_audioclips(subclips)
       audio_clip = AudioArrayClip(audio_stereo, fps=44100)
       # Cut out possible glitch from AudioArrayClip end
+      audio_clip = audio_clip.subclipped(0, audio_clip.duration - 0.2)
       clips.append(audio_clip)
       print(f"Added speech: Start={speech_item['start']}, Final duration={audio_clip.duration}, Original duration={speech_item_duration}")
 def dub_video(video_path, translated_audio_track, target_language):
   video = mp.VideoFileClip(video_path)
+  video = video.subclipped(0, translated_audio_track.duration)
+  original_audio = video.audio.with_effects([afx.MultiplyVolume(0.15)])
+  dubbed_audio = mp.CompositeAudioClip([original_audio, translated_audio_track.with_start(0)])
+  video_with_dubbing = video.with_audio(dubbed_audio)
   video_with_dubbing_path = os.path.splitext(video_path)[0] + "_" + target_language + ".mp4"
   video_with_dubbing.write_videofile(video_with_dubbing_path)
 # Perform video translation
 def video_translation(video_path, target_language_codes, speaker_model, hf_token, deepl_token):
   original_audio_path = extract_audio(video_path)
   transcription = speech_diarization(original_audio_path, hf_token)
       if video_path is None:
         gr.Warning("Video input did not process well, try again")
         return translation_limit(), None
       if check_video_duration(video_path):
         gr.Warning("Video is longer than 3 minutes, please provide a shorter one")
         return translation_limit(), None
       target_language_codes = language_codes[target_language]
       dubbed_video_path = video_translation(video_path, target_language_codes, speaker_model, HF_TOKEN, DEEPL_TOKEN)
       limit_info = translation_limit()