Spaces:

ai4bharat
/

indic-seamless

Running on Zero

AshwinSankar commited on Mar 7

Commit

18edbb5

1 Parent(s): 54ec772

change to point vars

Files changed (1) hide show

app.py CHANGED Viewed

@@ -48,7 +48,7 @@ tokenizer = SeamlessM4TTokenizer.from_pretrained("ai4bharat/seamless-m4t-v2-larg
 CACHE_EXAMPLES = os.getenv("CACHE_EXAMPLES") == "1" and torch.cuda.is_available()
-AUDIO_SAMPLE_RATE = 16000.0
 MAX_INPUT_AUDIO_LENGTH = 60  # in seconds
 DEFAULT_TARGET_LANGUAGE = "Hindi"
@@ -69,7 +69,7 @@ def run_s2tt(input_audio: str, source_language: str, target_language: str) -> st
     input_audio, orig_freq = torchaudio.load(input_audio)
     input_audio = torchaudio.functional.resample(input_audio, orig_freq=orig_freq, new_freq=16000)
-    audio_inputs= processor(input_audio, sampling_rate=16000, return_tensors="pt").to(device="cuda", dtype=torch_dtype)
     text_out = model.generate(**audio_inputs, tgt_lang=target_language_code)[0].float().cpu().numpy().squeeze()
@@ -82,7 +82,7 @@ def run_asr(input_audio: str, target_language: str) -> str:
     input_audio, orig_freq = torchaudio.load(input_audio)
     input_audio = torchaudio.functional.resample(input_audio, orig_freq=orig_freq, new_freq=16000)
-    audio_inputs= processor(input_audio, sampling_rate=16000, return_tensors="pt").to(device="cuda", dtype=torch_dtype)
     text_out = model.generate(**audio_inputs, tgt_lang=target_language_code)[0].float().cpu().numpy().squeeze()

 CACHE_EXAMPLES = os.getenv("CACHE_EXAMPLES") == "1" and torch.cuda.is_available()
+AUDIO_SAMPLE_RATE = 16000
 MAX_INPUT_AUDIO_LENGTH = 60  # in seconds
 DEFAULT_TARGET_LANGUAGE = "Hindi"
     input_audio, orig_freq = torchaudio.load(input_audio)
     input_audio = torchaudio.functional.resample(input_audio, orig_freq=orig_freq, new_freq=16000)
+    audio_inputs= processor(input_audio, sampling_rate=16000, return_tensors="pt").to(device=device, dtype=torch_dtype)
     text_out = model.generate(**audio_inputs, tgt_lang=target_language_code)[0].float().cpu().numpy().squeeze()
     input_audio, orig_freq = torchaudio.load(input_audio)
     input_audio = torchaudio.functional.resample(input_audio, orig_freq=orig_freq, new_freq=16000)
+    audio_inputs= processor(input_audio, sampling_rate=16000, return_tensors="pt").to(device=device, dtype=torch_dtype)
     text_out = model.generate(**audio_inputs, tgt_lang=target_language_code)[0].float().cpu().numpy().squeeze()