Spaces:

intelli-zen
/

asr

Sleeping

App Files Files Community

HoneyTian commited on May 10, 2024

Commit

2267fac

1 Parent(s): 85881d8

update

Browse files

Files changed (5) hide show

decode.py +122 -0
examples.py +395 -0
main.py +46 -10
models.py +107 -0
requirements.txt +1 -0

decode.py ADDED Viewed

	@@ -0,0 +1,122 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+from typing import Union, Tuple
+import numpy as np
+import sherpa
+import sherpa_onnx
+import torch
+import torchaudio
+import wave
+def read_wave(wave_filename: str) -> Tuple[np.ndarray, int]:
+    """
+    :param wave_filename: Path to a wave file. It should be single channel and each sample should be 16-bit.
+    Its sample rate does not need to be 16kHz.
+    :return: Return a tuple containing:
+    signal: A 1-D array of dtype np.float32 containing the samples, which are normalized to the range [-1, 1].
+    sample_rate: sample rate of the wave file
+    """
+    with wave.open(wave_filename) as f:
+        assert f.getnchannels() == 1, f.getnchannels()
+        assert f.getsampwidth() == 2, f.getsampwidth()
+        num_samples = f.getnframes()
+        samples = f.readframes(num_samples)
+        samples_int16 = np.frombuffer(samples, dtype=np.int16)
+        samples_float32 = samples_int16.astype(np.float32)
+        samples_float32 = samples_float32 / 32768
+        return samples_float32, f.getframerate()
+def decode_offline_recognizer(recognizer: sherpa.OfflineRecognizer,
+                              filename: str,
+                              ) -> str:
+    s = recognizer.create_stream()
+    s.accept_wave_file(filename)
+    recognizer.decode_stream(s)
+    text = s.result.text.strip()
+    return text.lower()
+def decode_online_recognizer(recognizer: sherpa.OnlineRecognizer,
+                             filename: str,
+                             expected_sample_rate: int = 16000,
+                             ) -> str:
+    samples, actual_sample_rate = torchaudio.load(filename)
+    if expected_sample_rate != actual_sample_rate:
+        raise AssertionError(
+            "expected sample rate: {}, but: actually: {}".format(expected_sample_rate, actual_sample_rate)
+        )
+    samples = samples[0].contiguous()
+    s = recognizer.create_stream()
+    tail_padding = torch.zeros(int(expected_sample_rate * 0.3), dtype=torch.float32)
+    s.accept_waveform(expected_sample_rate, samples)
+    s.accept_waveform(expected_sample_rate, tail_padding)
+    s.input_finished()
+    while recognizer.is_ready(s):
+        recognizer.decode_stream(s)
+    text = recognizer.get_result(s).text
+    return text.strip().lower()
+def decode_offline_recognizer_sherpa_onnx(recognizer: sherpa_onnx.OfflineRecognizer,
+                                          filename: str,
+                                          ) -> str:
+    s = recognizer.create_stream()
+    samples, sample_rate = read_wave(filename)
+    s.accept_waveform(sample_rate, samples)
+    recognizer.decode_stream(s)
+    return s.result.text.lower()
+def decode_online_recognizer_sherpa_onnx(recognizer: sherpa_onnx.OnlineRecognizer,
+                                         filename: str,
+                                         ) -> str:
+    s = recognizer.create_stream()
+    samples, sample_rate = read_wave(filename)
+    s.accept_waveform(sample_rate, samples)
+    tail_paddings = np.zeros(int(0.3 * sample_rate), dtype=np.float32)
+    s.accept_waveform(sample_rate, tail_paddings)
+    s.input_finished()
+    while recognizer.is_ready(s):
+        recognizer.decode_stream(s)
+    return recognizer.get_result(s).lower()
+def decode_by_recognizer(
+    recognizer: Union[
+        sherpa.OfflineRecognizer,
+        sherpa.OnlineRecognizer,
+        sherpa_onnx.OfflineRecognizer,
+        sherpa_onnx.OnlineRecognizer,
+    ],
+    filename: str,
+) -> str:
+    if isinstance(recognizer, sherpa.OfflineRecognizer):
+        return decode_offline_recognizer(recognizer, filename)
+    elif isinstance(recognizer, sherpa.OnlineRecognizer):
+        return decode_online_recognizer(recognizer, filename)
+    elif isinstance(recognizer, sherpa_onnx.OfflineRecognizer):
+        return decode_offline_recognizer_sherpa_onnx(recognizer, filename)
+    elif isinstance(recognizer, sherpa_onnx.OnlineRecognizer):
+        return decode_online_recognizer_sherpa_onnx(recognizer, filename)
+    else:
+        raise ValueError(f"Unknown recognizer type {type(recognizer)}")
+if __name__ == "__main__":
+    pass

examples.py ADDED Viewed

	@@ -0,0 +1,395 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+examples = [
+    [
+        "Chinese+English",
+        "csukuangfj/sherpa-onnx-streaming-zipformer-bilingual-zh-en-2023-02-20",
+        "greedy_search",
+        4,
+        "Yes",
+        "./data/test_wavs/tal_csasr/0.wav",
+    ],
+    [
+        "Chinese+English+Cantonese",
+        "csukuangfj/sherpa-onnx-paraformer-trilingual-zh-cantonese-en",
+        "greedy_search",
+        4,
+        "Yes",
+        "./data/test_wavs/cantonese/2.wav",
+    ],
+    [
+        "Cantonese",
+        "zrjin/icefall-asr-mdcc-zipformer-2024-03-11",
+        "greedy_search",
+        4,
+        "Yes",
+        "./data/test_wavs/cantonese/1.wav",
+    ],
+    [
+        "English",
+        "whisper-base.en",
+        "greedy_search",
+        4,
+        "Yes",
+        "./data/test_wavs/librispeech/1089-134686-0001.wav",
+    ],
+    [
+        "Chinese",
+        "csukuangfj/sherpa-onnx-paraformer-zh-2024-03-09",
+        "greedy_search",
+        4,
+        "Yes",
+        "./data/test_wavs/paraformer-zh/四川话.wav",
+    ],
+    [
+        "Russian",
+        "alphacep/vosk-model-ru",
+        "greedy_search",
+        4,
+        "No",
+        "./data/test_wavs/russian/russian-i-love-you.wav",
+    ],
+    [
+        "Russian",
+        "alphacep/vosk-model-ru",
+        "greedy_search",
+        4,
+        "No",
+        "./data/test_wavs/russian/test.wav",
+    ],
+    [
+        "German",
+        "csukuangfj/wav2vec2.0-torchaudio",
+        "greedy_search",
+        4,
+        "No",
+        "./data/test_wavs/german/20170517-0900-PLENARY-16-de_20170517.wav",
+    ],
+    [
+        "Arabic",
+        "AmirHussein/icefall-asr-mgb2-conformer_ctc-2022-27-06",
+        "greedy_search",
+        4,
+        "No",
+        "./data/test_wavs/arabic/a.wav",
+    ],
+    [
+        "Tibetan",
+        "syzym/icefall-asr-xbmu-amdo31-pruned-transducer-stateless7-2022-12-02",
+        "greedy_search",
+        4,
+        "No",
+        "./data/test_wavs/tibetan/a_0_cacm-A70_31117.wav",
+    ],
+    [
+        "French",
+        "shaojieli/sherpa-onnx-streaming-zipformer-fr-2023-04-14",
+        "greedy_search",
+        4,
+        "No",
+        "./data/test_wavs/french/common_voice_fr_19364697.wav",
+    ],
+    [
+        "Chinese",
+        "desh2608/icefall-asr-alimeeting-pruned-transducer-stateless7",
+        "greedy_search",
+        4,
+        "Yes",
+        "./data/test_wavs/alimeeting/R8003_M8001-8004-165.wav",
+    ],
+    [
+        "Chinese",
+        "csukuangfj/sherpa-onnx-paraformer-zh-2024-03-09",
+        "greedy_search",
+        4,
+        "Yes",
+        "./data/test_wavs/paraformer-zh/天津话.wav",
+    ],
+    [
+        "Chinese",
+        "csukuangfj/sherpa-onnx-paraformer-zh-2024-03-09",
+        "greedy_search",
+        4,
+        "Yes",
+        "./data/test_wavs/paraformer-zh/郑州话.wav",
+    ],
+    [
+        "Chinese",
+        "desh2608/icefall-asr-alimeeting-pruned-transducer-stateless7",
+        "greedy_search",
+        4,
+        "Yes",
+        "./data/test_wavs/alimeeting/R8008_M8013-8049-74.wav",
+    ],
+    [
+        "Chinese",
+        "desh2608/icefall-asr-alimeeting-pruned-transducer-stateless7",
+        "greedy_search",
+        4,
+        "Yes",
+        "./data/test_wavs/alimeeting/R8009_M8020_N_SPK8026-8026-209.wav",
+    ],
+    [
+        "English",
+        "videodanchik/icefall-asr-tedlium3-conformer-ctc2",
+        "greedy_search",
+        4,
+        "Yes",
+        "./data/test_wavs/tedlium3/DanBarber_2010-219.wav",
+    ],
+    [
+        "English",
+        "whisper-base.en",
+        "greedy_search",
+        4,
+        "Yes",
+        "./data/test_wavs/tedlium3/DanielKahneman_2010-157.wav",
+    ],
+    [
+        "English",
+        "videodanchik/icefall-asr-tedlium3-conformer-ctc2",
+        "greedy_search",
+        4,
+        "Yes",
+        "./data/test_wavs/tedlium3/RobertGupta_2010U-15.wav",
+    ],
+    # librispeech
+    # https://huggingface.co/csukuangfj/icefall-asr-librispeech-pruned-transducer-stateless5-2022-05-13/tree/main/data/test_wavs
+    [
+        "English",
+        "csukuangfj/icefall-asr-librispeech-pruned-transducer-stateless3-2022-05-13",
+        "greedy_search",
+        4,
+        "Yes",
+        "./data/test_wavs/librispeech/1089-134686-0001.wav",
+    ],
+    [
+        "English",
+        "csukuangfj/icefall-asr-librispeech-pruned-transducer-stateless3-2022-05-13",
+        "greedy_search",
+        4,
+        "Yes",
+        "./data/test_wavs/librispeech/1221-135766-0001.wav",
+    ],
+    [
+        "English",
+        "csukuangfj/icefall-asr-librispeech-pruned-transducer-stateless3-2022-05-13",
+        "greedy_search",
+        4,
+        "Yes",
+        "./data/test_wavs/librispeech/1221-135766-0002.wav",
+    ],
+    # gigaspeech
+    [
+        "English",
+        "wgb14/icefall-asr-gigaspeech-pruned-transducer-stateless2",
+        "greedy_search",
+        4,
+        "Yes",
+        "./data/test_wavs/gigaspeech/1-minute-audiobook.opus",
+    ],
+    [
+        "English",
+        "wgb14/icefall-asr-gigaspeech-pruned-transducer-stateless2",
+        "greedy_search",
+        4,
+        "Yes",
+        "./data/test_wavs/gigaspeech/100-seconds-podcast.opus",
+    ],
+    [
+        "English",
+        "wgb14/icefall-asr-gigaspeech-pruned-transducer-stateless2",
+        "greedy_search",
+        4,
+        "Yes",
+        "./data/test_wavs/gigaspeech/100-seconds-youtube.opus",
+    ],
+    # wenetspeech
+    # https://huggingface.co/luomingshuang/icefall_asr_wenetspeech_pruned_transducer_stateless2/tree/main/data/test_wavs
+    [
+        "Chinese",
+        "luomingshuang/icefall_asr_wenetspeech_pruned_transducer_stateless2",
+        "greedy_search",
+        4,
+        "Yes",
+        "./data/test_wavs/wenetspeech/DEV_T0000000000.opus",
+    ],
+    [
+        "Chinese",
+        "luomingshuang/icefall_asr_wenetspeech_pruned_transducer_stateless2",
+        "greedy_search",
+        4,
+        "Yes",
+        "./data/test_wavs/wenetspeech/DEV_T0000000001.opus",
+    ],
+    [
+        "Chinese",
+        "luomingshuang/icefall_asr_wenetspeech_pruned_transducer_stateless2",
+        "greedy_search",
+        4,
+        "Yes",
+        "./data/test_wavs/wenetspeech/DEV_T0000000002.opus",
+    ],
+    # aishell2-A
+    # https://huggingface.co/yuekai/icefall-asr-aishell2-pruned-transducer-stateless5-A-2022-07-12/tree/main/data/test_wavs
+    [
+        "Chinese",
+        "yuekai/icefall-asr-aishell2-pruned-transducer-stateless5-A-2022-07-12",
+        "greedy_search",
+        4,
+        "Yes",
+        "./data/test_wavs/aishell2/ID0012W0030.wav",
+    ],
+    [
+        "Chinese",
+        "yuekai/icefall-asr-aishell2-pruned-transducer-stateless5-A-2022-07-12",
+        "greedy_search",
+        4,
+        "Yes",
+        "./data/test_wavs/aishell2/ID0012W0162.wav",
+    ],
+    [
+        "Chinese",
+        "yuekai/icefall-asr-aishell2-pruned-transducer-stateless5-A-2022-07-12",
+        "greedy_search",
+        4,
+        "Yes",
+        "./data/test_wavs/aishell2/ID0012W0215.wav",
+    ],
+    # aishell2-B
+    # https://huggingface.co/yuekai/icefall-asr-aishell2-pruned-transducer-stateless5-A-2022-07-12/tree/main/data/test_wavs
+    [
+        "Chinese",
+        "yuekai/icefall-asr-aishell2-pruned-transducer-stateless5-B-2022-07-12",
+        "greedy_search",
+        4,
+        "Yes",
+        "./data/test_wavs/aishell2/ID0012W0030.wav",
+    ],
+    [
+        "Chinese",
+        "yuekai/icefall-asr-aishell2-pruned-transducer-stateless5-B-2022-07-12",
+        "greedy_search",
+        4,
+        "Yes",
+        "./data/test_wavs/aishell2/ID0012W0162.wav",
+    ],
+    [
+        "Chinese",
+        "yuekai/icefall-asr-aishell2-pruned-transducer-stateless5-B-2022-07-12",
+        "greedy_search",
+        4,
+        "Yes",
+        "./data/test_wavs/aishell2/ID0012W0215.wav",
+    ],
+    # aishell2-B
+    # https://huggingface.co/luomingshuang/icefall_asr_aidatatang-200zh_pruned_transducer_stateless2/tree/main/data/test_wavs
+    [
+        "Chinese",
+        "luomingshuang/icefall_asr_aidatatang-200zh_pruned_transducer_stateless2",
+        "greedy_search",
+        4,
+        "Yes",
+        "./data/test_wavs/aidatatang_200zh/T0055G0036S0002.wav",
+    ],
+    [
+        "Chinese",
+        "luomingshuang/icefall_asr_aidatatang-200zh_pruned_transducer_stateless2",
+        "greedy_search",
+        4,
+        "Yes",
+        "./data/test_wavs/aidatatang_200zh/T0055G0036S0003.wav",
+    ],
+    [
+        "Chinese",
+        "luomingshuang/icefall_asr_aidatatang-200zh_pruned_transducer_stateless2",
+        "greedy_search",
+        4,
+        "Yes",
+        "./data/test_wavs/aidatatang_200zh/T0055G0036S0004.wav",
+    ],
+    # tal_csasr
+    [
+        "Chinese+English",
+        "ptrnull/icefall-asr-conv-emformer-transducer-stateless2-zh",
+        "greedy_search",
+        4,
+        "Yes",
+        "./data/test_wavs/tal_csasr/210_36476_210_8341_1_1533271973_7057520_132.wav",
+    ],
+    [
+        "Chinese+English",
+        "ptrnull/icefall-asr-conv-emformer-transducer-stateless2-zh",
+        "greedy_search",
+        4,
+        "Yes",
+        "./data/test_wavs/tal_csasr/210_36476_210_8341_1_1533271973_7057520_138.wav",
+    ],
+    [
+        "Chinese+English",
+        "ptrnull/icefall-asr-conv-emformer-transducer-stateless2-zh",
+        "greedy_search",
+        4,
+        "Yes",
+        "./data/test_wavs/tal_csasr/210_36476_210_8341_1_1533271973_7057520_145.wav",
+    ],
+    [
+        "Tibetan",
+        "syzym/icefall-asr-xbmu-amdo31-pruned-transducer-stateless7-2022-12-02",
+        "greedy_search",
+        4,
+        "No",
+        "./data/test_wavs/tibetan/a_0_cacm-A70_31116.wav",
+    ],
+    [
+        "Tibetan",
+        "syzym/icefall-asr-xbmu-amdo31-pruned-transducer-stateless7-2022-12-02",
+        "greedy_search",
+        4,
+        "No",
+        "./data/test_wavs/tibetan/a_0_cacm-A70_31118.wav",
+    ],
+    # arabic
+    [
+        "Arabic",
+        "AmirHussein/icefall-asr-mgb2-conformer_ctc-2022-27-06",
+        "greedy_search",
+        4,
+        "No",
+        "./data/test_wavs/arabic/b.wav",
+    ],
+    [
+        "Arabic",
+        "AmirHussein/icefall-asr-mgb2-conformer_ctc-2022-27-06",
+        "greedy_search",
+        4,
+        "No",
+        "./data/test_wavs/arabic/c.wav",
+    ],
+    [
+        "German",
+        "csukuangfj/wav2vec2.0-torchaudio",
+        "greedy_search",
+        4,
+        "No",
+        "./data/test_wavs/german/20120315-0900-PLENARY-14-de_20120315.wav",
+    ],
+    [
+        "French",
+        "shaojieli/sherpa-onnx-streaming-zipformer-fr-2023-04-14",
+        "greedy_search",
+        4,
+        "No",
+        "./data/test_wavs/french/common_voice_fr_19738183.wav",
+    ],
+    [
+        "French",
+        "shaojieli/sherpa-onnx-streaming-zipformer-fr-2023-04-14",
+        "greedy_search",
+        4,
+        "No",
+        "./data/test_wavs/french/common_voice_fr_27024649.wav",
+    ],
+]

main.py CHANGED Viewed

@@ -5,6 +5,7 @@ import argparse
 import gradio as gr
 from examples import examples
 from project_settings import project_path
@@ -25,15 +26,36 @@ def get_args():
 def update_model_dropdown(language: str):
-    if language in language_to_models:
-        choices = language_to_models[language]
-        return gr.Dropdown(
-            choices=choices,
-            value=choices[0],
-            interactive=True,
-        )
-    raise ValueError(f"Unsupported language: {language}")
 def main():
@@ -56,13 +78,27 @@ def main():
         label="Select a model",
         value=language_to_models[language_choices[0]][0],
     )
     language_radio.change(
         update_model_dropdown,
         inputs=language_radio,
         outputs=model_dropdown,
     )
     # blocks
     with gr.Blocks() as blocks:

 import gradio as gr
 from examples import examples
+from models import model_map
 from project_settings import project_path
 def update_model_dropdown(language: str):
+    if language not in model_map.keys():
+        raise ValueError(f"Unsupported language: {language}")
+    choices = model_map[language]
+    choices = [c["repo_id"] for c in choices]
+    return gr.Dropdown(
+        choices=choices,
+        value=choices[0],
+        interactive=True,
+    )
+def build_html_output(s: str, style: str = "result_item_success"):
+    return f"""
+    <div class='result'>
+        <div class='result_item {style}'>
+          {s}
+        </div>
+    </div>
+    """
+def process_uploaded_file(language: str,
+                          repo_id: str,
+                          decoding_method: str,
+                          num_active_paths: int,
+                          add_punctuation: str,
+                          in_filename: str,
+                          ):
+    return "Dummy", build_html_output("Dummy")
 def main():
         label="Select a model",
         value=language_to_models[language_choices[0]][0],
     )
     language_radio.change(
         update_model_dropdown,
         inputs=language_radio,
         outputs=model_dropdown,
     )
+    decoding_method_radio = gr.Radio(
+        label="Decoding method",
+        choices=["greedy_search", "modified_beam_search"],
+        value="greedy_search",
+    )
+    num_active_paths_slider = gr.Slider(
+        minimum=1,
+        value=4,
+        step=1,
+        label="Number of active paths for modified_beam_search",
+    )
+    punct_radio = gr.Radio(
+        label="Whether to add punctuation (Only for Chinese and English)",
+        choices=["Yes", "No"],
+        value="Yes",
+    )
     # blocks
     with gr.Blocks() as blocks:

models.py ADDED Viewed

	@@ -0,0 +1,107 @@

+#!/usr/bin/python3
+# -*- coding: utf-8 -*-
+from enum import Enum
+from functools import lru_cache
+import os
+import huggingface_hub
+import sherpa
+class EnumDecodingMethod(Enum):
+    greedy_search = "greedy_search"
+    modified_beam_search = "modified_beam_search"
+class EnumRecognizerType(Enum):
+    sherpa_offline_recognizer = "sherpa.OfflineRecognizer"
+    sherpa_online_recognizer = "sherpa.OnlineRecognizer"
+    sherpa_onnx_offline_recognizer = "sherpa_onnx.OfflineRecognizer"
+    sherpa_onnx_online_recognizer = "sherpa_onnx.OnlineRecognizer"
+model_map = {
+    "Chinese": [
+        {
+            "repo_id": "csukuangfj/wenet-chinese-model",
+            "model_file": "final.zip",
+            "tokens_file": "units.txt",
+            "subfolder": ".",
+        }
+    ]
+}
+def download_model(repo_id: str,
+                   nn_model_filename: str,
+                   tokens_filename: str,
+                   sub_folder: str,
+                   local_model_dir: str,
+                   ):
+    nn_model_filename = huggingface_hub.hf_hub_download(
+        repo_id=repo_id,
+        filename=nn_model_filename,
+        subfolder=sub_folder,
+        local_dir=local_model_dir,
+    )
+    tokens_filename = huggingface_hub.hf_hub_download(
+        repo_id=repo_id,
+        filename=tokens_filename,
+        subfolder=sub_folder,
+        local_dir=local_model_dir,
+    )
+    return nn_model_filename, tokens_filename
+@lru_cache(maxsize=10)
+def load_sherpa_offline_recognizer(nn_model_file: str,
+                                   tokens_file: str,
+                                   sample_rate: int = 16000,
+                                   num_active_paths: int = 2,
+                                   decoding_method: EnumDecodingMethod = EnumDecodingMethod.greedy_search,
+                                   num_mel_bins: int = 80,
+                                   frame_dither: int = 0,
+                                   ):
+    feat_config = sherpa.FeatureConfig()
+    feat_config.fbank_opts.frame_opts.samp_freq = sample_rate
+    feat_config.fbank_opts.mel_opts.num_bins = num_mel_bins
+    feat_config.fbank_opts.frame_opts.dither = frame_dither
+    config = sherpa.OfflineRecognizerConfig(
+        nn_model=nn_model_file,
+        tokens=tokens_file,
+        use_gpu=False,
+        feat_config=feat_config,
+        decoding_method=decoding_method,
+        num_active_paths=num_active_paths,
+    )
+    recognizer = sherpa.OfflineRecognizer(config)
+    return recognizer
+def load_recognizer(
+                    repo_id: str,
+                    nn_model_filename: str,
+                    tokens_filename: str,
+                    sub_folder: str,
+                    local_model_dir: str,
+                    recognizer_type: EnumRecognizerType,
+                    decoding_method: EnumDecodingMethod = EnumDecodingMethod.greedy_search,
+                    ):
+    if not os.path.exists(local_model_dir):
+        download_model(
+            repo_id=repo_id,
+            nn_model_filename=nn_model_filename,
+            tokens_filename=tokens_filename,
+            sub_folder=sub_folder,
+            local_model_dir=local_model_dir,
+        )
+    return
+if __name__ == "__main__":
+    pass

requirements.txt CHANGED Viewed

@@ -3,6 +3,7 @@ torch==1.13.1
 torchaudio==0.13.1
 librosa==0.8.1
 numpy==1.22.0
 data/wheels/k2-1.23.4.dev20230130+cpu.torch1.13.1-cp38-cp38-linux_x86_64.whl
 data/wheels/k2_sherpa-1.1-cp38-cp38-linux_x86_64.whl

 torchaudio==0.13.1
 librosa==0.8.1
 numpy==1.22.0
+sherpa-onnx>=1.9.21
 data/wheels/k2-1.23.4.dev20230130+cpu.torch1.13.1-cp38-cp38-linux_x86_64.whl
 data/wheels/k2_sherpa-1.1-cp38-cp38-linux_x86_64.whl