uk-en-translator

Running on Zero

App Files Files Community

Yehor commited on about 1 month ago

Commit

770c54a

1 Parent(s): b1ab41d

Sync

Browse files

Files changed (5) hide show

.dockerignore +2 -0
.gitignore +2 -0
Dockerfile +0 -63
app.py +386 -67
requirements.txt +5 -0

.dockerignore CHANGED Viewed

@@ -1,2 +1,4 @@
 .ruff_cache/
 .venv/

 .ruff_cache/
 .venv/
+.DS_Store

.gitignore CHANGED Viewed

@@ -3,3 +3,5 @@
 .ruff_cache/
 flagged/

 .ruff_cache/
 flagged/
+.DS_Store

Dockerfile DELETED Viewed

@@ -1,63 +0,0 @@
-FROM nvidia/cuda:11.7.1-cudnn8-devel-ubuntu22.04
-ENV DEBIAN_FRONTEND=noninteractive
-RUN apt-get update && \
-    apt-get upgrade -y && \
-    apt-get install -y --no-install-recommends \
-    git \
-    git-lfs \
-    wget \
-    curl \
-    # python build dependencies \
-    build-essential \
-    libssl-dev \
-    zlib1g-dev \
-    libbz2-dev \
-    libreadline-dev \
-    libsqlite3-dev \
-    libncursesw5-dev \
-    xz-utils \
-    tk-dev \
-    libxml2-dev \
-    libxmlsec1-dev \
-    libffi-dev \
-    liblzma-dev \
-    # gradio dependencies \
-    ffmpeg \
-    && apt-get clean \
-    && rm -rf /var/lib/apt/lists/*
-RUN useradd -m -u 1000 user
-USER user
-ENV HOME=/home/user \
-    PATH=/home/user/.local/bin:${PATH}
-WORKDIR ${HOME}/app
-RUN curl https://pyenv.run | bash
-ENV PATH=${HOME}/.pyenv/shims:${HOME}/.pyenv/bin:${PATH}
-ARG PYTHON_VERSION=3.10.12
-RUN pyenv install ${PYTHON_VERSION} && \
-    pyenv global ${PYTHON_VERSION} && \
-    pyenv rehash && \
-    pip install --no-cache-dir -U pip setuptools wheel && \
-    pip install packaging ninja
-COPY --chown=1000 ./requirements.txt /tmp/requirements.txt
-RUN pip install --no-cache-dir --upgrade -r /tmp/requirements.txt
-RUN pip install "transformers @ git+https://github.com/huggingface/transformers.git@main"
-RUN git clone --depth 1 https://huggingface.co/Yehor/kulyk-en-uk ${HOME}/app/en-uk-translator
-COPY --chown=1000 . ${HOME}/app
-ENV PYTHONPATH=${HOME}/app \
-    PYTHONUNBUFFERED=1 \
-    GRADIO_ALLOW_FLAGGING=never \
-    GRADIO_NUM_PORTS=1 \
-    GRADIO_SERVER_NAME=0.0.0.0 \
-    GRADIO_THEME=huggingface \
-    SYSTEM=spaces
-CMD ["python", "app.py"]

app.py CHANGED Viewed

@@ -3,6 +3,7 @@ import time
 from importlib.metadata import version
 from gradio.utils import is_zero_gpu_space
 try:
     import spaces
@@ -10,22 +11,34 @@ except ImportError:
     print("ZeroGPU is not available, skipping...")
 import torch
 import gradio as gr
-from transformers import AutoModelForCausalLM, AutoTokenizer
-try:
     spaces_version = version("spaces")
     print("ZeroGPU is available, changing inference call.")
-except PackageNotFoundError:
     spaces_version = "N/A"
     print("ZeroGPU is not available, skipping...")
-use_zero_gpu = is_zero_gpu_space()
-use_cuda = torch.cuda.is_available()
 if use_cuda:
-    print("CUDA is available, setting correct inference_device variable.")
     device = "cuda"
     torch_dtype = torch.bfloat16
 else:
@@ -33,9 +46,9 @@ else:
     torch_dtype = torch.bfloat16
 # Config
-model_name = 'Yehor/kulyk-uk-en'
-# model_name = "/home/user/app/en-uk-translator"
 concurrency_limit = 5
 # Load the model
 model = AutoModelForCausalLM.from_pretrained(
@@ -45,10 +58,22 @@ model = AutoModelForCausalLM.from_pretrained(
     trust_remote_code=True,
 )
 model.eval()
 tokenizer = AutoTokenizer.from_pretrained(model_name)
-examples = [
     "WP: F-16 навряд чи суттєво змінять ситуацію на полі бою",
     "Над Україною збито ракету та 7 із 8 «Шахедів»",
     "Олімпійські ігри 2024. Розклад змагань українських спортсменів на 28 липня",
@@ -56,10 +81,26 @@ examples = [
     "За тиждень НБУ продав майже 800 мільйонів доларів на міжбанківському ринку",
     "Париж 2024. День 2: Текстова трансляція",
 ]
 title = "UK-EN Translator"
-# https://www.tablesgenerator.com/markdown_tables
 authors_table = """
 ## Authors
@@ -77,37 +118,43 @@ Follow them on social networks and **contact** if you need any help or have any
 description_head = f"""
 # {title}
-## Overview
-Paste the text you want to translate from Ukrainian to English.
 """.strip()
-description_foot = f"""
-{authors_table}
-""".strip()
 translated_text_value = """
-Translated text will appear here.
-Choose **an example** below the Translate button or paste **your text**.
 """.strip()
 tech_env = f"""
 #### Environment
 - Python: {sys.version}
 """.strip()
 tech_libraries = f"""
 #### Libraries
-- torch: {version('torch')}
-- gradio: {version('gradio')}
-- transformers: {version('transformers')}
 """.strip()
 @spaces.GPU
-def inference(text, progress=gr.Progress()):
     if not text:
         raise gr.Error("Please paste your text.")
@@ -115,7 +162,7 @@ def inference(text, progress=gr.Progress()):
     results = []
-    sentences = text.split('\n')
     non_empty_sentences = []
     for sentence in sentences:
@@ -123,10 +170,12 @@ def inference(text, progress=gr.Progress()):
         if len(s) != 0:
             non_empty_sentences.append(s)
-    for sentence in progress.tqdm(non_empty_sentences, desc="Translating...", unit="sentence"):
         t0 = time.time()
-        prompt = "Translate the text to Ukrainian:\n" + sentence
         input_ids = tokenizer.apply_chat_template(
             [{"role": "user", "content": prompt}],
@@ -138,11 +187,120 @@ def inference(text, progress=gr.Progress()):
         output = model.generate(
             input_ids,
             max_new_tokens=2048,
             # Greedy Search
             do_sample=False,
             repetition_penalty=1.05,
             # Sampling
             # do_sample=True,
             # temperature=0.1,
@@ -153,7 +311,9 @@ def inference(text, progress=gr.Progress()):
         prompt_len = input_ids.shape[1]
         generated_tokens = output[:, prompt_len:]
-        translated_text = tokenizer.batch_decode(generated_tokens, skip_special_tokens=True)[0]
         elapsed_time = round(time.time() - t0, 2)
@@ -171,60 +331,219 @@ def inference(text, progress=gr.Progress()):
     result_texts = []
     for result in results:
-        result_texts.append(f'> {result["translated_text"]}\n')
     sum_elapsed_text = sum([result["elapsed_time"] for result in results])
-    result_texts.append(f"Elapsed time: {round(sum_elapsed_text, 4)} seconds")
     return "\n".join(result_texts)
-"""
-if use_zero_gpu:
-    @spaces.GPU
-    def inference_gpu(text, progress=gr.Progress()):
-        return inference(text, progress)
-    inference_func = inference_gpu
-else:
-    inference_func = inference
-"""
-demo = gr.Blocks(
-    title=title,
-    analytics_enabled=False,
-    # theme="huggingface",
-    theme=gr.themes.Base(),
-)
-with demo:
-    gr.Markdown(description_head)
-    gr.Markdown("## Usage")
-    translated_text = gr.Textbox(
-        label="Translated text",
-        placeholder=translated_text_value,
-        show_copy_button=True,
-    )
-    text = gr.Textbox(label="Text", autofocus=True, lines=5)
-    gr.Button("Translate").click(
-        inference,
-        concurrency_limit=concurrency_limit,
-        inputs=text,
-        outputs=translated_text,
     )
-    with gr.Row():
-        gr.Examples(label="Choose an example", inputs=text, examples=examples)
-    gr.Markdown(description_foot)
-    gr.Markdown("### Gradio app uses:")
-    gr.Markdown(tech_env)
-    gr.Markdown(tech_libraries)
 if __name__ == "__main__":
     demo.queue()
     demo.launch()

 from importlib.metadata import version
 from gradio.utils import is_zero_gpu_space
+from gradio.themes import Base
 try:
     import spaces
     print("ZeroGPU is not available, skipping...")
 import torch
+import torchaudio
 import gradio as gr
+import torchaudio.transforms as T
+from transformers import (
+    AutoModelForCausalLM,
+    AutoTokenizer,
+    AutoProcessor,
+    MoonshineForConditionalGeneration,
+)
+from doctr.io import DocumentFile
+from doctr.models import ocr_predictor
+use_zero_gpu = is_zero_gpu_space()
+use_cuda = torch.cuda.is_available()
+if use_zero_gpu:
     spaces_version = version("spaces")
     print("ZeroGPU is available, changing inference call.")
+else:
     spaces_version = "N/A"
     print("ZeroGPU is not available, skipping...")
+print(f"Spaces version: {spaces_version}")
 if use_cuda:
+    print("CUDA is available, setting correct `device` variable.")
     device = "cuda"
     torch_dtype = torch.bfloat16
 else:
     torch_dtype = torch.bfloat16
 # Config
+model_name = "Yehor/kulyk-en-uk"
 concurrency_limit = 5
+current_theme = Base()
 # Load the model
 model = AutoModelForCausalLM.from_pretrained(
     trust_remote_code=True,
 )
 model.eval()
 tokenizer = AutoTokenizer.from_pretrained(model_name)
+# Load ASR
+audio_processor = AutoProcessor.from_pretrained("UsefulSensors/moonshine-base")
+audio_model = MoonshineForConditionalGeneration.from_pretrained(
+    "UsefulSensors/moonshine-base", attn_implementation="sdpa"
+)
+audio_model.to(device)
+audio_model.to(torch_dtype)
+# Load OCR
+ocr_model = ocr_predictor(pretrained=True)
+ocr_model.to(device)
+# Examples
+examples_text = [
     "WP: F-16 навряд чи суттєво змінять ситуацію на полі бою",
     "Над Україною збито ракету та 7 із 8 «Шахедів»",
     "Олімпійські ігри 2024. Розклад змагань українських спортсменів на 28 липня",
     "За тиждень НБУ продав майже 800 мільйонів доларів на міжбанківському ринку",
     "Париж 2024. День 2: Текстова трансляція",
 ]
+examples_audio = [
+    "example_1.wav",
+    "example_2.wav",
+    "example_3.wav",
+    "example_4.wav",
+    "example_5.wav",
+    "example_6.wav",
+    "example_7.wav",
+]
+examples_image = [
+    "example_1.jpg",
+    "example_2.jpg",
+    "example_3.jpg",
+    "example_4.jpg",
+    "example_5.jpg",
+    "example_6.jpg",
+]
 title = "UK-EN Translator"
 authors_table = """
 ## Authors
 description_head = f"""
 # {title}
+This space translates your text Ukrainian to English. Also, check [EN-UK Translator](https://huggingface.co/spaces/Yehor/en-uk-translator) out.
 """.strip()
 translated_text_value = """
+Choose an example below the Translate button or type your text.
+""".strip()
+translated_audio_value = """
+Choose an example below the Translate button or upload your audio.
+""".strip()
+translated_image_value = """
+Choose an example below the Translate button or upload your image.
 """.strip()
 tech_env = f"""
 #### Environment
 - Python: {sys.version}
+#### Models
+- [kulyk-uk-en](https://huggingface.co/Yehor/kulyk-en-uk)
 """.strip()
 tech_libraries = f"""
 #### Libraries
+- torch: {version("torch")}
+- gradio: {version("gradio")}
+- transformers: {version("transformers")}
 """.strip()
 @spaces.GPU
+def inference_text(text, progress=gr.Progress()):
     if not text:
         raise gr.Error("Please paste your text.")
     results = []
+    sentences = text.split("\n")
     non_empty_sentences = []
     for sentence in sentences:
         if len(s) != 0:
             non_empty_sentences.append(s)
+    for sentence in progress.tqdm(
+        non_empty_sentences, desc="Translating...", unit="sentence"
+    ):
         t0 = time.time()
+        prompt = "Translate the text to English:\n" + sentence
         input_ids = tokenizer.apply_chat_template(
             [{"role": "user", "content": prompt}],
         output = model.generate(
             input_ids,
             max_new_tokens=2048,
             # Greedy Search
             do_sample=False,
             repetition_penalty=1.05,
+            # Sampling
+            # do_sample=True,
+            # temperature=0.1,
+            # # top_k=1,
+            # min_p=0.9,
+            # repetition_penalty=1.05,
+        )
+        prompt_len = input_ids.shape[1]
+        generated_tokens = output[:, prompt_len:]
+        translated_text = tokenizer.batch_decode(
+            generated_tokens, skip_special_tokens=True
+        )[0]
+        elapsed_time = round(time.time() - t0, 2)
+        translated_text = translated_text.strip()
+        results.append(
+            {
+                "sentence": sentence,
+                "translated_text": translated_text,
+                "elapsed_time": elapsed_time,
+            }
+        )
+    gr.Info("Finished!", duration=2)
+    result_texts = []
+    for result in results:
+        result_texts.append(f"{result['translated_text']}\n")
+    sum_elapsed_text = sum([result["elapsed_time"] for result in results])
+    print(f"Elapsed time: {round(sum_elapsed_text, 4)} seconds")
+    return "\n".join(result_texts)
+@spaces.GPU
+def inference_audio(audio, progress=gr.Progress()):
+    if not audio:
+        raise gr.Error("Please paste your audio file.")
+    progress(0, desc="Translating...")
+    if isinstance(audio, str):
+        audio_array, sr = torchaudio.load(audio)
+        audio_array = audio_array.squeeze()
+    else:
+        audio_array, sr = audio
+    r_sr = audio_processor.feature_extractor.sampling_rate
+    print("Audio processor SR:", r_sr)
+    print("Audio file SR:", sr)
+    if r_sr != sr:
+        print("Resampling...")
+        resampler = T.Resample(orig_freq=sr, new_freq=r_sr)
+        audio_array = resampler(audio_array)
+    inputs = audio_processor(audio_array, return_tensors="pt", sampling_rate=r_sr)
+    inputs = inputs.to(device, dtype=torch_dtype)
+    # to avoid hallucination loops, we limit the maximum length of the generated text based expected number of tokens per second
+    token_limit_factor = (
+        6.5 / audio_processor.feature_extractor.sampling_rate
+    )  # Maximum of 6.5 tokens per second
+    seq_lens = inputs.attention_mask.sum(dim=-1)
+    max_length = int((seq_lens * token_limit_factor).max().item())
+    generated_ids = audio_model.generate(**inputs, max_length=max_length)
+    predictions = audio_processor.batch_decode(generated_ids, skip_special_tokens=True)
+    print("Predictions:", predictions)
+    text = predictions[0]
+    print("Text:", text)
+    results = []
+    sentences = text.split("\n")
+    non_empty_sentences = []
+    for sentence in sentences:
+        s = sentence.strip()
+        if len(s) != 0:
+            non_empty_sentences.append(s)
+    for sentence in progress.tqdm(
+        non_empty_sentences, desc="Translating...", unit="sentence"
+    ):
+        t0 = time.time()
+        prompt = "Translate the text to Ukrainian:\n" + sentence
+        input_ids = tokenizer.apply_chat_template(
+            [{"role": "user", "content": prompt}],
+            add_generation_prompt=True,
+            return_tensors="pt",
+            tokenize=True,
+        ).to(model.device)
+        output = model.generate(
+            input_ids,
+            max_new_tokens=2048,
+            # Greedy Search
+            do_sample=False,
+            repetition_penalty=1.05,
             # Sampling
             # do_sample=True,
             # temperature=0.1,
         prompt_len = input_ids.shape[1]
         generated_tokens = output[:, prompt_len:]
+        translated_text = tokenizer.batch_decode(
+            generated_tokens, skip_special_tokens=True
+        )[0]
         elapsed_time = round(time.time() - t0, 2)
     result_texts = []
     for result in results:
+        result_texts.append(f"{result['sentence']}: {result['translated_text']}\n")
     sum_elapsed_text = sum([result["elapsed_time"] for result in results])
+    print(f"Elapsed time: {round(sum_elapsed_text, 4)} seconds")
     return "\n".join(result_texts)
+@spaces.GPU
+def inference_image(image, progress=gr.Progress()):
+    if not image:
+        raise gr.Error("Please paste your image file.")
+    progress(0, desc="Translating...")
+    if isinstance(image, str):
+        doc = DocumentFile.from_images(image)
+    else:
+        raise gr.Error("Please paste your image file.")
+    result = ocr_model(doc)
+    text = result.render()
+    print("Text:", text)
+    results = []
+    sentences = [text.replace("\n", " ")]
+    for sentence in progress.tqdm(sentences, desc="Translating...", unit="sentence"):
+        t0 = time.time()
+        prompt = "Translate the text to Ukrainian:\n" + sentence
+        input_ids = tokenizer.apply_chat_template(
+            [{"role": "user", "content": prompt}],
+            add_generation_prompt=True,
+            return_tensors="pt",
+            tokenize=True,
+        ).to(model.device)
+        output = model.generate(
+            input_ids,
+            max_new_tokens=2048,
+            # Greedy Search
+            do_sample=False,
+            repetition_penalty=1.05,
+            # Sampling
+            # do_sample=True,
+            # temperature=0.1,
+            # # top_k=1,
+            # min_p=0.9,
+            # repetition_penalty=1.05,
+        )
+        prompt_len = input_ids.shape[1]
+        generated_tokens = output[:, prompt_len:]
+        translated_text = tokenizer.batch_decode(
+            generated_tokens, skip_special_tokens=True
+        )[0]
+        elapsed_time = round(time.time() - t0, 2)
+        translated_text = translated_text.strip()
+        results.append(
+            {
+                "sentence": sentence,
+                "translated_text": translated_text,
+                "elapsed_time": elapsed_time,
+            }
+        )
+    gr.Info("Finished!", duration=2)
+    result_texts = []
+    for result in results:
+        result_texts.append(f"> {result['sentence']}: {result['translated_text']}\n")
+    sum_elapsed_text = sum([result["elapsed_time"] for result in results])
+    print(f"Elapsed time: {round(sum_elapsed_text, 4)} seconds")
+    return "\n".join(result_texts)
+def create_app():
+    tab = gr.Blocks(
+        title=title,
+        analytics_enabled=False,
+        theme=current_theme,
     )
+    with tab:
+        gr.Markdown(description_head)
+        gr.Markdown("## Usage")
+        translated_text = gr.Textbox(
+            label="Translated text",
+            placeholder=translated_text_value,
+            show_copy_button=True,
+            lines=5,
+        )
+        text = gr.Textbox(label="Text", autofocus=True, lines=5)
+        gr.Button("Translate").click(
+            inference_text,
+            concurrency_limit=concurrency_limit,
+            inputs=text,
+            outputs=translated_text,
+        )
+        with gr.Row():
+            gr.Examples(label="Choose an example", inputs=text, examples=examples_text)
+    return tab
+def create_audio_app():
+    with gr.Blocks(theme=current_theme) as tab:
+        gr.Markdown(description_head)
+        gr.Markdown("## Usage")
+        translated_text = gr.Textbox(
+            label="Translated text",
+            placeholder=translated_audio_value,
+            show_copy_button=True,
+            lines=5,
+        )
+        audio = gr.Audio(label="Audio file", sources="upload", type="filepath")
+        gr.Button("Translate").click(
+            inference_audio,
+            concurrency_limit=concurrency_limit,
+            inputs=audio,
+            outputs=translated_text,
+        )
+        with gr.Row():
+            gr.Examples(
+                label="Choose an example", inputs=audio, examples=examples_audio
+            )
+    return tab
+def create_image_app():
+    with gr.Blocks(theme=current_theme) as tab:
+        gr.Markdown(description_head)
+        gr.Markdown("## Usage")
+        translated_text = gr.Textbox(
+            label="Translated text",
+            placeholder=translated_image_value,
+            show_copy_button=True,
+            lines=5,
+        )
+        image = gr.Image(label="Image file", sources="upload", type="filepath")
+        gr.Button("Translate").click(
+            inference_image,
+            concurrency_limit=concurrency_limit,
+            inputs=image,
+            outputs=translated_text,
+        )
+        with gr.Row():
+            gr.Examples(
+                label="Choose an example", inputs=image, examples=examples_image
+            )
+    return tab
+def create_env():
+    with gr.Blocks(theme=current_theme) as tab:
+        gr.Markdown(tech_env)
+        gr.Markdown(tech_libraries)
+    return tab
+def create_authors():
+    with gr.Blocks(theme=current_theme) as tab:
+        gr.Markdown(authors_table)
+    return tab
+def create_demo():
+    app_tab = create_app()
+    # app_audio_tab = create_audio_app()
+    # app_image_tab = create_image_app()
+    authors_tab = create_authors()
+    env_tab = create_env()
+    return gr.TabbedInterface(
+        # [app_tab, app_audio_tab, app_image_tab, authors_tab, env_tab],
+        [app_tab, authors_tab, env_tab],
+        tab_names=[
+            "✍️ Text",
+            # "🔊 Audio",
+            # "👀 Image",
+            "👥 Authors",
+            "📦 Environment, Models, and Libraries",
+        ],
+    )
 if __name__ == "__main__":
+    demo = create_demo()
     demo.queue()
     demo.launch()

requirements.txt CHANGED Viewed

@@ -2,4 +2,9 @@ gradio
 transformers @ git+https://github.com/huggingface/transformers.git@main
 accelerate

 transformers @ git+https://github.com/huggingface/transformers.git@main
+torch
+torchaudio
 accelerate
+python-doctr