larryvrh commited on
Commit
98505c8
·
1 Parent(s): 03ba650

First version of Gradio UI.

Browse files
Files changed (1) hide show
  1. app.py +67 -4
app.py CHANGED
@@ -1,7 +1,70 @@
 
 
 
1
  import gradio as gr
 
2
 
3
- def greet(name):
4
- return "Hello " + name + "!!"
 
5
 
6
- iface = gr.Interface(fn=greet, inputs="text", outputs="text")
7
- iface.launch()
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ from transformers import AutoModelForSeq2SeqLM, AutoTokenizer, TextIteratorStreamer
2
+ from threading import Thread
3
+ import torch
4
  import gradio as gr
5
+ import re
6
 
7
+ model_path = 'larryvrh/mt5-translation-ja_zh'
8
+ tokenizer = AutoTokenizer.from_pretrained(model_path)
9
+ model = AutoModelForSeq2SeqLM.from_pretrained(model_path, torch_dtype = torch.float32)
10
 
11
+
12
+ def paragraph_to_sentences(paragraph):
13
+ sentences = []
14
+ cursor = 0
15
+ for i, c in enumerate(paragraph):
16
+ if c == '。':
17
+ sentences.append(paragraph[cursor:i + 1])
18
+ cursor = i + 1
19
+ if paragraph[-1] != '。':
20
+ sentences.append(paragraph[cursor:])
21
+ return sentences
22
+
23
+
24
+ def article_to_sentences(article):
25
+ paragraphs = re.split(r'([\r\n\t ]+)', article)
26
+ sentences = []
27
+ for i, p in enumerate(paragraphs):
28
+ if len(p.strip()) == 0:
29
+ sentences.append(p)
30
+ else:
31
+ sentences += paragraph_to_sentences(p)
32
+ return sentences
33
+
34
+ def stream_generate(model, tokenizer, *args, **kwargs):
35
+ streamer = TextIteratorStreamer(tokenizer, timeout=60.0, skip_prompt=True, skip_special_tokens=True)
36
+ kwargs['streamer'] = streamer
37
+ t = Thread(target=model.generate, args=args, kwargs=kwargs)
38
+ t.start()
39
+ for c in streamer:
40
+ yield c
41
+
42
+ def contains_CJK(text):
43
+ return len(re.findall(r'[\u3040-\u309F\u30A0-\u30FF\uAC00-\uD7A3\u4E00-\u9FFF]', text)) > 0
44
+
45
+ def translate(text):
46
+ result = ''
47
+ for s in article_to_sentences(text):
48
+ if not contains_CJK(s):
49
+ result += s
50
+ yield result
51
+ continue
52
+ for t in stream_generate(model, tokenizer, **tokenizer(f'<-ja2zh-> {s}', return_tensors="pt"),
53
+ max_new_tokens=256, repetition_penalty=1.1, num_beams=1):
54
+ result += t.replace(',',',').replace('!','!').replace('?','?').replace(';', ';').replace('(','(').replace(')',')')
55
+ yield result
56
+
57
+ app = gr.Interface(
58
+ fn=translate,
59
+ inputs=gr.Textbox(lines=5),
60
+ outputs=gr.Textbox(lines=5),
61
+ allow_flagging='never',
62
+ title='MT5-Translation-Ja_Zh',
63
+ examples=[
64
+ '文は、「主語・修飾語・述語」の語順で構成される。修飾語は被修飾語の前に位置する。また、名詞の格を示すためには、語順や語尾を変化させるのでなく、文法的な機能を示す機能語(助詞)を後ろに付け加える(膠着させる)。これらのことから、言語類型論上は、語順の点ではSOV型の言語に、形態の点では膠着語に分類される(「文法」の節参照)。',
65
+ 'フェルディナント・ラッサールは、プロイセンの政治学者、哲学者、法学者、社会主義者、労働運動指導者。ドイツ社会民主党の母体となる全ドイツ労働者同盟の創設者である。社会主義共和政の統一ドイツを目指しつつも、……',
66
+ '広辞苑第七版によれば、百科事典は「学術・技芸・社会・家庭その他あらゆる科目にわたる知識を集め記し、これを部門別あるいは五十音順などに配列し、解説を加えた書物」のことであると定義しており、大辞泉では「人類の知識の及ぶあらゆる分野の事柄について、辞書の形式に準じて項目を立てて配列し、解説を加えた書物」であると定義されている。 ',
67
+ 'ウィキペディアは、信頼されるフリーな百科事典を、それも、質においても量においても史上最高の百科事典を目指して、共同作業で創り上げるプロジェクトです。あなたは、ウィキペディアをご覧になるだけでなく、今すぐにでも記事の編集に参加することができます。特別な参加資格はありません。編集作業には、あなたのパソコンのウェブブラウザ以外には特別な道具は必要ありません。これまでにない人類の知的遺産を育むこの壮大なプロジェクトにぜひ参加してください。あなたが関心のある分野、得意とする分野において、あなたの力を貸してください。 '
68
+ ]
69
+ )
70
+ app.launch(enable_queue=True, max_threads=4)