yonyou-sg
/

nllb-200-distilled-1.3B

Text2Text Generation

Transformers

Safetensors

m2m_100

Model card Files Files and versions Community

princepride commited on May 9, 2024

Commit

c4604a1

verified ·

1 Parent(s): 7f13f1f

Update model.py

Browse files

Files changed (1) hide show

model.py +25 -2

model.py CHANGED Viewed

@@ -69,7 +69,7 @@ class SperSignFilter(Filter):
         for i, input_str in enumerate(inputs):
             if '%s' in input_str:
                 encoded_str = input_str.replace('%s', '*')
-                self.code.append(i)  # 将包含 's%' 的字符串的索引存储到 self.code 中
             else:
                 encoded_str = input_str
             encoded_inputs.append(encoded_str)
@@ -80,6 +80,29 @@ class SperSignFilter(Filter):
         for i in self.code:
             decoded_inputs[i] = decoded_inputs[i].replace('*', '%s')  # 使用 self.code 中的索引还原原始字符串
         return decoded_inputs
 class ChevronsFilter(Filter):
     def __init__(self):
@@ -238,7 +261,7 @@ class Model():
         # self.translator = pipeline('translation', model=self.original_model, tokenizer=self.tokenizer, src_lang=original_language, tgt_lang=target_language, device=device)
     def generate(self, inputs, original_language, target_languages, max_batch_size):
-        filter_list = [SpecialTokenFilter(), SperSignFilter(), ChevronsFilter(), SimilarFilter(), ChineseFilter()]
         filter_pipeline = FilterPipeline(filter_list)
         def language_mapping(original_language):
             d = {

         for i, input_str in enumerate(inputs):
             if '%s' in input_str:
                 encoded_str = input_str.replace('%s', '*')
+                self.code.append(i)  # 将包含 '%s' 的字符串的索引存储到 self.code 中
             else:
                 encoded_str = input_str
             encoded_inputs.append(encoded_str)
         for i in self.code:
             decoded_inputs[i] = decoded_inputs[i].replace('*', '%s')  # 使用 self.code 中的索引还原原始字符串
         return decoded_inputs
+class ParenSParenFilter(Filter):
+    def __init__(self):
+        self.name = 'Paren s paren filter'
+        self.code = []
+    def encoder(self, inputs):
+        encoded_inputs = []
+        self.code = []  # 清空 self.code
+        for i, input_str in enumerate(inputs):
+            if '(s)' in input_str:
+                encoded_str = input_str.replace('(s)', '$')
+                self.code.append(i)  # 将包含 '(s)' 的字符串的索引存储到 self.code 中
+            else:
+                encoded_str = input_str
+            encoded_inputs.append(encoded_str)
+        return encoded_inputs
+    def decoder(self, inputs):
+        decoded_inputs = inputs.copy()
+        for i in self.code:
+            decoded_inputs[i] = decoded_inputs[i].replace('$', '(s)')  # 使用 self.code 中的索引还原原始字符串
+        return decoded_inputs
 class ChevronsFilter(Filter):
     def __init__(self):
         # self.translator = pipeline('translation', model=self.original_model, tokenizer=self.tokenizer, src_lang=original_language, tgt_lang=target_language, device=device)
     def generate(self, inputs, original_language, target_languages, max_batch_size):
+        filter_list = [SpecialTokenFilter(), SperSignFilter(), ParenSParenFilter(), ChevronsFilter(), SimilarFilter(), ChineseFilter()]
         filter_pipeline = FilterPipeline(filter_list)
         def language_mapping(original_language):
             d = {