entai2965
/

m2m100-418M-ctranslate2

Model card Files Files and versions Community

entai2965 commited on Nov 20, 2024

Commit

c1ebd41

·

verified ·

1 Parent(s): 536bfe4

Update README.md

Files changed (1) hide show

README.md +89 -0

README.md CHANGED Viewed

@@ -175,3 +175,92 @@ target = results[0].hypotheses[0][1:]
 print(tokenizer.decode(tokenizer.convert_tokens_to_ids(target)))
 ```

 print(tokenizer.decode(tokenizer.convert_tokens_to_ids(target)))
 ```
+## How to run this model (batch syntax)
+```
+import os
+import ctranslate2
+import transformers
+#set defaults
+home_path=os.path.expanduser('~')
+model_path=home_path+'/Downloads/models/models--facebook--m2m100_418M_ctranslate2'
+#model_path=home_path+'/Downloads/models/models--facebook--m2m100_1.2B_ctranslate2'
+#available languages list ->  https://huggingface.co/facebook/m2m100_1.2B   <-
+source_language_code='ja'
+target_language_code='en'
+device='cpu'
+#device='cuda'
+#load data
+string1='イキリカメラマン'
+string2='おかあさん'
+string3='人生はチョコレートの箱のようなものです。彼らは皆毒殺されています。'
+list_to_translate=[string1,string2,string3]
+#load model and tokenizer
+translator=ctranslate2.Translator(model_path,device=device)
+tokenizer=transformers.AutoTokenizer.from_pretrained(model_path,clean_up_tokenization_spaces=True)
+#configure languages
+tokenizer.src_lang=source_language_code
+target_language_token=[tokenizer.lang_code_to_token[target_language_code]]
+#encode
+encoded_list=[]
+for text in list_to_translate:
+    encoded_list.append(tokenizer.convert_ids_to_tokens(tokenizer.encode(text)))
+#translate
+#https://opennmt.net/CTranslate2/python/ctranslate2.Translator.html?#ctranslate2.Translator.translate_batch
+translated_list=translator.translate_batch(encoded_list, target_prefix=[target_language_token]*len(encoded_list))
+#decode
+for counter,tokens in enumerate(translated_list):
+    translated_list[counter]=tokenizer.decode(tokenizer.convert_tokens_to_ids(tokens.hypotheses[0][1:]))
+#output
+for text in translated_list:
+    print(text)
+```
+[Functional programming](https://docs.python.org/3/howto/functional.html) version
+```
+import os
+import ctranslate2
+import transformers
+#set defaults
+home_path=os.path.expanduser('~')
+model_path=home_path+'/Downloads/models/models--facebook--m2m100_418M_ctranslate2'
+#model_path=home_path+'/Downloads/models/models--facebook--m2m100_1.2B_ctranslate2'
+#available languages list ->  https://huggingface.co/facebook/m2m100_1.2B   <-
+source_language_code='ja'
+target_language_code='es'
+device='cpu'
+#device='cuda'
+#load data
+string1='イキリカメラマン'
+string2='おかあさん'
+string3='人生はチョコレートの箱のようなものです。彼らは皆毒殺されています。'
+list_to_translate=[string1,string2,string3]
+#load model and tokenizer
+translator=ctranslate2.Translator(model_path,device=device)
+tokenizer=transformers.AutoTokenizer.from_pretrained(model_path,clean_up_tokenization_spaces=True)
+tokenizer.src_lang=source_language_code
+#invoke witchcraft
+translated_list=[tokenizer.decode(tokenizer.convert_tokens_to_ids(tokens.hypotheses[0][1:])) for tokens in translator.translate_batch([tokenizer.convert_ids_to_tokens(tokenizer.encode(i)) for i in list_to_translate], target_prefix=[[tokenizer.lang_code_to_token[target_language_code]]]*len(list_to_translate))]
+#output
+for text in translated_list:
+    print(text)
+```