Kwaipilot
/

KwaiCoder-DS-V2-Lite-Base

Text Generation

code-generation

text-generation-inference

Model card Files Files and versions Community

binglinchengxia commited on Jan 2

Commit

b0b7604

·

verified ·

1 Parent(s): ed0dffb

Update README.md

Files changed (1) hide show

README.md +13 -15

README.md CHANGED Viewed

@@ -45,33 +45,31 @@ import torch
 model_id = "Kwaipilot/KwaiCoder-DS-V2-Lite-Base"
 tokenizer = AutoTokenizer.from_pretrained(model_id,trust_remote_code=True)
 model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto", torch_dtype=torch.bfloat16,trust_remote_code=True)
-text = "#Finds the length of the longest substring without repeating characters."
-input_ids = tokenizer(text, return_tensors="pt").input_ids
-input_ids = input_ids.to(model.device)
-outputs = model.generate(input_ids, max_new_tokens=80)
-print(tokenizer.decode(outputs[0], skip_special_tokens=True))
 ```
 **Code Insertion**
 ```python
-from transformers import AutoTokenizer, AutoModelForCausalLM
 import torch
 model_id = "Kwaipilot/KwaiCoder-DS-V2-Lite-Base"
-tokenizer = AutoTokenizer.from_pretrained(model_id, trust_remote_code=True)
-model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto", trust_remote_code=True, torch_dtype=torch.bfloat16)
-text = """<|fim_begin|>def find_longest_substring(s):
     seen = {}
     max_length = 0
     start = 0
-<|fim_hole|>
         if char in seen and seen[char] >= start:
             start = seen[char] + 1
         seen[char] = end
         max_length = max(max_length, end - start + 1)
-    return max_length<|fim_end|>"""
-input_ids = tokenizer(text, return_tensors="pt").input_ids
-input_ids = input_ids.to(model.device)
-outputs = model.generate(input_ids, max_new_tokens=80)
-print(tokenizer.decode(outputs[0], skip_special_tokens=True))
 ```
 ## 3.License

 model_id = "Kwaipilot/KwaiCoder-DS-V2-Lite-Base"
 tokenizer = AutoTokenizer.from_pretrained(model_id,trust_remote_code=True)
 model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto", torch_dtype=torch.bfloat16,trust_remote_code=True)
+text = "#write a quick sort algorithm"
+inputs = tokenizer(text, return_tensors="pt").to(model.device)
+outputs = model.generate(**inputs, max_new_tokens=80)
+print(tokenizer.decode(outputs[0], skip_special_tokens=True)[len(text):]))
 ```
 **Code Insertion**
 ```python
+from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
 model_id = "Kwaipilot/KwaiCoder-DS-V2-Lite-Base"
+tokenizer = AutoTokenizer.from_pretrained(model_id,trust_remote_code=True)
+model = AutoModelForCausalLM.from_pretrained(model_id, device_map="auto", torch_dtype=torch.bfloat16,trust_remote_code=True)
+text = """<｜fim▁begin｜>def find_longest_substring(s):
     seen = {}
     max_length = 0
     start = 0
+<｜fim▁hole｜>
         if char in seen and seen[char] >= start:
             start = seen[char] + 1
         seen[char] = end
         max_length = max(max_length, end - start + 1)
+    return max_length<｜fim▁end｜>"""
+inputs = tokenizer(text, return_tensors="pt").to(model.device)
+outputs = model.generate(**inputs, max_new_tokens=80)
+print(tokenizer.decode(outputs[0], skip_special_tokens=True)[len(text):]))
 ```
 ## 3.License