murat
/

kyrgyz_umlaut_corrector

Text Generation

Generated from Trainer

text-generation-inference

Model card Files Files and versions Metrics Training metrics Community

murat commited on about 8 hours ago

Commit

f8cbe3c

·

verified ·

1 Parent(s): 9d9e4f8

Fix repeating model output

Files changed (1) hide show

README.md +44 -4

README.md CHANGED Viewed

@@ -14,12 +14,52 @@ language:
 ## Quick start
 ```python
-from transformers import pipeline
 incorrect_text = "омур бою иштеген адамдар чынында бактылуу деп ойлойсунбу?"
-generator = pipeline("text-generation", model="murat/kyrgyz_umlaut_corrector", device="cuda")
-output = generator([{"role": "user", "content": incorrect_text}], max_new_tokens=128, return_full_text=False)[0]
-print(output["generated_text"])
 ```
 ## Training procedure

 ## Quick start
 ```python
+import torch
+from transformers import pipeline, AutoTokenizer
+# 1. Моделдин ID'син көрсөтөбүз
+model_id = "murat/kyrgyz_umlaut_corrector"
+# 2. Токенайзерди жүктөйбүз. Бул бизге атайын токендерди алууга керек.
+tokenizer = AutoTokenizer.from_pretrained(model_id)
+# 3. Pipeline'ды түзөбүз
+# Эгер токенайзерди өзүнчө жүктөсөк, pipeline аны туура колдонот.
+generator = pipeline(
+    "text-generation",
+    model=model_id,
+    tokenizer=tokenizer,
+    device="cpu", # cuda
+    # torch_dtype=torch.bfloat16 # uncomment this line if you are using cuda
+)
+# 4. Токтотуучу токендин ID'син алабыз
+# Gemma чат модели үчүн ар бир жооптун аягы ушул токен менен белгиленет.
+stop_token_id = tokenizer.convert_tokens_to_ids("<end_of_turn>")
+# 5. Текстти даярдайбыз
 incorrect_text = "омур бою иштеген адамдар чынында бактылуу деп ойлойсунбу?"
+chat_prompt = [{"role": "user", "content": incorrect_text}]
+# 6. Моделди керектүү параметрлер менен чакырабыз
+output = generator(
+    chat_prompt,
+    max_new_tokens=128,
+    return_full_text=False,
+    # Бул эң маанилүү параметр: ушул токенге жеткенде генерацияны токтот
+    eos_token_id=stop_token_id,
+    # Так оңдоо үчүн do_sample=False койгон жакшы.
+    # Бул моделди эң ыктымалдуу жоопту тандоого мажбурлайт.
+    do_sample=False
+)
+# 7. Жыйынтыкты чыгарабыз
+# .strip() методу ашыкча боштуктарды же саптарды тазалайт
+corrected_text = output[0]["generated_text"].strip()
+print(corrected_text)
+# Күтүлгөн жыйынтык:
+# өмүр бою иштеген адамдар чынында бактылуу деп ойлойсуңбу?
 ```
 ## Training procedure