Quick start

import torch
from transformers import pipeline, AutoTokenizer

# 1. Моделдин ID'син көрсөтөбүз
model_id = "murat/kyrgyz_umlaut_corrector"

# 2. Токенайзерди жүктөйбүз. Бул бизге атайын токендерди алууга керек.
tokenizer = AutoTokenizer.from_pretrained(model_id)

# 3. Pipeline'ды түзөбүз
# Эгер токенайзерди өзүнчө жүктөсөк, pipeline аны туура колдонот.
generator = pipeline(
    "text-generation",
    model=model_id,
    tokenizer=tokenizer,
    device="cpu", # cuda
    # torch_dtype=torch.bfloat16 # uncomment this line if you are using cuda
)

# 4. Токтотуучу токендин ID'син алабыз
# Gemma чат модели үчүн ар бир жооптун аягы ушул токен менен белгиленет.
stop_token_id = tokenizer.convert_tokens_to_ids("<end_of_turn>")

# 5. Текстти даярдайбыз
incorrect_text = "омур бою иштеген адамдар чынында бактылуу деп ойлойсунбу?"
chat_prompt = [{"role": "user", "content": incorrect_text}]

# 6. Моделди керектүү параметрлер менен чакырабыз
output = generator(
    chat_prompt,
    max_new_tokens=128,
    return_full_text=False,
    # Бул эң маанилүү параметр: ушул токенге жеткенде генерацияны токтот
    eos_token_id=stop_token_id,
    # Так оңдоо үчүн do_sample=False койгон жакшы.
    # Бул моделди эң ыктымалдуу жоопту тандоого мажбурлайт.
    do_sample=False
)

# 7. Жыйынтыкты чыгарабыз
# .strip() методу ашыкча боштуктарды же саптарды тазалайт
corrected_text = output[0]["generated_text"].strip()
print(corrected_text)

# Күтүлгөн жыйынтык:
# өмүр бою иштеген адамдар чынында бактылуу деп ойлойсуңбу?

Training procedure

This model was trained with SFT.

Framework versions

  • TRL: 0.21.0
  • Transformers: 4.55.0
  • Pytorch: 2.6.0+cu124
  • Datasets: 4.0.0
  • Tokenizers: 0.21.4

Citations

Cite TRL as:

@misc{vonwerra2022trl,
    title        = {{TRL: Transformer Reinforcement Learning}},
    author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallou{\'e}dec},
    year         = 2020,
    journal      = {GitHub repository},
    publisher    = {GitHub},
    howpublished = {\url{https://github.com/huggingface/trl}}
}
Downloads last month
-
Safetensors
Model size
268M params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for murat/kyrgyz_umlaut_corrector

Finetuned
(47)
this model