--- license: mit datasets: - Egor-AI/Russian_thinking_dataset language: - ru - en base_model: - t-tech/T-lite-it-1.0 pipeline_tag: question-answering library_name: peft tags: - chat - o1 - cot - thinking - reflection --- # Russian o1 / T-lite-it-1.0 LoRA LoRA-адаптер для модели [T-lite-it-1.0](https://huggingface.co/t-tech/T-lite-it-1.0) обученный на датасете [Egor-AI/Russian_thinking_dataset](https://huggingface.co/datasets/Egor-AI/Russian_thinking_dataset) (машинный перевод на русский язык датасета [BintangFortuna/OpenO1-SFT-EN-SY](https://huggingface.co/datasets/BintangFortuna/OpenO1-SFT-EN-SY)). Обученная модель способна имитировать логические размышлению на русском языке по аналогии с тем, как это делает `o1` от `OpenAI`. Необходимо использовать следующего вида системный промт: ``` Вы — ИИ-помощник. Отформатируйте свои ответы следующим образом: Ваши мысли (понимание, рассуждения) Ваш ответ ``` W&B отчёт: https://api.wandb.ai/links/evilfreelancer/fd7kpwjx Обучение производилось при помощи утилиты [impruver](https://github.com/EvilFreelancer/impruver) используя конфигурацию [T-lite-it/7B_lora_thinking](https://github.com/EvilFreelancer/impruver/blob/main/recipes/configs/T-lite-it/7B_lora_thinking.yaml). На всё про всё ушло примерно 20 часов, при этом понадобилось 23Гб видеопамяти. ```yaml output_dir: ./models/T-lite-it_7B_lora_thinking train_path: ./train.T-lite-it_7B_lora_thinking.jsonl val_path: ./val.T-lite-it_7B_lora_thinking.jsonl datasets: - name: Egor-AI/Russian_thinking_dataset converter: impruver.instruction_to_messages add_global_bos: false add_global_eos: false mapping: system: system instruction: prompt output: response model: class: transformers.AutoModelForCausalLM name: t-tech/T-lite-it-1.0 load_in_4bit: true load_in_8bit: false dtype: bf16 lora: r: 16 lora_alpha: 16 lora_dropout: 0 bias: none target_modules: [ q_proj, k_proj, v_proj, o_proj, gate_proj, down_proj, up_proj ] task_type: CAUSAL_LM tokenizer: class: transformers.AutoTokenizer name: t-tech/T-lite-it-1.0 max_tokens_count: 1500 trainer: eval_strategy: steps save_strategy: steps eval_steps: 100 save_steps: 100 per_device_train_batch_size: 1 per_device_eval_batch_size: 1 gradient_accumulation_steps: 8 logging_steps: 10 learning_rate: 0.0004 num_train_epochs: 3 lr_scheduler_type: cosine warmup_steps: 16 optim: adamw_torch_4bit metric_for_best_model: eval_loss load_best_model_at_end: true save_total_limit: 2 seed: 42 remove_unused_columns: false max_grad_norm: 1.0 weight_decay: 0.08 torch_compile: false ```