lwl-uestc commited on Mar 18

Commit

a4fe697

verified ·

1 Parent(s): 0367ee1

Upload folder using huggingface_hub

Browse files

Files changed (18) hide show

.gitattributes +1 -0
README.md +60 -0
all_results.json +8 -0
config.json +30 -0
generation_config.json +9 -0
model-00001-of-00004.safetensors +3 -0
model-00002-of-00004.safetensors +3 -0
model-00003-of-00004.safetensors +3 -0
model-00004-of-00004.safetensors +3 -0
model.safetensors.index.json +346 -0
special_tokens_map.json +23 -0
tokenizer.json +3 -0
tokenizer_config.json +197 -0
train_results.json +8 -0
trainer_log.jsonl +63 -0
trainer_state.json +476 -0
training_args.bin +3 -0
training_loss.png +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,60 @@

+---
+library_name: transformers
+license: other
+base_model: deepseek/DeepSeek-R1-Distill-Qwen-7B
+tags:
+- llama-factory
+- full
+- generated_from_trainer
+model-index:
+- name: 7b_mix_1k
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# 7b_mix_1k
+This model is a fine-tuned version of [/home/export/base/sc100182/sc100182/online1/code/models/DeepSeek-R1-Distill-Qwen-7B](https://huggingface.co//home/export/base/sc100182/sc100182/online1/code/models/DeepSeek-R1-Distill-Qwen-7B) on the mix_1k dataset.
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 1e-05
+- train_batch_size: 1
+- eval_batch_size: 8
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- total_train_batch_size: 8
+- total_eval_batch_size: 64
+- optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.05
+- num_epochs: 5
+### Training results
+### Framework versions
+- Transformers 4.48.2
+- Pytorch 2.6.0+cu124
+- Datasets 3.2.0
+- Tokenizers 0.21.0

all_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 5.0,
+    "total_flos": 123341386481664.0,
+    "train_loss": 0.2985656312942505,
+    "train_runtime": 10873.4333,
+    "train_samples_per_second": 0.46,
+    "train_steps_per_second": 0.057
+}

config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "_name_or_path": "/home/export/base/sc100182/sc100182/online1/code/models/DeepSeek-R1-Distill-Qwen-7B",
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151643,
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "max_position_embeddings": 131072,
+  "max_window_layers": 28,
+  "model_type": "qwen2",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 10000,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.48.2",
+  "use_cache": false,
+  "use_mrope": false,
+  "use_sliding_window": false,
+  "vocab_size": 152064
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 151646,
+  "do_sample": true,
+  "eos_token_id": 151643,
+  "temperature": 0.6,
+  "top_p": 0.95,
+  "transformers_version": "4.48.2"
+}

model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d88f5083c1df62ee54593289d4ee7df2c27750815bf4acccac4fb89bc40750bb
+size 4877660776

model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c9e26015b3ba21c2c8c0606d4b0a1bda5d2fad18bf615c7e95427cbf7c507711
+size 4932751008

model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:802aa08d9c936b493d88650e0a6d53e08895be3445e0f1ff51e1aa1522937eb8
+size 4330865200

model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b4f7ee11f226d06f548bb2af7317a830402f8cba9375d254a130f5ce5ea7e5c1
+size 1089994880

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,346 @@

+{
+  "metadata": {
+    "total_size": 15231233024
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00004-of-00004.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.norm.weight": "model-00003-of-00004.safetensors"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,23 @@

+{
+  "bos_token": {
+    "content": "<｜begin▁of▁sentence｜>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "<｜end▁of▁sentence｜>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<｜end▁of▁sentence｜>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e20ddafc659ba90242154b55275402edeca0715e5dbb30f56815a4ce081f4893
+size 11422778

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,197 @@

+{
+  "add_bos_token": true,
+  "add_eos_token": false,
+  "add_prefix_space": null,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<｜end▁of▁sentence｜>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<｜User｜>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151645": {
+      "content": "<｜Assistant｜>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151646": {
+      "content": "<｜begin▁of▁sentence｜>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|EOT|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151648": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151649": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "bos_token": "<｜begin▁of▁sentence｜>",
+  "chat_template": "{% if not add_generation_prompt is defined %}{% set add_generation_prompt = false %}{% endif %}{% set ns = namespace(is_first=false, is_tool=false, is_output_first=true, system_prompt='') %}{%- for message in messages %}{%- if message['role'] == 'system' %}{% set ns.system_prompt = message['content'] %}{%- endif %}{%- endfor %}{{bos_token}}{{ns.system_prompt}}{%- for message in messages %}{%- if message['role'] == 'user' %}{%- set ns.is_tool = false -%}{{'<｜User｜>' + message['content']}}{%- endif %}{%- if message['role'] == 'assistant' and message['content'] is none %}{%- set ns.is_tool = false -%}{%- for tool in message['tool_calls']%}{%- if not ns.is_first %}{{'<｜Assistant｜><｜tool▁calls▁begin｜><｜tool▁call▁begin��>' + tool['type'] + '<｜tool▁sep｜>' + tool['function']['name'] + '\\n' + '```json' + '\\n' + tool['function']['arguments'] + '\\n' + '```' + '<｜tool▁call▁end｜>'}}{%- set ns.is_first = true -%}{%- else %}{{'\\n' + '<｜tool▁call▁begin｜>' + tool['type'] + '<｜tool▁sep｜>' + tool['function']['name'] + '\\n' + '```json' + '\\n' + tool['function']['arguments'] + '\\n' + '```' + '<｜tool▁call▁end｜>'}}{{'<｜tool▁calls▁end｜><｜end▁of▁sentence｜>'}}{%- endif %}{%- endfor %}{%- endif %}{%- if message['role'] == 'assistant' and message['content'] is not none %}{%- if ns.is_tool %}{{'<｜tool▁outputs▁end｜>' + message['content'] + '<｜end▁of▁sentence｜>'}}{%- set ns.is_tool = false -%}{%- else %}{% set content = message['content'] %}{% if '</think>' in content %}{% set content = content.split('</think>')[-1] %}{% endif %}{{'<｜Assistant｜>' + content + '<｜end▁of▁sentence｜>'}}{%- endif %}{%- endif %}{%- if message['role'] == 'tool' %}{%- set ns.is_tool = true -%}{%- if ns.is_output_first %}{{'<｜tool▁outputs▁begin｜><｜tool▁output▁begin｜>' + message['content'] + '<｜tool▁output▁end｜>'}}{%- set ns.is_output_first = false %}{%- else %}{{'\\n<｜tool▁output▁begin｜>' + message['content'] + '<｜tool▁output▁end｜>'}}{%- endif %}{%- endif %}{%- endfor -%}{% if ns.is_tool %}{{'<｜tool▁outputs▁end｜>'}}{% endif %}{% if add_generation_prompt and not ns.is_tool %}{{'<｜Assistant｜><think>\\n'}}{% endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<｜end▁of▁sentence｜>",
+  "extra_special_tokens": {},
+  "legacy": true,
+  "model_max_length": 16384,
+  "pad_token": "<｜end▁of▁sentence｜>",
+  "padding_side": "right",
+  "sp_model_kwargs": {},
+  "split_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": null,
+  "use_default_system_prompt": false
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 5.0,
+    "total_flos": 123341386481664.0,
+    "train_loss": 0.2985656312942505,
+    "train_runtime": 10873.4333,
+    "train_samples_per_second": 0.46,
+    "train_steps_per_second": 0.057
+}

trainer_log.jsonl ADDED Viewed

	@@ -0,0 +1,63 @@

+{"current_steps": 10, "total_steps": 625, "loss": 0.4597, "lr": 3.125e-06, "epoch": 0.08, "percentage": 1.6, "elapsed_time": "0:03:09", "remaining_time": "3:14:22"}
+{"current_steps": 20, "total_steps": 625, "loss": 0.4563, "lr": 6.25e-06, "epoch": 0.16, "percentage": 3.2, "elapsed_time": "0:06:06", "remaining_time": "3:04:53"}
+{"current_steps": 30, "total_steps": 625, "loss": 0.4264, "lr": 9.375000000000001e-06, "epoch": 0.24, "percentage": 4.8, "elapsed_time": "0:08:57", "remaining_time": "2:57:35"}
+{"current_steps": 40, "total_steps": 625, "loss": 0.4412, "lr": 9.995510010438338e-06, "epoch": 0.32, "percentage": 6.4, "elapsed_time": "0:11:49", "remaining_time": "2:52:54"}
+{"current_steps": 50, "total_steps": 625, "loss": 0.442, "lr": 9.977283247594167e-06, "epoch": 0.4, "percentage": 8.0, "elapsed_time": "0:14:51", "remaining_time": "2:50:49"}
+{"current_steps": 60, "total_steps": 625, "loss": 0.4613, "lr": 9.945090192163202e-06, "epoch": 0.48, "percentage": 9.6, "elapsed_time": "0:17:57", "remaining_time": "2:49:07"}
+{"current_steps": 70, "total_steps": 625, "loss": 0.4213, "lr": 9.8990211780905e-06, "epoch": 0.56, "percentage": 11.2, "elapsed_time": "0:20:47", "remaining_time": "2:44:53"}
+{"current_steps": 80, "total_steps": 625, "loss": 0.4165, "lr": 9.83920547536085e-06, "epoch": 0.64, "percentage": 12.8, "elapsed_time": "0:23:29", "remaining_time": "2:40:03"}
+{"current_steps": 90, "total_steps": 625, "loss": 0.4269, "lr": 9.765810927266281e-06, "epoch": 0.72, "percentage": 14.4, "elapsed_time": "0:26:19", "remaining_time": "2:36:30"}
+{"current_steps": 100, "total_steps": 625, "loss": 0.4315, "lr": 9.679043479436558e-06, "epoch": 0.8, "percentage": 16.0, "elapsed_time": "0:29:03", "remaining_time": "2:32:31"}
+{"current_steps": 110, "total_steps": 625, "loss": 0.422, "lr": 9.579146601954276e-06, "epoch": 0.88, "percentage": 17.6, "elapsed_time": "0:31:45", "remaining_time": "2:28:41"}
+{"current_steps": 120, "total_steps": 625, "loss": 0.4246, "lr": 9.466400606176062e-06, "epoch": 0.96, "percentage": 19.2, "elapsed_time": "0:34:39", "remaining_time": "2:25:50"}
+{"current_steps": 130, "total_steps": 625, "loss": 0.3859, "lr": 9.341121858176877e-06, "epoch": 1.04, "percentage": 20.8, "elapsed_time": "0:37:25", "remaining_time": "2:22:28"}
+{"current_steps": 140, "total_steps": 625, "loss": 0.3365, "lr": 9.203661891024547e-06, "epoch": 1.12, "percentage": 22.4, "elapsed_time": "0:40:18", "remaining_time": "2:19:38"}
+{"current_steps": 150, "total_steps": 625, "loss": 0.3536, "lr": 9.054406418375443e-06, "epoch": 1.2, "percentage": 24.0, "elapsed_time": "0:43:11", "remaining_time": "2:16:47"}
+{"current_steps": 160, "total_steps": 625, "loss": 0.3335, "lr": 8.893774252159186e-06, "epoch": 1.28, "percentage": 25.6, "elapsed_time": "0:45:53", "remaining_time": "2:13:21"}
+{"current_steps": 170, "total_steps": 625, "loss": 0.3572, "lr": 8.722216127389362e-06, "epoch": 1.3599999999999999, "percentage": 27.2, "elapsed_time": "0:48:31", "remaining_time": "2:09:51"}
+{"current_steps": 180, "total_steps": 625, "loss": 0.35, "lr": 8.540213437397833e-06, "epoch": 1.44, "percentage": 28.8, "elapsed_time": "0:51:20", "remaining_time": "2:06:56"}
+{"current_steps": 190, "total_steps": 625, "loss": 0.3455, "lr": 8.348276883041584e-06, "epoch": 1.52, "percentage": 30.4, "elapsed_time": "0:54:13", "remaining_time": "2:04:08"}
+{"current_steps": 200, "total_steps": 625, "loss": 0.3511, "lr": 8.146945039672446e-06, "epoch": 1.6, "percentage": 32.0, "elapsed_time": "0:57:08", "remaining_time": "2:01:25"}
+{"current_steps": 210, "total_steps": 625, "loss": 0.3635, "lr": 7.93678284589079e-06, "epoch": 1.6800000000000002, "percentage": 33.6, "elapsed_time": "0:59:49", "remaining_time": "1:58:14"}
+{"current_steps": 220, "total_steps": 625, "loss": 0.3545, "lr": 7.718380018323743e-06, "epoch": 1.76, "percentage": 35.2, "elapsed_time": "1:02:47", "remaining_time": "1:55:35"}
+{"current_steps": 230, "total_steps": 625, "loss": 0.3396, "lr": 7.492349396876097e-06, "epoch": 1.8399999999999999, "percentage": 36.8, "elapsed_time": "1:05:35", "remaining_time": "1:52:38"}
+{"current_steps": 240, "total_steps": 625, "loss": 0.3659, "lr": 7.2593252250971306e-06, "epoch": 1.92, "percentage": 38.4, "elapsed_time": "1:08:45", "remaining_time": "1:50:17"}
+{"current_steps": 250, "total_steps": 625, "loss": 0.345, "lr": 7.019961370488645e-06, "epoch": 2.0, "percentage": 40.0, "elapsed_time": "1:11:35", "remaining_time": "1:47:23"}
+{"current_steps": 260, "total_steps": 625, "loss": 0.2951, "lr": 6.774929489748052e-06, "epoch": 2.08, "percentage": 41.6, "elapsed_time": "1:14:27", "remaining_time": "1:44:32"}
+{"current_steps": 270, "total_steps": 625, "loss": 0.2788, "lr": 6.524917144094851e-06, "epoch": 2.16, "percentage": 43.2, "elapsed_time": "1:17:22", "remaining_time": "1:41:43"}
+{"current_steps": 280, "total_steps": 625, "loss": 0.2732, "lr": 6.270625869968907e-06, "epoch": 2.24, "percentage": 44.8, "elapsed_time": "1:20:08", "remaining_time": "1:38:44"}
+{"current_steps": 290, "total_steps": 625, "loss": 0.2657, "lr": 6.012769210514147e-06, "epoch": 2.32, "percentage": 46.4, "elapsed_time": "1:22:55", "remaining_time": "1:35:48"}
+{"current_steps": 300, "total_steps": 625, "loss": 0.2864, "lr": 5.752070713371372e-06, "epoch": 2.4, "percentage": 48.0, "elapsed_time": "1:25:52", "remaining_time": "1:33:02"}
+{"current_steps": 310, "total_steps": 625, "loss": 0.2804, "lr": 5.4892619003983735e-06, "epoch": 2.48, "percentage": 49.6, "elapsed_time": "1:28:36", "remaining_time": "1:30:02"}
+{"current_steps": 320, "total_steps": 625, "loss": 0.274, "lr": 5.2250802150143395e-06, "epoch": 2.56, "percentage": 51.2, "elapsed_time": "1:31:31", "remaining_time": "1:27:14"}
+{"current_steps": 330, "total_steps": 625, "loss": 0.2921, "lr": 4.960266952928317e-06, "epoch": 2.64, "percentage": 52.8, "elapsed_time": "1:34:35", "remaining_time": "1:24:33"}
+{"current_steps": 340, "total_steps": 625, "loss": 0.2742, "lr": 4.695565182058113e-06, "epoch": 2.7199999999999998, "percentage": 54.4, "elapsed_time": "1:37:34", "remaining_time": "1:21:47"}
+{"current_steps": 350, "total_steps": 625, "loss": 0.2732, "lr": 4.431717657476394e-06, "epoch": 2.8, "percentage": 56.0, "elapsed_time": "1:40:15", "remaining_time": "1:18:46"}
+{"current_steps": 360, "total_steps": 625, "loss": 0.283, "lr": 4.169464737234588e-06, "epoch": 2.88, "percentage": 57.6, "elapsed_time": "1:43:14", "remaining_time": "1:15:59"}
+{"current_steps": 370, "total_steps": 625, "loss": 0.2834, "lr": 3.909542304912881e-06, "epoch": 2.96, "percentage": 59.2, "elapsed_time": "1:46:12", "remaining_time": "1:13:12"}
+{"current_steps": 380, "total_steps": 625, "loss": 0.2619, "lr": 3.652679704725596e-06, "epoch": 3.04, "percentage": 60.8, "elapsed_time": "1:49:11", "remaining_time": "1:10:23"}
+{"current_steps": 390, "total_steps": 625, "loss": 0.2164, "lr": 3.3995976949760813e-06, "epoch": 3.12, "percentage": 62.4, "elapsed_time": "1:51:49", "remaining_time": "1:07:22"}
+{"current_steps": 400, "total_steps": 625, "loss": 0.2228, "lr": 3.1510064256037277e-06, "epoch": 3.2, "percentage": 64.0, "elapsed_time": "1:54:30", "remaining_time": "1:04:24"}
+{"current_steps": 410, "total_steps": 625, "loss": 0.215, "lr": 2.9076034454981333e-06, "epoch": 3.2800000000000002, "percentage": 65.6, "elapsed_time": "1:57:28", "remaining_time": "1:01:36"}
+{"current_steps": 420, "total_steps": 625, "loss": 0.2377, "lr": 2.6700717451719066e-06, "epoch": 3.36, "percentage": 67.2, "elapsed_time": "2:00:28", "remaining_time": "0:58:48"}
+{"current_steps": 430, "total_steps": 625, "loss": 0.2257, "lr": 2.4390778402843606e-06, "epoch": 3.44, "percentage": 68.8, "elapsed_time": "2:03:19", "remaining_time": "0:55:55"}
+{"current_steps": 440, "total_steps": 625, "loss": 0.2313, "lr": 2.215269901393805e-06, "epoch": 3.52, "percentage": 70.4, "elapsed_time": "2:06:33", "remaining_time": "0:53:12"}
+{"current_steps": 450, "total_steps": 625, "loss": 0.234, "lr": 1.999275935186277e-06, "epoch": 3.6, "percentage": 72.0, "elapsed_time": "2:09:32", "remaining_time": "0:50:22"}
+{"current_steps": 460, "total_steps": 625, "loss": 0.2363, "lr": 1.7917020222842662e-06, "epoch": 3.68, "percentage": 73.6, "elapsed_time": "2:12:19", "remaining_time": "0:47:27"}
+{"current_steps": 470, "total_steps": 625, "loss": 0.2394, "lr": 1.5931306165801453e-06, "epoch": 3.76, "percentage": 75.2, "elapsed_time": "2:15:16", "remaining_time": "0:44:36"}
+{"current_steps": 480, "total_steps": 625, "loss": 0.2113, "lr": 1.4041189108663421e-06, "epoch": 3.84, "percentage": 76.8, "elapsed_time": "2:18:07", "remaining_time": "0:41:43"}
+{"current_steps": 490, "total_steps": 625, "loss": 0.2162, "lr": 1.2251972733483615e-06, "epoch": 3.92, "percentage": 78.4, "elapsed_time": "2:21:00", "remaining_time": "0:38:51"}
+{"current_steps": 500, "total_steps": 625, "loss": 0.233, "lr": 1.0568677594277898e-06, "epoch": 4.0, "percentage": 80.0, "elapsed_time": "2:24:00", "remaining_time": "0:36:00"}
+{"current_steps": 510, "total_steps": 625, "loss": 0.205, "lr": 8.996027029312315e-07, "epoch": 4.08, "percentage": 81.6, "elapsed_time": "2:26:45", "remaining_time": "0:33:05"}
+{"current_steps": 520, "total_steps": 625, "loss": 0.2032, "lr": 7.538433907381814e-07, "epoch": 4.16, "percentage": 83.2, "elapsed_time": "2:29:32", "remaining_time": "0:30:11"}
+{"current_steps": 530, "total_steps": 625, "loss": 0.2011, "lr": 6.199988245268779e-07, "epoch": 4.24, "percentage": 84.8, "elapsed_time": "2:32:41", "remaining_time": "0:27:22"}
+{"current_steps": 540, "total_steps": 625, "loss": 0.1961, "lr": 4.984445731126542e-07, "epoch": 4.32, "percentage": 86.4, "elapsed_time": "2:35:40", "remaining_time": "0:24:30"}
+{"current_steps": 550, "total_steps": 625, "loss": 0.192, "lr": 3.8952171859913123e-07, "epoch": 4.4, "percentage": 88.0, "elapsed_time": "2:38:36", "remaining_time": "0:21:37"}
+{"current_steps": 560, "total_steps": 625, "loss": 0.1935, "lr": 2.9353589929939086e-07, "epoch": 4.48, "percentage": 89.6, "elapsed_time": "2:41:31", "remaining_time": "0:18:44"}
+{"current_steps": 570, "total_steps": 625, "loss": 0.1994, "lr": 2.1075645211266926e-07, "epoch": 4.5600000000000005, "percentage": 91.2, "elapsed_time": "2:44:17", "remaining_time": "0:15:51"}
+{"current_steps": 580, "total_steps": 625, "loss": 0.2027, "lr": 1.4141565676307866e-07, "epoch": 4.64, "percentage": 92.8, "elapsed_time": "2:47:02", "remaining_time": "0:12:57"}
+{"current_steps": 590, "total_steps": 625, "loss": 0.1975, "lr": 8.570808402103392e-08, "epoch": 4.72, "percentage": 94.4, "elapsed_time": "2:50:05", "remaining_time": "0:10:05"}
+{"current_steps": 600, "total_steps": 625, "loss": 0.1905, "lr": 4.3790049736268106e-08, "epoch": 4.8, "percentage": 96.0, "elapsed_time": "2:52:52", "remaining_time": "0:07:12"}
+{"current_steps": 610, "total_steps": 625, "loss": 0.2059, "lr": 1.577917621443825e-08, "epoch": 4.88, "percentage": 97.6, "elapsed_time": "2:55:51", "remaining_time": "0:04:19"}
+{"current_steps": 620, "total_steps": 625, "loss": 0.2113, "lr": 1.7540621680850467e-09, "epoch": 4.96, "percentage": 99.2, "elapsed_time": "2:58:43", "remaining_time": "0:01:26"}
+{"current_steps": 625, "total_steps": 625, "epoch": 5.0, "percentage": 100.0, "elapsed_time": "3:01:13", "remaining_time": "0:00:00"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,476 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 625,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.08,
+      "grad_norm": 1.8854656219482422,
+      "learning_rate": 3.125e-06,
+      "loss": 0.4597,
+      "step": 10
+    },
+    {
+      "epoch": 0.16,
+      "grad_norm": 0.9969694018363953,
+      "learning_rate": 6.25e-06,
+      "loss": 0.4563,
+      "step": 20
+    },
+    {
+      "epoch": 0.24,
+      "grad_norm": 0.8475977182388306,
+      "learning_rate": 9.375000000000001e-06,
+      "loss": 0.4264,
+      "step": 30
+    },
+    {
+      "epoch": 0.32,
+      "grad_norm": 0.5963095426559448,
+      "learning_rate": 9.995510010438338e-06,
+      "loss": 0.4412,
+      "step": 40
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 0.5206061005592346,
+      "learning_rate": 9.977283247594167e-06,
+      "loss": 0.442,
+      "step": 50
+    },
+    {
+      "epoch": 0.48,
+      "grad_norm": 0.4866243302822113,
+      "learning_rate": 9.945090192163202e-06,
+      "loss": 0.4613,
+      "step": 60
+    },
+    {
+      "epoch": 0.56,
+      "grad_norm": 0.48311129212379456,
+      "learning_rate": 9.8990211780905e-06,
+      "loss": 0.4213,
+      "step": 70
+    },
+    {
+      "epoch": 0.64,
+      "grad_norm": 0.4780612587928772,
+      "learning_rate": 9.83920547536085e-06,
+      "loss": 0.4165,
+      "step": 80
+    },
+    {
+      "epoch": 0.72,
+      "grad_norm": 0.5186869502067566,
+      "learning_rate": 9.765810927266281e-06,
+      "loss": 0.4269,
+      "step": 90
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 0.4753789007663727,
+      "learning_rate": 9.679043479436558e-06,
+      "loss": 0.4315,
+      "step": 100
+    },
+    {
+      "epoch": 0.88,
+      "grad_norm": 0.5088816285133362,
+      "learning_rate": 9.579146601954276e-06,
+      "loss": 0.422,
+      "step": 110
+    },
+    {
+      "epoch": 0.96,
+      "grad_norm": 0.611789882183075,
+      "learning_rate": 9.466400606176062e-06,
+      "loss": 0.4246,
+      "step": 120
+    },
+    {
+      "epoch": 1.04,
+      "grad_norm": 0.3785482347011566,
+      "learning_rate": 9.341121858176877e-06,
+      "loss": 0.3859,
+      "step": 130
+    },
+    {
+      "epoch": 1.12,
+      "grad_norm": 0.40997618436813354,
+      "learning_rate": 9.203661891024547e-06,
+      "loss": 0.3365,
+      "step": 140
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 0.5316786766052246,
+      "learning_rate": 9.054406418375443e-06,
+      "loss": 0.3536,
+      "step": 150
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 0.5229846835136414,
+      "learning_rate": 8.893774252159186e-06,
+      "loss": 0.3335,
+      "step": 160
+    },
+    {
+      "epoch": 1.3599999999999999,
+      "grad_norm": 0.64065021276474,
+      "learning_rate": 8.722216127389362e-06,
+      "loss": 0.3572,
+      "step": 170
+    },
+    {
+      "epoch": 1.44,
+      "grad_norm": 0.4666633903980255,
+      "learning_rate": 8.540213437397833e-06,
+      "loss": 0.35,
+      "step": 180
+    },
+    {
+      "epoch": 1.52,
+      "grad_norm": 0.5635166764259338,
+      "learning_rate": 8.348276883041584e-06,
+      "loss": 0.3455,
+      "step": 190
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 0.42854130268096924,
+      "learning_rate": 8.146945039672446e-06,
+      "loss": 0.3511,
+      "step": 200
+    },
+    {
+      "epoch": 1.6800000000000002,
+      "grad_norm": 0.6392173171043396,
+      "learning_rate": 7.93678284589079e-06,
+      "loss": 0.3635,
+      "step": 210
+    },
+    {
+      "epoch": 1.76,
+      "grad_norm": 0.4988630712032318,
+      "learning_rate": 7.718380018323743e-06,
+      "loss": 0.3545,
+      "step": 220
+    },
+    {
+      "epoch": 1.8399999999999999,
+      "grad_norm": 0.44719088077545166,
+      "learning_rate": 7.492349396876097e-06,
+      "loss": 0.3396,
+      "step": 230
+    },
+    {
+      "epoch": 1.92,
+      "grad_norm": 0.4074830412864685,
+      "learning_rate": 7.2593252250971306e-06,
+      "loss": 0.3659,
+      "step": 240
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 0.4083346724510193,
+      "learning_rate": 7.019961370488645e-06,
+      "loss": 0.345,
+      "step": 250
+    },
+    {
+      "epoch": 2.08,
+      "grad_norm": 0.58194899559021,
+      "learning_rate": 6.774929489748052e-06,
+      "loss": 0.2951,
+      "step": 260
+    },
+    {
+      "epoch": 2.16,
+      "grad_norm": 0.41007938981056213,
+      "learning_rate": 6.524917144094851e-06,
+      "loss": 0.2788,
+      "step": 270
+    },
+    {
+      "epoch": 2.24,
+      "grad_norm": 0.5576044917106628,
+      "learning_rate": 6.270625869968907e-06,
+      "loss": 0.2732,
+      "step": 280
+    },
+    {
+      "epoch": 2.32,
+      "grad_norm": 0.46990445256233215,
+      "learning_rate": 6.012769210514147e-06,
+      "loss": 0.2657,
+      "step": 290
+    },
+    {
+      "epoch": 2.4,
+      "grad_norm": 0.49044930934906006,
+      "learning_rate": 5.752070713371372e-06,
+      "loss": 0.2864,
+      "step": 300
+    },
+    {
+      "epoch": 2.48,
+      "grad_norm": 0.38818588852882385,
+      "learning_rate": 5.4892619003983735e-06,
+      "loss": 0.2804,
+      "step": 310
+    },
+    {
+      "epoch": 2.56,
+      "grad_norm": 0.5136937499046326,
+      "learning_rate": 5.2250802150143395e-06,
+      "loss": 0.274,
+      "step": 320
+    },
+    {
+      "epoch": 2.64,
+      "grad_norm": 0.4540717601776123,
+      "learning_rate": 4.960266952928317e-06,
+      "loss": 0.2921,
+      "step": 330
+    },
+    {
+      "epoch": 2.7199999999999998,
+      "grad_norm": 0.4595988094806671,
+      "learning_rate": 4.695565182058113e-06,
+      "loss": 0.2742,
+      "step": 340
+    },
+    {
+      "epoch": 2.8,
+      "grad_norm": 0.45735347270965576,
+      "learning_rate": 4.431717657476394e-06,
+      "loss": 0.2732,
+      "step": 350
+    },
+    {
+      "epoch": 2.88,
+      "grad_norm": 0.47884508967399597,
+      "learning_rate": 4.169464737234588e-06,
+      "loss": 0.283,
+      "step": 360
+    },
+    {
+      "epoch": 2.96,
+      "grad_norm": 0.39772123098373413,
+      "learning_rate": 3.909542304912881e-06,
+      "loss": 0.2834,
+      "step": 370
+    },
+    {
+      "epoch": 3.04,
+      "grad_norm": 0.45640942454338074,
+      "learning_rate": 3.652679704725596e-06,
+      "loss": 0.2619,
+      "step": 380
+    },
+    {
+      "epoch": 3.12,
+      "grad_norm": 0.43376386165618896,
+      "learning_rate": 3.3995976949760813e-06,
+      "loss": 0.2164,
+      "step": 390
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 0.4014115035533905,
+      "learning_rate": 3.1510064256037277e-06,
+      "loss": 0.2228,
+      "step": 400
+    },
+    {
+      "epoch": 3.2800000000000002,
+      "grad_norm": 0.43393564224243164,
+      "learning_rate": 2.9076034454981333e-06,
+      "loss": 0.215,
+      "step": 410
+    },
+    {
+      "epoch": 3.36,
+      "grad_norm": 0.4281829595565796,
+      "learning_rate": 2.6700717451719066e-06,
+      "loss": 0.2377,
+      "step": 420
+    },
+    {
+      "epoch": 3.44,
+      "grad_norm": 0.3631593883037567,
+      "learning_rate": 2.4390778402843606e-06,
+      "loss": 0.2257,
+      "step": 430
+    },
+    {
+      "epoch": 3.52,
+      "grad_norm": 0.41745710372924805,
+      "learning_rate": 2.215269901393805e-06,
+      "loss": 0.2313,
+      "step": 440
+    },
+    {
+      "epoch": 3.6,
+      "grad_norm": 0.383023738861084,
+      "learning_rate": 1.999275935186277e-06,
+      "loss": 0.234,
+      "step": 450
+    },
+    {
+      "epoch": 3.68,
+      "grad_norm": 0.4755268096923828,
+      "learning_rate": 1.7917020222842662e-06,
+      "loss": 0.2363,
+      "step": 460
+    },
+    {
+      "epoch": 3.76,
+      "grad_norm": 0.40028688311576843,
+      "learning_rate": 1.5931306165801453e-06,
+      "loss": 0.2394,
+      "step": 470
+    },
+    {
+      "epoch": 3.84,
+      "grad_norm": 0.5058606863021851,
+      "learning_rate": 1.4041189108663421e-06,
+      "loss": 0.2113,
+      "step": 480
+    },
+    {
+      "epoch": 3.92,
+      "grad_norm": 0.40886273980140686,
+      "learning_rate": 1.2251972733483615e-06,
+      "loss": 0.2162,
+      "step": 490
+    },
+    {
+      "epoch": 4.0,
+      "grad_norm": 0.5253835320472717,
+      "learning_rate": 1.0568677594277898e-06,
+      "loss": 0.233,
+      "step": 500
+    },
+    {
+      "epoch": 4.08,
+      "grad_norm": 0.35965532064437866,
+      "learning_rate": 8.996027029312315e-07,
+      "loss": 0.205,
+      "step": 510
+    },
+    {
+      "epoch": 4.16,
+      "grad_norm": 0.3577881157398224,
+      "learning_rate": 7.538433907381814e-07,
+      "loss": 0.2032,
+      "step": 520
+    },
+    {
+      "epoch": 4.24,
+      "grad_norm": 0.3823171555995941,
+      "learning_rate": 6.199988245268779e-07,
+      "loss": 0.2011,
+      "step": 530
+    },
+    {
+      "epoch": 4.32,
+      "grad_norm": 0.3407541811466217,
+      "learning_rate": 4.984445731126542e-07,
+      "loss": 0.1961,
+      "step": 540
+    },
+    {
+      "epoch": 4.4,
+      "grad_norm": 0.37284690141677856,
+      "learning_rate": 3.8952171859913123e-07,
+      "loss": 0.192,
+      "step": 550
+    },
+    {
+      "epoch": 4.48,
+      "grad_norm": 0.3782266080379486,
+      "learning_rate": 2.9353589929939086e-07,
+      "loss": 0.1935,
+      "step": 560
+    },
+    {
+      "epoch": 4.5600000000000005,
+      "grad_norm": 0.3706322908401489,
+      "learning_rate": 2.1075645211266926e-07,
+      "loss": 0.1994,
+      "step": 570
+    },
+    {
+      "epoch": 4.64,
+      "grad_norm": 0.36876216530799866,
+      "learning_rate": 1.4141565676307866e-07,
+      "loss": 0.2027,
+      "step": 580
+    },
+    {
+      "epoch": 4.72,
+      "grad_norm": 0.40256306529045105,
+      "learning_rate": 8.570808402103392e-08,
+      "loss": 0.1975,
+      "step": 590
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 0.3809185326099396,
+      "learning_rate": 4.3790049736268106e-08,
+      "loss": 0.1905,
+      "step": 600
+    },
+    {
+      "epoch": 4.88,
+      "grad_norm": 0.3607443869113922,
+      "learning_rate": 1.577917621443825e-08,
+      "loss": 0.2059,
+      "step": 610
+    },
+    {
+      "epoch": 4.96,
+      "grad_norm": 0.40115296840667725,
+      "learning_rate": 1.7540621680850467e-09,
+      "loss": 0.2113,
+      "step": 620
+    },
+    {
+      "epoch": 5.0,
+      "step": 625,
+      "total_flos": 123341386481664.0,
+      "train_loss": 0.2985656312942505,
+      "train_runtime": 10873.4333,
+      "train_samples_per_second": 0.46,
+      "train_steps_per_second": 0.057
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 625,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 100000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 123341386481664.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6ee1f7a2046c6d64a3075ce43d9a441c21d4cec7e76feb90109d1116c4a020c2
+size 7864

training_loss.png ADDED Viewed