antonpolishko commited on Dec 26, 2024

Commit

9276722

verified ·

1 Parent(s): af25d9b

Training in progress, epoch 1, checkpoint

Browse files

Files changed (22) hide show

last-checkpoint/config.json +27 -0
last-checkpoint/generation_config.json +6 -0
last-checkpoint/model-00001-of-00003.safetensors +3 -0
last-checkpoint/model-00002-of-00003.safetensors +3 -0
last-checkpoint/model-00003-of-00003.safetensors +3 -0
last-checkpoint/model.safetensors.index.json +298 -0
last-checkpoint/optimizer.pt +3 -0
last-checkpoint/rng_state_0.pth +3 -0
last-checkpoint/rng_state_1.pth +3 -0
last-checkpoint/rng_state_2.pth +3 -0
last-checkpoint/rng_state_3.pth +3 -0
last-checkpoint/rng_state_4.pth +3 -0
last-checkpoint/rng_state_5.pth +3 -0
last-checkpoint/rng_state_6.pth +3 -0
last-checkpoint/rng_state_7.pth +3 -0
last-checkpoint/scheduler.pt +3 -0
last-checkpoint/special_tokens_map.json +24 -0
last-checkpoint/tokenizer.json +0 -0
last-checkpoint/tokenizer.model +3 -0
last-checkpoint/tokenizer_config.json +0 -0
last-checkpoint/trainer_state.json +720 -0
last-checkpoint/training_args.bin +3 -0

last-checkpoint/config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "_name_or_path": "mistralai/Mistral-7B-v0.3",
+  "architectures": [
+    "MistralForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 14336,
+  "max_position_embeddings": 32768,
+  "model_type": "mistral",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 8,
+  "rms_norm_eps": 1e-05,
+  "rope_theta": 1000000.0,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.46.3",
+  "use_cache": false,
+  "vocab_size": 32768
+}

last-checkpoint/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "transformers_version": "4.46.3"
+}

last-checkpoint/model-00001-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2f1f58242f921ff5cabef15e7b456ddab6ee5c2492aca332696d9923220d554e
+size 4949453792

last-checkpoint/model-00002-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aae85a730f6054c602af36fcff51046f218fc5b35a76b78b3fce17eeaa541d82
+size 4999819336

last-checkpoint/model-00003-of-00003.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aa43ebd02383e8d9c58aac2b25bfe0e394870e4024e4ba4da7f830fa19be0f07
+size 4546807800

last-checkpoint/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,298 @@

+{
+  "metadata": {
+    "total_size": 14496047104
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00003-of-00003.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00002-of-00003.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00003-of-00003.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00001-of-00003.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00001-of-00003.safetensors",
+    "model.norm.weight": "model-00003-of-00003.safetensors"
+  }
+}

last-checkpoint/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:082b179ff93c4a9aff94779ffadea379af9c2834f7256314cddc7667645a41dc
+size 28992348490

last-checkpoint/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:78d3f197f6c6558fa8056324f1563ab9e957255f5a1a959362aa4eed7a9545db
+size 15984

last-checkpoint/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1c1a9c65c2869356282cad6b4a0f7dff7f4dd68ab3d9d216c72b7d6cb524f860
+size 15984

last-checkpoint/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:896febe768e17bae5022a95960c041f6425783774ec8859d99d3b149063b1bf9
+size 15984

last-checkpoint/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eac482d57e966585467c8ef44dae2869bf7e5d92886f69c11ed7bccc34c07efe
+size 15984

last-checkpoint/rng_state_4.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e1f27d227a20dc320ac283e0938fb2f6e5b475829a583f8c44d1a16a8c828307
+size 15984

last-checkpoint/rng_state_5.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d05a7106aaeaec4b81704e3f4a998b5123cf9342a6733bd9fd2d578e99108c3b
+size 15984

last-checkpoint/rng_state_6.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b94120d8d88502ec8d8b623ec7550315caca003b44fcffbb5767ab0de91baefe
+size 15984

last-checkpoint/rng_state_7.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:332e4d901be380f740b5d8578f7b80ef1865c7fba83bc288c8a35852205cc668
+size 15984

last-checkpoint/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:092f3dcf63385897e30ca4d02c4ae9c2eac8f7e2e0b5f3c908bbed7efb16cffd
+size 1064

last-checkpoint/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,24 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": "</s>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

last-checkpoint/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

last-checkpoint/tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:37f00374dea48658ee8f5d0f21895b9bc55cb0103939607c8185bfd1c6ca1f89
+size 587404

last-checkpoint/tokenizer_config.json ADDED Viewed

The diff for this file is too large to render. See raw diff

last-checkpoint/trainer_state.json ADDED Viewed

	@@ -0,0 +1,720 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 300,
+  "global_step": 481,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.002079002079002079,
+      "grad_norm": 21.0,
+      "learning_rate": 1e-06,
+      "loss": 1.4443,
+      "step": 1
+    },
+    {
+      "epoch": 0.010395010395010396,
+      "grad_norm": 7.46875,
+      "learning_rate": 1.9999786113807535e-06,
+      "loss": 1.4249,
+      "step": 5
+    },
+    {
+      "epoch": 0.02079002079002079,
+      "grad_norm": 5.1875,
+      "learning_rate": 1.999847906465395e-06,
+      "loss": 1.3779,
+      "step": 10
+    },
+    {
+      "epoch": 0.031185031185031187,
+      "grad_norm": 4.125,
+      "learning_rate": 1.999598394713099e-06,
+      "loss": 1.3446,
+      "step": 15
+    },
+    {
+      "epoch": 0.04158004158004158,
+      "grad_norm": 3.859375,
+      "learning_rate": 1.9992301057720783e-06,
+      "loss": 1.3445,
+      "step": 20
+    },
+    {
+      "epoch": 0.05197505197505198,
+      "grad_norm": 3.75,
+      "learning_rate": 1.9987430834042318e-06,
+      "loss": 1.3221,
+      "step": 25
+    },
+    {
+      "epoch": 0.062370062370062374,
+      "grad_norm": 3.703125,
+      "learning_rate": 1.9981373854799487e-06,
+      "loss": 1.3312,
+      "step": 30
+    },
+    {
+      "epoch": 0.07276507276507277,
+      "grad_norm": 3.515625,
+      "learning_rate": 1.99741308397123e-06,
+      "loss": 1.3108,
+      "step": 35
+    },
+    {
+      "epoch": 0.08316008316008316,
+      "grad_norm": 3.703125,
+      "learning_rate": 1.9965702649431362e-06,
+      "loss": 1.3148,
+      "step": 40
+    },
+    {
+      "epoch": 0.09355509355509356,
+      "grad_norm": 3.5625,
+      "learning_rate": 1.9956090285435628e-06,
+      "loss": 1.3075,
+      "step": 45
+    },
+    {
+      "epoch": 0.10395010395010396,
+      "grad_norm": 3.703125,
+      "learning_rate": 1.9945294889913377e-06,
+      "loss": 1.3029,
+      "step": 50
+    },
+    {
+      "epoch": 0.11434511434511435,
+      "grad_norm": 3.671875,
+      "learning_rate": 1.9933317745626504e-06,
+      "loss": 1.3022,
+      "step": 55
+    },
+    {
+      "epoch": 0.12474012474012475,
+      "grad_norm": 3.671875,
+      "learning_rate": 1.9920160275758096e-06,
+      "loss": 1.2885,
+      "step": 60
+    },
+    {
+      "epoch": 0.13513513513513514,
+      "grad_norm": 3.515625,
+      "learning_rate": 1.9905824043743316e-06,
+      "loss": 1.2944,
+      "step": 65
+    },
+    {
+      "epoch": 0.14553014553014554,
+      "grad_norm": 3.453125,
+      "learning_rate": 1.9890310753083633e-06,
+      "loss": 1.2993,
+      "step": 70
+    },
+    {
+      "epoch": 0.15592515592515593,
+      "grad_norm": 3.484375,
+      "learning_rate": 1.987362224714441e-06,
+      "loss": 1.2885,
+      "step": 75
+    },
+    {
+      "epoch": 0.16632016632016633,
+      "grad_norm": 3.5,
+      "learning_rate": 1.985576050893585e-06,
+      "loss": 1.2862,
+      "step": 80
+    },
+    {
+      "epoch": 0.17671517671517672,
+      "grad_norm": 3.578125,
+      "learning_rate": 1.983672766087738e-06,
+      "loss": 1.2854,
+      "step": 85
+    },
+    {
+      "epoch": 0.18711018711018712,
+      "grad_norm": 3.546875,
+      "learning_rate": 1.9816525964545446e-06,
+      "loss": 1.2765,
+      "step": 90
+    },
+    {
+      "epoch": 0.19750519750519752,
+      "grad_norm": 3.640625,
+      "learning_rate": 1.979515782040478e-06,
+      "loss": 1.2874,
+      "step": 95
+    },
+    {
+      "epoch": 0.2079002079002079,
+      "grad_norm": 3.546875,
+      "learning_rate": 1.977262576752319e-06,
+      "loss": 1.2808,
+      "step": 100
+    },
+    {
+      "epoch": 0.2182952182952183,
+      "grad_norm": 3.59375,
+      "learning_rate": 1.97489324832698e-06,
+      "loss": 1.2768,
+      "step": 105
+    },
+    {
+      "epoch": 0.2286902286902287,
+      "grad_norm": 3.59375,
+      "learning_rate": 1.972408078299698e-06,
+      "loss": 1.2757,
+      "step": 110
+    },
+    {
+      "epoch": 0.2390852390852391,
+      "grad_norm": 3.53125,
+      "learning_rate": 1.969807361970575e-06,
+      "loss": 1.2897,
+      "step": 115
+    },
+    {
+      "epoch": 0.2494802494802495,
+      "grad_norm": 3.5,
+      "learning_rate": 1.9670914083694948e-06,
+      "loss": 1.2796,
+      "step": 120
+    },
+    {
+      "epoch": 0.2598752598752599,
+      "grad_norm": 3.515625,
+      "learning_rate": 1.9642605402193976e-06,
+      "loss": 1.2684,
+      "step": 125
+    },
+    {
+      "epoch": 0.2702702702702703,
+      "grad_norm": 3.53125,
+      "learning_rate": 1.9613150938979343e-06,
+      "loss": 1.2694,
+      "step": 130
+    },
+    {
+      "epoch": 0.2806652806652807,
+      "grad_norm": 3.546875,
+      "learning_rate": 1.958255419397498e-06,
+      "loss": 1.263,
+      "step": 135
+    },
+    {
+      "epoch": 0.2910602910602911,
+      "grad_norm": 3.578125,
+      "learning_rate": 1.9550818802836337e-06,
+      "loss": 1.271,
+      "step": 140
+    },
+    {
+      "epoch": 0.30145530145530147,
+      "grad_norm": 3.640625,
+      "learning_rate": 1.9517948536518397e-06,
+      "loss": 1.2638,
+      "step": 145
+    },
+    {
+      "epoch": 0.31185031185031187,
+      "grad_norm": 3.59375,
+      "learning_rate": 1.9483947300827577e-06,
+      "loss": 1.2633,
+      "step": 150
+    },
+    {
+      "epoch": 0.32224532224532226,
+      "grad_norm": 3.484375,
+      "learning_rate": 1.944881913595762e-06,
+      "loss": 1.2648,
+      "step": 155
+    },
+    {
+      "epoch": 0.33264033264033266,
+      "grad_norm": 3.46875,
+      "learning_rate": 1.941256821600955e-06,
+      "loss": 1.2588,
+      "step": 160
+    },
+    {
+      "epoch": 0.34303534303534305,
+      "grad_norm": 3.5,
+      "learning_rate": 1.9375198848495637e-06,
+      "loss": 1.258,
+      "step": 165
+    },
+    {
+      "epoch": 0.35343035343035345,
+      "grad_norm": 3.53125,
+      "learning_rate": 1.9336715473827594e-06,
+      "loss": 1.2588,
+      "step": 170
+    },
+    {
+      "epoch": 0.36382536382536385,
+      "grad_norm": 3.515625,
+      "learning_rate": 1.929712266478893e-06,
+      "loss": 1.2538,
+      "step": 175
+    },
+    {
+      "epoch": 0.37422037422037424,
+      "grad_norm": 3.765625,
+      "learning_rate": 1.9256425125991596e-06,
+      "loss": 1.2539,
+      "step": 180
+    },
+    {
+      "epoch": 0.38461538461538464,
+      "grad_norm": 3.546875,
+      "learning_rate": 1.9214627693316952e-06,
+      "loss": 1.2556,
+      "step": 185
+    },
+    {
+      "epoch": 0.39501039501039503,
+      "grad_norm": 3.59375,
+      "learning_rate": 1.9171735333341148e-06,
+      "loss": 1.2524,
+      "step": 190
+    },
+    {
+      "epoch": 0.40540540540540543,
+      "grad_norm": 3.59375,
+      "learning_rate": 1.9127753142744977e-06,
+      "loss": 1.2471,
+      "step": 195
+    },
+    {
+      "epoch": 0.4158004158004158,
+      "grad_norm": 3.515625,
+      "learning_rate": 1.9082686347708253e-06,
+      "loss": 1.246,
+      "step": 200
+    },
+    {
+      "epoch": 0.4261954261954262,
+      "grad_norm": 3.421875,
+      "learning_rate": 1.9036540303288815e-06,
+      "loss": 1.247,
+      "step": 205
+    },
+    {
+      "epoch": 0.4365904365904366,
+      "grad_norm": 3.546875,
+      "learning_rate": 1.898932049278621e-06,
+      "loss": 1.2496,
+      "step": 210
+    },
+    {
+      "epoch": 0.446985446985447,
+      "grad_norm": 3.40625,
+      "learning_rate": 1.8941032527090148e-06,
+      "loss": 1.2492,
+      "step": 215
+    },
+    {
+      "epoch": 0.4573804573804574,
+      "grad_norm": 3.515625,
+      "learning_rate": 1.8891682144013777e-06,
+      "loss": 1.2476,
+      "step": 220
+    },
+    {
+      "epoch": 0.4677754677754678,
+      "grad_norm": 3.40625,
+      "learning_rate": 1.8841275207611895e-06,
+      "loss": 1.2426,
+      "step": 225
+    },
+    {
+      "epoch": 0.4781704781704782,
+      "grad_norm": 3.5,
+      "learning_rate": 1.8789817707484162e-06,
+      "loss": 1.2388,
+      "step": 230
+    },
+    {
+      "epoch": 0.4885654885654886,
+      "grad_norm": 3.5625,
+      "learning_rate": 1.8737315758063364e-06,
+      "loss": 1.2374,
+      "step": 235
+    },
+    {
+      "epoch": 0.498960498960499,
+      "grad_norm": 3.453125,
+      "learning_rate": 1.8683775597888886e-06,
+      "loss": 1.2437,
+      "step": 240
+    },
+    {
+      "epoch": 0.5093555093555093,
+      "grad_norm": 3.5,
+      "learning_rate": 1.8629203588865419e-06,
+      "loss": 1.2335,
+      "step": 245
+    },
+    {
+      "epoch": 0.5197505197505198,
+      "grad_norm": 3.53125,
+      "learning_rate": 1.8573606215506985e-06,
+      "loss": 1.2355,
+      "step": 250
+    },
+    {
+      "epoch": 0.5301455301455301,
+      "grad_norm": 3.4375,
+      "learning_rate": 1.8516990084166443e-06,
+      "loss": 1.2384,
+      "step": 255
+    },
+    {
+      "epoch": 0.5405405405405406,
+      "grad_norm": 3.625,
+      "learning_rate": 1.8459361922250469e-06,
+      "loss": 1.232,
+      "step": 260
+    },
+    {
+      "epoch": 0.5509355509355509,
+      "grad_norm": 3.515625,
+      "learning_rate": 1.8400728577420187e-06,
+      "loss": 1.2356,
+      "step": 265
+    },
+    {
+      "epoch": 0.5613305613305614,
+      "grad_norm": 3.515625,
+      "learning_rate": 1.8341097016777484e-06,
+      "loss": 1.2408,
+      "step": 270
+    },
+    {
+      "epoch": 0.5717255717255717,
+      "grad_norm": 3.46875,
+      "learning_rate": 1.8280474326037155e-06,
+      "loss": 1.2465,
+      "step": 275
+    },
+    {
+      "epoch": 0.5821205821205822,
+      "grad_norm": 3.53125,
+      "learning_rate": 1.8218867708684937e-06,
+      "loss": 1.2331,
+      "step": 280
+    },
+    {
+      "epoch": 0.5925155925155925,
+      "grad_norm": 3.46875,
+      "learning_rate": 1.8156284485121556e-06,
+      "loss": 1.2323,
+      "step": 285
+    },
+    {
+      "epoch": 0.6029106029106029,
+      "grad_norm": 3.4375,
+      "learning_rate": 1.8092732091792884e-06,
+      "loss": 1.2365,
+      "step": 290
+    },
+    {
+      "epoch": 0.6133056133056133,
+      "grad_norm": 3.5625,
+      "learning_rate": 1.8028218080306302e-06,
+      "loss": 1.2394,
+      "step": 295
+    },
+    {
+      "epoch": 0.6237006237006237,
+      "grad_norm": 3.609375,
+      "learning_rate": 1.7962750116533387e-06,
+      "loss": 1.2263,
+      "step": 300
+    },
+    {
+      "epoch": 0.6237006237006237,
+      "eval_loss": 1.2331745624542236,
+      "eval_runtime": 10.8501,
+      "eval_samples_per_second": 85.713,
+      "eval_steps_per_second": 2.765,
+      "step": 300
+    },
+    {
+      "epoch": 0.6340956340956341,
+      "grad_norm": 3.5625,
+      "learning_rate": 1.7896335979699001e-06,
+      "loss": 1.2311,
+      "step": 305
+    },
+    {
+      "epoch": 0.6444906444906445,
+      "grad_norm": 3.46875,
+      "learning_rate": 1.782898356145694e-06,
+      "loss": 1.2236,
+      "step": 310
+    },
+    {
+      "epoch": 0.6548856548856549,
+      "grad_norm": 4.25,
+      "learning_rate": 1.7760700864952205e-06,
+      "loss": 1.2376,
+      "step": 315
+    },
+    {
+      "epoch": 0.6652806652806653,
+      "grad_norm": 3.484375,
+      "learning_rate": 1.7691496003870018e-06,
+      "loss": 1.2239,
+      "step": 320
+    },
+    {
+      "epoch": 0.6756756756756757,
+      "grad_norm": 3.578125,
+      "learning_rate": 1.7621377201471735e-06,
+      "loss": 1.2311,
+      "step": 325
+    },
+    {
+      "epoch": 0.6860706860706861,
+      "grad_norm": 3.796875,
+      "learning_rate": 1.75503527896177e-06,
+      "loss": 1.226,
+      "step": 330
+    },
+    {
+      "epoch": 0.6964656964656964,
+      "grad_norm": 3.46875,
+      "learning_rate": 1.7478431207777215e-06,
+      "loss": 1.228,
+      "step": 335
+    },
+    {
+      "epoch": 0.7068607068607069,
+      "grad_norm": 3.484375,
+      "learning_rate": 1.7405621002025735e-06,
+      "loss": 1.2216,
+      "step": 340
+    },
+    {
+      "epoch": 0.7172557172557172,
+      "grad_norm": 3.46875,
+      "learning_rate": 1.733193082402936e-06,
+      "loss": 1.2223,
+      "step": 345
+    },
+    {
+      "epoch": 0.7276507276507277,
+      "grad_norm": 3.53125,
+      "learning_rate": 1.7257369430016817e-06,
+      "loss": 1.2158,
+      "step": 350
+    },
+    {
+      "epoch": 0.738045738045738,
+      "grad_norm": 3.4375,
+      "learning_rate": 1.7181945679739003e-06,
+      "loss": 1.2206,
+      "step": 355
+    },
+    {
+      "epoch": 0.7484407484407485,
+      "grad_norm": 3.59375,
+      "learning_rate": 1.7105668535416205e-06,
+      "loss": 1.2292,
+      "step": 360
+    },
+    {
+      "epoch": 0.7588357588357588,
+      "grad_norm": 3.578125,
+      "learning_rate": 1.7028547060673197e-06,
+      "loss": 1.2272,
+      "step": 365
+    },
+    {
+      "epoch": 0.7692307692307693,
+      "grad_norm": 3.609375,
+      "learning_rate": 1.6950590419462229e-06,
+      "loss": 1.2264,
+      "step": 370
+    },
+    {
+      "epoch": 0.7796257796257796,
+      "grad_norm": 3.578125,
+      "learning_rate": 1.687180787497413e-06,
+      "loss": 1.2155,
+      "step": 375
+    },
+    {
+      "epoch": 0.7900207900207901,
+      "grad_norm": 3.421875,
+      "learning_rate": 1.6792208788537617e-06,
+      "loss": 1.2154,
+      "step": 380
+    },
+    {
+      "epoch": 0.8004158004158004,
+      "grad_norm": 3.625,
+      "learning_rate": 1.6711802618506926e-06,
+      "loss": 1.2134,
+      "step": 385
+    },
+    {
+      "epoch": 0.8108108108108109,
+      "grad_norm": 3.546875,
+      "learning_rate": 1.663059891913793e-06,
+      "loss": 1.2211,
+      "step": 390
+    },
+    {
+      "epoch": 0.8212058212058212,
+      "grad_norm": 3.734375,
+      "learning_rate": 1.6548607339452852e-06,
+      "loss": 1.2222,
+      "step": 395
+    },
+    {
+      "epoch": 0.8316008316008316,
+      "grad_norm": 3.515625,
+      "learning_rate": 1.6465837622093722e-06,
+      "loss": 1.2188,
+      "step": 400
+    },
+    {
+      "epoch": 0.841995841995842,
+      "grad_norm": 3.515625,
+      "learning_rate": 1.6382299602164706e-06,
+      "loss": 1.2189,
+      "step": 405
+    },
+    {
+      "epoch": 0.8523908523908524,
+      "grad_norm": 3.5625,
+      "learning_rate": 1.6298003206063466e-06,
+      "loss": 1.2145,
+      "step": 410
+    },
+    {
+      "epoch": 0.8627858627858628,
+      "grad_norm": 3.53125,
+      "learning_rate": 1.6212958450301625e-06,
+      "loss": 1.2168,
+      "step": 415
+    },
+    {
+      "epoch": 0.8731808731808732,
+      "grad_norm": 3.515625,
+      "learning_rate": 1.6127175440314594e-06,
+      "loss": 1.2083,
+      "step": 420
+    },
+    {
+      "epoch": 0.8835758835758836,
+      "grad_norm": 3.484375,
+      "learning_rate": 1.6040664369260758e-06,
+      "loss": 1.2183,
+      "step": 425
+    },
+    {
+      "epoch": 0.893970893970894,
+      "grad_norm": 3.671875,
+      "learning_rate": 1.5953435516810303e-06,
+      "loss": 1.2134,
+      "step": 430
+    },
+    {
+      "epoch": 0.9043659043659044,
+      "grad_norm": 3.515625,
+      "learning_rate": 1.586549924792372e-06,
+      "loss": 1.2145,
+      "step": 435
+    },
+    {
+      "epoch": 0.9147609147609148,
+      "grad_norm": 3.53125,
+      "learning_rate": 1.5776866011620198e-06,
+      "loss": 1.2148,
+      "step": 440
+    },
+    {
+      "epoch": 0.9251559251559252,
+      "grad_norm": 3.6875,
+      "learning_rate": 1.5687546339736013e-06,
+      "loss": 1.212,
+      "step": 445
+    },
+    {
+      "epoch": 0.9355509355509356,
+      "grad_norm": 3.578125,
+      "learning_rate": 1.559755084567309e-06,
+      "loss": 1.2183,
+      "step": 450
+    },
+    {
+      "epoch": 0.9459459459459459,
+      "grad_norm": 3.640625,
+      "learning_rate": 1.5506890223137857e-06,
+      "loss": 1.2123,
+      "step": 455
+    },
+    {
+      "epoch": 0.9563409563409564,
+      "grad_norm": 3.5625,
+      "learning_rate": 1.5415575244870578e-06,
+      "loss": 1.214,
+      "step": 460
+    },
+    {
+      "epoch": 0.9667359667359667,
+      "grad_norm": 3.59375,
+      "learning_rate": 1.5323616761365278e-06,
+      "loss": 1.2081,
+      "step": 465
+    },
+    {
+      "epoch": 0.9771309771309772,
+      "grad_norm": 3.515625,
+      "learning_rate": 1.5231025699580427e-06,
+      "loss": 1.1995,
+      "step": 470
+    },
+    {
+      "epoch": 0.9875259875259875,
+      "grad_norm": 3.484375,
+      "learning_rate": 1.513781306164056e-06,
+      "loss": 1.2226,
+      "step": 475
+    },
+    {
+      "epoch": 0.997920997920998,
+      "grad_norm": 3.5,
+      "learning_rate": 1.5043989923528937e-06,
+      "loss": 1.2183,
+      "step": 480
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 1443,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 300,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2.690966406601638e+18,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

last-checkpoint/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:55ce226ce58d8b531347b267b1a68fd10d91826839a6e5ea8e79f4d2207d29e6
+size 5880