End of training

Browse files

Files changed (16) hide show

README.md +2 -2
epoch6/config.json +40 -0
epoch6/generation_config.json +6 -0
epoch6/merges.txt +0 -0
epoch6/model-00001-of-00002.safetensors +3 -0
epoch6/model-00002-of-00002.safetensors +3 -0
epoch6/model.safetensors.index.json +587 -0
epoch6/special_tokens_map.json +6 -0
epoch6/tokenizer.json +0 -0
epoch6/tokenizer_config.json +22 -0
epoch6/training_args.bin +3 -0
epoch6/vocab.json +0 -0
model-00001-of-00002.safetensors +1 -1
model-00002-of-00002.safetensors +1 -1
wandb/run-20250402_145246-e1n3xkh6/files/output.log +102 -1
wandb/run-20250402_145246-e1n3xkh6/run-e1n3xkh6.wandb +2 -2

README.md CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 base_model: openai-community/gpt2-xl
 library_name: transformers
-model_name: 'gpt2-xl-gsm8k-epoch5-acc0-1. Always '
 tags:
 - generated_from_trainer
 - trl
@@ -9,7 +9,7 @@ tags:
 licence: license
 ---
-# Model Card for gpt2-xl-gsm8k-epoch5-acc0-1. Always
 This model is a fine-tuned version of [openai-community/gpt2-xl](https://huggingface.co/openai-community/gpt2-xl).
 It has been trained using [TRL](https://github.com/huggingface/trl).

 ---
 base_model: openai-community/gpt2-xl
 library_name: transformers
+model_name: 'gpt2-xl-gsm8k-epoch6-acc0-1. Always '
 tags:
 - generated_from_trainer
 - trl
 licence: license
 ---
+# Model Card for gpt2-xl-gsm8k-epoch6-acc0-1. Always
 This model is a fine-tuned version of [openai-community/gpt2-xl](https://huggingface.co/openai-community/gpt2-xl).
 It has been trained using [TRL](https://github.com/huggingface/trl).

epoch6/config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "_name_or_path": "openai-community/gpt2-xl",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 1600,
+  "n_head": 25,
+  "n_inner": null,
+  "n_layer": 48,
+  "n_positions": 1024,
+  "output_past": true,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.49.0",
+  "use_cache": true,
+  "vocab_size": 50257
+}

epoch6/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.49.0"
+}

epoch6/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

epoch6/model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:605b76884d2cfefba809452bd2fd82d636ea92f32dd088283d8d98310914040a
+size 4959881464

epoch6/model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eb78572d997fffd032abcb5b2395190b1879797adf5a8258fa7fe963e4f8fa52
+size 1270624096

epoch6/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,587 @@

+{
+  "metadata": {
+    "total_size": 6230444800
+  },
+  "weight_map": {
+    "transformer.h.0.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.30.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.30.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.30.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.30.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.30.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.30.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.30.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.30.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.30.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.30.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.30.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.30.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.31.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.31.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.31.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.31.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.31.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.31.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.31.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.31.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.31.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.31.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.31.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.31.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.32.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.32.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.32.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.32.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.32.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.32.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.32.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.32.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.32.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.32.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.32.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.32.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.33.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.33.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.33.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.33.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.33.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.33.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.33.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.33.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.33.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.33.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.33.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.33.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.34.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.34.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.34.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.34.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.34.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.34.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.34.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.34.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.34.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.34.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.34.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.34.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.35.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.35.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.35.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.35.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.35.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.35.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.35.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.35.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.35.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.35.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.35.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.35.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.36.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.36.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.36.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.36.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.36.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.36.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.36.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.36.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.36.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.36.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.36.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.36.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.37.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.37.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.37.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.37.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.37.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.37.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.37.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.37.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.37.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.37.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.37.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.37.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.38.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.38.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.38.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.38.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.38.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.38.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.38.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.38.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.38.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.38.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.38.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.38.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.39.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.39.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.39.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.39.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.39.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.39.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.39.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.39.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.39.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.39.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.39.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.39.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.4.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.40.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.40.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.40.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.40.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.40.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.40.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.40.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.40.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.40.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.40.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.40.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.40.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.41.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.41.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.41.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.41.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.41.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.41.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.41.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.41.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.41.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.41.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.41.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.41.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.42.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.42.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.42.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.42.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.42.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.42.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.42.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.42.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.42.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.42.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.42.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.42.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.43.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.43.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.43.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.43.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.43.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.43.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.43.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.43.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.43.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.43.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.43.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.43.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.44.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.44.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.44.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.44.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.44.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.44.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.44.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.44.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.44.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.44.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.44.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.44.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.45.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.45.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.45.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.45.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.45.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.45.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.45.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.45.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.45.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.45.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.45.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.45.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.46.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.46.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.46.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.46.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.46.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.46.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.46.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.46.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.46.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.46.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.46.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.46.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.47.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.47.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.47.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.47.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.47.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.47.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.47.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.47.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.47.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.47.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.47.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.47.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.5.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.ln_f.bias": "model-00002-of-00002.safetensors",
+    "transformer.ln_f.weight": "model-00002-of-00002.safetensors",
+    "transformer.wpe.weight": "model-00001-of-00002.safetensors",
+    "transformer.wte.weight": "model-00001-of-00002.safetensors"
+  }
+}

epoch6/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "pad_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

epoch6/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

epoch6/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "extra_special_tokens": {},
+  "model_max_length": 1024,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "left",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

epoch6/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f14f3c6d299bfb369a2106aab54c59a032e03c366e1d1fecdcf02f954b66a25b
+size 5624

epoch6/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:60639cd96a2f1dcff024ce6dd400ad994e36c740ac7a907b91ebc7879bd87e64
 size 4959881464

 version https://git-lfs.github.com/spec/v1
+oid sha256:605b76884d2cfefba809452bd2fd82d636ea92f32dd088283d8d98310914040a
 size 4959881464

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fba63f1f31de477c7bda8328c29edd9f0e7140e7e81adf8f6432e9a6eb8c04ea
 size 1270624096

 version https://git-lfs.github.com/spec/v1
+oid sha256:eb78572d997fffd032abcb5b2395190b1879797adf5a8258fa7fe963e4f8fa52
 size 1270624096

wandb/run-20250402_145246-e1n3xkh6/files/output.log CHANGED Viewed

@@ -518,8 +518,109 @@ Upload 5 LFS files:  20%|██        | 1/5 [03:02<12:11, 182.85s/it]
 {'eval_loss': 0.9386810660362244, 'eval_runtime': 97.3878, 'eval_samples_per_second': 13.544, 'eval_steps_per_second': 0.852, 'eval_mean_token_accuracy': 0.8124508329413154, 'epoch': 5.0}
 model-00001-of-00002.safetensors: 100%|██████████| 4.96G/4.96G [03:10<00:00, 26.0MB/s]
 Upload 5 LFS files: 100%|██████████| 5/5 [03:10<00:00, 38.15s/it]3:09<00:00, 36.3MB/s]
-run-e1n3xkh6.wandb:  80%|███████▉  | 2.77M/3.47M [00:00<00:00, 18.8MB/s]
 Upload 5 LFS files:  20%|██        | 1/5 [02:18<09:14, 138.52s/it]
 Upload 5 LFS files:  60%|██████    | 3/5 [03:10<01:50, 55.26s/it]

 {'eval_loss': 0.9386810660362244, 'eval_runtime': 97.3878, 'eval_samples_per_second': 13.544, 'eval_steps_per_second': 0.852, 'eval_mean_token_accuracy': 0.8124508329413154, 'epoch': 5.0}
 model-00001-of-00002.safetensors: 100%|██████████| 4.96G/4.96G [03:10<00:00, 26.0MB/s]
 Upload 5 LFS files: 100%|██████████| 5/5 [03:10<00:00, 38.15s/it]3:09<00:00, 36.3MB/s]
+                                                          :00, 18.8MB/s]
 Upload 5 LFS files:  20%|██        | 1/5 [02:18<09:14, 138.52s/it]
 Upload 5 LFS files:  60%|██████    | 3/5 [03:10<01:50, 55.26s/it]
+{'loss': 0.142, 'grad_norm': 1.7143961191177368, 'learning_rate': 9.989304812834224e-06, 'mean_token_accuracy': 0.9637720465660096, 'epoch': 5.01}
+{'loss': 0.1111, 'grad_norm': 1.1338399648666382, 'learning_rate': 9.967914438502675e-06, 'mean_token_accuracy': 0.9670958459377289, 'epoch': 5.02}
+{'loss': 0.1088, 'grad_norm': 1.3883110284805298, 'learning_rate': 9.946524064171124e-06, 'mean_token_accuracy': 0.9670084297657013, 'epoch': 5.03}
+{'loss': 0.104, 'grad_norm': 1.4768067598342896, 'learning_rate': 9.925133689839573e-06, 'mean_token_accuracy': 0.9703005313873291, 'epoch': 5.04}
+{'loss': 0.1158, 'grad_norm': 1.3867814540863037, 'learning_rate': 9.903743315508022e-06, 'mean_token_accuracy': 0.9667698621749878, 'epoch': 5.05}
+{'loss': 0.0988, 'grad_norm': 1.195992112159729, 'learning_rate': 9.882352941176472e-06, 'mean_token_accuracy': 0.9717129528522491, 'epoch': 5.06}
+{'loss': 0.1151, 'grad_norm': 1.3909448385238647, 'learning_rate': 9.86096256684492e-06, 'mean_token_accuracy': 0.965294075012207, 'epoch': 5.07}
+{'loss': 0.1302, 'grad_norm': 1.6335963010787964, 'learning_rate': 9.83957219251337e-06, 'mean_token_accuracy': 0.9606671869754791, 'epoch': 5.08}
+{'loss': 0.1176, 'grad_norm': 1.7385799884796143, 'learning_rate': 9.81818181818182e-06, 'mean_token_accuracy': 0.9652059555053711, 'epoch': 5.09}
+{'loss': 0.1022, 'grad_norm': 1.3718215227127075, 'learning_rate': 9.796791443850268e-06, 'mean_token_accuracy': 0.9714371800422669, 'epoch': 5.1}
+{'loss': 0.108, 'grad_norm': 1.517020344734192, 'learning_rate': 9.775401069518717e-06, 'mean_token_accuracy': 0.9702976047992706, 'epoch': 5.11}
+{'loss': 0.1143, 'grad_norm': 1.7860647439956665, 'learning_rate': 9.754010695187166e-06, 'mean_token_accuracy': 0.9664456665515899, 'epoch': 5.12}
+{'loss': 0.0969, 'grad_norm': 1.3562085628509521, 'learning_rate': 9.732620320855617e-06, 'mean_token_accuracy': 0.9713488340377807, 'epoch': 5.13}
+{'loss': 0.0996, 'grad_norm': 1.3151887655258179, 'learning_rate': 9.711229946524064e-06, 'mean_token_accuracy': 0.9699479818344117, 'epoch': 5.14}
+{'loss': 0.1196, 'grad_norm': 1.6077296733856201, 'learning_rate': 9.689839572192514e-06, 'mean_token_accuracy': 0.9660877883434296, 'epoch': 5.16}
+{'loss': 0.1228, 'grad_norm': 1.5786957740783691, 'learning_rate': 9.668449197860963e-06, 'mean_token_accuracy': 0.9636931180953979, 'epoch': 5.17}
+{'loss': 0.1243, 'grad_norm': 1.6346261501312256, 'learning_rate': 9.647058823529412e-06, 'mean_token_accuracy': 0.9626589059829712, 'epoch': 5.18}
+{'loss': 0.1237, 'grad_norm': 1.5907776355743408, 'learning_rate': 9.625668449197861e-06, 'mean_token_accuracy': 0.9653900742530823, 'epoch': 5.19}
+{'loss': 0.1179, 'grad_norm': 2.1377482414245605, 'learning_rate': 9.604278074866312e-06, 'mean_token_accuracy': 0.966202849149704, 'epoch': 5.2}
+{'loss': 0.1082, 'grad_norm': 1.318717360496521, 'learning_rate': 9.582887700534759e-06, 'mean_token_accuracy': 0.9695710062980651, 'epoch': 5.21}
+{'loss': 0.1127, 'grad_norm': 1.7776294946670532, 'learning_rate': 9.56149732620321e-06, 'mean_token_accuracy': 0.9653003454208374, 'epoch': 5.22}
+{'loss': 0.1125, 'grad_norm': 1.5894486904144287, 'learning_rate': 9.540106951871659e-06, 'mean_token_accuracy': 0.9682368338108063, 'epoch': 5.23}
+{'loss': 0.1133, 'grad_norm': 1.787735939025879, 'learning_rate': 9.518716577540108e-06, 'mean_token_accuracy': 0.966470468044281, 'epoch': 5.24}
+{'loss': 0.1149, 'grad_norm': 2.4509339332580566, 'learning_rate': 9.497326203208556e-06, 'mean_token_accuracy': 0.9639286160469055, 'epoch': 5.25}
+{'loss': 0.1122, 'grad_norm': 1.5855201482772827, 'learning_rate': 9.475935828877007e-06, 'mean_token_accuracy': 0.964640086889267, 'epoch': 5.26}
+{'loss': 0.1069, 'grad_norm': 1.2197692394256592, 'learning_rate': 9.454545454545456e-06, 'mean_token_accuracy': 0.9671105802059173, 'epoch': 5.27}
+{'loss': 0.1164, 'grad_norm': 1.4517011642456055, 'learning_rate': 9.433155080213905e-06, 'mean_token_accuracy': 0.9671230256557465, 'epoch': 5.28}
+{'loss': 0.1096, 'grad_norm': 1.579365611076355, 'learning_rate': 9.411764705882354e-06, 'mean_token_accuracy': 0.9673594951629638, 'epoch': 5.29}
+{'loss': 0.1217, 'grad_norm': 1.599629521369934, 'learning_rate': 9.390374331550803e-06, 'mean_token_accuracy': 0.9632230401039124, 'epoch': 5.3}
+{'loss': 0.1116, 'grad_norm': 1.3151148557662964, 'learning_rate': 9.368983957219252e-06, 'mean_token_accuracy': 0.9671698987483979, 'epoch': 5.32}
+{'loss': 0.1189, 'grad_norm': 1.8582446575164795, 'learning_rate': 9.347593582887702e-06, 'mean_token_accuracy': 0.9649052739143371, 'epoch': 5.33}
+{'loss': 0.1185, 'grad_norm': 1.7656433582305908, 'learning_rate': 9.326203208556151e-06, 'mean_token_accuracy': 0.9635034203529358, 'epoch': 5.34}
+{'loss': 0.1121, 'grad_norm': 1.8299992084503174, 'learning_rate': 9.3048128342246e-06, 'mean_token_accuracy': 0.966378653049469, 'epoch': 5.35}
+{'loss': 0.1322, 'grad_norm': 1.597183346748352, 'learning_rate': 9.283422459893049e-06, 'mean_token_accuracy': 0.9593641042709351, 'epoch': 5.36}
+{'loss': 0.1293, 'grad_norm': 2.0534796714782715, 'learning_rate': 9.262032085561498e-06, 'mean_token_accuracy': 0.960535603761673, 'epoch': 5.37}
+{'loss': 0.1031, 'grad_norm': 1.8359991312026978, 'learning_rate': 9.240641711229947e-06, 'mean_token_accuracy': 0.9695676684379577, 'epoch': 5.38}
+{'loss': 0.1189, 'grad_norm': 1.5410360097885132, 'learning_rate': 9.219251336898396e-06, 'mean_token_accuracy': 0.9626918017864228, 'epoch': 5.39}
+{'loss': 0.1068, 'grad_norm': 1.3472685813903809, 'learning_rate': 9.197860962566846e-06, 'mean_token_accuracy': 0.9690418660640716, 'epoch': 5.4}
+{'loss': 0.1146, 'grad_norm': 2.053736448287964, 'learning_rate': 9.176470588235294e-06, 'mean_token_accuracy': 0.9672648429870605, 'epoch': 5.41}
+{'loss': 0.1195, 'grad_norm': 1.3824849128723145, 'learning_rate': 9.155080213903744e-06, 'mean_token_accuracy': 0.9630138337612152, 'epoch': 5.42}
+{'loss': 0.1137, 'grad_norm': 1.5261616706848145, 'learning_rate': 9.133689839572193e-06, 'mean_token_accuracy': 0.9672022581100463, 'epoch': 5.43}
+{'loss': 0.1071, 'grad_norm': 1.8576884269714355, 'learning_rate': 9.112299465240642e-06, 'mean_token_accuracy': 0.9684973061084747, 'epoch': 5.44}
+{'loss': 0.1138, 'grad_norm': 1.3527902364730835, 'learning_rate': 9.090909090909091e-06, 'mean_token_accuracy': 0.9652564823627472, 'epoch': 5.45}
+{'loss': 0.1032, 'grad_norm': 1.485865592956543, 'learning_rate': 9.069518716577542e-06, 'mean_token_accuracy': 0.9698780059814454, 'epoch': 5.47}
+{'loss': 0.1244, 'grad_norm': 1.7901877164840698, 'learning_rate': 9.04812834224599e-06, 'mean_token_accuracy': 0.9634746074676513, 'epoch': 5.48}
+{'loss': 0.1061, 'grad_norm': 1.3870915174484253, 'learning_rate': 9.02673796791444e-06, 'mean_token_accuracy': 0.9677092015743256, 'epoch': 5.49}
+{'loss': 0.1068, 'grad_norm': 1.5654208660125732, 'learning_rate': 9.005347593582888e-06, 'mean_token_accuracy': 0.9674008429050446, 'epoch': 5.5}
+{'loss': 0.0988, 'grad_norm': 1.551979660987854, 'learning_rate': 8.983957219251337e-06, 'mean_token_accuracy': 0.970896452665329, 'epoch': 5.51}
+{'loss': 0.1002, 'grad_norm': 1.3940926790237427, 'learning_rate': 8.962566844919786e-06, 'mean_token_accuracy': 0.9689679324626923, 'epoch': 5.52}
+{'loss': 0.1093, 'grad_norm': 1.508264183998108, 'learning_rate': 8.941176470588237e-06, 'mean_token_accuracy': 0.9673652052879333, 'epoch': 5.53}
+{'loss': 0.1175, 'grad_norm': 1.6198228597640991, 'learning_rate': 8.919786096256686e-06, 'mean_token_accuracy': 0.9643183052539825, 'epoch': 5.54}
+{'loss': 0.1224, 'grad_norm': 1.5523312091827393, 'learning_rate': 8.898395721925135e-06, 'mean_token_accuracy': 0.9644651234149932, 'epoch': 5.55}
+{'loss': 0.1183, 'grad_norm': 1.7438137531280518, 'learning_rate': 8.877005347593584e-06, 'mean_token_accuracy': 0.9640616953372956, 'epoch': 5.56}
+{'loss': 0.1165, 'grad_norm': 1.3803809881210327, 'learning_rate': 8.855614973262033e-06, 'mean_token_accuracy': 0.9660517275333405, 'epoch': 5.57}
+{'loss': 0.0982, 'grad_norm': 1.3390971422195435, 'learning_rate': 8.834224598930481e-06, 'mean_token_accuracy': 0.9716921329498291, 'epoch': 5.58}
+{'loss': 0.1188, 'grad_norm': 1.6742088794708252, 'learning_rate': 8.81283422459893e-06, 'mean_token_accuracy': 0.9632697165012359, 'epoch': 5.59}
+{'loss': 0.1214, 'grad_norm': 1.6245254278182983, 'learning_rate': 8.791443850267381e-06, 'mean_token_accuracy': 0.9626342594623566, 'epoch': 5.6}
+{'loss': 0.1253, 'grad_norm': 2.1935980319976807, 'learning_rate': 8.77005347593583e-06, 'mean_token_accuracy': 0.9610446274280549, 'epoch': 5.61}
+{'loss': 0.1247, 'grad_norm': 1.9988378286361694, 'learning_rate': 8.748663101604279e-06, 'mean_token_accuracy': 0.963695740699768, 'epoch': 5.63}
+{'loss': 0.1152, 'grad_norm': 1.600712537765503, 'learning_rate': 8.727272727272728e-06, 'mean_token_accuracy': 0.9642626821994782, 'epoch': 5.64}
+{'loss': 0.1185, 'grad_norm': 1.365601658821106, 'learning_rate': 8.705882352941177e-06, 'mean_token_accuracy': 0.9649080812931061, 'epoch': 5.65}
+{'loss': 0.1086, 'grad_norm': 1.390364170074463, 'learning_rate': 8.684491978609626e-06, 'mean_token_accuracy': 0.9660624980926513, 'epoch': 5.66}
+{'loss': 0.0984, 'grad_norm': 1.2820074558258057, 'learning_rate': 8.663101604278076e-06, 'mean_token_accuracy': 0.9720731496810913, 'epoch': 5.67}
+{'loss': 0.1067, 'grad_norm': 1.361305832862854, 'learning_rate': 8.641711229946525e-06, 'mean_token_accuracy': 0.969426691532135, 'epoch': 5.68}
+{'loss': 0.1146, 'grad_norm': 1.3319251537322998, 'learning_rate': 8.620320855614974e-06, 'mean_token_accuracy': 0.965968781709671, 'epoch': 5.69}
+{'loss': 0.1151, 'grad_norm': 1.8117907047271729, 'learning_rate': 8.598930481283423e-06, 'mean_token_accuracy': 0.9654140710830689, 'epoch': 5.7}
+{'loss': 0.1065, 'grad_norm': 1.2404216527938843, 'learning_rate': 8.577540106951872e-06, 'mean_token_accuracy': 0.9688502073287963, 'epoch': 5.71}
+{'loss': 0.1144, 'grad_norm': 1.5207996368408203, 'learning_rate': 8.556149732620321e-06, 'mean_token_accuracy': 0.9659917831420899, 'epoch': 5.72}
+{'loss': 0.1077, 'grad_norm': 1.7119412422180176, 'learning_rate': 8.534759358288771e-06, 'mean_token_accuracy': 0.9670413792133331, 'epoch': 5.73}
+{'loss': 0.1081, 'grad_norm': 1.341873049736023, 'learning_rate': 8.51336898395722e-06, 'mean_token_accuracy': 0.9674514710903168, 'epoch': 5.74}
+{'loss': 0.1095, 'grad_norm': 1.443453311920166, 'learning_rate': 8.49197860962567e-06, 'mean_token_accuracy': 0.9671321630477905, 'epoch': 5.75}
+{'loss': 0.1188, 'grad_norm': 1.45492684841156, 'learning_rate': 8.470588235294118e-06, 'mean_token_accuracy': 0.9658285021781922, 'epoch': 5.76}
+{'loss': 0.1174, 'grad_norm': 1.337538242340088, 'learning_rate': 8.449197860962567e-06, 'mean_token_accuracy': 0.9636233150959015, 'epoch': 5.78}
+{'loss': 0.1162, 'grad_norm': 2.071166515350342, 'learning_rate': 8.427807486631016e-06, 'mean_token_accuracy': 0.9656652867794037, 'epoch': 5.79}
+{'loss': 0.1115, 'grad_norm': 1.4321022033691406, 'learning_rate': 8.406417112299467e-06, 'mean_token_accuracy': 0.9684782683849334, 'epoch': 5.8}
+{'loss': 0.1179, 'grad_norm': 1.829694390296936, 'learning_rate': 8.385026737967916e-06, 'mean_token_accuracy': 0.96412895321846, 'epoch': 5.81}
+{'loss': 0.1248, 'grad_norm': 1.2091803550720215, 'learning_rate': 8.363636363636365e-06, 'mean_token_accuracy': 0.9652167916297912, 'epoch': 5.82}
+{'loss': 0.0968, 'grad_norm': 1.8104135990142822, 'learning_rate': 8.342245989304813e-06, 'mean_token_accuracy': 0.970583462715149, 'epoch': 5.83}
+{'loss': 0.1162, 'grad_norm': 1.8036401271820068, 'learning_rate': 8.320855614973262e-06, 'mean_token_accuracy': 0.963424128293991, 'epoch': 5.84}
+{'loss': 0.1038, 'grad_norm': 1.8700991868972778, 'learning_rate': 8.299465240641711e-06, 'mean_token_accuracy': 0.9684279143810273, 'epoch': 5.85}
+{'loss': 0.1259, 'grad_norm': 1.369024634361267, 'learning_rate': 8.27807486631016e-06, 'mean_token_accuracy': 0.9599218428134918, 'epoch': 5.86}
+{'loss': 0.1092, 'grad_norm': 1.594466209411621, 'learning_rate': 8.256684491978611e-06, 'mean_token_accuracy': 0.9643966674804687, 'epoch': 5.87}
+{'loss': 0.096, 'grad_norm': 1.1891400814056396, 'learning_rate': 8.23529411764706e-06, 'mean_token_accuracy': 0.9750858902931213, 'epoch': 5.88}
+{'loss': 0.1151, 'grad_norm': 1.4280284643173218, 'learning_rate': 8.213903743315509e-06, 'mean_token_accuracy': 0.9648847222328186, 'epoch': 5.89}
+{'loss': 0.1237, 'grad_norm': 1.7522109746932983, 'learning_rate': 8.192513368983958e-06, 'mean_token_accuracy': 0.9621583819389343, 'epoch': 5.9}
+{'loss': 0.1036, 'grad_norm': 1.8365544080734253, 'learning_rate': 8.171122994652407e-06, 'mean_token_accuracy': 0.9688998579978942, 'epoch': 5.91}
+{'loss': 0.1172, 'grad_norm': 1.4162731170654297, 'learning_rate': 8.149732620320855e-06, 'mean_token_accuracy': 0.9653462529182434, 'epoch': 5.93}
+{'loss': 0.0987, 'grad_norm': 1.1870139837265015, 'learning_rate': 8.128342245989306e-06, 'mean_token_accuracy': 0.9710781693458557, 'epoch': 5.94}
+{'loss': 0.1212, 'grad_norm': 1.749632716178894, 'learning_rate': 8.106951871657755e-06, 'mean_token_accuracy': 0.9612009167671204, 'epoch': 5.95}
+{'loss': 0.1194, 'grad_norm': 1.480117678642273, 'learning_rate': 8.085561497326204e-06, 'mean_token_accuracy': 0.9641331613063813, 'epoch': 5.96}
+{'loss': 0.126, 'grad_norm': 1.6867026090621948, 'learning_rate': 8.064171122994653e-06, 'mean_token_accuracy': 0.9639627039432526, 'epoch': 5.97}
+{'loss': 0.1132, 'grad_norm': 1.6025155782699585, 'learning_rate': 8.042780748663103e-06, 'mean_token_accuracy': 0.9668489575386048, 'epoch': 5.98}
+{'loss': 0.1113, 'grad_norm': 1.7817702293395996, 'learning_rate': 8.02139037433155e-06, 'mean_token_accuracy': 0.9678194284439087, 'epoch': 5.99}
+{'loss': 0.1045, 'grad_norm': 3.081059217453003, 'learning_rate': 8.000000000000001e-06, 'mean_token_accuracy': 0.9669223129749298, 'epoch': 6.0}
+{'eval_loss': 1.0028502941131592, 'eval_runtime': 97.3663, 'eval_samples_per_second': 13.547, 'eval_steps_per_second': 0.852, 'eval_mean_token_accuracy': 0.8052722014576555, 'epoch': 6.0}
+Upload 5 LFS files: 100%|██████████| 5/5 [04:04<00:00, 48.97s/it] :04<00:00, 27.1MB/s]
+model-00001-of-00002.safetensors:  28%|██▊       | 1.37G/4.96G [00:40<01:12, 49.1MB/s]
+model-00001-of-00002.safetensors: 100%|█████████▉| 4.96G/4.96G [02:22<00:00, 37.5MB/s]
+Upload 5 LFS files:  20%|██        | 1/5 [04:04<16:19, 244.85s/it]

wandb/run-20250402_145246-e1n3xkh6/run-e1n3xkh6.wandb CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c44f75d6a14404a1671103c98761a241b56e18c8a16b5f39c30a93b752bf2c4
-size 3473408

 version https://git-lfs.github.com/spec/v1
+oid sha256:f7d5e63f2d8c41c9e7d69f18258219e0e4c9986a77722c53b4ead3db8bf1f279
+size 4489216