End of training

Browse files

Files changed (16) hide show

README.md +2 -2
epoch5/config.json +40 -0
epoch5/generation_config.json +6 -0
epoch5/merges.txt +0 -0
epoch5/model-00001-of-00002.safetensors +3 -0
epoch5/model-00002-of-00002.safetensors +3 -0
epoch5/model.safetensors.index.json +587 -0
epoch5/special_tokens_map.json +6 -0
epoch5/tokenizer.json +0 -0
epoch5/tokenizer_config.json +22 -0
epoch5/training_args.bin +3 -0
epoch5/vocab.json +0 -0
model-00001-of-00002.safetensors +1 -1
model-00002-of-00002.safetensors +1 -1
wandb/run-20250402_145246-e1n3xkh6/files/output.log +102 -1
wandb/run-20250402_145246-e1n3xkh6/run-e1n3xkh6.wandb +2 -2

README.md CHANGED Viewed

@@ -1,7 +1,7 @@
 ---
 base_model: openai-community/gpt2-xl
 library_name: transformers
-model_name: 'gpt2-xl-gsm8k-epoch4-acc0-1. Always '
 tags:
 - generated_from_trainer
 - trl
@@ -9,7 +9,7 @@ tags:
 licence: license
 ---
-# Model Card for gpt2-xl-gsm8k-epoch4-acc0-1. Always
 This model is a fine-tuned version of [openai-community/gpt2-xl](https://huggingface.co/openai-community/gpt2-xl).
 It has been trained using [TRL](https://github.com/huggingface/trl).

 ---
 base_model: openai-community/gpt2-xl
 library_name: transformers
+model_name: 'gpt2-xl-gsm8k-epoch5-acc0-1. Always '
 tags:
 - generated_from_trainer
 - trl
 licence: license
 ---
+# Model Card for gpt2-xl-gsm8k-epoch5-acc0-1. Always
 This model is a fine-tuned version of [openai-community/gpt2-xl](https://huggingface.co/openai-community/gpt2-xl).
 It has been trained using [TRL](https://github.com/huggingface/trl).

epoch5/config.json ADDED Viewed

	@@ -0,0 +1,40 @@

+{
+  "_name_or_path": "openai-community/gpt2-xl",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 1600,
+  "n_head": 25,
+  "n_inner": null,
+  "n_layer": 48,
+  "n_positions": 1024,
+  "output_past": true,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.49.0",
+  "use_cache": true,
+  "vocab_size": 50257
+}

epoch5/generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "eos_token_id": 50256,
+  "transformers_version": "4.49.0"
+}

epoch5/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

epoch5/model-00001-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:60639cd96a2f1dcff024ce6dd400ad994e36c740ac7a907b91ebc7879bd87e64
+size 4959881464

epoch5/model-00002-of-00002.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fba63f1f31de477c7bda8328c29edd9f0e7140e7e81adf8f6432e9a6eb8c04ea
+size 1270624096

epoch5/model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,587 @@

+{
+  "metadata": {
+    "total_size": 6230444800
+  },
+  "weight_map": {
+    "transformer.h.0.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.0.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.1.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.10.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.11.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.12.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.13.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.14.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.15.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.16.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.17.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.18.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.19.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.2.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.20.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.21.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.22.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.23.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.23.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.24.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.24.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.25.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.25.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.26.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.26.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.27.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.27.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.28.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.28.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.29.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.29.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.3.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.30.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.30.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.30.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.30.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.30.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.30.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.30.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.30.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.30.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.30.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.30.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.30.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.31.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.31.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.31.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.31.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.31.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.31.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.31.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.31.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.31.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.31.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.31.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.31.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.32.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.32.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.32.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.32.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.32.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.32.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.32.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.32.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.32.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.32.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.32.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.32.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.33.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.33.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.33.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.33.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.33.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.33.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.33.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.33.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.33.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.33.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.33.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.33.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.34.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.34.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.34.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.34.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.34.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.34.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.34.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.34.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.34.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.34.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.34.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.34.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.35.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.35.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.35.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.35.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.35.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.35.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.35.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.35.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.35.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.35.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.35.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.35.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.36.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.36.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.36.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.36.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.36.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.36.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.36.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.36.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.36.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.36.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.36.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.36.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.37.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.37.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.37.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.37.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.37.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.37.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.37.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.37.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.37.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.37.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.37.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.37.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.38.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.38.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.38.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.38.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.38.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.38.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.38.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.38.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.38.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.38.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.38.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.38.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.39.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.39.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.39.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.39.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.39.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.39.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.39.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.39.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.39.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.39.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.39.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.39.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.4.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.4.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.40.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.40.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.40.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.40.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.40.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.40.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.40.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.40.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.40.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.40.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.40.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.40.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.41.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.41.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.41.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.41.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.41.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.41.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.41.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.41.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.41.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.41.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.41.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.41.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.42.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.42.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.42.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.42.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.42.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.42.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.42.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.42.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.42.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.42.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.42.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.42.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.43.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.43.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.43.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.43.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.43.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.43.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.43.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.43.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.43.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.43.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.43.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.43.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.44.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.44.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.44.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.44.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.44.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.44.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.44.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.44.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.44.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.44.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.44.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.44.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.45.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.45.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.45.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.45.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.45.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.45.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.45.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.45.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.45.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.45.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.45.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.45.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.46.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.46.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.46.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.46.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.46.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.46.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.46.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.46.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.46.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.46.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.46.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.46.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.47.attn.c_attn.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.47.attn.c_attn.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.47.attn.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.47.attn.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.47.ln_1.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.47.ln_1.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.47.ln_2.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.47.ln_2.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.47.mlp.c_fc.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.47.mlp.c_fc.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.47.mlp.c_proj.bias": "model-00002-of-00002.safetensors",
+    "transformer.h.47.mlp.c_proj.weight": "model-00002-of-00002.safetensors",
+    "transformer.h.5.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.5.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.6.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.7.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.8.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.c_attn.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.c_attn.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.attn.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.ln_1.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.ln_1.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.ln_2.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.ln_2.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.c_fc.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.c_fc.weight": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.c_proj.bias": "model-00001-of-00002.safetensors",
+    "transformer.h.9.mlp.c_proj.weight": "model-00001-of-00002.safetensors",
+    "transformer.ln_f.bias": "model-00002-of-00002.safetensors",
+    "transformer.ln_f.weight": "model-00002-of-00002.safetensors",
+    "transformer.wpe.weight": "model-00001-of-00002.safetensors",
+    "transformer.wte.weight": "model-00001-of-00002.safetensors"
+  }
+}

epoch5/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "pad_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

epoch5/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

epoch5/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,22 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "extra_special_tokens": {},
+  "model_max_length": 1024,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "left",
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

epoch5/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f14f3c6d299bfb369a2106aab54c59a032e03c366e1d1fecdcf02f954b66a25b
+size 5624

epoch5/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8eb2dee99b44656f783f5efbf4a3bbc9dcd0dab175ed7174537bf6f3ce5196f5
 size 4959881464

 version https://git-lfs.github.com/spec/v1
+oid sha256:60639cd96a2f1dcff024ce6dd400ad994e36c740ac7a907b91ebc7879bd87e64
 size 4959881464

model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cca01b2571e41c5fadb5e16768acf50f5ddde882e3a06a8b1e8c8dcea41040c6
 size 1270624096

 version https://git-lfs.github.com/spec/v1
+oid sha256:fba63f1f31de477c7bda8328c29edd9f0e7140e7e81adf8f6432e9a6eb8c04ea
 size 1270624096

wandb/run-20250402_145246-e1n3xkh6/files/output.log CHANGED Viewed

@@ -418,7 +418,108 @@ model-00001-of-00002.safetensors: 100%|█████████▉| 4.95G/4.9
 {'eval_loss': 0.8552775382995605, 'eval_runtime': 97.2843, 'eval_samples_per_second': 13.558, 'eval_steps_per_second': 0.853, 'eval_mean_token_accuracy': 0.8052615293537277, 'epoch': 4.0}
 model-00001-of-00002.safetensors: 100%|██████████| 4.96G/4.96G [03:02<00:00, 27.2MB/s]
 Upload 5 LFS files: 100%|██████████| 5/5 [03:02<00:00, 36.57s/it] :02<00:00, 37.4MB/s]
-model-00001-of-00002.safetensors: 100%|█████████▉| 4.94G/4.96G [02:08<00:00, 42.7MB/s]
 model-00002-of-00002.safetensors:  99%|█████████▉| 1.26G/1.27G [00:44<00:00, 34.1MB/s]
 Upload 5 LFS files:  20%|██        | 1/5 [03:02<12:11, 182.85s/it]

 {'eval_loss': 0.8552775382995605, 'eval_runtime': 97.2843, 'eval_samples_per_second': 13.558, 'eval_steps_per_second': 0.853, 'eval_mean_token_accuracy': 0.8052615293537277, 'epoch': 4.0}
 model-00001-of-00002.safetensors: 100%|██████████| 4.96G/4.96G [03:02<00:00, 27.2MB/s]
 Upload 5 LFS files: 100%|██████████| 5/5 [03:02<00:00, 36.57s/it] :02<00:00, 37.4MB/s]
+                                                          .96G [02:08<00:00, 42.7MB/s]
 model-00002-of-00002.safetensors:  99%|█████████▉| 1.26G/1.27G [00:44<00:00, 34.1MB/s]
 Upload 5 LFS files:  20%|██        | 1/5 [03:02<12:11, 182.85s/it]
+{'loss': 0.153, 'grad_norm': 1.3796011209487915, 'learning_rate': 1.197860962566845e-05, 'mean_token_accuracy': 0.9557063996791839, 'epoch': 4.01}
+{'loss': 0.1861, 'grad_norm': 2.260554075241089, 'learning_rate': 1.19572192513369e-05, 'mean_token_accuracy': 0.9432671725749969, 'epoch': 4.02}
+{'loss': 0.175, 'grad_norm': 1.8162566423416138, 'learning_rate': 1.1935828877005349e-05, 'mean_token_accuracy': 0.9487885594367981, 'epoch': 4.03}
+{'loss': 0.1647, 'grad_norm': 1.6924371719360352, 'learning_rate': 1.1914438502673798e-05, 'mean_token_accuracy': 0.9523689925670624, 'epoch': 4.04}
+{'loss': 0.1692, 'grad_norm': 1.7612805366516113, 'learning_rate': 1.1893048128342247e-05, 'mean_token_accuracy': 0.9488636136054993, 'epoch': 4.05}
+{'loss': 0.1805, 'grad_norm': 1.743569016456604, 'learning_rate': 1.1871657754010697e-05, 'mean_token_accuracy': 0.9443089008331299, 'epoch': 4.06}
+{'loss': 0.1631, 'grad_norm': 1.5030018091201782, 'learning_rate': 1.1850267379679146e-05, 'mean_token_accuracy': 0.949979031085968, 'epoch': 4.07}
+{'loss': 0.1564, 'grad_norm': 1.648834228515625, 'learning_rate': 1.1828877005347595e-05, 'mean_token_accuracy': 0.9512568712234497, 'epoch': 4.09}
+{'loss': 0.1786, 'grad_norm': 1.85893714427948, 'learning_rate': 1.1807486631016042e-05, 'mean_token_accuracy': 0.9475835382938385, 'epoch': 4.1}
+{'loss': 0.1775, 'grad_norm': 1.4474387168884277, 'learning_rate': 1.1786096256684495e-05, 'mean_token_accuracy': 0.946813315153122, 'epoch': 4.11}
+{'loss': 0.1832, 'grad_norm': 2.0652883052825928, 'learning_rate': 1.1764705882352942e-05, 'mean_token_accuracy': 0.9461455881595612, 'epoch': 4.12}
+{'loss': 0.1696, 'grad_norm': 2.3539726734161377, 'learning_rate': 1.174331550802139e-05, 'mean_token_accuracy': 0.9492765009403229, 'epoch': 4.13}
+{'loss': 0.173, 'grad_norm': 1.7823604345321655, 'learning_rate': 1.172192513368984e-05, 'mean_token_accuracy': 0.9457501530647278, 'epoch': 4.14}
+{'loss': 0.1907, 'grad_norm': 1.9060957431793213, 'learning_rate': 1.170053475935829e-05, 'mean_token_accuracy': 0.9392943561077118, 'epoch': 4.15}
+{'loss': 0.1742, 'grad_norm': 1.4347060918807983, 'learning_rate': 1.167914438502674e-05, 'mean_token_accuracy': 0.9455202996730805, 'epoch': 4.16}
+{'loss': 0.1791, 'grad_norm': 2.15783953666687, 'learning_rate': 1.1657754010695188e-05, 'mean_token_accuracy': 0.9481375277042389, 'epoch': 4.17}
+{'loss': 0.1684, 'grad_norm': 1.7089780569076538, 'learning_rate': 1.1636363636363637e-05, 'mean_token_accuracy': 0.9490509748458862, 'epoch': 4.18}
+{'loss': 0.1742, 'grad_norm': 1.9038798809051514, 'learning_rate': 1.1614973262032086e-05, 'mean_token_accuracy': 0.9479456424713135, 'epoch': 4.19}
+{'loss': 0.1861, 'grad_norm': 1.9221370220184326, 'learning_rate': 1.1593582887700537e-05, 'mean_token_accuracy': 0.9414165675640106, 'epoch': 4.2}
+{'loss': 0.1728, 'grad_norm': 1.7148997783660889, 'learning_rate': 1.1572192513368986e-05, 'mean_token_accuracy': 0.9447316288948059, 'epoch': 4.21}
+{'loss': 0.1757, 'grad_norm': 1.7448234558105469, 'learning_rate': 1.1550802139037434e-05, 'mean_token_accuracy': 0.9497358977794648, 'epoch': 4.22}
+{'loss': 0.1554, 'grad_norm': 1.57687246799469, 'learning_rate': 1.1529411764705882e-05, 'mean_token_accuracy': 0.9528406322002411, 'epoch': 4.24}
+{'loss': 0.1737, 'grad_norm': 1.537142276763916, 'learning_rate': 1.1508021390374334e-05, 'mean_token_accuracy': 0.9442233860492706, 'epoch': 4.25}
+{'loss': 0.1605, 'grad_norm': 1.6654634475708008, 'learning_rate': 1.1486631016042781e-05, 'mean_token_accuracy': 0.9521208226680755, 'epoch': 4.26}
+{'loss': 0.1707, 'grad_norm': 1.2931082248687744, 'learning_rate': 1.146524064171123e-05, 'mean_token_accuracy': 0.9495856404304505, 'epoch': 4.27}
+{'loss': 0.1737, 'grad_norm': 1.9283350706100464, 'learning_rate': 1.1443850267379679e-05, 'mean_token_accuracy': 0.9470351815223694, 'epoch': 4.28}
+{'loss': 0.1606, 'grad_norm': 1.7414613962173462, 'learning_rate': 1.142245989304813e-05, 'mean_token_accuracy': 0.9515282690525055, 'epoch': 4.29}
+{'loss': 0.1881, 'grad_norm': 1.5943981409072876, 'learning_rate': 1.1401069518716579e-05, 'mean_token_accuracy': 0.9437048673629761, 'epoch': 4.3}
+{'loss': 0.1662, 'grad_norm': 1.9061501026153564, 'learning_rate': 1.1379679144385028e-05, 'mean_token_accuracy': 0.9491634905338288, 'epoch': 4.31}
+{'loss': 0.1741, 'grad_norm': 1.934288740158081, 'learning_rate': 1.1358288770053476e-05, 'mean_token_accuracy': 0.9466652691364288, 'epoch': 4.32}
+{'loss': 0.1528, 'grad_norm': 1.8484306335449219, 'learning_rate': 1.1336898395721927e-05, 'mean_token_accuracy': 0.9520830154418946, 'epoch': 4.33}
+{'loss': 0.1696, 'grad_norm': 1.4194589853286743, 'learning_rate': 1.1315508021390376e-05, 'mean_token_accuracy': 0.9487707138061523, 'epoch': 4.34}
+{'loss': 0.207, 'grad_norm': 1.764488697052002, 'learning_rate': 1.1294117647058825e-05, 'mean_token_accuracy': 0.9375714957714081, 'epoch': 4.35}
+{'loss': 0.1674, 'grad_norm': 1.8727854490280151, 'learning_rate': 1.1272727272727272e-05, 'mean_token_accuracy': 0.9494613409042358, 'epoch': 4.36}
+{'loss': 0.1898, 'grad_norm': 2.1858925819396973, 'learning_rate': 1.1251336898395724e-05, 'mean_token_accuracy': 0.9412040770053863, 'epoch': 4.37}
+{'loss': 0.1818, 'grad_norm': 1.6867077350616455, 'learning_rate': 1.1229946524064172e-05, 'mean_token_accuracy': 0.9427337288856507, 'epoch': 4.39}
+{'loss': 0.1863, 'grad_norm': 1.748297929763794, 'learning_rate': 1.120855614973262e-05, 'mean_token_accuracy': 0.9438842356204986, 'epoch': 4.4}
+{'loss': 0.1521, 'grad_norm': 1.87770676612854, 'learning_rate': 1.118716577540107e-05, 'mean_token_accuracy': 0.9539277970790863, 'epoch': 4.41}
+{'loss': 0.1801, 'grad_norm': 1.8535561561584473, 'learning_rate': 1.116577540106952e-05, 'mean_token_accuracy': 0.9474570631980896, 'epoch': 4.42}
+{'loss': 0.1831, 'grad_norm': 1.4291088581085205, 'learning_rate': 1.1144385026737969e-05, 'mean_token_accuracy': 0.9447618722915649, 'epoch': 4.43}
+{'loss': 0.1672, 'grad_norm': 1.625227689743042, 'learning_rate': 1.1122994652406418e-05, 'mean_token_accuracy': 0.9495197236537933, 'epoch': 4.44}
+{'loss': 0.1971, 'grad_norm': 2.153144598007202, 'learning_rate': 1.1101604278074867e-05, 'mean_token_accuracy': 0.940097314119339, 'epoch': 4.45}
+{'loss': 0.1775, 'grad_norm': 2.076204299926758, 'learning_rate': 1.1080213903743316e-05, 'mean_token_accuracy': 0.9468014240264893, 'epoch': 4.46}
+{'loss': 0.1754, 'grad_norm': 1.476561427116394, 'learning_rate': 1.1058823529411766e-05, 'mean_token_accuracy': 0.9460311770439148, 'epoch': 4.47}
+{'loss': 0.1668, 'grad_norm': 2.067399024963379, 'learning_rate': 1.1037433155080215e-05, 'mean_token_accuracy': 0.9486723065376281, 'epoch': 4.48}
+{'loss': 0.1655, 'grad_norm': 1.3543881177902222, 'learning_rate': 1.1016042780748664e-05, 'mean_token_accuracy': 0.9500215172767639, 'epoch': 4.49}
+{'loss': 0.1721, 'grad_norm': 1.7718254327774048, 'learning_rate': 1.0994652406417112e-05, 'mean_token_accuracy': 0.9470746457576752, 'epoch': 4.5}
+{'loss': 0.1893, 'grad_norm': 1.6638853549957275, 'learning_rate': 1.0973262032085564e-05, 'mean_token_accuracy': 0.9455216109752655, 'epoch': 4.51}
+{'loss': 0.1691, 'grad_norm': 1.9174784421920776, 'learning_rate': 1.0951871657754011e-05, 'mean_token_accuracy': 0.950607305765152, 'epoch': 4.52}
+{'loss': 0.1883, 'grad_norm': 1.8073397874832153, 'learning_rate': 1.093048128342246e-05, 'mean_token_accuracy': 0.9437803864479065, 'epoch': 4.53}
+{'loss': 0.1957, 'grad_norm': 1.5935677289962769, 'learning_rate': 1.0909090909090909e-05, 'mean_token_accuracy': 0.9387097239494324, 'epoch': 4.55}
+{'loss': 0.1963, 'grad_norm': 1.7583671808242798, 'learning_rate': 1.088770053475936e-05, 'mean_token_accuracy': 0.9426051914691925, 'epoch': 4.56}
+{'loss': 0.1719, 'grad_norm': 1.8803505897521973, 'learning_rate': 1.0866310160427808e-05, 'mean_token_accuracy': 0.9474845051765441, 'epoch': 4.57}
+{'loss': 0.1934, 'grad_norm': 2.505721092224121, 'learning_rate': 1.0844919786096257e-05, 'mean_token_accuracy': 0.9428565561771393, 'epoch': 4.58}
+{'loss': 0.1717, 'grad_norm': 1.605396032333374, 'learning_rate': 1.0823529411764706e-05, 'mean_token_accuracy': 0.9467872560024262, 'epoch': 4.59}
+{'loss': 0.1819, 'grad_norm': 1.512045979499817, 'learning_rate': 1.0802139037433157e-05, 'mean_token_accuracy': 0.9463649451732635, 'epoch': 4.6}
+{'loss': 0.2007, 'grad_norm': 2.0963022708892822, 'learning_rate': 1.0780748663101606e-05, 'mean_token_accuracy': 0.9346943676471711, 'epoch': 4.61}
+{'loss': 0.1896, 'grad_norm': 1.7960457801818848, 'learning_rate': 1.0759358288770055e-05, 'mean_token_accuracy': 0.9400655329227448, 'epoch': 4.62}
+{'loss': 0.1752, 'grad_norm': 1.6520633697509766, 'learning_rate': 1.0737967914438504e-05, 'mean_token_accuracy': 0.9477445900440216, 'epoch': 4.63}
+{'loss': 0.1833, 'grad_norm': 1.9244734048843384, 'learning_rate': 1.0716577540106954e-05, 'mean_token_accuracy': 0.9424504935741425, 'epoch': 4.64}
+{'loss': 0.1856, 'grad_norm': 1.5138581991195679, 'learning_rate': 1.0695187165775403e-05, 'mean_token_accuracy': 0.9422859311103821, 'epoch': 4.65}
+{'loss': 0.1705, 'grad_norm': 1.9214117527008057, 'learning_rate': 1.067379679144385e-05, 'mean_token_accuracy': 0.9483125925064086, 'epoch': 4.66}
+{'loss': 0.1704, 'grad_norm': 1.7379252910614014, 'learning_rate': 1.06524064171123e-05, 'mean_token_accuracy': 0.9481765508651734, 'epoch': 4.67}
+{'loss': 0.1752, 'grad_norm': 1.642674446105957, 'learning_rate': 1.0631016042780748e-05, 'mean_token_accuracy': 0.9503016233444214, 'epoch': 4.68}
+{'loss': 0.1581, 'grad_norm': 1.7870064973831177, 'learning_rate': 1.0609625668449199e-05, 'mean_token_accuracy': 0.9496883094310761, 'epoch': 4.7}
+{'loss': 0.175, 'grad_norm': 1.789838433265686, 'learning_rate': 1.0588235294117648e-05, 'mean_token_accuracy': 0.9485034823417664, 'epoch': 4.71}
+{'loss': 0.1902, 'grad_norm': 1.4657063484191895, 'learning_rate': 1.0566844919786097e-05, 'mean_token_accuracy': 0.9413743674755096, 'epoch': 4.72}
+{'loss': 0.1655, 'grad_norm': 1.667333722114563, 'learning_rate': 1.0545454545454546e-05, 'mean_token_accuracy': 0.9504335641860961, 'epoch': 4.73}
+{'loss': 0.1854, 'grad_norm': 2.1561086177825928, 'learning_rate': 1.0524064171122996e-05, 'mean_token_accuracy': 0.9446908056735992, 'epoch': 4.74}
+{'loss': 0.1731, 'grad_norm': 2.2415318489074707, 'learning_rate': 1.0502673796791445e-05, 'mean_token_accuracy': 0.9452531158924102, 'epoch': 4.75}
+{'loss': 0.1587, 'grad_norm': 1.6177361011505127, 'learning_rate': 1.0481283422459894e-05, 'mean_token_accuracy': 0.9538649678230285, 'epoch': 4.76}
+{'loss': 0.1744, 'grad_norm': 1.8750890493392944, 'learning_rate': 1.0459893048128343e-05, 'mean_token_accuracy': 0.9453363537788391, 'epoch': 4.77}
+{'loss': 0.1622, 'grad_norm': 1.6198896169662476, 'learning_rate': 1.0438502673796794e-05, 'mean_token_accuracy': 0.948049259185791, 'epoch': 4.78}
+{'loss': 0.1739, 'grad_norm': 1.6797212362289429, 'learning_rate': 1.0417112299465243e-05, 'mean_token_accuracy': 0.9473335146903992, 'epoch': 4.79}
+{'loss': 0.1505, 'grad_norm': 1.5805342197418213, 'learning_rate': 1.039572192513369e-05, 'mean_token_accuracy': 0.9550497591495514, 'epoch': 4.8}
+{'loss': 0.1595, 'grad_norm': 2.010617971420288, 'learning_rate': 1.0374331550802139e-05, 'mean_token_accuracy': 0.9505820333957672, 'epoch': 4.81}
+{'loss': 0.2022, 'grad_norm': 1.6834867000579834, 'learning_rate': 1.035294117647059e-05, 'mean_token_accuracy': 0.9358161687850952, 'epoch': 4.82}
+{'loss': 0.2084, 'grad_norm': 2.1624224185943604, 'learning_rate': 1.0331550802139038e-05, 'mean_token_accuracy': 0.933703875541687, 'epoch': 4.83}
+{'loss': 0.1979, 'grad_norm': 1.9009312391281128, 'learning_rate': 1.0310160427807487e-05, 'mean_token_accuracy': 0.9391363799571991, 'epoch': 4.84}
+{'loss': 0.1759, 'grad_norm': 1.8317028284072876, 'learning_rate': 1.0288770053475936e-05, 'mean_token_accuracy': 0.9460435450077057, 'epoch': 4.86}
+{'loss': 0.1523, 'grad_norm': 1.6002405881881714, 'learning_rate': 1.0267379679144387e-05, 'mean_token_accuracy': 0.9512880504131317, 'epoch': 4.87}
+{'loss': 0.1784, 'grad_norm': 1.6229273080825806, 'learning_rate': 1.0245989304812836e-05, 'mean_token_accuracy': 0.9429602146148681, 'epoch': 4.88}
+{'loss': 0.1722, 'grad_norm': 1.5719101428985596, 'learning_rate': 1.0224598930481285e-05, 'mean_token_accuracy': 0.9479642510414124, 'epoch': 4.89}
+{'loss': 0.1756, 'grad_norm': 1.8305261135101318, 'learning_rate': 1.0203208556149734e-05, 'mean_token_accuracy': 0.9461706519126892, 'epoch': 4.9}
+{'loss': 0.163, 'grad_norm': 1.7393313646316528, 'learning_rate': 1.0181818181818182e-05, 'mean_token_accuracy': 0.9523954331874848, 'epoch': 4.91}
+{'loss': 0.1902, 'grad_norm': 1.8800948858261108, 'learning_rate': 1.0160427807486633e-05, 'mean_token_accuracy': 0.9459931075572967, 'epoch': 4.92}
+{'loss': 0.1772, 'grad_norm': 1.6756889820098877, 'learning_rate': 1.0139037433155082e-05, 'mean_token_accuracy': 0.9421909153461456, 'epoch': 4.93}
+{'loss': 0.1841, 'grad_norm': 1.647567868232727, 'learning_rate': 1.011764705882353e-05, 'mean_token_accuracy': 0.9408629298210144, 'epoch': 4.94}
+{'loss': 0.1749, 'grad_norm': 2.1712002754211426, 'learning_rate': 1.0096256684491978e-05, 'mean_token_accuracy': 0.9471596658229828, 'epoch': 4.95}
+{'loss': 0.1925, 'grad_norm': 2.217067241668701, 'learning_rate': 1.0074866310160429e-05, 'mean_token_accuracy': 0.9420334160327911, 'epoch': 4.96}
+{'loss': 0.1837, 'grad_norm': 1.6498557329177856, 'learning_rate': 1.0053475935828878e-05, 'mean_token_accuracy': 0.943232637643814, 'epoch': 4.97}
+{'loss': 0.1766, 'grad_norm': 1.7455774545669556, 'learning_rate': 1.0032085561497327e-05, 'mean_token_accuracy': 0.9466847658157349, 'epoch': 4.98}
+{'loss': 0.176, 'grad_norm': 1.5071252584457397, 'learning_rate': 1.0010695187165776e-05, 'mean_token_accuracy': 0.9437964498996735, 'epoch': 4.99}
+{'eval_loss': 0.9386810660362244, 'eval_runtime': 97.3878, 'eval_samples_per_second': 13.544, 'eval_steps_per_second': 0.852, 'eval_mean_token_accuracy': 0.8124508329413154, 'epoch': 5.0}
+model-00001-of-00002.safetensors: 100%|██████████| 4.96G/4.96G [03:10<00:00, 26.0MB/s]
+Upload 5 LFS files: 100%|██████████| 5/5 [03:10<00:00, 38.15s/it]3:09<00:00, 36.3MB/s]
+run-e1n3xkh6.wandb:  80%|███████▉  | 2.77M/3.47M [00:00<00:00, 18.8MB/s]
+Upload 5 LFS files:  20%|██        | 1/5 [02:18<09:14, 138.52s/it]
+Upload 5 LFS files:  60%|██████    | 3/5 [03:10<01:50, 55.26s/it]

wandb/run-20250402_145246-e1n3xkh6/run-e1n3xkh6.wandb CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a083fa7c31ab607fb61a85d4739baad73234ed919cd42bec69f8e1bbd100a872
-size 2621440

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c44f75d6a14404a1671103c98761a241b56e18c8a16b5f39c30a93b752bf2c4
+size 3473408