Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

added_tokens.json +1 -5
config.json +2 -2
generation_config.json +1 -1
model.safetensors +2 -2
optimizer.pt +2 -2
rng_state.pth +1 -1
special_tokens_map.json +0 -30
tokenizer.json +0 -36
tokenizer_config.json +0 -38
trainer_state.json +136 -136

added_tokens.json CHANGED Viewed

@@ -1,7 +1,3 @@
 {
-  "<|endofline|>": 50259,
-  "<|endofsong|>": 50261,
-  "<|pad|>": 50257,
-  "<|startofline|>": 50258,
-  "<|startofsong|>": 50260
 }

 {
+  "<|pad|>": 50257
 }

config.json CHANGED Viewed

@@ -32,7 +32,7 @@
     }
   },
   "torch_dtype": "float32",
-  "transformers_version": "4.51.0",
   "use_cache": true,
-  "vocab_size": 50262
 }

     }
   },
   "torch_dtype": "float32",
+  "transformers_version": "4.51.3",
   "use_cache": true,
+  "vocab_size": 50258
 }

generation_config.json CHANGED Viewed

@@ -2,5 +2,5 @@
   "_from_model_config": true,
   "bos_token_id": 50256,
   "eos_token_id": 50256,
-  "transformers_version": "4.51.0"
 }

   "_from_model_config": true,
   "bos_token_id": 50256,
   "eos_token_id": 50256,
+  "transformers_version": "4.51.3"
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5c0caa5b22fe458e8a2043ecbb3fcaead2ef94184d368a5a08079fa20a86301
-size 497789568

 version https://git-lfs.github.com/spec/v1
+oid sha256:9c09e23fb1f2834ca7fdbd63c9a0d1a894928f61dc6e29cef7522dda4a5d9a90
+size 497777280

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:41bd3f9bad85eb208c4251cc31c23675a54cce589c7fceb72ffd944b138d0b48
-size 995673018

 version https://git-lfs.github.com/spec/v1
+oid sha256:d3e39049298bf8caa4a0206af22d195193cc6a385b34b9870a35b9bcb7458df2
+size 995648442

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bbff58bc3d4797a1329aa4a9e623f270d002c625cb63efe7325288189b65fc10
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a1c7dd0b3b463e2c58e2f44cbd38e25c00d34646a5c4e3ef2f3793b6c7a746a
 size 14244

special_tokens_map.json CHANGED Viewed

@@ -1,34 +1,4 @@
 {
-  "additional_special_tokens": [
-    {
-      "content": "<|startofline|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false
-    },
-    {
-      "content": "<|endofline|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false
-    },
-    {
-      "content": "<|startofsong|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false
-    },
-    {
-      "content": "<|endofsong|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false
-    }
-  ],
   "bos_token": {
     "content": "<|endoftext|>",
     "lstrip": false,

 {
   "bos_token": {
     "content": "<|endoftext|>",
     "lstrip": false,

tokenizer.json CHANGED Viewed

@@ -32,42 +32,6 @@
       "rstrip": false,
       "normalized": false,
       "special": true
-    },
-    {
-      "id": 50258,
-      "content": "<|startofline|>",
-      "single_word": false,
-      "lstrip": false,
-      "rstrip": false,
-      "normalized": false,
-      "special": true
-    },
-    {
-      "id": 50259,
-      "content": "<|endofline|>",
-      "single_word": false,
-      "lstrip": false,
-      "rstrip": false,
-      "normalized": false,
-      "special": true
-    },
-    {
-      "id": 50260,
-      "content": "<|startofsong|>",
-      "single_word": false,
-      "lstrip": false,
-      "rstrip": false,
-      "normalized": false,
-      "special": true
-    },
-    {
-      "id": 50261,
-      "content": "<|endofsong|>",
-      "single_word": false,
-      "lstrip": false,
-      "rstrip": false,
-      "normalized": false,
-      "special": true
     }
   ],
   "normalizer": null,

       "rstrip": false,
       "normalized": false,
       "special": true
     }
   ],
   "normalizer": null,

tokenizer_config.json CHANGED Viewed

@@ -17,46 +17,8 @@
       "rstrip": false,
       "single_word": false,
       "special": true
-    },
-    "50258": {
-      "content": "<|startofline|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "50259": {
-      "content": "<|endofline|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "50260": {
-      "content": "<|startofsong|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
-    },
-    "50261": {
-      "content": "<|endofsong|>",
-      "lstrip": false,
-      "normalized": false,
-      "rstrip": false,
-      "single_word": false,
-      "special": true
     }
   },
-  "additional_special_tokens": [
-    "<|startofline|>",
-    "<|endofline|>",
-    "<|startofsong|>",
-    "<|endofsong|>"
-  ],
   "bos_token": "<|endoftext|>",
   "clean_up_tokenization_spaces": true,
   "eos_token": "<|endoftext|>",

       "rstrip": false,
       "single_word": false,
       "special": true
     }
   },
   "bos_token": "<|endoftext|>",
   "clean_up_tokenization_spaces": true,
   "eos_token": "<|endoftext|>",

trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "best_global_step": 4500,
-  "best_metric": 4.143945693969727,
   "best_model_checkpoint": "checkpoints/checkpoint-4500",
   "epoch": 4.999113362887904,
   "eval_steps": 500,
@@ -11,417 +11,417 @@
   "log_history": [
     {
       "epoch": 0.1013299556681444,
-      "grad_norm": 53.731651306152344,
       "learning_rate": 9.600000000000001e-06,
-      "loss": 8.2301,
       "step": 100
     },
     {
       "epoch": 0.2026599113362888,
-      "grad_norm": 60.03353500366211,
       "learning_rate": 1.9600000000000002e-05,
-      "loss": 7.2402,
       "step": 200
     },
     {
       "epoch": 0.3039898670044332,
-      "grad_norm": 56.0938606262207,
       "learning_rate": 2.96e-05,
-      "loss": 6.1337,
       "step": 300
     },
     {
       "epoch": 0.4053198226725776,
-      "grad_norm": 7.5981974601745605,
       "learning_rate": 3.960000000000001e-05,
-      "loss": 5.0118,
       "step": 400
     },
     {
       "epoch": 0.506649778340722,
-      "grad_norm": 3.361119270324707,
       "learning_rate": 4.96e-05,
-      "loss": 4.6704,
       "step": 500
     },
     {
       "epoch": 0.506649778340722,
-      "eval_loss": 4.494482517242432,
-      "eval_runtime": 61.163,
-      "eval_samples_per_second": 57.371,
-      "eval_steps_per_second": 14.355,
       "step": 500
     },
     {
       "epoch": 0.6079797340088664,
-      "grad_norm": 2.7135744094848633,
       "learning_rate": 4.891647855530474e-05,
-      "loss": 4.642,
       "step": 600
     },
     {
       "epoch": 0.7093096896770108,
-      "grad_norm": 3.0142900943756104,
       "learning_rate": 4.7787810383747176e-05,
-      "loss": 4.5258,
       "step": 700
     },
     {
       "epoch": 0.8106396453451552,
-      "grad_norm": 2.4529480934143066,
       "learning_rate": 4.665914221218962e-05,
-      "loss": 4.5282,
       "step": 800
     },
     {
       "epoch": 0.9119696010132996,
-      "grad_norm": 2.8447184562683105,
       "learning_rate": 4.553047404063205e-05,
-      "loss": 4.4796,
       "step": 900
     },
     {
       "epoch": 1.0141861937935401,
-      "grad_norm": 2.4824981689453125,
       "learning_rate": 4.440180586907449e-05,
-      "loss": 4.5166,
       "step": 1000
     },
     {
       "epoch": 1.0141861937935401,
-      "eval_loss": 4.318243980407715,
-      "eval_runtime": 61.4718,
-      "eval_samples_per_second": 57.083,
-      "eval_steps_per_second": 14.283,
       "step": 1000
     },
     {
       "epoch": 1.1155161494616845,
-      "grad_norm": 2.3135533332824707,
       "learning_rate": 4.327313769751693e-05,
-      "loss": 4.41,
       "step": 1100
     },
     {
       "epoch": 1.216846105129829,
-      "grad_norm": 2.297306537628174,
       "learning_rate": 4.214446952595937e-05,
-      "loss": 4.429,
       "step": 1200
     },
     {
       "epoch": 1.3181760607979733,
-      "grad_norm": 2.43269944190979,
       "learning_rate": 4.101580135440181e-05,
-      "loss": 4.3426,
       "step": 1300
     },
     {
       "epoch": 1.4195060164661177,
-      "grad_norm": 2.2192583084106445,
       "learning_rate": 3.988713318284424e-05,
-      "loss": 4.3375,
       "step": 1400
     },
     {
       "epoch": 1.5208359721342621,
-      "grad_norm": 2.4804940223693848,
       "learning_rate": 3.875846501128668e-05,
-      "loss": 4.3412,
       "step": 1500
     },
     {
       "epoch": 1.5208359721342621,
-      "eval_loss": 4.256350994110107,
-      "eval_runtime": 61.1509,
-      "eval_samples_per_second": 57.383,
-      "eval_steps_per_second": 14.358,
       "step": 1500
     },
     {
       "epoch": 1.6221659278024065,
-      "grad_norm": 2.0531516075134277,
       "learning_rate": 3.762979683972912e-05,
-      "loss": 4.3421,
       "step": 1600
     },
     {
       "epoch": 1.723495883470551,
-      "grad_norm": 2.3188295364379883,
       "learning_rate": 3.650112866817156e-05,
-      "loss": 4.3078,
       "step": 1700
     },
     {
       "epoch": 1.8248258391386953,
-      "grad_norm": 2.002288341522217,
       "learning_rate": 3.5372460496614e-05,
-      "loss": 4.3323,
       "step": 1800
     },
     {
       "epoch": 1.9261557948068397,
-      "grad_norm": 2.439591646194458,
       "learning_rate": 3.424379232505643e-05,
-      "loss": 4.3238,
       "step": 1900
     },
     {
       "epoch": 2.0283723875870803,
-      "grad_norm": 2.314893960952759,
       "learning_rate": 3.3115124153498873e-05,
-      "loss": 4.3637,
       "step": 2000
     },
     {
       "epoch": 2.0283723875870803,
-      "eval_loss": 4.224379539489746,
-      "eval_runtime": 61.2066,
-      "eval_samples_per_second": 57.33,
-      "eval_steps_per_second": 14.345,
       "step": 2000
     },
     {
       "epoch": 2.1297023432552247,
-      "grad_norm": 2.339419364929199,
       "learning_rate": 3.198645598194131e-05,
-      "loss": 4.2702,
       "step": 2100
     },
     {
       "epoch": 2.231032298923369,
-      "grad_norm": 2.3098413944244385,
       "learning_rate": 3.085778781038375e-05,
-      "loss": 4.2843,
       "step": 2200
     },
     {
       "epoch": 2.3323622545915135,
-      "grad_norm": 2.1247897148132324,
       "learning_rate": 2.9729119638826186e-05,
-      "loss": 4.2886,
       "step": 2300
     },
     {
       "epoch": 2.433692210259658,
-      "grad_norm": 2.2844860553741455,
       "learning_rate": 2.8600451467268623e-05,
-      "loss": 4.2878,
       "step": 2400
     },
     {
       "epoch": 2.5350221659278023,
-      "grad_norm": 2.0234220027923584,
       "learning_rate": 2.747178329571106e-05,
-      "loss": 4.2488,
       "step": 2500
     },
     {
       "epoch": 2.5350221659278023,
-      "eval_loss": 4.1915154457092285,
-      "eval_runtime": 61.5807,
-      "eval_samples_per_second": 56.982,
-      "eval_steps_per_second": 14.258,
       "step": 2500
     },
     {
       "epoch": 2.6363521215959467,
-      "grad_norm": 2.2979116439819336,
       "learning_rate": 2.63431151241535e-05,
-      "loss": 4.2168,
       "step": 2600
     },
     {
       "epoch": 2.737682077264091,
-      "grad_norm": 2.3979334831237793,
       "learning_rate": 2.521444695259594e-05,
-      "loss": 4.2475,
       "step": 2700
     },
     {
       "epoch": 2.8390120329322355,
-      "grad_norm": 2.207998037338257,
       "learning_rate": 2.4085778781038376e-05,
-      "loss": 4.2249,
       "step": 2800
     },
     {
       "epoch": 2.94034198860038,
-      "grad_norm": 2.1592469215393066,
       "learning_rate": 2.2957110609480814e-05,
-      "loss": 4.2234,
       "step": 2900
     },
     {
       "epoch": 3.0425585813806206,
-      "grad_norm": 2.058875560760498,
       "learning_rate": 2.182844243792325e-05,
-      "loss": 4.2611,
       "step": 3000
     },
     {
       "epoch": 3.0425585813806206,
-      "eval_loss": 4.1719160079956055,
-      "eval_runtime": 61.4253,
-      "eval_samples_per_second": 57.126,
-      "eval_steps_per_second": 14.294,
       "step": 3000
     },
     {
       "epoch": 3.143888537048765,
-      "grad_norm": 2.292440414428711,
       "learning_rate": 2.069977426636569e-05,
-      "loss": 4.1453,
       "step": 3100
     },
     {
       "epoch": 3.2452184927169094,
-      "grad_norm": 2.633338451385498,
       "learning_rate": 1.957110609480813e-05,
-      "loss": 4.182,
       "step": 3200
     },
     {
       "epoch": 3.346548448385054,
-      "grad_norm": 2.1391022205352783,
       "learning_rate": 1.8442437923250567e-05,
-      "loss": 4.1905,
       "step": 3300
     },
     {
       "epoch": 3.4478784040531982,
-      "grad_norm": 2.2888920307159424,
       "learning_rate": 1.7313769751693004e-05,
-      "loss": 4.1835,
       "step": 3400
     },
     {
       "epoch": 3.5492083597213426,
-      "grad_norm": 2.186450481414795,
       "learning_rate": 1.6185101580135442e-05,
-      "loss": 4.2083,
       "step": 3500
     },
     {
       "epoch": 3.5492083597213426,
-      "eval_loss": 4.161413192749023,
-      "eval_runtime": 61.3496,
-      "eval_samples_per_second": 57.197,
-      "eval_steps_per_second": 14.311,
       "step": 3500
     },
     {
       "epoch": 3.650538315389487,
-      "grad_norm": 2.072542190551758,
       "learning_rate": 1.5056433408577881e-05,
-      "loss": 4.2393,
       "step": 3600
     },
     {
       "epoch": 3.7518682710576314,
-      "grad_norm": 2.1177375316619873,
       "learning_rate": 1.3927765237020315e-05,
-      "loss": 4.2243,
       "step": 3700
     },
     {
       "epoch": 3.853198226725776,
-      "grad_norm": 2.2772135734558105,
       "learning_rate": 1.2799097065462754e-05,
-      "loss": 4.2019,
       "step": 3800
     },
     {
       "epoch": 3.9545281823939202,
-      "grad_norm": 2.0697269439697266,
       "learning_rate": 1.1670428893905193e-05,
-      "loss": 4.2285,
       "step": 3900
     },
     {
       "epoch": 4.0567447751741605,
-      "grad_norm": 2.685513734817505,
       "learning_rate": 1.054176072234763e-05,
-      "loss": 4.2405,
       "step": 4000
     },
     {
       "epoch": 4.0567447751741605,
-      "eval_loss": 4.150519847869873,
-      "eval_runtime": 61.2476,
-      "eval_samples_per_second": 57.292,
-      "eval_steps_per_second": 14.335,
       "step": 4000
     },
     {
       "epoch": 4.158074730842305,
-      "grad_norm": 2.0102524757385254,
       "learning_rate": 9.413092550790068e-06,
-      "loss": 4.1516,
       "step": 4100
     },
     {
       "epoch": 4.259404686510449,
-      "grad_norm": 2.008261203765869,
       "learning_rate": 8.284424379232506e-06,
-      "loss": 4.145,
       "step": 4200
     },
     {
       "epoch": 4.360734642178594,
-      "grad_norm": 2.0506038665771484,
       "learning_rate": 7.155756207674943e-06,
-      "loss": 4.1747,
       "step": 4300
     },
     {
       "epoch": 4.462064597846738,
-      "grad_norm": 2.1455721855163574,
       "learning_rate": 6.0270880361173815e-06,
-      "loss": 4.1857,
       "step": 4400
     },
     {
       "epoch": 4.5633945535148825,
-      "grad_norm": 2.101816177368164,
       "learning_rate": 4.89841986455982e-06,
-      "loss": 4.1556,
       "step": 4500
     },
     {
       "epoch": 4.5633945535148825,
-      "eval_loss": 4.143945693969727,
-      "eval_runtime": 61.2556,
-      "eval_samples_per_second": 57.285,
-      "eval_steps_per_second": 14.333,
       "step": 4500
     },
     {
       "epoch": 4.664724509183027,
-      "grad_norm": 2.203230619430542,
       "learning_rate": 3.7697516930022577e-06,
-      "loss": 4.1613,
       "step": 4600
     },
     {
       "epoch": 4.766054464851171,
-      "grad_norm": 1.9926562309265137,
       "learning_rate": 2.6410835214446955e-06,
-      "loss": 4.2135,
       "step": 4700
     },
     {
       "epoch": 4.867384420519316,
-      "grad_norm": 2.189359426498413,
       "learning_rate": 1.5124153498871334e-06,
-      "loss": 4.1631,
       "step": 4800
     },
     {
       "epoch": 4.96871437618746,
-      "grad_norm": 2.3265554904937744,
       "learning_rate": 3.837471783295711e-07,
-      "loss": 4.1366,
       "step": 4900
     }
   ],
@@ -442,7 +442,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.2088082473472e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_global_step": 4500,
+  "best_metric": 4.731945037841797,
   "best_model_checkpoint": "checkpoints/checkpoint-4500",
   "epoch": 4.999113362887904,
   "eval_steps": 500,
   "log_history": [
     {
       "epoch": 0.1013299556681444,
+      "grad_norm": 4.671788692474365,
       "learning_rate": 9.600000000000001e-06,
+      "loss": 9.818,
       "step": 100
     },
     {
       "epoch": 0.2026599113362888,
+      "grad_norm": 2.0833730697631836,
       "learning_rate": 1.9600000000000002e-05,
+      "loss": 6.0125,
       "step": 200
     },
     {
       "epoch": 0.3039898670044332,
+      "grad_norm": 2.2255606651306152,
       "learning_rate": 2.96e-05,
+      "loss": 5.5478,
       "step": 300
     },
     {
       "epoch": 0.4053198226725776,
+      "grad_norm": 2.375220537185669,
       "learning_rate": 3.960000000000001e-05,
+      "loss": 5.3821,
       "step": 400
     },
     {
       "epoch": 0.506649778340722,
+      "grad_norm": 2.1432723999023438,
       "learning_rate": 4.96e-05,
+      "loss": 5.2798,
       "step": 500
     },
     {
       "epoch": 0.506649778340722,
+      "eval_loss": 5.099383354187012,
+      "eval_runtime": 61.4753,
+      "eval_samples_per_second": 57.08,
+      "eval_steps_per_second": 14.282,
       "step": 500
     },
     {
       "epoch": 0.6079797340088664,
+      "grad_norm": 2.5531654357910156,
       "learning_rate": 4.891647855530474e-05,
+      "loss": 5.2792,
       "step": 600
     },
     {
       "epoch": 0.7093096896770108,
+      "grad_norm": 1.8546665906906128,
       "learning_rate": 4.7787810383747176e-05,
+      "loss": 5.1646,
       "step": 700
     },
     {
       "epoch": 0.8106396453451552,
+      "grad_norm": 2.103972911834717,
       "learning_rate": 4.665914221218962e-05,
+      "loss": 5.1678,
       "step": 800
     },
     {
       "epoch": 0.9119696010132996,
+      "grad_norm": 2.0656638145446777,
       "learning_rate": 4.553047404063205e-05,
+      "loss": 5.1145,
       "step": 900
     },
     {
       "epoch": 1.0141861937935401,
+      "grad_norm": 2.003814697265625,
       "learning_rate": 4.440180586907449e-05,
+      "loss": 5.1537,
       "step": 1000
     },
     {
       "epoch": 1.0141861937935401,
+      "eval_loss": 4.938778877258301,
+      "eval_runtime": 61.4905,
+      "eval_samples_per_second": 57.066,
+      "eval_steps_per_second": 14.279,
       "step": 1000
     },
     {
       "epoch": 1.1155161494616845,
+      "grad_norm": 2.0927860736846924,
       "learning_rate": 4.327313769751693e-05,
+      "loss": 5.0454,
       "step": 1100
     },
     {
       "epoch": 1.216846105129829,
+      "grad_norm": 2.080012321472168,
       "learning_rate": 4.214446952595937e-05,
+      "loss": 5.0665,
       "step": 1200
     },
     {
       "epoch": 1.3181760607979733,
+      "grad_norm": 1.8747535943984985,
       "learning_rate": 4.101580135440181e-05,
+      "loss": 4.9706,
       "step": 1300
     },
     {
       "epoch": 1.4195060164661177,
+      "grad_norm": 1.901370882987976,
       "learning_rate": 3.988713318284424e-05,
+      "loss": 4.9639,
       "step": 1400
     },
     {
       "epoch": 1.5208359721342621,
+      "grad_norm": 1.9110698699951172,
       "learning_rate": 3.875846501128668e-05,
+      "loss": 4.9622,
       "step": 1500
     },
     {
       "epoch": 1.5208359721342621,
+      "eval_loss": 4.870736598968506,
+      "eval_runtime": 61.3393,
+      "eval_samples_per_second": 57.206,
+      "eval_steps_per_second": 14.314,
       "step": 1500
     },
     {
       "epoch": 1.6221659278024065,
+      "grad_norm": 1.8562686443328857,
       "learning_rate": 3.762979683972912e-05,
+      "loss": 4.9633,
       "step": 1600
     },
     {
       "epoch": 1.723495883470551,
+      "grad_norm": 1.970841884613037,
       "learning_rate": 3.650112866817156e-05,
+      "loss": 4.9279,
       "step": 1700
     },
     {
       "epoch": 1.8248258391386953,
+      "grad_norm": 1.9571095705032349,
       "learning_rate": 3.5372460496614e-05,
+      "loss": 4.952,
       "step": 1800
     },
     {
       "epoch": 1.9261557948068397,
+      "grad_norm": 2.0035080909729004,
       "learning_rate": 3.424379232505643e-05,
+      "loss": 4.9448,
       "step": 1900
     },
     {
       "epoch": 2.0283723875870803,
+      "grad_norm": 1.978408694267273,
       "learning_rate": 3.3115124153498873e-05,
+      "loss": 4.9862,
       "step": 2000
     },
     {
       "epoch": 2.0283723875870803,
+      "eval_loss": 4.826657295227051,
+      "eval_runtime": 61.364,
+      "eval_samples_per_second": 57.183,
+      "eval_steps_per_second": 14.308,
       "step": 2000
     },
     {
       "epoch": 2.1297023432552247,
+      "grad_norm": 2.2265381813049316,
       "learning_rate": 3.198645598194131e-05,
+      "loss": 4.8837,
       "step": 2100
     },
     {
       "epoch": 2.231032298923369,
+      "grad_norm": 1.8263903856277466,
       "learning_rate": 3.085778781038375e-05,
+      "loss": 4.893,
       "step": 2200
     },
     {
       "epoch": 2.3323622545915135,
+      "grad_norm": 1.8423362970352173,
       "learning_rate": 2.9729119638826186e-05,
+      "loss": 4.9038,
       "step": 2300
     },
     {
       "epoch": 2.433692210259658,
+      "grad_norm": 1.9064007997512817,
       "learning_rate": 2.8600451467268623e-05,
+      "loss": 4.8971,
       "step": 2400
     },
     {
       "epoch": 2.5350221659278023,
+      "grad_norm": 1.8199445009231567,
       "learning_rate": 2.747178329571106e-05,
+      "loss": 4.8563,
       "step": 2500
     },
     {
       "epoch": 2.5350221659278023,
+      "eval_loss": 4.789968013763428,
+      "eval_runtime": 61.2645,
+      "eval_samples_per_second": 57.276,
+      "eval_steps_per_second": 14.331,
       "step": 2500
     },
     {
       "epoch": 2.6363521215959467,
+      "grad_norm": 2.2458302974700928,
       "learning_rate": 2.63431151241535e-05,
+      "loss": 4.8214,
       "step": 2600
     },
     {
       "epoch": 2.737682077264091,
+      "grad_norm": 1.9292908906936646,
       "learning_rate": 2.521444695259594e-05,
+      "loss": 4.8538,
       "step": 2700
     },
     {
       "epoch": 2.8390120329322355,
+      "grad_norm": 2.03075909614563,
       "learning_rate": 2.4085778781038376e-05,
+      "loss": 4.8307,
       "step": 2800
     },
     {
       "epoch": 2.94034198860038,
+      "grad_norm": 1.909643530845642,
       "learning_rate": 2.2957110609480814e-05,
+      "loss": 4.8282,
       "step": 2900
     },
     {
       "epoch": 3.0425585813806206,
+      "grad_norm": 1.8887925148010254,
       "learning_rate": 2.182844243792325e-05,
+      "loss": 4.8738,
       "step": 3000
     },
     {
       "epoch": 3.0425585813806206,
+      "eval_loss": 4.765661716461182,
+      "eval_runtime": 61.3376,
+      "eval_samples_per_second": 57.208,
+      "eval_steps_per_second": 14.314,
       "step": 3000
     },
     {
       "epoch": 3.143888537048765,
+      "grad_norm": 1.8953306674957275,
       "learning_rate": 2.069977426636569e-05,
+      "loss": 4.7451,
       "step": 3100
     },
     {
       "epoch": 3.2452184927169094,
+      "grad_norm": 2.1468937397003174,
       "learning_rate": 1.957110609480813e-05,
+      "loss": 4.7813,
       "step": 3200
     },
     {
       "epoch": 3.346548448385054,
+      "grad_norm": 1.9347341060638428,
       "learning_rate": 1.8442437923250567e-05,
+      "loss": 4.792,
       "step": 3300
     },
     {
       "epoch": 3.4478784040531982,
+      "grad_norm": 1.8998669385910034,
       "learning_rate": 1.7313769751693004e-05,
+      "loss": 4.7867,
       "step": 3400
     },
     {
       "epoch": 3.5492083597213426,
+      "grad_norm": 1.899141788482666,
       "learning_rate": 1.6185101580135442e-05,
+      "loss": 4.8095,
       "step": 3500
     },
     {
       "epoch": 3.5492083597213426,
+      "eval_loss": 4.752286434173584,
+      "eval_runtime": 61.3687,
+      "eval_samples_per_second": 57.179,
+      "eval_steps_per_second": 14.307,
       "step": 3500
     },
     {
       "epoch": 3.650538315389487,
+      "grad_norm": 1.9524105787277222,
       "learning_rate": 1.5056433408577881e-05,
+      "loss": 4.8354,
       "step": 3600
     },
     {
       "epoch": 3.7518682710576314,
+      "grad_norm": 2.0022027492523193,
       "learning_rate": 1.3927765237020315e-05,
+      "loss": 4.8232,
       "step": 3700
     },
     {
       "epoch": 3.853198226725776,
+      "grad_norm": 1.9039005041122437,
       "learning_rate": 1.2799097065462754e-05,
+      "loss": 4.7974,
       "step": 3800
     },
     {
       "epoch": 3.9545281823939202,
+      "grad_norm": 1.902718186378479,
       "learning_rate": 1.1670428893905193e-05,
+      "loss": 4.8301,
       "step": 3900
     },
     {
       "epoch": 4.0567447751741605,
+      "grad_norm": 2.1200180053710938,
       "learning_rate": 1.054176072234763e-05,
+      "loss": 4.8426,
       "step": 4000
     },
     {
       "epoch": 4.0567447751741605,
+      "eval_loss": 4.738107681274414,
+      "eval_runtime": 61.3616,
+      "eval_samples_per_second": 57.186,
+      "eval_steps_per_second": 14.309,
       "step": 4000
     },
     {
       "epoch": 4.158074730842305,
+      "grad_norm": 2.008924961090088,
       "learning_rate": 9.413092550790068e-06,
+      "loss": 4.7473,
       "step": 4100
     },
     {
       "epoch": 4.259404686510449,
+      "grad_norm": 1.881294846534729,
       "learning_rate": 8.284424379232506e-06,
+      "loss": 4.7348,
       "step": 4200
     },
     {
       "epoch": 4.360734642178594,
+      "grad_norm": 1.8294726610183716,
       "learning_rate": 7.155756207674943e-06,
+      "loss": 4.7728,
       "step": 4300
     },
     {
       "epoch": 4.462064597846738,
+      "grad_norm": 1.9369500875473022,
       "learning_rate": 6.0270880361173815e-06,
+      "loss": 4.7811,
       "step": 4400
     },
     {
       "epoch": 4.5633945535148825,
+      "grad_norm": 1.9159400463104248,
       "learning_rate": 4.89841986455982e-06,
+      "loss": 4.7478,
       "step": 4500
     },
     {
       "epoch": 4.5633945535148825,
+      "eval_loss": 4.731945037841797,
+      "eval_runtime": 61.3768,
+      "eval_samples_per_second": 57.171,
+      "eval_steps_per_second": 14.305,
       "step": 4500
     },
     {
       "epoch": 4.664724509183027,
+      "grad_norm": 1.9592151641845703,
       "learning_rate": 3.7697516930022577e-06,
+      "loss": 4.7561,
       "step": 4600
     },
     {
       "epoch": 4.766054464851171,
+      "grad_norm": 1.8825119733810425,
       "learning_rate": 2.6410835214446955e-06,
+      "loss": 4.8118,
       "step": 4700
     },
     {
       "epoch": 4.867384420519316,
+      "grad_norm": 2.025451898574829,
       "learning_rate": 1.5124153498871334e-06,
+      "loss": 4.7582,
       "step": 4800
     },
     {
       "epoch": 4.96871437618746,
+      "grad_norm": 2.0353872776031494,
       "learning_rate": 3.837471783295711e-07,
+      "loss": 4.7274,
       "step": 4900
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 8.1592623788544e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null