End of training

Browse files

Files changed (5) hide show

README.md +2 -1
all_results.json +6 -6
train_results.json +6 -6
trainer_state.json +484 -785
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -4,6 +4,7 @@ license: apache-2.0
 base_model: Qwen/Qwen2.5-32B
 tags:
 - llama-factory
 - generated_from_trainer
 model-index:
 - name: pretrain
@@ -15,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # pretrain
-This model is a fine-tuned version of [Qwen/Qwen2.5-32B](https://huggingface.co/Qwen/Qwen2.5-32B) on an unknown dataset.
 ## Model description

 base_model: Qwen/Qwen2.5-32B
 tags:
 - llama-factory
+- full
 - generated_from_trainer
 model-index:
 - name: pretrain
 # pretrain
+This model is a fine-tuned version of [Qwen/Qwen2.5-32B](https://huggingface.co/Qwen/Qwen2.5-32B) on the openalex dataset.
 ## Model description

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 0.9949787562765546,
-    "total_flos": 1132817220108288.0,
-    "train_loss": 0.578794286858221,
-    "train_runtime": 20320.7913,
-    "train_samples_per_second": 1.019,
-    "train_steps_per_second": 0.008
 }

 {
+    "epoch": 0.9952556668423828,
+    "total_flos": 1660937136242688.0,
+    "train_loss": 1.571211524939133,
+    "train_runtime": 47361.2024,
+    "train_samples_per_second": 0.641,
+    "train_steps_per_second": 0.002
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 0.9949787562765546,
-    "total_flos": 1132817220108288.0,
-    "train_loss": 0.578794286858221,
-    "train_runtime": 20320.7913,
-    "train_samples_per_second": 1.019,
-    "train_steps_per_second": 0.008
 }

 {
+    "epoch": 0.9952556668423828,
+    "total_flos": 1660937136242688.0,
+    "train_loss": 1.571211524939133,
+    "train_runtime": 47361.2024,
+    "train_samples_per_second": 0.641,
+    "train_steps_per_second": 0.002
 }

trainer_state.json CHANGED Viewed

@@ -1,1152 +1,851 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9949787562765546,
   "eval_steps": 500,
-  "global_step": 161,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.013114754098360656,
-      "grad_norm": 0.043162938207387924,
-      "learning_rate": 1.25e-05,
-      "loss": 1.2441,
       "step": 1
     },
     {
-      "epoch": 0.02622950819672131,
-      "grad_norm": 0.043701257556676865,
-      "learning_rate": 2.5e-05,
-      "loss": 1.2477,
       "step": 2
     },
     {
-      "epoch": 0.03934426229508197,
-      "grad_norm": 0.027155233547091484,
-      "learning_rate": 3.7500000000000003e-05,
-      "loss": 1.2284,
       "step": 3
     },
     {
-      "epoch": 0.05245901639344262,
-      "grad_norm": 0.10691457986831665,
-      "learning_rate": 5e-05,
-      "loss": 1.2441,
       "step": 4
     },
     {
-      "epoch": 0.06557377049180328,
-      "grad_norm": 0.09258124232292175,
-      "learning_rate": 6.25e-05,
-      "loss": 1.2181,
       "step": 5
     },
     {
-      "epoch": 0.07868852459016394,
-      "grad_norm": 0.06767486780881882,
-      "learning_rate": 7.500000000000001e-05,
-      "loss": 1.2279,
       "step": 6
     },
     {
-      "epoch": 0.09180327868852459,
-      "grad_norm": 0.1602831929922104,
-      "learning_rate": 8.75e-05,
-      "loss": 1.2553,
       "step": 7
     },
     {
-      "epoch": 0.10491803278688525,
-      "grad_norm": 0.2144620418548584,
-      "learning_rate": 0.0001,
-      "loss": 1.2558,
       "step": 8
     },
     {
-      "epoch": 0.1180327868852459,
-      "grad_norm": 0.06662847101688385,
-      "learning_rate": 9.994664874011863e-05,
-      "loss": 1.2333,
       "step": 9
     },
     {
-      "epoch": 0.13114754098360656,
-      "grad_norm": 0.13297972083091736,
-      "learning_rate": 9.978670881475172e-05,
-      "loss": 1.2274,
       "step": 10
     },
     {
-      "epoch": 0.14426229508196722,
-      "grad_norm": 0.06226632371544838,
-      "learning_rate": 9.952052154376026e-05,
-      "loss": 1.2171,
       "step": 11
     },
     {
-      "epoch": 0.15737704918032788,
-      "grad_norm": 0.05960860103368759,
-      "learning_rate": 9.91486549841951e-05,
-      "loss": 1.2004,
       "step": 12
     },
     {
-      "epoch": 0.17049180327868851,
-      "grad_norm": 0.057807717472314835,
-      "learning_rate": 9.867190271803465e-05,
-      "loss": 1.1961,
       "step": 13
     },
     {
-      "epoch": 0.18360655737704917,
-      "grad_norm": 0.044687915593385696,
-      "learning_rate": 9.809128215864097e-05,
-      "loss": 1.2057,
       "step": 14
     },
     {
-      "epoch": 0.19672131147540983,
-      "grad_norm": 0.042382605373859406,
-      "learning_rate": 9.74080323795483e-05,
-      "loss": 1.2015,
       "step": 15
     },
     {
-      "epoch": 0.2098360655737705,
-      "grad_norm": 0.041327111423015594,
-      "learning_rate": 9.662361147021779e-05,
-      "loss": 1.1922,
       "step": 16
     },
     {
-      "epoch": 0.22295081967213115,
-      "grad_norm": 0.03643479198217392,
-      "learning_rate": 9.573969342440106e-05,
-      "loss": 1.1801,
       "step": 17
     },
     {
-      "epoch": 0.2360655737704918,
-      "grad_norm": 0.03201618418097496,
-      "learning_rate": 9.475816456775313e-05,
-      "loss": 1.1793,
       "step": 18
     },
     {
-      "epoch": 0.24918032786885247,
-      "grad_norm": 0.033190254122018814,
-      "learning_rate": 9.368111953231848e-05,
-      "loss": 1.1727,
       "step": 19
     },
     {
-      "epoch": 0.26229508196721313,
-      "grad_norm": 0.029199425131082535,
-      "learning_rate": 9.251085678648072e-05,
-      "loss": 1.1803,
       "step": 20
     },
     {
-      "epoch": 0.2754098360655738,
-      "grad_norm": 0.019889283925294876,
-      "learning_rate": 9.124987372991511e-05,
-      "loss": 1.1739,
       "step": 21
     },
     {
-      "epoch": 0.28852459016393445,
-      "grad_norm": 0.025394951924681664,
-      "learning_rate": 8.9900861364012e-05,
-      "loss": 1.1824,
       "step": 22
     },
     {
-      "epoch": 0.3016393442622951,
-      "grad_norm": 0.02561134099960327,
-      "learning_rate": 8.846669854914396e-05,
-      "loss": 1.1704,
       "step": 23
     },
     {
-      "epoch": 0.31475409836065577,
-      "grad_norm": 0.020040003582835197,
-      "learning_rate": 8.695044586103296e-05,
-      "loss": 1.1748,
       "step": 24
     },
     {
-      "epoch": 0.32786885245901637,
-      "grad_norm": 0.0246971994638443,
-      "learning_rate": 8.535533905932738e-05,
-      "loss": 1.1726,
       "step": 25
     },
     {
-      "epoch": 0.34098360655737703,
-      "grad_norm": 0.019360244274139404,
-      "learning_rate": 8.368478218232787e-05,
-      "loss": 1.1539,
       "step": 26
     },
     {
-      "epoch": 0.3540983606557377,
-      "grad_norm": 0.021348467096686363,
-      "learning_rate": 8.194234028259806e-05,
-      "loss": 1.1641,
       "step": 27
     },
     {
-      "epoch": 0.36721311475409835,
-      "grad_norm": 0.01926092617213726,
-      "learning_rate": 8.013173181896283e-05,
-      "loss": 1.1548,
       "step": 28
     },
     {
-      "epoch": 0.380327868852459,
-      "grad_norm": 0.018094880506396294,
-      "learning_rate": 7.82568207211296e-05,
-      "loss": 1.1595,
       "step": 29
     },
     {
-      "epoch": 0.39344262295081966,
-      "grad_norm": 0.019909674301743507,
-      "learning_rate": 7.63216081438678e-05,
-      "loss": 1.1488,
       "step": 30
     },
     {
-      "epoch": 0.4065573770491803,
-      "grad_norm": 0.015068020671606064,
-      "learning_rate": 7.433022392834282e-05,
-      "loss": 1.1518,
       "step": 31
     },
     {
-      "epoch": 0.419672131147541,
-      "grad_norm": 0.019493145868182182,
-      "learning_rate": 7.228691778882693e-05,
-      "loss": 1.1643,
       "step": 32
     },
     {
-      "epoch": 0.43278688524590164,
-      "grad_norm": 0.018127303570508957,
-      "learning_rate": 7.019605024359474e-05,
-      "loss": 1.1449,
       "step": 33
     },
     {
-      "epoch": 0.4459016393442623,
-      "grad_norm": 0.015173117630183697,
-      "learning_rate": 6.806208330935766e-05,
-      "loss": 1.1632,
       "step": 34
     },
     {
-      "epoch": 0.45901639344262296,
-      "grad_norm": 0.01737191341817379,
-      "learning_rate": 6.588957097909508e-05,
-      "loss": 1.1618,
       "step": 35
     },
     {
-      "epoch": 0.4721311475409836,
-      "grad_norm": 0.015316477976739407,
-      "learning_rate": 6.368314950360415e-05,
-      "loss": 1.1445,
       "step": 36
     },
     {
-      "epoch": 0.4852459016393443,
-      "grad_norm": 0.015012883581221104,
-      "learning_rate": 6.14475274975067e-05,
-      "loss": 1.1558,
       "step": 37
     },
     {
-      "epoch": 0.49836065573770494,
-      "grad_norm": 0.015383531339466572,
-      "learning_rate": 5.918747589082853e-05,
-      "loss": 1.1331,
       "step": 38
     },
     {
-      "epoch": 0.5114754098360655,
-      "grad_norm": 0.0135785061866045,
-      "learning_rate": 5.6907817747594116e-05,
-      "loss": 1.1423,
       "step": 39
     },
     {
-      "epoch": 0.5245901639344263,
-      "grad_norm": 0.014159608632326126,
-      "learning_rate": 5.4613417973165106e-05,
-      "loss": 1.1343,
       "step": 40
     },
     {
-      "epoch": 0.5377049180327869,
-      "grad_norm": 0.014230456203222275,
-      "learning_rate": 5.230917293228699e-05,
-      "loss": 1.1344,
       "step": 41
     },
     {
-      "epoch": 0.5508196721311476,
-      "grad_norm": 0.014486027881503105,
-      "learning_rate": 5e-05,
-      "loss": 1.1298,
       "step": 42
     },
     {
-      "epoch": 0.5639344262295082,
-      "grad_norm": 0.013846023939549923,
-      "learning_rate": 4.7690827067713035e-05,
-      "loss": 1.144,
       "step": 43
     },
     {
-      "epoch": 0.5770491803278689,
-      "grad_norm": 0.012692565098404884,
-      "learning_rate": 4.5386582026834906e-05,
-      "loss": 1.1317,
       "step": 44
     },
     {
-      "epoch": 0.5901639344262295,
-      "grad_norm": 0.012511651031672955,
-      "learning_rate": 4.30921822524059e-05,
-      "loss": 1.1495,
       "step": 45
     },
     {
-      "epoch": 0.6032786885245902,
-      "grad_norm": 0.012697260826826096,
-      "learning_rate": 4.0812524109171476e-05,
-      "loss": 1.1365,
       "step": 46
     },
     {
-      "epoch": 0.6163934426229508,
-      "grad_norm": 0.013609658926725388,
-      "learning_rate": 3.855247250249331e-05,
-      "loss": 1.1332,
       "step": 47
     },
     {
-      "epoch": 0.6295081967213115,
-      "grad_norm": 0.011829257011413574,
-      "learning_rate": 3.631685049639586e-05,
-      "loss": 1.1266,
       "step": 48
     },
     {
-      "epoch": 0.6426229508196721,
-      "grad_norm": 0.011731350794434547,
-      "learning_rate": 3.411042902090492e-05,
-      "loss": 1.1325,
       "step": 49
     },
     {
-      "epoch": 0.6557377049180327,
-      "grad_norm": 0.011319032870233059,
-      "learning_rate": 3.1937916690642356e-05,
-      "loss": 1.1227,
       "step": 50
     },
     {
-      "epoch": 0.6688524590163935,
-      "grad_norm": 0.012229708954691887,
-      "learning_rate": 2.980394975640526e-05,
-      "loss": 1.1338,
       "step": 51
     },
     {
-      "epoch": 0.6819672131147541,
-      "grad_norm": 0.010175776667892933,
-      "learning_rate": 2.771308221117309e-05,
-      "loss": 1.1144,
       "step": 52
     },
     {
-      "epoch": 0.6950819672131148,
-      "grad_norm": 0.01121637411415577,
-      "learning_rate": 2.5669776071657192e-05,
-      "loss": 1.1253,
       "step": 53
     },
     {
-      "epoch": 0.7081967213114754,
-      "grad_norm": 0.010852695442736149,
-      "learning_rate": 2.3678391856132204e-05,
-      "loss": 1.1344,
       "step": 54
     },
     {
-      "epoch": 0.7213114754098361,
-      "grad_norm": 0.010888871736824512,
-      "learning_rate": 2.1743179278870407e-05,
-      "loss": 1.1342,
       "step": 55
     },
     {
-      "epoch": 0.7344262295081967,
-      "grad_norm": 0.009675499983131886,
-      "learning_rate": 1.9868268181037185e-05,
-      "loss": 1.1233,
       "step": 56
     },
     {
-      "epoch": 0.7475409836065574,
-      "grad_norm": 0.0103612020611763,
-      "learning_rate": 1.8057659717401947e-05,
-      "loss": 1.128,
       "step": 57
     },
     {
-      "epoch": 0.760655737704918,
-      "grad_norm": 0.011313353665173054,
-      "learning_rate": 1.631521781767214e-05,
-      "loss": 1.1127,
       "step": 58
     },
     {
-      "epoch": 0.7737704918032787,
-      "grad_norm": 0.009756634011864662,
-      "learning_rate": 1.4644660940672627e-05,
-      "loss": 1.1207,
       "step": 59
     },
     {
-      "epoch": 0.7868852459016393,
-      "grad_norm": 0.009867743588984013,
-      "learning_rate": 1.3049554138967051e-05,
-      "loss": 1.1154,
       "step": 60
     },
     {
-      "epoch": 0.8,
-      "grad_norm": 0.00982784666121006,
-      "learning_rate": 1.1533301450856054e-05,
-      "loss": 1.1272,
       "step": 61
     },
     {
-      "epoch": 0.8131147540983606,
-      "grad_norm": 0.00951016042381525,
-      "learning_rate": 1.0099138635988026e-05,
-      "loss": 1.1139,
       "step": 62
     },
     {
-      "epoch": 0.8262295081967214,
-      "grad_norm": 0.010089361108839512,
-      "learning_rate": 8.75012627008489e-06,
-      "loss": 1.1304,
       "step": 63
     },
     {
-      "epoch": 0.839344262295082,
-      "grad_norm": 0.010168294422328472,
-      "learning_rate": 7.489143213519301e-06,
-      "loss": 1.109,
       "step": 64
     },
     {
-      "epoch": 0.8524590163934426,
-      "grad_norm": 0.010138073936104774,
-      "learning_rate": 6.318880467681526e-06,
-      "loss": 1.1259,
       "step": 65
     },
     {
-      "epoch": 0.8655737704918033,
-      "grad_norm": 0.009661810472607613,
-      "learning_rate": 5.241835432246889e-06,
-      "loss": 1.1184,
       "step": 66
     },
     {
-      "epoch": 0.8786885245901639,
-      "grad_norm": 0.009376097470521927,
-      "learning_rate": 4.260306575598949e-06,
-      "loss": 1.1214,
       "step": 67
     },
     {
-      "epoch": 0.8918032786885246,
-      "grad_norm": 0.009214168414473534,
-      "learning_rate": 3.376388529782215e-06,
-      "loss": 1.109,
       "step": 68
     },
     {
-      "epoch": 0.9049180327868852,
-      "grad_norm": 0.009044879116117954,
-      "learning_rate": 2.591967620451707e-06,
-      "loss": 1.1116,
       "step": 69
     },
     {
-      "epoch": 0.9180327868852459,
-      "grad_norm": 0.009314059279859066,
-      "learning_rate": 1.908717841359048e-06,
-      "loss": 1.1278,
       "step": 70
     },
     {
-      "epoch": 0.9311475409836065,
-      "grad_norm": 0.009015677496790886,
-      "learning_rate": 1.328097281965357e-06,
-      "loss": 1.1211,
       "step": 71
     },
     {
-      "epoch": 0.9442622950819672,
-      "grad_norm": 0.009113411419093609,
-      "learning_rate": 8.513450158049108e-07,
-      "loss": 1.1148,
       "step": 72
     },
     {
-      "epoch": 0.9573770491803278,
-      "grad_norm": 0.008978264406323433,
-      "learning_rate": 4.794784562397458e-07,
-      "loss": 1.1207,
       "step": 73
     },
     {
-      "epoch": 0.9704918032786886,
-      "grad_norm": 0.008966252207756042,
-      "learning_rate": 2.1329118524827662e-07,
-      "loss": 1.1231,
       "step": 74
     },
     {
-      "epoch": 0.9836065573770492,
-      "grad_norm": 0.00909092091023922,
-      "learning_rate": 5.3351259881379014e-08,
-      "loss": 1.1078,
       "step": 75
     },
     {
-      "epoch": 0.9967213114754099,
-      "grad_norm": 0.00918254442512989,
-      "learning_rate": 0.0,
-      "loss": 1.1241,
       "step": 76
     },
     {
-      "epoch": 0.47585940517574354,
-      "grad_norm": 0.00927089061588049,
-      "learning_rate": 6.294095225512603e-05,
-      "loss": 1.0998,
       "step": 77
     },
     {
-      "epoch": 0.4820393974507532,
-      "grad_norm": 0.009278366342186928,
-      "learning_rate": 6.188429461630866e-05,
-      "loss": 1.0809,
       "step": 78
     },
     {
-      "epoch": 0.48821938972576284,
-      "grad_norm": 0.009307453408837318,
-      "learning_rate": 6.0821980696905146e-05,
-      "loss": 1.1079,
       "step": 79
     },
     {
-      "epoch": 0.4943993820007725,
-      "grad_norm": 0.008874714374542236,
-      "learning_rate": 5.9754516100806423e-05,
-      "loss": 1.0846,
       "step": 80
     },
     {
-      "epoch": 0.5005793742757821,
-      "grad_norm": 0.00868895836174488,
-      "learning_rate": 5.868240888334653e-05,
-      "loss": 1.0991,
       "step": 81
     },
     {
-      "epoch": 0.5067593665507918,
-      "grad_norm": 0.008949129842221737,
-      "learning_rate": 5.7606169309495836e-05,
-      "loss": 1.107,
       "step": 82
     },
     {
-      "epoch": 0.5129393588258014,
-      "grad_norm": 0.009207559749484062,
-      "learning_rate": 5.6526309611002594e-05,
-      "loss": 1.1034,
       "step": 83
     },
     {
-      "epoch": 0.5191193511008111,
-      "grad_norm": 0.009371085092425346,
-      "learning_rate": 5.544334374259823e-05,
-      "loss": 1.0936,
       "step": 84
     },
     {
-      "epoch": 0.5252993433758207,
-      "grad_norm": 0.009222784079611301,
-      "learning_rate": 5.435778713738292e-05,
-      "loss": 1.0909,
       "step": 85
     },
     {
-      "epoch": 0.5314793356508304,
-      "grad_norm": 0.00895879790186882,
-      "learning_rate": 5.327015646150716e-05,
-      "loss": 1.0871,
       "step": 86
     },
     {
-      "epoch": 0.5376593279258401,
-      "grad_norm": 0.008927428163588047,
-      "learning_rate": 5.218096936826681e-05,
-      "loss": 1.0917,
       "step": 87
     },
     {
-      "epoch": 0.5438393202008498,
-      "grad_norm": 0.00859418697655201,
-      "learning_rate": 5.1090744251728064e-05,
-      "loss": 1.1013,
       "step": 88
     },
     {
-      "epoch": 0.5500193124758594,
-      "grad_norm": 0.009128894656896591,
-      "learning_rate": 5e-05,
-      "loss": 1.0948,
       "step": 89
     },
     {
-      "epoch": 0.5561993047508691,
-      "grad_norm": 0.008752775378525257,
-      "learning_rate": 4.890925574827195e-05,
-      "loss": 1.103,
       "step": 90
     },
     {
-      "epoch": 0.5623792970258787,
-      "grad_norm": 0.009119733236730099,
-      "learning_rate": 4.781903063173321e-05,
-      "loss": 1.0858,
       "step": 91
     },
     {
-      "epoch": 0.5685592893008884,
-      "grad_norm": 0.009288666769862175,
-      "learning_rate": 4.6729843538492847e-05,
-      "loss": 1.0867,
       "step": 92
     },
     {
-      "epoch": 0.574739281575898,
-      "grad_norm": 0.0089786471799016,
-      "learning_rate": 4.564221286261709e-05,
-      "loss": 1.0861,
       "step": 93
     },
     {
-      "epoch": 0.5809192738509077,
-      "grad_norm": 0.008815642446279526,
-      "learning_rate": 4.4556656257401786e-05,
-      "loss": 1.0981,
       "step": 94
     },
     {
-      "epoch": 0.5870992661259173,
-      "grad_norm": 0.00881979987025261,
-      "learning_rate": 4.347369038899744e-05,
-      "loss": 1.1144,
       "step": 95
     },
     {
-      "epoch": 0.593279258400927,
-      "grad_norm": 0.009116360917687416,
-      "learning_rate": 4.239383069050417e-05,
-      "loss": 1.1074,
       "step": 96
     },
     {
-      "epoch": 0.5994592506759366,
-      "grad_norm": 0.008931254036724567,
-      "learning_rate": 4.131759111665349e-05,
-      "loss": 1.1069,
       "step": 97
     },
     {
-      "epoch": 0.6056392429509463,
-      "grad_norm": 0.00889168307185173,
-      "learning_rate": 4.0245483899193595e-05,
-      "loss": 1.1113,
       "step": 98
     },
     {
-      "epoch": 0.6118192352259559,
-      "grad_norm": 0.008884157054126263,
-      "learning_rate": 3.917801930309486e-05,
-      "loss": 1.0798,
       "step": 99
     },
     {
-      "epoch": 0.6179992275009656,
-      "grad_norm": 0.008808060549199581,
-      "learning_rate": 3.8115705383691355e-05,
-      "loss": 1.0835,
       "step": 100
     },
     {
-      "epoch": 0.6241792197759752,
-      "grad_norm": 0.009600223042070866,
-      "learning_rate": 3.705904774487396e-05,
-      "loss": 1.0937,
       "step": 101
     },
     {
-      "epoch": 0.6303592120509849,
-      "grad_norm": 0.009098890237510204,
-      "learning_rate": 3.60085492984504e-05,
-      "loss": 1.1008,
       "step": 102
     },
     {
-      "epoch": 0.6365392043259946,
-      "grad_norm": 0.009177979081869125,
-      "learning_rate": 3.4964710024786354e-05,
-      "loss": 1.096,
       "step": 103
     },
     {
-      "epoch": 0.6427191966010043,
-      "grad_norm": 0.008857106789946556,
-      "learning_rate": 3.392802673484193e-05,
-      "loss": 1.0815,
       "step": 104
     },
     {
-      "epoch": 0.6488991888760139,
-      "grad_norm": 0.009007126092910767,
-      "learning_rate": 3.289899283371657e-05,
-      "loss": 1.091,
       "step": 105
     },
     {
-      "epoch": 0.6550791811510236,
-      "grad_norm": 0.009332729503512383,
-      "learning_rate": 3.1878098085814924e-05,
-      "loss": 1.0834,
       "step": 106
     },
     {
-      "epoch": 0.6612591734260332,
-      "grad_norm": 0.009046237915754318,
-      "learning_rate": 3.086582838174551e-05,
-      "loss": 1.0844,
       "step": 107
     },
     {
-      "epoch": 0.6674391657010429,
-      "grad_norm": 0.008926077745854855,
-      "learning_rate": 2.9862665507063147e-05,
-      "loss": 1.0649,
       "step": 108
     },
     {
-      "epoch": 0.6736191579760525,
-      "grad_norm": 0.00914798304438591,
-      "learning_rate": 2.886908691296504e-05,
-      "loss": 1.0912,
       "step": 109
     },
     {
-      "epoch": 0.6797991502510622,
-      "grad_norm": 0.008840657770633698,
-      "learning_rate": 2.7885565489049946e-05,
-      "loss": 1.085,
       "step": 110
     },
     {
-      "epoch": 0.6859791425260718,
-      "grad_norm": 0.009009969420731068,
-      "learning_rate": 2.6912569338248315e-05,
-      "loss": 1.0945,
       "step": 111
     },
     {
-      "epoch": 0.6921591348010815,
-      "grad_norm": 0.008585930801928043,
-      "learning_rate": 2.595056155403063e-05,
-      "loss": 1.0973,
       "step": 112
     },
     {
-      "epoch": 0.6983391270760911,
-      "grad_norm": 0.009383322671055794,
-      "learning_rate": 2.500000000000001e-05,
-      "loss": 1.0918,
       "step": 113
     },
     {
-      "epoch": 0.7045191193511008,
-      "grad_norm": 0.009045167826116085,
-      "learning_rate": 2.4061337091973918e-05,
-      "loss": 1.1037,
       "step": 114
     },
     {
-      "epoch": 0.7106991116261104,
-      "grad_norm": 0.009319834411144257,
-      "learning_rate": 2.3135019582658802e-05,
-      "loss": 1.1059,
       "step": 115
     },
     {
-      "epoch": 0.7168791039011201,
-      "grad_norm": 0.008737134747207165,
-      "learning_rate": 2.2221488349019903e-05,
-      "loss": 1.0922,
       "step": 116
     },
     {
-      "epoch": 0.7230590961761297,
-      "grad_norm": 0.009303976781666279,
-      "learning_rate": 2.132117818244771e-05,
-      "loss": 1.0925,
       "step": 117
     },
     {
-      "epoch": 0.7292390884511394,
-      "grad_norm": 0.009160283021628857,
-      "learning_rate": 2.0434517581820896e-05,
-      "loss": 1.1057,
-      "step": 118
-    },
-    {
-      "epoch": 0.7354190807261491,
-      "grad_norm": 0.009896110743284225,
-      "learning_rate": 1.9561928549563968e-05,
-      "loss": 1.1058,
-      "step": 119
-    },
-    {
-      "epoch": 0.7415990730011588,
-      "grad_norm": 0.008766653947532177,
-      "learning_rate": 1.8703826390797048e-05,
-      "loss": 1.0959,
-      "step": 120
-    },
-    {
-      "epoch": 0.7477790652761684,
-      "grad_norm": 0.008967863395810127,
-      "learning_rate": 1.7860619515673033e-05,
-      "loss": 1.1026,
-      "step": 121
-    },
-    {
-      "epoch": 0.7539590575511781,
-      "grad_norm": 0.009152066893875599,
-      "learning_rate": 1.703270924499656e-05,
-      "loss": 1.0926,
-      "step": 122
-    },
-    {
-      "epoch": 0.7601390498261877,
-      "grad_norm": 0.008764652535319328,
-      "learning_rate": 1.622048961921699e-05,
-      "loss": 1.0756,
-      "step": 123
-    },
-    {
-      "epoch": 0.7663190421011974,
-      "grad_norm": 0.009184801019728184,
-      "learning_rate": 1.5424347210886538e-05,
-      "loss": 1.1013,
-      "step": 124
-    },
-    {
-      "epoch": 0.772499034376207,
-      "grad_norm": 0.009281960316002369,
-      "learning_rate": 1.4644660940672627e-05,
-      "loss": 1.1041,
-      "step": 125
-    },
-    {
-      "epoch": 0.7786790266512167,
-      "grad_norm": 0.009053783491253853,
-      "learning_rate": 1.3881801897012225e-05,
-      "loss": 1.1018,
-      "step": 126
-    },
-    {
-      "epoch": 0.7848590189262263,
-      "grad_norm": 0.008994681760668755,
-      "learning_rate": 1.3136133159493802e-05,
-      "loss": 1.0951,
-      "step": 127
-    },
-    {
-      "epoch": 0.791039011201236,
-      "grad_norm": 0.008957086130976677,
-      "learning_rate": 1.2408009626051137e-05,
-      "loss": 1.0848,
-      "step": 128
-    },
-    {
-      "epoch": 0.7972190034762456,
-      "grad_norm": 0.008901839144527912,
-      "learning_rate": 1.1697777844051105e-05,
-      "loss": 1.0876,
-      "step": 129
-    },
-    {
-      "epoch": 0.8033989957512553,
-      "grad_norm": 0.009184077382087708,
-      "learning_rate": 1.100577584535592e-05,
-      "loss": 1.0919,
-      "step": 130
-    },
-    {
-      "epoch": 0.8095789880262649,
-      "grad_norm": 0.008814208209514618,
-      "learning_rate": 1.0332332985438248e-05,
-      "loss": 1.092,
-      "step": 131
-    },
-    {
-      "epoch": 0.8157589803012746,
-      "grad_norm": 0.009356915950775146,
-      "learning_rate": 9.677769786625867e-06,
-      "loss": 1.092,
-      "step": 132
-    },
-    {
-      "epoch": 0.8219389725762842,
-      "grad_norm": 0.009066778235137463,
-      "learning_rate": 9.042397785550405e-06,
-      "loss": 1.1062,
-      "step": 133
-    },
-    {
-      "epoch": 0.8281189648512939,
-      "grad_norm": 0.009054549038410187,
-      "learning_rate": 8.426519384872733e-06,
-      "loss": 1.0959,
-      "step": 134
-    },
-    {
-      "epoch": 0.8342989571263036,
-      "grad_norm": 0.009238997474312782,
-      "learning_rate": 7.830427709355725e-06,
-      "loss": 1.1261,
-      "step": 135
-    },
-    {
-      "epoch": 0.8404789494013133,
-      "grad_norm": 0.009531921707093716,
-      "learning_rate": 7.2544064663526815e-06,
-      "loss": 1.1119,
-      "step": 136
-    },
-    {
-      "epoch": 0.8466589416763229,
-      "grad_norm": 0.008905571885406971,
-      "learning_rate": 6.698729810778065e-06,
-      "loss": 1.0965,
-      "step": 137
-    },
-    {
-      "epoch": 0.8528389339513326,
-      "grad_norm": 0.008772294037044048,
-      "learning_rate": 6.163662214624616e-06,
-      "loss": 1.0972,
-      "step": 138
-    },
-    {
-      "epoch": 0.8590189262263422,
-      "grad_norm": 0.008754718117415905,
-      "learning_rate": 5.649458341088915e-06,
-      "loss": 1.0918,
-      "step": 139
-    },
-    {
-      "epoch": 0.8651989185013519,
-      "grad_norm": 0.008972358889877796,
-      "learning_rate": 5.156362923365588e-06,
-      "loss": 1.1049,
-      "step": 140
-    },
-    {
-      "epoch": 0.8713789107763615,
-      "grad_norm": 0.00903693214058876,
-      "learning_rate": 4.684610648167503e-06,
-      "loss": 1.0926,
-      "step": 141
-    },
-    {
-      "epoch": 0.8775589030513712,
-      "grad_norm": 0.009000574238598347,
-      "learning_rate": 4.234426044027645e-06,
-      "loss": 1.1078,
-      "step": 142
-    },
-    {
-      "epoch": 0.8837388953263808,
-      "grad_norm": 0.009073416702449322,
-      "learning_rate": 3.8060233744356633e-06,
-      "loss": 1.111,
-      "step": 143
-    },
-    {
-      "epoch": 0.8899188876013905,
-      "grad_norm": 0.009199617430567741,
-      "learning_rate": 3.3996065358600782e-06,
-      "loss": 1.0996,
-      "step": 144
-    },
-    {
-      "epoch": 0.8960988798764001,
-      "grad_norm": 0.009446380659937859,
-      "learning_rate": 3.0153689607045845e-06,
-      "loss": 1.0956,
-      "step": 145
-    },
-    {
-      "epoch": 0.9022788721514098,
-      "grad_norm": 0.00881500355899334,
-      "learning_rate": 2.653493525244721e-06,
-      "loss": 1.0953,
-      "step": 146
-    },
-    {
-      "epoch": 0.9084588644264194,
-      "grad_norm": 0.009240192361176014,
-      "learning_rate": 2.314152462588659e-06,
-      "loss": 1.1046,
-      "step": 147
-    },
-    {
-      "epoch": 0.9146388567014291,
-      "grad_norm": 0.009173831902444363,
-      "learning_rate": 1.99750728070357e-06,
-      "loss": 1.097,
-      "step": 148
-    },
-    {
-      "epoch": 0.9208188489764387,
-      "grad_norm": 0.009656915441155434,
-      "learning_rate": 1.70370868554659e-06,
-      "loss": 1.0777,
-      "step": 149
-    },
-    {
-      "epoch": 0.9269988412514485,
-      "grad_norm": 0.008921938017010689,
-      "learning_rate": 1.4328965093369283e-06,
-      "loss": 1.0916,
-      "step": 150
-    },
-    {
-      "epoch": 0.9331788335264581,
-      "grad_norm": 0.009205098263919353,
-      "learning_rate": 1.1851996440033319e-06,
-      "loss": 1.1057,
-      "step": 151
-    },
-    {
-      "epoch": 0.9393588258014678,
-      "grad_norm": 0.008920296095311642,
-      "learning_rate": 9.607359798384785e-07,
-      "loss": 1.0906,
-      "step": 152
-    },
-    {
-      "epoch": 0.9455388180764774,
-      "grad_norm": 0.009275338612496853,
-      "learning_rate": 7.596123493895991e-07,
-      "loss": 1.1111,
-      "step": 153
-    },
-    {
-      "epoch": 0.9517188103514871,
-      "grad_norm": 0.008771958760917187,
-      "learning_rate": 5.81924476611967e-07,
-      "loss": 1.1001,
-      "step": 154
-    },
-    {
-      "epoch": 0.9578988026264967,
-      "grad_norm": 0.009109330363571644,
-      "learning_rate": 4.277569313094809e-07,
-      "loss": 1.0804,
-      "step": 155
-    },
-    {
-      "epoch": 0.9640787949015064,
-      "grad_norm": 0.009273674339056015,
-      "learning_rate": 2.971830888840177e-07,
-      "loss": 1.0919,
-      "step": 156
-    },
-    {
-      "epoch": 0.970258787176516,
-      "grad_norm": 0.008920193649828434,
-      "learning_rate": 1.9026509541272275e-07,
-      "loss": 1.0908,
-      "step": 157
-    },
-    {
-      "epoch": 0.9764387794515257,
-      "grad_norm": 0.008690367452800274,
-      "learning_rate": 1.0705383806982606e-07,
-      "loss": 1.1054,
-      "step": 158
-    },
-    {
-      "epoch": 0.9826187717265353,
-      "grad_norm": 0.009283354505896568,
-      "learning_rate": 4.7588920907110094e-08,
-      "loss": 1.1086,
-      "step": 159
-    },
-    {
-      "epoch": 0.988798764001545,
-      "grad_norm": 0.009044487960636616,
-      "learning_rate": 1.189864600454338e-08,
-      "loss": 1.117,
-      "step": 160
-    },
-    {
-      "epoch": 0.9949787562765546,
-      "grad_norm": 0.009743698872625828,
       "learning_rate": 0.0,
-      "loss": 1.0973,
-      "step": 161
     },
     {
-      "epoch": 0.9949787562765546,
-      "step": 161,
-      "total_flos": 1132817220108288.0,
-      "train_loss": 0.578794286858221,
-      "train_runtime": 20320.7913,
-      "train_samples_per_second": 1.019,
-      "train_steps_per_second": 0.008
     }
   ],
   "logging_steps": 1,
-  "max_steps": 161,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
@@ -1162,8 +861,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 1132817220108288.0,
-  "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9952556668423828,
   "eval_steps": 500,
+  "global_step": 118,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.008434370057986295,
+      "grad_norm": 0.08799133449792862,
+      "learning_rate": 4.9999999999999996e-06,
+      "loss": 1.6351,
       "step": 1
     },
     {
+      "epoch": 0.01686874011597259,
+      "grad_norm": 0.08821269869804382,
+      "learning_rate": 9.999999999999999e-06,
+      "loss": 1.6405,
       "step": 2
     },
     {
+      "epoch": 0.025303110173958882,
+      "grad_norm": 0.028541648760437965,
+      "learning_rate": 1.5e-05,
+      "loss": 1.6264,
       "step": 3
     },
     {
+      "epoch": 0.03373748023194518,
+      "grad_norm": 0.016522206366062164,
+      "learning_rate": 1.9999999999999998e-05,
+      "loss": 1.6233,
       "step": 4
     },
     {
+      "epoch": 0.04217185028993147,
+      "grad_norm": 0.054906539618968964,
+      "learning_rate": 2.5e-05,
+      "loss": 1.62,
       "step": 5
     },
     {
+      "epoch": 0.050606220347917764,
+      "grad_norm": 0.0514790378510952,
+      "learning_rate": 3e-05,
+      "loss": 1.6134,
       "step": 6
     },
     {
+      "epoch": 0.05904059040590406,
+      "grad_norm": 0.04156072437763214,
+      "learning_rate": 3.5000000000000004e-05,
+      "loss": 1.6169,
       "step": 7
     },
     {
+      "epoch": 0.06747496046389036,
+      "grad_norm": 0.05689298361539841,
+      "learning_rate": 3.9999999999999996e-05,
+      "loss": 1.6143,
       "step": 8
     },
     {
+      "epoch": 0.07590933052187665,
+      "grad_norm": 0.041525840759277344,
+      "learning_rate": 4.5e-05,
+      "loss": 1.6104,
       "step": 9
     },
     {
+      "epoch": 0.08434370057986294,
+      "grad_norm": 0.031016899272799492,
+      "learning_rate": 5e-05,
+      "loss": 1.6028,
       "step": 10
     },
     {
+      "epoch": 0.09277807063784924,
+      "grad_norm": 0.03775344789028168,
+      "learning_rate": 5.5e-05,
+      "loss": 1.5949,
       "step": 11
     },
     {
+      "epoch": 0.10121244069583553,
+      "grad_norm": 0.027061201632022858,
+      "learning_rate": 6e-05,
+      "loss": 1.5966,
       "step": 12
     },
     {
+      "epoch": 0.10964681075382182,
+      "grad_norm": 0.03555454686284065,
+      "learning_rate": 5.998682509526384e-05,
+      "loss": 1.601,
       "step": 13
     },
     {
+      "epoch": 0.11808118081180811,
+      "grad_norm": 0.038648299872875214,
+      "learning_rate": 5.994731195292965e-05,
+      "loss": 1.6015,
       "step": 14
     },
     {
+      "epoch": 0.1265155508697944,
+      "grad_norm": 0.03883035108447075,
+      "learning_rate": 5.988149527845651e-05,
+      "loss": 1.5992,
       "step": 15
     },
     {
+      "epoch": 0.13494992092778071,
+      "grad_norm": 0.03391977399587631,
+      "learning_rate": 5.978943288040551e-05,
+      "loss": 1.5932,
       "step": 16
     },
     {
+      "epoch": 0.143384290985767,
+      "grad_norm": 0.0362255796790123,
+      "learning_rate": 5.967120561966492e-05,
+      "loss": 1.5873,
       "step": 17
     },
     {
+      "epoch": 0.1518186610437533,
+      "grad_norm": 0.027403229847550392,
+      "learning_rate": 5.952691733842791e-05,
+      "loss": 1.5845,
       "step": 18
     },
     {
+      "epoch": 0.16025303110173958,
+      "grad_norm": 0.02821512520313263,
+      "learning_rate": 5.935669476898512e-05,
+      "loss": 1.5942,
       "step": 19
     },
     {
+      "epoch": 0.16868740115972589,
+      "grad_norm": 0.022913869470357895,
+      "learning_rate": 5.9160687422412324e-05,
+      "loss": 1.5976,
       "step": 20
     },
     {
+      "epoch": 0.17712177121771217,
+      "grad_norm": 0.02420000359416008,
+      "learning_rate": 5.893906745725076e-05,
+      "loss": 1.5862,
       "step": 21
     },
     {
+      "epoch": 0.18555614127569847,
+      "grad_norm": 0.021311871707439423,
+      "learning_rate": 5.8692029528295675e-05,
+      "loss": 1.5877,
       "step": 22
     },
     {
+      "epoch": 0.19399051133368478,
+      "grad_norm": 0.024183662608265877,
+      "learning_rate": 5.841979061562574e-05,
+      "loss": 1.584,
       "step": 23
     },
     {
+      "epoch": 0.20242488139167106,
+      "grad_norm": 0.02072131633758545,
+      "learning_rate": 5.8122589834023634e-05,
+      "loss": 1.5841,
       "step": 24
     },
     {
+      "epoch": 0.21085925144965736,
+      "grad_norm": 0.023273587226867676,
+      "learning_rate": 5.7800688222955e-05,
+      "loss": 1.5845,
       "step": 25
     },
     {
+      "epoch": 0.21929362150764364,
+      "grad_norm": 0.0180776659399271,
+      "learning_rate": 5.745436851729055e-05,
+      "loss": 1.594,
       "step": 26
     },
     {
+      "epoch": 0.22772799156562995,
+      "grad_norm": 0.018995055928826332,
+      "learning_rate": 5.708393489897231e-05,
+      "loss": 1.5903,
       "step": 27
     },
     {
+      "epoch": 0.23616236162361623,
+      "grad_norm": 0.017286648973822594,
+      "learning_rate": 5.668971272984242e-05,
+      "loss": 1.5804,
       "step": 28
     },
     {
+      "epoch": 0.24459673168160254,
+      "grad_norm": 0.018625088036060333,
+      "learning_rate": 5.6272048265869104e-05,
+      "loss": 1.5798,
       "step": 29
     },
     {
+      "epoch": 0.2530311017395888,
+      "grad_norm": 0.017109202221035957,
+      "learning_rate": 5.583130835302066e-05,
+      "loss": 1.5848,
       "step": 30
     },
     {
+      "epoch": 0.2614654717975751,
+      "grad_norm": 0.017000902444124222,
+      "learning_rate": 5.536788010505478e-05,
+      "loss": 1.5751,
       "step": 31
     },
     {
+      "epoch": 0.26989984185556143,
+      "grad_norm": 0.018897738307714462,
+      "learning_rate": 5.4882170563506055e-05,
+      "loss": 1.5799,
       "step": 32
     },
     {
+      "epoch": 0.2783342119135477,
+      "grad_norm": 0.017153726890683174,
+      "learning_rate": 5.437460634017044e-05,
+      "loss": 1.5758,
       "step": 33
     },
     {
+      "epoch": 0.286768581971534,
+      "grad_norm": 0.020006069913506508,
+      "learning_rate": 5.3845633242400604e-05,
+      "loss": 1.5774,
       "step": 34
     },
     {
+      "epoch": 0.2952029520295203,
+      "grad_norm": 0.016250574961304665,
+      "learning_rate": 5.329571588154127e-05,
+      "loss": 1.5748,
       "step": 35
     },
     {
+      "epoch": 0.3036373220875066,
+      "grad_norm": 0.019675249233841896,
+      "learning_rate": 5.2725337264848605e-05,
+      "loss": 1.5772,
       "step": 36
     },
     {
+      "epoch": 0.3120716921454929,
+      "grad_norm": 0.017005721107125282,
+      "learning_rate": 5.213499837125182e-05,
+      "loss": 1.5697,
       "step": 37
     },
     {
+      "epoch": 0.32050606220347916,
+      "grad_norm": 0.01664470136165619,
+      "learning_rate": 5.152521771132993e-05,
+      "loss": 1.5761,
       "step": 38
     },
     {
+      "epoch": 0.32894043226146547,
+      "grad_norm": 0.01764543540775776,
+      "learning_rate": 5.0896530871889914e-05,
+      "loss": 1.5793,
       "step": 39
     },
     {
+      "epoch": 0.33737480231945177,
+      "grad_norm": 0.016753442585468292,
+      "learning_rate": 5.024949004554632e-05,
+      "loss": 1.5658,
       "step": 40
     },
     {
+      "epoch": 0.3458091723774381,
+      "grad_norm": 0.019939422607421875,
+      "learning_rate": 4.958466354571565e-05,
+      "loss": 1.5762,
       "step": 41
     },
     {
+      "epoch": 0.35424354243542433,
+      "grad_norm": 0.01566561497747898,
+      "learning_rate": 4.890263530745134e-05,
+      "loss": 1.5703,
       "step": 42
     },
     {
+      "epoch": 0.36267791249341064,
+      "grad_norm": 0.015579808503389359,
+      "learning_rate": 4.8204004374557806e-05,
+      "loss": 1.577,
       "step": 43
     },
     {
+      "epoch": 0.37111228255139694,
+      "grad_norm": 0.016742996871471405,
+      "learning_rate": 4.748938437343416e-05,
+      "loss": 1.5726,
       "step": 44
     },
     {
+      "epoch": 0.37954665260938325,
+      "grad_norm": 0.017128925770521164,
+      "learning_rate": 4.675940297410958e-05,
+      "loss": 1.579,
       "step": 45
     },
     {
+      "epoch": 0.38798102266736956,
+      "grad_norm": 0.015266829170286655,
+      "learning_rate": 4.601470133894373e-05,
+      "loss": 1.5611,
       "step": 46
     },
     {
+      "epoch": 0.3964153927253558,
+      "grad_norm": 0.014922689646482468,
+      "learning_rate": 4.525593355947662e-05,
+      "loss": 1.5725,
       "step": 47
     },
     {
+      "epoch": 0.4048497627833421,
+      "grad_norm": 0.01651890017092228,
+      "learning_rate": 4.448376608192235e-05,
+      "loss": 1.5679,
       "step": 48
     },
     {
+      "epoch": 0.4132841328413284,
+      "grad_norm": 0.013002808205783367,
+      "learning_rate": 4.3698877121811395e-05,
+      "loss": 1.5712,
       "step": 49
     },
     {
+      "epoch": 0.42171850289931473,
+      "grad_norm": 0.013684232719242573,
+      "learning_rate": 4.290195606829562e-05,
+      "loss": 1.5683,
       "step": 50
     },
     {
+      "epoch": 0.430152872957301,
+      "grad_norm": 0.01470887940376997,
+      "learning_rate": 4.2093702878639174e-05,
+      "loss": 1.5784,
       "step": 51
     },
     {
+      "epoch": 0.4385872430152873,
+      "grad_norm": 0.013774153776466846,
+      "learning_rate": 4.127482746342714e-05,
+      "loss": 1.5648,
       "step": 52
     },
     {
+      "epoch": 0.4470216130732736,
+      "grad_norm": 0.01601037010550499,
+      "learning_rate": 4.044604906303197e-05,
+      "loss": 1.5671,
       "step": 53
     },
     {
+      "epoch": 0.4554559831312599,
+      "grad_norm": 0.013479109853506088,
+      "learning_rate": 3.960809561588513e-05,
+      "loss": 1.5759,
       "step": 54
     },
     {
+      "epoch": 0.46389035318924615,
+      "grad_norm": 0.01525378692895174,
+      "learning_rate": 3.876170311910928e-05,
+      "loss": 1.5672,
       "step": 55
     },
     {
+      "epoch": 0.47232472324723246,
+      "grad_norm": 0.013126607052981853,
+      "learning_rate": 3.790761498207203e-05,
+      "loss": 1.5744,
       "step": 56
     },
     {
+      "epoch": 0.48075909330521877,
+      "grad_norm": 0.013218970037996769,
+      "learning_rate": 3.704658137342952e-05,
+      "loss": 1.5688,
       "step": 57
     },
     {
+      "epoch": 0.48919346336320507,
+      "grad_norm": 0.014142030850052834,
+      "learning_rate": 3.617935856223295e-05,
+      "loss": 1.5742,
       "step": 58
     },
     {
+      "epoch": 0.4976278334211914,
+      "grad_norm": 0.013189482502639294,
+      "learning_rate": 3.5306708253677186e-05,
+      "loss": 1.5615,
       "step": 59
     },
     {
+      "epoch": 0.5060622034791776,
+      "grad_norm": 0.014055909588932991,
+      "learning_rate": 3.442939692007444e-05,
+      "loss": 1.5456,
       "step": 60
     },
     {
+      "epoch": 0.5144965735371639,
+      "grad_norm": 0.011999402195215225,
+      "learning_rate": 3.354819512764097e-05,
+      "loss": 1.5579,
       "step": 61
     },
     {
+      "epoch": 0.5229309435951502,
+      "grad_norm": 0.015170286409556866,
+      "learning_rate": 3.2663876859688045e-05,
+      "loss": 1.5606,
       "step": 62
     },
     {
+      "epoch": 0.5313653136531366,
+      "grad_norm": 0.013461374677717686,
+      "learning_rate": 3.177721883681143e-05,
+      "loss": 1.5631,
       "step": 63
     },
     {
+      "epoch": 0.5397996837111229,
+      "grad_norm": 0.014450161717832088,
+      "learning_rate": 3.0888999834676796e-05,
+      "loss": 1.5606,
       "step": 64
     },
     {
+      "epoch": 0.5482340537691092,
+      "grad_norm": 0.014033439569175243,
+      "learning_rate": 3e-05,
+      "loss": 1.5638,
       "step": 65
     },
     {
+      "epoch": 0.5566684238270954,
+      "grad_norm": 0.014029957354068756,
+      "learning_rate": 2.9111000165323206e-05,
+      "loss": 1.5656,
       "step": 66
     },
     {
+      "epoch": 0.5651027938850817,
+      "grad_norm": 0.016938265413045883,
+      "learning_rate": 2.8222781163188573e-05,
+      "loss": 1.5595,
       "step": 67
     },
     {
+      "epoch": 0.573537163943068,
+      "grad_norm": 0.014442404732108116,
+      "learning_rate": 2.7336123140311957e-05,
+      "loss": 1.5627,
       "step": 68
     },
     {
+      "epoch": 0.5819715340010543,
+      "grad_norm": 0.015609300695359707,
+      "learning_rate": 2.645180487235903e-05,
+      "loss": 1.5707,
       "step": 69
     },
     {
+      "epoch": 0.5904059040590406,
+      "grad_norm": 0.014037694782018661,
+      "learning_rate": 2.557060307992557e-05,
+      "loss": 1.5635,
       "step": 70
     },
     {
+      "epoch": 0.5988402741170269,
+      "grad_norm": 0.013035484589636326,
+      "learning_rate": 2.469329174632282e-05,
+      "loss": 1.5635,
       "step": 71
     },
     {
+      "epoch": 0.6072746441750132,
+      "grad_norm": 0.013149570673704147,
+      "learning_rate": 2.3820641437767053e-05,
+      "loss": 1.5607,
       "step": 72
     },
     {
+      "epoch": 0.6157090142329995,
+      "grad_norm": 0.01272524707019329,
+      "learning_rate": 2.2953418626570494e-05,
+      "loss": 1.5524,
       "step": 73
     },
     {
+      "epoch": 0.6241433842909858,
+      "grad_norm": 0.01219966635107994,
+      "learning_rate": 2.209238501792798e-05,
+      "loss": 1.555,
       "step": 74
     },
     {
+      "epoch": 0.632577754348972,
+      "grad_norm": 0.01229917537420988,
+      "learning_rate": 2.123829688089073e-05,
+      "loss": 1.5514,
       "step": 75
     },
     {
+      "epoch": 0.6410121244069583,
+      "grad_norm": 0.013784164562821388,
+      "learning_rate": 2.0391904384114877e-05,
+      "loss": 1.5614,
       "step": 76
     },
     {
+      "epoch": 0.6494464944649446,
+      "grad_norm": 0.010503321886062622,
+      "learning_rate": 1.9553950936968042e-05,
+      "loss": 1.541,
       "step": 77
     },
     {
+      "epoch": 0.6578808645229309,
+      "grad_norm": 0.012291346676647663,
+      "learning_rate": 1.8725172536572863e-05,
+      "loss": 1.556,
       "step": 78
     },
     {
+      "epoch": 0.6663152345809172,
+      "grad_norm": 0.011516911908984184,
+      "learning_rate": 1.7906297121360838e-05,
+      "loss": 1.5638,
       "step": 79
     },
     {
+      "epoch": 0.6747496046389035,
+      "grad_norm": 0.01181780081242323,
+      "learning_rate": 1.7098043931704396e-05,
+      "loss": 1.5508,
       "step": 80
     },
     {
+      "epoch": 0.6831839746968899,
+      "grad_norm": 0.010808738879859447,
+      "learning_rate": 1.6301122878188607e-05,
+      "loss": 1.5567,
       "step": 81
     },
     {
+      "epoch": 0.6916183447548762,
+      "grad_norm": 0.010649660602211952,
+      "learning_rate": 1.551623391807766e-05,
+      "loss": 1.5484,
       "step": 82
     },
     {
+      "epoch": 0.7000527148128625,
+      "grad_norm": 0.010580360889434814,
+      "learning_rate": 1.4744066440523391e-05,
+      "loss": 1.5591,
       "step": 83
     },
     {
+      "epoch": 0.7084870848708487,
+      "grad_norm": 0.010917909443378448,
+      "learning_rate": 1.3985298661056292e-05,
+      "loss": 1.569,
       "step": 84
     },
     {
+      "epoch": 0.716921454928835,
+      "grad_norm": 0.01177785824984312,
+      "learning_rate": 1.324059702589043e-05,
+      "loss": 1.5631,
       "step": 85
     },
     {
+      "epoch": 0.7253558249868213,
+      "grad_norm": 0.009857219643890858,
+      "learning_rate": 1.2510615626565844e-05,
+      "loss": 1.5561,
       "step": 86
     },
     {
+      "epoch": 0.7337901950448076,
+      "grad_norm": 0.011106839403510094,
+      "learning_rate": 1.1795995625442208e-05,
+      "loss": 1.5471,
       "step": 87
     },
     {
+      "epoch": 0.7422245651027939,
+      "grad_norm": 0.011377968825399876,
+      "learning_rate": 1.109736469254867e-05,
+      "loss": 1.5583,
       "step": 88
     },
     {
+      "epoch": 0.7506589351607802,
+      "grad_norm": 0.010118059813976288,
+      "learning_rate": 1.0415336454284356e-05,
+      "loss": 1.5531,
       "step": 89
     },
     {
+      "epoch": 0.7590933052187665,
+      "grad_norm": 0.01021275483071804,
+      "learning_rate": 9.75050995445369e-06,
+      "loss": 1.5559,
       "step": 90
     },
     {
+      "epoch": 0.7675276752767528,
+      "grad_norm": 0.00994526594877243,
+      "learning_rate": 9.103469128110098e-06,
+      "loss": 1.5527,
       "step": 91
     },
     {
+      "epoch": 0.7759620453347391,
+      "grad_norm": 0.01060432381927967,
+      "learning_rate": 8.474782288670058e-06,
+      "loss": 1.5514,
       "step": 92
     },
     {
+      "epoch": 0.7843964153927253,
+      "grad_norm": 0.011965557001531124,
+      "learning_rate": 7.86500162874818e-06,
+      "loss": 1.5536,
       "step": 93
     },
     {
+      "epoch": 0.7928307854507116,
+      "grad_norm": 0.010221057571470737,
+      "learning_rate": 7.274662735151396e-06,
+      "loss": 1.5541,
       "step": 94
     },
     {
+      "epoch": 0.8012651555086979,
+      "grad_norm": 0.01093184296041727,
+      "learning_rate": 6.704284118458731e-06,
+      "loss": 1.5512,
       "step": 95
     },
     {
+      "epoch": 0.8096995255666842,
+      "grad_norm": 0.010998157784342766,
+      "learning_rate": 6.154366757599399e-06,
+      "loss": 1.5492,
       "step": 96
     },
     {
+      "epoch": 0.8181338956246705,
+      "grad_norm": 0.01003272831439972,
+      "learning_rate": 5.625393659829561e-06,
+      "loss": 1.5472,
       "step": 97
     },
     {
+      "epoch": 0.8265682656826568,
+      "grad_norm": 0.010513346642255783,
+      "learning_rate": 5.117829436493947e-06,
+      "loss": 1.551,
       "step": 98
     },
     {
+      "epoch": 0.8350026357406432,
+      "grad_norm": 0.01016693189740181,
+      "learning_rate": 4.632119894945215e-06,
+      "loss": 1.5599,
       "step": 99
     },
     {
+      "epoch": 0.8434370057986295,
+      "grad_norm": 0.009756877087056637,
+      "learning_rate": 4.1686916469793335e-06,
+      "loss": 1.5552,
       "step": 100
     },
     {
+      "epoch": 0.8518713758566157,
+      "grad_norm": 0.010328919626772404,
+      "learning_rate": 3.7279517341308977e-06,
+      "loss": 1.5645,
       "step": 101
     },
     {
+      "epoch": 0.860305745914602,
+      "grad_norm": 0.009724525734782219,
+      "learning_rate": 3.3102872701575838e-06,
+      "loss": 1.5466,
       "step": 102
     },
     {
+      "epoch": 0.8687401159725883,
+      "grad_norm": 0.009452255442738533,
+      "learning_rate": 2.916065101027694e-06,
+      "loss": 1.555,
       "step": 103
     },
     {
+      "epoch": 0.8771744860305746,
+      "grad_norm": 0.009558911435306072,
+      "learning_rate": 2.5456314827094463e-06,
+      "loss": 1.5479,
       "step": 104
     },
     {
+      "epoch": 0.8856088560885609,
+      "grad_norm": 0.009129817597568035,
+      "learning_rate": 2.1993117770449987e-06,
+      "loss": 1.545,
       "step": 105
     },
     {
+      "epoch": 0.8940432261465472,
+      "grad_norm": 0.00930058490484953,
+      "learning_rate": 1.8774101659763731e-06,
+      "loss": 1.554,
       "step": 106
     },
     {
+      "epoch": 0.9024775962045335,
+      "grad_norm": 0.009718949906527996,
+      "learning_rate": 1.5802093843742582e-06,
+      "loss": 1.5467,
       "step": 107
     },
     {
+      "epoch": 0.9109119662625198,
+      "grad_norm": 0.009196877479553223,
+      "learning_rate": 1.3079704717043273e-06,
+      "loss": 1.55,
       "step": 108
     },
     {
+      "epoch": 0.9193463363205061,
+      "grad_norm": 0.00919976457953453,
+      "learning_rate": 1.060932542749241e-06,
+      "loss": 1.5558,
       "step": 109
     },
     {
+      "epoch": 0.9277807063784923,
+      "grad_norm": 0.0089542455971241,
+      "learning_rate": 8.393125775876775e-07,
+      "loss": 1.5563,
       "step": 110
     },
     {
+      "epoch": 0.9362150764364786,
+      "grad_norm": 0.009196256287395954,
+      "learning_rate": 6.433052310148791e-07,
+      "loss": 1.5537,
       "step": 111
     },
     {
+      "epoch": 0.9446494464944649,
+      "grad_norm": 0.009201628156006336,
+      "learning_rate": 4.730826615720951e-07,
+      "loss": 1.5567,
       "step": 112
     },
     {
+      "epoch": 0.9530838165524512,
+      "grad_norm": 0.008883966132998466,
+      "learning_rate": 3.28794380335079e-07,
+      "loss": 1.5549,
       "step": 113
     },
     {
+      "epoch": 0.9615181866104375,
+      "grad_norm": 0.009221088141202927,
+      "learning_rate": 2.1056711959449247e-07,
+      "loss": 1.5585,
       "step": 114
     },
     {
+      "epoch": 0.9699525566684238,
+      "grad_norm": 0.009092201478779316,
+      "learning_rate": 1.1850472154349313e-07,
+      "loss": 1.5536,
       "step": 115
     },
     {
+      "epoch": 0.9783869267264101,
+      "grad_norm": 0.009470025077462196,
+      "learning_rate": 5.268804707035946e-08,
+      "loss": 1.5705,
       "step": 116
     },
     {
+      "epoch": 0.9868212967843965,
+      "grad_norm": 0.008715336211025715,
+      "learning_rate": 1.3174904736169557e-08,
+      "loss": 1.5566,
       "step": 117
     },
     {
+      "epoch": 0.9952556668423828,
+      "grad_norm": 0.008857190608978271,
       "learning_rate": 0.0,
+      "loss": 1.5464,
+      "step": 118
     },
     {
+      "epoch": 0.9952556668423828,
+      "step": 118,
+      "total_flos": 1660937136242688.0,
+      "train_loss": 1.571211524939133,
+      "train_runtime": 47361.2024,
+      "train_samples_per_second": 0.641,
+      "train_steps_per_second": 0.002
     }
   ],
   "logging_steps": 1,
+  "max_steps": 118,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 1660937136242688.0,
+  "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null
 }

training_loss.png CHANGED Viewed