Training in progress, step 150, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +361 -3

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:019c0d555fb9f79ace1c39ee5889f35572f2a47ff65be573396010917414c457
 size 41119636

 version https://git-lfs.github.com/spec/v1
+oid sha256:a289398cbfa812eeb7230c9454af9a80f27c7792195f3439f23efd2658cc3c05
 size 41119636

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cf3b4c0db60e4a5ef57801d8cb411fb8e28c3d8722bfb5f8ea71e06c6117e69d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:352ff13a94a6d85925e3b7180673ce4da0bce537a09578b8f895cb139c3dce3a
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3fc7800513a1b4dd006c457152c700dd768bb49ee4ed8e4d9665a4e42095b054
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd5d42bb0afda20ec4c83d38c6af1131541c335ecab229c74e7f418894f3c13b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.00843792848855606,
   "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -731,6 +731,364 @@
       "eval_samples_per_second": 33.404,
       "eval_steps_per_second": 16.702,
       "step": 100
     }
   ],
   "logging_steps": 1,
@@ -750,7 +1108,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.689827338616832e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.01265689273283409,
   "eval_steps": 50,
+  "global_step": 150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 33.404,
       "eval_steps_per_second": 16.702,
       "step": 100
+    },
+    {
+      "epoch": 0.00852230777344162,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010660905843256994,
+      "loss": 0.0,
+      "step": 101
+    },
+    {
+      "epoch": 0.00860668705832718,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010495837546732224,
+      "loss": 0.0,
+      "step": 102
+    },
+    {
+      "epoch": 0.008691066343212742,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010330633693173082,
+      "loss": 0.0,
+      "step": 103
+    },
+    {
+      "epoch": 0.008775445628098302,
+      "grad_norm": NaN,
+      "learning_rate": 0.00010165339447663587,
+      "loss": 0.0,
+      "step": 104
+    },
+    {
+      "epoch": 0.008859824912983863,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001,
+      "loss": 0.0,
+      "step": 105
+    },
+    {
+      "epoch": 0.008944204197869423,
+      "grad_norm": NaN,
+      "learning_rate": 9.834660552336415e-05,
+      "loss": 0.0,
+      "step": 106
+    },
+    {
+      "epoch": 0.009028583482754983,
+      "grad_norm": NaN,
+      "learning_rate": 9.669366306826919e-05,
+      "loss": 2.8749,
+      "step": 107
+    },
+    {
+      "epoch": 0.009112962767640544,
+      "grad_norm": NaN,
+      "learning_rate": 9.504162453267777e-05,
+      "loss": 0.0,
+      "step": 108
+    },
+    {
+      "epoch": 0.009197342052526106,
+      "grad_norm": NaN,
+      "learning_rate": 9.339094156743007e-05,
+      "loss": 0.0,
+      "step": 109
+    },
+    {
+      "epoch": 0.009281721337411666,
+      "grad_norm": NaN,
+      "learning_rate": 9.174206545276677e-05,
+      "loss": 0.0,
+      "step": 110
+    },
+    {
+      "epoch": 0.009366100622297226,
+      "grad_norm": NaN,
+      "learning_rate": 9.009544697495374e-05,
+      "loss": 0.0,
+      "step": 111
+    },
+    {
+      "epoch": 0.009450479907182787,
+      "grad_norm": NaN,
+      "learning_rate": 8.845153630304139e-05,
+      "loss": 0.0,
+      "step": 112
+    },
+    {
+      "epoch": 0.009534859192068347,
+      "grad_norm": NaN,
+      "learning_rate": 8.681078286579311e-05,
+      "loss": 3.7729,
+      "step": 113
+    },
+    {
+      "epoch": 0.009619238476953907,
+      "grad_norm": NaN,
+      "learning_rate": 8.517363522881579e-05,
+      "loss": 0.0,
+      "step": 114
+    },
+    {
+      "epoch": 0.009703617761839468,
+      "grad_norm": NaN,
+      "learning_rate": 8.35405409719266e-05,
+      "loss": 0.0,
+      "step": 115
+    },
+    {
+      "epoch": 0.00978799704672503,
+      "grad_norm": NaN,
+      "learning_rate": 8.191194656678904e-05,
+      "loss": 0.0,
+      "step": 116
+    },
+    {
+      "epoch": 0.00987237633161059,
+      "grad_norm": NaN,
+      "learning_rate": 8.028829725485199e-05,
+      "loss": 0.0,
+      "step": 117
+    },
+    {
+      "epoch": 0.00995675561649615,
+      "grad_norm": NaN,
+      "learning_rate": 7.867003692562534e-05,
+      "loss": 0.0,
+      "step": 118
+    },
+    {
+      "epoch": 0.01004113490138171,
+      "grad_norm": NaN,
+      "learning_rate": 7.705760799532485e-05,
+      "loss": 0.0,
+      "step": 119
+    },
+    {
+      "epoch": 0.010125514186267271,
+      "grad_norm": NaN,
+      "learning_rate": 7.54514512859201e-05,
+      "loss": 0.0,
+      "step": 120
+    },
+    {
+      "epoch": 0.010209893471152831,
+      "grad_norm": NaN,
+      "learning_rate": 7.385200590461803e-05,
+      "loss": 0.0,
+      "step": 121
+    },
+    {
+      "epoch": 0.010294272756038392,
+      "grad_norm": NaN,
+      "learning_rate": 7.225970912381556e-05,
+      "loss": 0.0,
+      "step": 122
+    },
+    {
+      "epoch": 0.010378652040923954,
+      "grad_norm": NaN,
+      "learning_rate": 7.067499626155354e-05,
+      "loss": 0.0,
+      "step": 123
+    },
+    {
+      "epoch": 0.010463031325809514,
+      "grad_norm": NaN,
+      "learning_rate": 6.909830056250527e-05,
+      "loss": 0.0,
+      "step": 124
+    },
+    {
+      "epoch": 0.010547410610695074,
+      "grad_norm": NaN,
+      "learning_rate": 6.753005307953167e-05,
+      "loss": 0.0,
+      "step": 125
+    },
+    {
+      "epoch": 0.010631789895580635,
+      "grad_norm": NaN,
+      "learning_rate": 6.59706825558357e-05,
+      "loss": 0.0,
+      "step": 126
+    },
+    {
+      "epoch": 0.010716169180466195,
+      "grad_norm": NaN,
+      "learning_rate": 6.442061530774834e-05,
+      "loss": 0.0,
+      "step": 127
+    },
+    {
+      "epoch": 0.010800548465351755,
+      "grad_norm": NaN,
+      "learning_rate": 6.28802751081779e-05,
+      "loss": 0.7095,
+      "step": 128
+    },
+    {
+      "epoch": 0.010884927750237318,
+      "grad_norm": NaN,
+      "learning_rate": 6.135008307075481e-05,
+      "loss": 0.0,
+      "step": 129
+    },
+    {
+      "epoch": 0.010969307035122878,
+      "grad_norm": NaN,
+      "learning_rate": 5.983045753470308e-05,
+      "loss": 0.0,
+      "step": 130
+    },
+    {
+      "epoch": 0.011053686320008438,
+      "grad_norm": NaN,
+      "learning_rate": 5.832181395047098e-05,
+      "loss": 0.0,
+      "step": 131
+    },
+    {
+      "epoch": 0.011138065604893999,
+      "grad_norm": NaN,
+      "learning_rate": 5.6824564766150726e-05,
+      "loss": 0.0,
+      "step": 132
+    },
+    {
+      "epoch": 0.011222444889779559,
+      "grad_norm": NaN,
+      "learning_rate": 5.533911931471936e-05,
+      "loss": 0.0,
+      "step": 133
+    },
+    {
+      "epoch": 0.01130682417466512,
+      "grad_norm": NaN,
+      "learning_rate": 5.386588370213124e-05,
+      "loss": 0.0,
+      "step": 134
+    },
+    {
+      "epoch": 0.01139120345955068,
+      "grad_norm": NaN,
+      "learning_rate": 5.240526069629265e-05,
+      "loss": 0.0,
+      "step": 135
+    },
+    {
+      "epoch": 0.011475582744436242,
+      "grad_norm": NaN,
+      "learning_rate": 5.095764961694922e-05,
+      "loss": 0.0,
+      "step": 136
+    },
+    {
+      "epoch": 0.011559962029321802,
+      "grad_norm": NaN,
+      "learning_rate": 4.952344622651566e-05,
+      "loss": 0.0,
+      "step": 137
+    },
+    {
+      "epoch": 0.011644341314207362,
+      "grad_norm": NaN,
+      "learning_rate": 4.810304262187852e-05,
+      "loss": 0.0,
+      "step": 138
+    },
+    {
+      "epoch": 0.011728720599092923,
+      "grad_norm": NaN,
+      "learning_rate": 4.669682712720065e-05,
+      "loss": 0.0,
+      "step": 139
+    },
+    {
+      "epoch": 0.011813099883978483,
+      "grad_norm": NaN,
+      "learning_rate": 4.530518418775733e-05,
+      "loss": 0.0,
+      "step": 140
+    },
+    {
+      "epoch": 0.011897479168864043,
+      "grad_norm": NaN,
+      "learning_rate": 4.392849426483274e-05,
+      "loss": 0.0,
+      "step": 141
+    },
+    {
+      "epoch": 0.011981858453749604,
+      "grad_norm": NaN,
+      "learning_rate": 4.256713373170564e-05,
+      "loss": 0.0,
+      "step": 142
+    },
+    {
+      "epoch": 0.012066237738635166,
+      "grad_norm": NaN,
+      "learning_rate": 4.12214747707527e-05,
+      "loss": 0.0,
+      "step": 143
+    },
+    {
+      "epoch": 0.012150617023520726,
+      "grad_norm": NaN,
+      "learning_rate": 3.9891885271697496e-05,
+      "loss": 0.0,
+      "step": 144
+    },
+    {
+      "epoch": 0.012234996308406286,
+      "grad_norm": NaN,
+      "learning_rate": 3.857872873103322e-05,
+      "loss": 4.1448,
+      "step": 145
+    },
+    {
+      "epoch": 0.012319375593291847,
+      "grad_norm": NaN,
+      "learning_rate": 3.7282364152646297e-05,
+      "loss": 0.0,
+      "step": 146
+    },
+    {
+      "epoch": 0.012403754878177407,
+      "grad_norm": NaN,
+      "learning_rate": 3.600314594966834e-05,
+      "loss": 0.0,
+      "step": 147
+    },
+    {
+      "epoch": 0.012488134163062967,
+      "grad_norm": NaN,
+      "learning_rate": 3.4741423847583134e-05,
+      "loss": 0.0,
+      "step": 148
+    },
+    {
+      "epoch": 0.01257251344794853,
+      "grad_norm": NaN,
+      "learning_rate": 3.349754278861517e-05,
+      "loss": 0.0,
+      "step": 149
+    },
+    {
+      "epoch": 0.01265689273283409,
+      "grad_norm": NaN,
+      "learning_rate": 3.227184283742591e-05,
+      "loss": 0.0,
+      "step": 150
+    },
+    {
+      "epoch": 0.01265689273283409,
+      "eval_loss": NaN,
+      "eval_runtime": 148.9295,
+      "eval_samples_per_second": 33.506,
+      "eval_steps_per_second": 16.753,
+      "step": 150
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 2.540848817582899e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null