Training in progress, epoch 2, checkpoint

Browse files

Files changed (4) hide show

last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +235 -4

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:59d2eed6ad7b6c61be9559b52cf752c4381844a3d89151424a37f1507db2acf9
 size 671473298

 version https://git-lfs.github.com/spec/v1
+oid sha256:02bd66363a55075e209836624ecb54de2195ec9603078f8e8f2b8ef1c42fa3cd
 size 671473298

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e35ce6f141652be1d01336e435bb985bf3376bb78e4cdd52eb2b9e1ea884cff4
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c480dbc18df566c0de1af7dfd5354085eb62e45149b5f5c58c54a341328e4ea
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c0ab4b5576cffbfe1e9f6fc42d7fb34658a6fda81c06eb0c633b50cbe234b60f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:891cad020bf7bee78efa739dc10e1e4315e34b096ed70226b38590ec81d7d418
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 1271,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1274,6 +1274,237 @@
       "learning_rate": 6.680041969810203e-06,
       "loss": 0.0,
       "step": 1267
     }
   ],
   "logging_steps": 7,
@@ -1288,12 +1519,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 9.064492133221663e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.3603461841070024,
   "eval_steps": 500,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 6.680041969810203e-06,
       "loss": 0.0,
       "step": 1267
+    },
+    {
+      "epoch": 2.004720692368214,
+      "grad_norm": NaN,
+      "learning_rate": 6.293212171147206e-06,
+      "loss": 0.0,
+      "step": 1274
+    },
+    {
+      "epoch": 2.01573564122738,
+      "grad_norm": NaN,
+      "learning_rate": 5.917166368382277e-06,
+      "loss": 0.0,
+      "step": 1281
+    },
+    {
+      "epoch": 2.026750590086546,
+      "grad_norm": NaN,
+      "learning_rate": 5.5519973451903405e-06,
+      "loss": 0.0,
+      "step": 1288
+    },
+    {
+      "epoch": 2.037765538945712,
+      "grad_norm": NaN,
+      "learning_rate": 5.197795201563743e-06,
+      "loss": 0.0,
+      "step": 1295
+    },
+    {
+      "epoch": 2.048780487804878,
+      "grad_norm": NaN,
+      "learning_rate": 4.8546473315813856e-06,
+      "loss": 0.0,
+      "step": 1302
+    },
+    {
+      "epoch": 2.059795436664044,
+      "grad_norm": NaN,
+      "learning_rate": 4.522638401845547e-06,
+      "loss": 0.0,
+      "step": 1309
+    },
+    {
+      "epoch": 2.07081038552321,
+      "grad_norm": NaN,
+      "learning_rate": 4.2018503305916775e-06,
+      "loss": 0.0,
+      "step": 1316
+    },
+    {
+      "epoch": 2.0818253343823763,
+      "grad_norm": NaN,
+      "learning_rate": 3.892362267476313e-06,
+      "loss": 0.0,
+      "step": 1323
+    },
+    {
+      "epoch": 2.092840283241542,
+      "grad_norm": NaN,
+      "learning_rate": 3.5942505740480582e-06,
+      "loss": 0.0,
+      "step": 1330
+    },
+    {
+      "epoch": 2.1038552321007082,
+      "grad_norm": NaN,
+      "learning_rate": 3.3075888049065196e-06,
+      "loss": 0.0,
+      "step": 1337
+    },
+    {
+      "epoch": 2.114870180959874,
+      "grad_norm": NaN,
+      "learning_rate": 3.03244768955383e-06,
+      "loss": 0.0,
+      "step": 1344
+    },
+    {
+      "epoch": 2.12588512981904,
+      "grad_norm": NaN,
+      "learning_rate": 2.7688951149431595e-06,
+      "loss": 0.0,
+      "step": 1351
+    },
+    {
+      "epoch": 2.136900078678206,
+      "grad_norm": NaN,
+      "learning_rate": 2.5169961087286974e-06,
+      "loss": 0.0,
+      "step": 1358
+    },
+    {
+      "epoch": 2.147915027537372,
+      "grad_norm": NaN,
+      "learning_rate": 2.276812823220964e-06,
+      "loss": 0.0,
+      "step": 1365
+    },
+    {
+      "epoch": 2.1589299763965384,
+      "grad_norm": NaN,
+      "learning_rate": 2.048404520051722e-06,
+      "loss": 0.0,
+      "step": 1372
+    },
+    {
+      "epoch": 2.169944925255704,
+      "grad_norm": NaN,
+      "learning_rate": 1.8318275555520237e-06,
+      "loss": 0.0,
+      "step": 1379
+    },
+    {
+      "epoch": 2.1809598741148704,
+      "grad_norm": NaN,
+      "learning_rate": 1.6271353668471655e-06,
+      "loss": 0.0,
+      "step": 1386
+    },
+    {
+      "epoch": 2.191974822974036,
+      "grad_norm": NaN,
+      "learning_rate": 1.4343784586718311e-06,
+      "loss": 0.0,
+      "step": 1393
+    },
+    {
+      "epoch": 2.2029897718332023,
+      "grad_norm": NaN,
+      "learning_rate": 1.2536043909088191e-06,
+      "loss": 0.0,
+      "step": 1400
+    },
+    {
+      "epoch": 2.214004720692368,
+      "grad_norm": NaN,
+      "learning_rate": 1.0848577668543802e-06,
+      "loss": 0.0,
+      "step": 1407
+    },
+    {
+      "epoch": 2.2250196695515343,
+      "grad_norm": NaN,
+      "learning_rate": 9.281802222129765e-07,
+      "loss": 0.0,
+      "step": 1414
+    },
+    {
+      "epoch": 2.2360346184107,
+      "grad_norm": NaN,
+      "learning_rate": 7.836104148243484e-07,
+      "loss": 0.0,
+      "step": 1421
+    },
+    {
+      "epoch": 2.2470495672698663,
+      "grad_norm": NaN,
+      "learning_rate": 6.511840151252169e-07,
+      "loss": 0.0,
+      "step": 1428
+    },
+    {
+      "epoch": 2.258064516129032,
+      "grad_norm": NaN,
+      "learning_rate": 5.309336973481683e-07,
+      "loss": 0.0,
+      "step": 1435
+    },
+    {
+      "epoch": 2.2690794649881982,
+      "grad_norm": NaN,
+      "learning_rate": 4.228891314597694e-07,
+      "loss": 0.0,
+      "step": 1442
+    },
+    {
+      "epoch": 2.2800944138473644,
+      "grad_norm": NaN,
+      "learning_rate": 3.2707697583995167e-07,
+      "loss": 0.0,
+      "step": 1449
+    },
+    {
+      "epoch": 2.29110936270653,
+      "grad_norm": NaN,
+      "learning_rate": 2.4352087070443895e-07,
+      "loss": 0.0,
+      "step": 1456
+    },
+    {
+      "epoch": 2.3021243115656964,
+      "grad_norm": NaN,
+      "learning_rate": 1.7224143227190236e-07,
+      "loss": 0.0,
+      "step": 1463
+    },
+    {
+      "epoch": 2.313139260424862,
+      "grad_norm": NaN,
+      "learning_rate": 1.132562476771959e-07,
+      "loss": 0.0,
+      "step": 1470
+    },
+    {
+      "epoch": 2.3241542092840284,
+      "grad_norm": NaN,
+      "learning_rate": 6.657987063200533e-08,
+      "loss": 0.0,
+      "step": 1477
+    },
+    {
+      "epoch": 2.335169158143194,
+      "grad_norm": NaN,
+      "learning_rate": 3.2223817833931805e-08,
+      "loss": 0.0,
+      "step": 1484
+    },
+    {
+      "epoch": 2.3461841070023604,
+      "grad_norm": NaN,
+      "learning_rate": 1.019656612492592e-08,
+      "loss": 0.0,
+      "step": 1491
+    },
+    {
+      "epoch": 2.3571990558615266,
+      "grad_norm": NaN,
+      "learning_rate": 5.035503997385949e-10,
+      "loss": 0.0,
+      "step": 1498
     }
   ],
   "logging_steps": 7,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.0698275558774538e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null