Training in progress, step 800, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +299 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88525be1d14f917419f7f83011135b26aabadcf834decde128834e8d1c523fe3
 size 723674912

 version https://git-lfs.github.com/spec/v1
+oid sha256:dfc7459b8070f26a9a864b85343d1738e3d2dcd6020a04f5fb8b9aca1951ffd2
 size 723674912

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bbcc23830909c8b88d23e3cc6844b7e2d1e326db7745477e23cae7244b04b0c6
 size 735625626

 version https://git-lfs.github.com/spec/v1
+oid sha256:b945b56cf643054d93848122565520049285ab0e46c861ff6ab04f75d42ed166
 size 735625626

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9feae33b2fec0a6229240e7adaee6ecc8f5cfdf1a8bd0e827b1d8a241424e3c0
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c431bcafebc4c8ee346d130e382b11c81be579ca0bfd3918fae07b16e10b92f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a673aaf85c0fe6b6c29cb8f3e7dbd829eef637110e4ad9a775f3fcf001c92591
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:40b6b717644e21f80a22ec98694b3a2fd9d62a6467e549d64314725dba905d52
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.11837821840781296,
   "eval_steps": 200,
-  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -311,6 +311,302 @@
       "eval_samples_per_second": 63.015,
       "eval_steps_per_second": 15.775,
       "step": 400
     }
   ],
   "logging_steps": 10,
@@ -330,7 +626,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6216909638860800.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.23675643681562591,
   "eval_steps": 200,
+  "global_step": 800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 63.015,
       "eval_steps_per_second": 15.775,
       "step": 400
+    },
+    {
+      "epoch": 0.12133767386800828,
+      "grad_norm": 2.15625,
+      "learning_rate": 0.00019297764858882514,
+      "loss": 2.3663,
+      "step": 410
+    },
+    {
+      "epoch": 0.12429712932820361,
+      "grad_norm": 3.15625,
+      "learning_rate": 0.00019248258232139388,
+      "loss": 2.1701,
+      "step": 420
+    },
+    {
+      "epoch": 0.12725658478839894,
+      "grad_norm": 4.34375,
+      "learning_rate": 0.00019197133427991436,
+      "loss": 2.0932,
+      "step": 430
+    },
+    {
+      "epoch": 0.13021604024859426,
+      "grad_norm": 4.21875,
+      "learning_rate": 0.00019144399391799043,
+      "loss": 1.914,
+      "step": 440
+    },
+    {
+      "epoch": 0.1331754957087896,
+      "grad_norm": 18.0,
+      "learning_rate": 0.00019090065350491626,
+      "loss": 2.2622,
+      "step": 450
+    },
+    {
+      "epoch": 0.1361349511689849,
+      "grad_norm": 2.21875,
+      "learning_rate": 0.0001903414081095315,
+      "loss": 2.3188,
+      "step": 460
+    },
+    {
+      "epoch": 0.13909440662918024,
+      "grad_norm": 2.484375,
+      "learning_rate": 0.00018976635558358722,
+      "loss": 2.0455,
+      "step": 470
+    },
+    {
+      "epoch": 0.14205386208937557,
+      "grad_norm": 4.4375,
+      "learning_rate": 0.00018917559654462474,
+      "loss": 2.1161,
+      "step": 480
+    },
+    {
+      "epoch": 0.1450133175495709,
+      "grad_norm": 5.21875,
+      "learning_rate": 0.00018856923435837022,
+      "loss": 2.073,
+      "step": 490
+    },
+    {
+      "epoch": 0.1479727730097662,
+      "grad_norm": 12.25,
+      "learning_rate": 0.0001879473751206489,
+      "loss": 1.5186,
+      "step": 500
+    },
+    {
+      "epoch": 0.15093222846996152,
+      "grad_norm": 2.1875,
+      "learning_rate": 0.00018731012763882133,
+      "loss": 2.3347,
+      "step": 510
+    },
+    {
+      "epoch": 0.15389168393015684,
+      "grad_norm": 3.125,
+      "learning_rate": 0.00018665760341274505,
+      "loss": 2.1125,
+      "step": 520
+    },
+    {
+      "epoch": 0.15685113939035217,
+      "grad_norm": 3.75,
+      "learning_rate": 0.00018598991661526572,
+      "loss": 2.203,
+      "step": 530
+    },
+    {
+      "epoch": 0.1598105948505475,
+      "grad_norm": 3.859375,
+      "learning_rate": 0.00018530718407223974,
+      "loss": 2.1003,
+      "step": 540
+    },
+    {
+      "epoch": 0.16277005031074282,
+      "grad_norm": 15.9375,
+      "learning_rate": 0.00018460952524209355,
+      "loss": 1.8457,
+      "step": 550
+    },
+    {
+      "epoch": 0.16572950577093815,
+      "grad_norm": 2.109375,
+      "learning_rate": 0.00018389706219492147,
+      "loss": 2.1732,
+      "step": 560
+    },
+    {
+      "epoch": 0.16868896123113347,
+      "grad_norm": 2.515625,
+      "learning_rate": 0.00018316991959112716,
+      "loss": 2.309,
+      "step": 570
+    },
+    {
+      "epoch": 0.1716484166913288,
+      "grad_norm": 3.25,
+      "learning_rate": 0.00018242822465961176,
+      "loss": 1.7926,
+      "step": 580
+    },
+    {
+      "epoch": 0.17460787215152412,
+      "grad_norm": 6.96875,
+      "learning_rate": 0.00018167210717551224,
+      "loss": 1.9797,
+      "step": 590
+    },
+    {
+      "epoch": 0.17756732761171945,
+      "grad_norm": 15.0625,
+      "learning_rate": 0.00018090169943749476,
+      "loss": 1.748,
+      "step": 600
+    },
+    {
+      "epoch": 0.17756732761171945,
+      "eval_loss": 2.0752952098846436,
+      "eval_runtime": 23.9564,
+      "eval_samples_per_second": 62.697,
+      "eval_steps_per_second": 15.695,
+      "step": 600
+    },
+    {
+      "epoch": 0.18052678307191478,
+      "grad_norm": 2.8125,
+      "learning_rate": 0.00018011713624460608,
+      "loss": 1.9757,
+      "step": 610
+    },
+    {
+      "epoch": 0.1834862385321101,
+      "grad_norm": 2.46875,
+      "learning_rate": 0.00017931855487268782,
+      "loss": 1.9936,
+      "step": 620
+    },
+    {
+      "epoch": 0.18644569399230543,
+      "grad_norm": 3.171875,
+      "learning_rate": 0.0001785060950503568,
+      "loss": 2.3718,
+      "step": 630
+    },
+    {
+      "epoch": 0.18940514945250073,
+      "grad_norm": 10.125,
+      "learning_rate": 0.00017767989893455698,
+      "loss": 2.0974,
+      "step": 640
+    },
+    {
+      "epoch": 0.19236460491269605,
+      "grad_norm": 16.25,
+      "learning_rate": 0.00017684011108568592,
+      "loss": 2.0872,
+      "step": 650
+    },
+    {
+      "epoch": 0.19532406037289138,
+      "grad_norm": 2.0625,
+      "learning_rate": 0.00017598687844230088,
+      "loss": 2.3763,
+      "step": 660
+    },
+    {
+      "epoch": 0.1982835158330867,
+      "grad_norm": 2.640625,
+      "learning_rate": 0.00017512035029540885,
+      "loss": 2.102,
+      "step": 670
+    },
+    {
+      "epoch": 0.20124297129328203,
+      "grad_norm": 4.03125,
+      "learning_rate": 0.000174240678262345,
+      "loss": 2.1481,
+      "step": 680
+    },
+    {
+      "epoch": 0.20420242675347736,
+      "grad_norm": 6.0625,
+      "learning_rate": 0.000173348016260244,
+      "loss": 1.8523,
+      "step": 690
+    },
+    {
+      "epoch": 0.20716188221367268,
+      "grad_norm": 18.75,
+      "learning_rate": 0.00017244252047910892,
+      "loss": 1.7534,
+      "step": 700
+    },
+    {
+      "epoch": 0.210121337673868,
+      "grad_norm": 2.265625,
+      "learning_rate": 0.00017152434935448256,
+      "loss": 2.1479,
+      "step": 710
+    },
+    {
+      "epoch": 0.21308079313406333,
+      "grad_norm": 2.8125,
+      "learning_rate": 0.0001705936635397259,
+      "loss": 2.2207,
+      "step": 720
+    },
+    {
+      "epoch": 0.21604024859425866,
+      "grad_norm": 3.59375,
+      "learning_rate": 0.00016965062587790823,
+      "loss": 2.0364,
+      "step": 730
+    },
+    {
+      "epoch": 0.218999704054454,
+      "grad_norm": 3.265625,
+      "learning_rate": 0.00016869540137331445,
+      "loss": 1.8523,
+      "step": 740
+    },
+    {
+      "epoch": 0.2219591595146493,
+      "grad_norm": 10.4375,
+      "learning_rate": 0.00016772815716257412,
+      "loss": 1.8113,
+      "step": 750
+    },
+    {
+      "epoch": 0.22491861497484464,
+      "grad_norm": 2.21875,
+      "learning_rate": 0.00016674906248541726,
+      "loss": 2.2365,
+      "step": 760
+    },
+    {
+      "epoch": 0.22787807043503996,
+      "grad_norm": 3.9375,
+      "learning_rate": 0.00016575828865506245,
+      "loss": 2.0369,
+      "step": 770
+    },
+    {
+      "epoch": 0.2308375258952353,
+      "grad_norm": 4.0625,
+      "learning_rate": 0.0001647560090282419,
+      "loss": 1.9434,
+      "step": 780
+    },
+    {
+      "epoch": 0.2337969813554306,
+      "grad_norm": 6.8125,
+      "learning_rate": 0.000163742398974869,
+      "loss": 1.822,
+      "step": 790
+    },
+    {
+      "epoch": 0.23675643681562591,
+      "grad_norm": 29.0,
+      "learning_rate": 0.0001627176358473537,
+      "loss": 1.9161,
+      "step": 800
+    },
+    {
+      "epoch": 0.23675643681562591,
+      "eval_loss": 2.0661604404449463,
+      "eval_runtime": 24.0938,
+      "eval_samples_per_second": 62.34,
+      "eval_steps_per_second": 15.606,
+      "step": 800
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.24028893790208e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null