Training in progress, step 50, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state_0.pth +3 -0
last-checkpoint/rng_state_1.pth +3 -0
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +38 -291
last-checkpoint/training_args.bin +2 -2

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:571ac0ce3c6fb0674780b87152c4c23763691f3402fcfee2a7fae382cd311dc6
 size 4972163696

 version https://git-lfs.github.com/spec/v1
+oid sha256:826e66b930379b9b17d06e3e36abceae89de64258529cf378786e7914578f2d6
 size 4972163696

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4a7f7e729b06122d8124d7ec438aa26d437fde3841f4d31cd4051d0537bd7093
 size 2669366920

 version https://git-lfs.github.com/spec/v1
+oid sha256:e2037f966379e933b0ee4ec2c31021e10d1bac8c66ea2bd6a5ed50ad79df2c79
 size 2669366920

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:053ab026fefe485d792142ef4312e6060ae995ac2f31fa6a140c1d7d996d8d10
-size 7762295418

 version https://git-lfs.github.com/spec/v1
+oid sha256:35811abfb416c04cf69a2ba0e185844b311fd958ed4b56f97e8f58a9aea3a136
+size 7762295162

last-checkpoint/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2667eee8d875561f6539074432e0dd0e4895799b436b03ff4f88447a79b23c54
+size 14512

last-checkpoint/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f453d97040b5753e846b52c3f3f2ec936ae564e3d843c2334ebea047a9d227d
+size 14512

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a673aaf85c0fe6b6c29cb8f3e7dbd829eef637110e4ad9a775f3fcf001c92591
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:aefbcebbcca874264bb329f31301bfa219bc90bffbd18b02b072517f20157778
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,323 +1,70 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.11837821840781296,
-  "eval_steps": 200,
-  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.0002959455460195324,
-      "eval_loss": 2.086695909500122,
-      "eval_runtime": 127.5192,
-      "eval_samples_per_second": 11.779,
-      "eval_steps_per_second": 2.949,
       "step": 1
     },
     {
-      "epoch": 0.002959455460195324,
-      "grad_norm": 11.1875,
-      "learning_rate": 1.6000000000000003e-05,
-      "loss": 1.7268,
       "step": 10
     },
     {
-      "epoch": 0.005918910920390648,
-      "grad_norm": 7.3125,
-      "learning_rate": 3.2000000000000005e-05,
-      "loss": 1.7893,
       "step": 20
     },
     {
-      "epoch": 0.008878366380585973,
-      "grad_norm": 10.5,
-      "learning_rate": 4.8e-05,
-      "loss": 1.462,
       "step": 30
     },
     {
-      "epoch": 0.011837821840781295,
-      "grad_norm": 12.125,
-      "learning_rate": 6.400000000000001e-05,
-      "loss": 1.5806,
       "step": 40
     },
     {
-      "epoch": 0.01479727730097662,
-      "grad_norm": 31.25,
-      "learning_rate": 8e-05,
-      "loss": 1.1733,
       "step": 50
     },
     {
-      "epoch": 0.017756732761171946,
-      "grad_norm": 5.4375,
-      "learning_rate": 9.6e-05,
-      "loss": 1.7124,
-      "step": 60
-    },
-    {
-      "epoch": 0.020716188221367268,
-      "grad_norm": 7.3125,
-      "learning_rate": 0.00011200000000000001,
-      "loss": 1.5509,
-      "step": 70
-    },
-    {
-      "epoch": 0.02367564368156259,
-      "grad_norm": 9.75,
-      "learning_rate": 0.00012800000000000002,
-      "loss": 1.5801,
-      "step": 80
-    },
-    {
-      "epoch": 0.026635099141757917,
-      "grad_norm": 13.4375,
-      "learning_rate": 0.000144,
-      "loss": 1.5691,
-      "step": 90
-    },
-    {
-      "epoch": 0.02959455460195324,
-      "grad_norm": 64.0,
-      "learning_rate": 0.00016,
-      "loss": 1.9617,
-      "step": 100
-    },
-    {
-      "epoch": 0.032554010062148565,
-      "grad_norm": 8.125,
-      "learning_rate": 0.00017600000000000002,
-      "loss": 2.1875,
-      "step": 110
-    },
-    {
-      "epoch": 0.03551346552234389,
-      "grad_norm": 7.125,
-      "learning_rate": 0.000192,
-      "loss": 1.9646,
-      "step": 120
-    },
-    {
-      "epoch": 0.03847292098253921,
-      "grad_norm": 12.4375,
-      "learning_rate": 0.0001999978128380225,
-      "loss": 2.0544,
-      "step": 130
-    },
-    {
-      "epoch": 0.041432376442734536,
-      "grad_norm": 29.125,
-      "learning_rate": 0.0001999803161162393,
-      "loss": 2.2508,
-      "step": 140
-    },
-    {
-      "epoch": 0.04439183190292986,
-      "grad_norm": 19.25,
-      "learning_rate": 0.00019994532573409262,
-      "loss": 2.3878,
-      "step": 150
-    },
-    {
-      "epoch": 0.04735128736312518,
-      "grad_norm": 5.59375,
-      "learning_rate": 0.00019989284781388617,
-      "loss": 2.3223,
-      "step": 160
-    },
-    {
-      "epoch": 0.05031074282332051,
-      "grad_norm": 9.5625,
-      "learning_rate": 0.00019982289153773646,
-      "loss": 2.2869,
-      "step": 170
-    },
-    {
-      "epoch": 0.053270198283515834,
-      "grad_norm": 9.875,
-      "learning_rate": 0.00019973546914596623,
-      "loss": 2.2861,
-      "step": 180
-    },
-    {
-      "epoch": 0.05622965374371116,
-      "grad_norm": 27.5,
-      "learning_rate": 0.00019963059593496268,
-      "loss": 2.4016,
-      "step": 190
-    },
-    {
-      "epoch": 0.05918910920390648,
-      "grad_norm": 24.0,
-      "learning_rate": 0.00019950829025450114,
-      "loss": 2.8436,
-      "step": 200
-    },
-    {
-      "epoch": 0.05918910920390648,
-      "eval_loss": 2.5731241703033447,
-      "eval_runtime": 121.8212,
-      "eval_samples_per_second": 12.33,
-      "eval_steps_per_second": 3.086,
-      "step": 200
-    },
-    {
-      "epoch": 0.062148564664101805,
-      "grad_norm": 6.03125,
-      "learning_rate": 0.0001993685735045343,
-      "loss": 2.4605,
-      "step": 210
-    },
-    {
-      "epoch": 0.06510802012429713,
-      "grad_norm": 10.1875,
-      "learning_rate": 0.0001992114701314478,
-      "loss": 2.3989,
-      "step": 220
-    },
-    {
-      "epoch": 0.06806747558449246,
-      "grad_norm": 7.625,
-      "learning_rate": 0.000199037007623783,
-      "loss": 2.5254,
-      "step": 230
-    },
-    {
-      "epoch": 0.07102693104468778,
-      "grad_norm": 10.0,
-      "learning_rate": 0.00019884521650742715,
-      "loss": 2.4139,
-      "step": 240
-    },
-    {
-      "epoch": 0.0739863865048831,
-      "grad_norm": 62.0,
-      "learning_rate": 0.00019863613034027224,
-      "loss": 2.7548,
-      "step": 250
-    },
-    {
-      "epoch": 0.07694584196507842,
-      "grad_norm": 6.8125,
-      "learning_rate": 0.0001984097857063434,
-      "loss": 2.512,
-      "step": 260
-    },
-    {
-      "epoch": 0.07990529742527375,
-      "grad_norm": 5.9375,
-      "learning_rate": 0.0001981662222093976,
-      "loss": 2.5735,
-      "step": 270
-    },
-    {
-      "epoch": 0.08286475288546907,
-      "grad_norm": 10.75,
-      "learning_rate": 0.00019790548246599447,
-      "loss": 2.4225,
-      "step": 280
-    },
-    {
-      "epoch": 0.0858242083456644,
-      "grad_norm": 40.25,
-      "learning_rate": 0.00019762761209803927,
-      "loss": 2.6627,
-      "step": 290
-    },
-    {
-      "epoch": 0.08878366380585972,
-      "grad_norm": 34.5,
-      "learning_rate": 0.0001973326597248006,
-      "loss": 2.8292,
-      "step": 300
-    },
-    {
-      "epoch": 0.09174311926605505,
-      "grad_norm": 5.3125,
-      "learning_rate": 0.00019702067695440332,
-      "loss": 2.6395,
-      "step": 310
-    },
-    {
-      "epoch": 0.09470257472625036,
-      "grad_norm": 5.28125,
-      "learning_rate": 0.00019669171837479873,
-      "loss": 2.3439,
-      "step": 320
-    },
-    {
-      "epoch": 0.09766203018644569,
-      "grad_norm": 6.34375,
-      "learning_rate": 0.00019634584154421317,
-      "loss": 2.518,
-      "step": 330
-    },
-    {
-      "epoch": 0.10062148564664102,
-      "grad_norm": 11.125,
-      "learning_rate": 0.00019598310698107702,
-      "loss": 2.5213,
-      "step": 340
-    },
-    {
-      "epoch": 0.10358094110683634,
-      "grad_norm": 21.375,
-      "learning_rate": 0.00019560357815343577,
-      "loss": 2.4462,
-      "step": 350
-    },
-    {
-      "epoch": 0.10654039656703167,
-      "grad_norm": 5.625,
-      "learning_rate": 0.00019520732146784491,
-      "loss": 2.7193,
-      "step": 360
-    },
-    {
-      "epoch": 0.109499852027227,
-      "grad_norm": 6.96875,
-      "learning_rate": 0.0001947944062577507,
-      "loss": 2.3469,
-      "step": 370
-    },
-    {
-      "epoch": 0.11245930748742232,
-      "grad_norm": 12.6875,
-      "learning_rate": 0.00019436490477135878,
-      "loss": 2.7748,
-      "step": 380
-    },
-    {
-      "epoch": 0.11541876294761765,
-      "grad_norm": 7.84375,
-      "learning_rate": 0.00019391889215899299,
-      "loss": 2.6912,
-      "step": 390
-    },
-    {
-      "epoch": 0.11837821840781296,
-      "grad_norm": 22.875,
-      "learning_rate": 0.0001934564464599461,
-      "loss": 2.0167,
-      "step": 400
-    },
-    {
-      "epoch": 0.11837821840781296,
-      "eval_loss": 3.1852574348449707,
-      "eval_runtime": 121.7205,
-      "eval_samples_per_second": 12.34,
-      "eval_steps_per_second": 3.089,
-      "step": 400
     }
   ],
   "logging_steps": 10,
-  "max_steps": 2500,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 1,
-  "save_steps": 400,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -330,7 +77,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.336864320690586e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.4716981132075472,
+  "eval_steps": 50,
+  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.009433962264150943,
+      "eval_loss": 2.0827555656433105,
+      "eval_runtime": 40.6076,
+      "eval_samples_per_second": 36.963,
+      "eval_steps_per_second": 4.63,
       "step": 1
     },
     {
+      "epoch": 0.09433962264150944,
+      "grad_norm": 2.671875,
+      "learning_rate": 3.0769230769230774e-05,
+      "loss": 1.8571,
       "step": 10
     },
     {
+      "epoch": 0.18867924528301888,
+      "grad_norm": 1.4609375,
+      "learning_rate": 6.153846153846155e-05,
+      "loss": 1.6978,
       "step": 20
     },
     {
+      "epoch": 0.2830188679245283,
+      "grad_norm": 1.65625,
+      "learning_rate": 9.230769230769232e-05,
+      "loss": 1.6459,
       "step": 30
     },
     {
+      "epoch": 0.37735849056603776,
+      "grad_norm": 1.4296875,
+      "learning_rate": 0.0001230769230769231,
+      "loss": 1.6934,
       "step": 40
     },
     {
+      "epoch": 0.4716981132075472,
+      "grad_norm": 1.5,
+      "learning_rate": 0.00015384615384615385,
+      "loss": 1.8091,
       "step": 50
     },
     {
+      "epoch": 0.4716981132075472,
+      "eval_loss": 1.5812501907348633,
+      "eval_runtime": 39.1264,
+      "eval_samples_per_second": 38.363,
+      "eval_steps_per_second": 4.805,
+      "step": 50
     }
   ],
   "logging_steps": 10,
+  "max_steps": 1300,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 13,
+  "save_steps": 50,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 1.82964197523456e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5d80a39228c54a221be1a2fcaa8735bc8f219e67dfabd2fc6349782d71ba757b
-size 7032

 version https://git-lfs.github.com/spec/v1
+oid sha256:e4320434255846d7d3d8916bcc913b473a3b0890bc89a39d373bf3ce9e989285
+size 7096