Training in progress, epoch 2, checkpoint

Browse files

Files changed (15) hide show

last-checkpoint/model-00001-of-00004.safetensors +1 -1
last-checkpoint/model-00002-of-00004.safetensors +1 -1
last-checkpoint/model-00003-of-00004.safetensors +1 -1
last-checkpoint/model-00004-of-00004.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/rng_state_4.pth +1 -1
last-checkpoint/rng_state_5.pth +1 -1
last-checkpoint/rng_state_6.pth +1 -1
last-checkpoint/rng_state_7.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +431 -3

last-checkpoint/model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:11cca19a8bc1b40f8d1f067fb7f18195ad528c0f2dbd848842217ee82d84c32f
 size 4976698672

 version https://git-lfs.github.com/spec/v1
+oid sha256:b41c2bc8462b0e47f49b76757e3dfb6d9da0ffef646532492049087d75df0804
 size 4976698672

last-checkpoint/model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb82134e45554a9af53f18575ba70ce59cd8f0da61b9efc67d46b1f9f9e420fc
 size 4999802720

 version https://git-lfs.github.com/spec/v1
+oid sha256:62173b4011c396c0ad68343f75580a3747fb6885e2d93d0199c4a9f116f5dfbc
 size 4999802720

last-checkpoint/model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f32423dd2220104f8666b0a19da4851a2c8edcd9addad96b84ac3600e553006c
 size 4915916176

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a39aca3f3f901b09c08f052df0856befa492d5a02e4c71de99d616fd45ad76c
 size 4915916176

last-checkpoint/model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:537e35f4de984baa9421f75bdb506dd795a0842603b6942f26edf94f8785ba18
 size 1168138808

 version https://git-lfs.github.com/spec/v1
+oid sha256:37c6b53f424ac34e0041d6ce2645b9bc702f28c76a993636e35e43b49f969acc
 size 1168138808

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4a6409b691acfd9602ca4eca918d1c449edef044225fb699dc875f3e4361f191
 size 32121299754

 version https://git-lfs.github.com/spec/v1
+oid sha256:5d9ea41c947ef3420f6dd11ecace6682e7d5ffd8bab60ddb1dd5b41723b1ae75
 size 32121299754

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:955b895101e13c81ba510512313a06782795770a0bf998c90f718166d25f1664
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:74386f26f36ed67f56395205881e5db2d0c28ffcbeed50dd95b28771d2dac588
 size 15984

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:096e351ace65ff91008be171a45173ed6369cc639fce73a288f671041e24b0ec
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:41c88f9de084200454883a13c3717941ea3fd433e2f8735507fc30611f9c5501
 size 15984

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f21c61b1a7e793bbdec183de3b52da90042305234bc7e5887986655cd3fc2192
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:965b00d4cb4710ebab57c8787b9925bb3f77b8eeba94a186ec4bc1c2f326ef3f
 size 15984

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:348742498d81780506d9760c655a7a7555185b5fbd70a7ae296d88fd9aeecd84
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:d5dc374b8b9a4c45c950f9d136feab85a767081fa59f0c7d68ed3a62060c4949
 size 15984

last-checkpoint/rng_state_4.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:399c4700dab9ae7b754110ce307fb7e26e22cb49b5bb233c435f0f12b77c202f
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c7c212fb779217f1edac0baf44f67b608eefc1e0e4e3f5a9dd7eb557032c1bc
 size 15984

last-checkpoint/rng_state_5.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:864ea2379cc907eb4189c52706cb978150d9c26e18abf74679590729a8f0c8e8
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:86e1effd626ce1e95dd68a0c8089fe19218f2b24dfe9e45ed2cab1c0ebc10ba1
 size 15984

last-checkpoint/rng_state_6.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:25755ba07299ee6ff45936dd04df329596319c9f8095af71e6f3a219e7543e26
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:799cc83f60dfc1c4243cfd6403592112414a2eec494e6832f10221c96ff62c20
 size 15984

last-checkpoint/rng_state_7.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:908f018cd701ed629c41299726da4a25f202f20a1d4bc2075a2266ed4013db3a
 size 15984

 version https://git-lfs.github.com/spec/v1
+oid sha256:586777c398770c3255d3a1f48c7fef44ea9d89117c627c9ea490e16bfd9a49ba
 size 15984

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac1e9f2863e336135723663af33b8e751efacc94ddbc0f8e24b38d798ef74e64
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e0b8bb24713451d2d82dd1f621f66d6e162f73bb6a391a8f262290751eb1a69d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
   "eval_steps": 300,
-  "global_step": 299,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -427,6 +427,434 @@
       "learning_rate": 1.5141027441932214e-06,
       "loss": 4.597,
       "step": 295
     }
   ],
   "logging_steps": 5,
@@ -446,7 +874,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.7647318252524667e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0,
   "eval_steps": 300,
+  "global_step": 598,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 1.5141027441932214e-06,
       "loss": 4.597,
       "step": 295
+    },
+    {
+      "epoch": 1.0033444816053512,
+      "grad_norm": 2.75,
+      "learning_rate": 1.498987493914135e-06,
+      "loss": 4.5658,
+      "step": 300
+    },
+    {
+      "epoch": 1.0033444816053512,
+      "eval_loss": 4.585446834564209,
+      "eval_runtime": 7.2206,
+      "eval_samples_per_second": 80.188,
+      "eval_steps_per_second": 2.631,
+      "step": 300
+    },
+    {
+      "epoch": 1.020066889632107,
+      "grad_norm": 2.90625,
+      "learning_rate": 1.4837188871052397e-06,
+      "loss": 4.5897,
+      "step": 305
+    },
+    {
+      "epoch": 1.0367892976588629,
+      "grad_norm": 2.734375,
+      "learning_rate": 1.4683016163501854e-06,
+      "loss": 4.5885,
+      "step": 310
+    },
+    {
+      "epoch": 1.0535117056856187,
+      "grad_norm": 2.75,
+      "learning_rate": 1.452740419922317e-06,
+      "loss": 4.6009,
+      "step": 315
+    },
+    {
+      "epoch": 1.0702341137123745,
+      "grad_norm": 2.96875,
+      "learning_rate": 1.4370400803284373e-06,
+      "loss": 4.5789,
+      "step": 320
+    },
+    {
+      "epoch": 1.0869565217391304,
+      "grad_norm": 3.4375,
+      "learning_rate": 1.421205422838971e-06,
+      "loss": 4.5435,
+      "step": 325
+    },
+    {
+      "epoch": 1.1036789297658862,
+      "grad_norm": 2.734375,
+      "learning_rate": 1.4052413140049897e-06,
+      "loss": 4.566,
+      "step": 330
+    },
+    {
+      "epoch": 1.120401337792642,
+      "grad_norm": 2.59375,
+      "learning_rate": 1.389152660162549e-06,
+      "loss": 4.5621,
+      "step": 335
+    },
+    {
+      "epoch": 1.137123745819398,
+      "grad_norm": 2.65625,
+      "learning_rate": 1.3729444059247953e-06,
+      "loss": 4.5505,
+      "step": 340
+    },
+    {
+      "epoch": 1.1538461538461537,
+      "grad_norm": 2.40625,
+      "learning_rate": 1.3566215326623129e-06,
+      "loss": 4.5709,
+      "step": 345
+    },
+    {
+      "epoch": 1.1705685618729098,
+      "grad_norm": 2.390625,
+      "learning_rate": 1.3401890569721723e-06,
+      "loss": 4.5569,
+      "step": 350
+    },
+    {
+      "epoch": 1.1872909698996654,
+      "grad_norm": 2.46875,
+      "learning_rate": 1.3236520291361515e-06,
+      "loss": 4.5456,
+      "step": 355
+    },
+    {
+      "epoch": 1.2040133779264215,
+      "grad_norm": 2.5625,
+      "learning_rate": 1.3070155315686059e-06,
+      "loss": 4.5543,
+      "step": 360
+    },
+    {
+      "epoch": 1.2207357859531773,
+      "grad_norm": 2.65625,
+      "learning_rate": 1.2902846772544622e-06,
+      "loss": 4.5408,
+      "step": 365
+    },
+    {
+      "epoch": 1.2374581939799332,
+      "grad_norm": 2.90625,
+      "learning_rate": 1.273464608177818e-06,
+      "loss": 4.5435,
+      "step": 370
+    },
+    {
+      "epoch": 1.254180602006689,
+      "grad_norm": 2.578125,
+      "learning_rate": 1.2565604937416266e-06,
+      "loss": 4.5436,
+      "step": 375
+    },
+    {
+      "epoch": 1.2709030100334449,
+      "grad_norm": 2.484375,
+      "learning_rate": 1.2395775291789567e-06,
+      "loss": 4.5448,
+      "step": 380
+    },
+    {
+      "epoch": 1.2876254180602007,
+      "grad_norm": 2.375,
+      "learning_rate": 1.2225209339563143e-06,
+      "loss": 4.5398,
+      "step": 385
+    },
+    {
+      "epoch": 1.3043478260869565,
+      "grad_norm": 2.484375,
+      "learning_rate": 1.2053959501695144e-06,
+      "loss": 4.5383,
+      "step": 390
+    },
+    {
+      "epoch": 1.3210702341137124,
+      "grad_norm": 2.421875,
+      "learning_rate": 1.1882078409326002e-06,
+      "loss": 4.5556,
+      "step": 395
+    },
+    {
+      "epoch": 1.3377926421404682,
+      "grad_norm": 2.703125,
+      "learning_rate": 1.1709618887603011e-06,
+      "loss": 4.5273,
+      "step": 400
+    },
+    {
+      "epoch": 1.354515050167224,
+      "grad_norm": 2.5,
+      "learning_rate": 1.15366339394453e-06,
+      "loss": 4.5262,
+      "step": 405
+    },
+    {
+      "epoch": 1.37123745819398,
+      "grad_norm": 2.46875,
+      "learning_rate": 1.1363176729254144e-06,
+      "loss": 4.5391,
+      "step": 410
+    },
+    {
+      "epoch": 1.3879598662207357,
+      "grad_norm": 2.953125,
+      "learning_rate": 1.118930056657367e-06,
+      "loss": 4.5218,
+      "step": 415
+    },
+    {
+      "epoch": 1.4046822742474916,
+      "grad_norm": 2.421875,
+      "learning_rate": 1.1015058889706942e-06,
+      "loss": 4.5255,
+      "step": 420
+    },
+    {
+      "epoch": 1.4214046822742474,
+      "grad_norm": 2.53125,
+      "learning_rate": 1.0840505249292475e-06,
+      "loss": 4.5304,
+      "step": 425
+    },
+    {
+      "epoch": 1.4381270903010033,
+      "grad_norm": 2.5,
+      "learning_rate": 1.0665693291846243e-06,
+      "loss": 4.5418,
+      "step": 430
+    },
+    {
+      "epoch": 1.4548494983277591,
+      "grad_norm": 2.40625,
+      "learning_rate": 1.0490676743274181e-06,
+      "loss": 4.522,
+      "step": 435
+    },
+    {
+      "epoch": 1.471571906354515,
+      "grad_norm": 2.5,
+      "learning_rate": 1.031550939236033e-06,
+      "loss": 4.5346,
+      "step": 440
+    },
+    {
+      "epoch": 1.488294314381271,
+      "grad_norm": 2.296875,
+      "learning_rate": 1.0140245074235622e-06,
+      "loss": 4.496,
+      "step": 445
+    },
+    {
+      "epoch": 1.5050167224080266,
+      "grad_norm": 2.390625,
+      "learning_rate": 9.964937653832469e-07,
+      "loss": 4.5212,
+      "step": 450
+    },
+    {
+      "epoch": 1.5217391304347827,
+      "grad_norm": 2.3125,
+      "learning_rate": 9.78964100933011e-07,
+      "loss": 4.5069,
+      "step": 455
+    },
+    {
+      "epoch": 1.5384615384615383,
+      "grad_norm": 2.546875,
+      "learning_rate": 9.614409015595994e-07,
+      "loss": 4.5124,
+      "step": 460
+    },
+    {
+      "epoch": 1.5551839464882944,
+      "grad_norm": 2.515625,
+      "learning_rate": 9.43929552762808e-07,
+      "loss": 4.5155,
+      "step": 465
+    },
+    {
+      "epoch": 1.57190635451505,
+      "grad_norm": 2.46875,
+      "learning_rate": 9.264354364003326e-07,
+      "loss": 4.5143,
+      "step": 470
+    },
+    {
+      "epoch": 1.588628762541806,
+      "grad_norm": 2.25,
+      "learning_rate": 9.089639290337298e-07,
+      "loss": 4.4947,
+      "step": 475
+    },
+    {
+      "epoch": 1.605351170568562,
+      "grad_norm": 2.53125,
+      "learning_rate": 8.915204002760122e-07,
+      "loss": 4.5113,
+      "step": 480
+    },
+    {
+      "epoch": 1.6220735785953178,
+      "grad_norm": 2.359375,
+      "learning_rate": 8.741102111413748e-07,
+      "loss": 4.5215,
+      "step": 485
+    },
+    {
+      "epoch": 1.6387959866220736,
+      "grad_norm": 2.390625,
+      "learning_rate": 8.567387123975647e-07,
+      "loss": 4.4991,
+      "step": 490
+    },
+    {
+      "epoch": 1.6555183946488294,
+      "grad_norm": 3.296875,
+      "learning_rate": 8.394112429214029e-07,
+      "loss": 4.5263,
+      "step": 495
+    },
+    {
+      "epoch": 1.6722408026755853,
+      "grad_norm": 2.28125,
+      "learning_rate": 8.221331280579564e-07,
+      "loss": 4.5039,
+      "step": 500
+    },
+    {
+      "epoch": 1.6889632107023411,
+      "grad_norm": 2.46875,
+      "learning_rate": 8.049096779838717e-07,
+      "loss": 4.5294,
+      "step": 505
+    },
+    {
+      "epoch": 1.705685618729097,
+      "grad_norm": 2.734375,
+      "learning_rate": 7.877461860753696e-07,
+      "loss": 4.4868,
+      "step": 510
+    },
+    {
+      "epoch": 1.7224080267558528,
+      "grad_norm": 2.484375,
+      "learning_rate": 7.706479272814022e-07,
+      "loss": 4.4988,
+      "step": 515
+    },
+    {
+      "epoch": 1.7391304347826086,
+      "grad_norm": 2.3125,
+      "learning_rate": 7.536201565024767e-07,
+      "loss": 4.4843,
+      "step": 520
+    },
+    {
+      "epoch": 1.7558528428093645,
+      "grad_norm": 2.359375,
+      "learning_rate": 7.366681069756351e-07,
+      "loss": 4.4878,
+      "step": 525
+    },
+    {
+      "epoch": 1.7725752508361206,
+      "grad_norm": 2.578125,
+      "learning_rate": 7.197969886660984e-07,
+      "loss": 4.4925,
+      "step": 530
+    },
+    {
+      "epoch": 1.7892976588628762,
+      "grad_norm": 2.65625,
+      "learning_rate": 7.030119866660565e-07,
+      "loss": 4.5185,
+      "step": 535
+    },
+    {
+      "epoch": 1.8060200668896322,
+      "grad_norm": 2.375,
+      "learning_rate": 6.863182596011085e-07,
+      "loss": 4.4988,
+      "step": 540
+    },
+    {
+      "epoch": 1.8227424749163879,
+      "grad_norm": 2.640625,
+      "learning_rate": 6.697209380448332e-07,
+      "loss": 4.4764,
+      "step": 545
+    },
+    {
+      "epoch": 1.839464882943144,
+      "grad_norm": 2.296875,
+      "learning_rate": 6.532251229419809e-07,
+      "loss": 4.4987,
+      "step": 550
+    },
+    {
+      "epoch": 1.8561872909698995,
+      "grad_norm": 2.46875,
+      "learning_rate": 6.368358840407752e-07,
+      "loss": 4.5123,
+      "step": 555
+    },
+    {
+      "epoch": 1.8729096989966556,
+      "grad_norm": 2.375,
+      "learning_rate": 6.205582583347973e-07,
+      "loss": 4.5019,
+      "step": 560
+    },
+    {
+      "epoch": 1.8896321070234112,
+      "grad_norm": 2.28125,
+      "learning_rate": 6.043972485149414e-07,
+      "loss": 4.5041,
+      "step": 565
+    },
+    {
+      "epoch": 1.9063545150501673,
+      "grad_norm": 2.453125,
+      "learning_rate": 5.88357821431908e-07,
+      "loss": 4.485,
+      "step": 570
+    },
+    {
+      "epoch": 1.9230769230769231,
+      "grad_norm": 2.4375,
+      "learning_rate": 5.724449065697181e-07,
+      "loss": 4.4854,
+      "step": 575
+    },
+    {
+      "epoch": 1.939799331103679,
+      "grad_norm": 2.5625,
+      "learning_rate": 5.566633945307052e-07,
+      "loss": 4.5039,
+      "step": 580
+    },
+    {
+      "epoch": 1.9565217391304348,
+      "grad_norm": 2.359375,
+      "learning_rate": 5.410181355324621e-07,
+      "loss": 4.507,
+      "step": 585
+    },
+    {
+      "epoch": 1.9732441471571907,
+      "grad_norm": 2.3125,
+      "learning_rate": 5.255139379171966e-07,
+      "loss": 4.5087,
+      "step": 590
+    },
+    {
+      "epoch": 1.9899665551839465,
+      "grad_norm": 2.359375,
+      "learning_rate": 5.101555666739563e-07,
+      "loss": 4.5007,
+      "step": 595
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 3.529463651578675e+18,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null