Training in progress, epoch 12

Browse files

Files changed (12) hide show

last-checkpoint/{global_step764203 → global_step833676}/mp_rank_00_model_states.pt +1 -1
last-checkpoint/{global_step764203 → global_step833676}/zero_pp_rank_0_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/{global_step764203 → global_step833676}/zero_pp_rank_1_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/{global_step764203 → global_step833676}/zero_pp_rank_2_mp_rank_00_optim_states.pt +1 -1
last-checkpoint/latest +1 -1
last-checkpoint/pytorch_model.bin +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/trainer_state.json +846 -3
pytorch_model.bin +1 -1
runs/Feb22_11-16-27_user-SYS-5049A-TR/events.out.tfevents.1677032209.user-SYS-5049A-TR.55703.0 +2 -2

last-checkpoint/{global_step764203 → global_step833676}/mp_rank_00_model_states.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:957ee02a261b6bfc99fc73ea67bd87b9a19090647bf92442249930ffd0120616
 size 59134503

 version https://git-lfs.github.com/spec/v1
+oid sha256:ceb40b697a2bebf31fb1d8e96a0b612fabe60d97317f236ab6e7183922d22cfc
 size 59134503

last-checkpoint/{global_step764203 → global_step833676}/zero_pp_rank_0_mp_rank_00_optim_states.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f27d7eb472bc3f4e910186c454447d51ae61ae3e5bc5705aed01117f21e4f439
 size 118216675

 version https://git-lfs.github.com/spec/v1
+oid sha256:45e46d04dbeec7bd2b87ef87a21c655cec878baafbcd3d8c5918eedefc4979ef
 size 118216675

last-checkpoint/{global_step764203 → global_step833676}/zero_pp_rank_1_mp_rank_00_optim_states.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4e6b6fed03b1341c0bb208a6f9ae54cc64bd7ebea666b859caf3c7f9bcf96c16
 size 118217955

 version https://git-lfs.github.com/spec/v1
+oid sha256:a9ac625b0aad468072420d60943c6fed14a4290dc0b0d9b4ae90123a70070898
 size 118217955

last-checkpoint/{global_step764203 → global_step833676}/zero_pp_rank_2_mp_rank_00_optim_states.pt RENAMED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:799b982154df0374c7243ebd969031c761789dd5cb606eebc1903009c444c1be
 size 118221091

 version https://git-lfs.github.com/spec/v1
+oid sha256:9f8961d8cdcef32124c68cad761d159b81fb2e760ecd88967029c561b10b8862
 size 118221091

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step764203~~


1	+ global_step833676

last-checkpoint/pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eda519537384a51d41a4a58b603f16ba211d4cdc516840c5fe985d5f26ea19e0
 size 59121639

 version https://git-lfs.github.com/spec/v1
+oid sha256:272bd073e3c6a55e1b280e577ccf6e7eae43b9f46eebdd8784e4a65120c26605
 size 59121639

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5326b7d97861f628b803fe440b0a6b1644e36579b2582f5db7027e77542c648c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:921be562a925d9a34a76b68ff536d20575b4c253aa3a0dd90ed2b54bcb3d4bc2
 size 14503

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bd99ee4ba032a3620b579bb7224c1482125e732862d1ed96ef21acfe546d242c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:9df41d1c852f80983f1c4bcca014e1136a76208d7228c8c6258086654630fd66
 size 14503

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:af18f0195f365b86261ebeb1b8c35c2ae70733f2059a39025bf1bd0e07744a7c
 size 14503

 version https://git-lfs.github.com/spec/v1
+oid sha256:a5c966a14c0af9a90b93725e85b7cb40919618565def7f6151843e3bdd7f4ce3
 size 14503

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 11.0,
-  "global_step": 764203,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9273,11 +9273,854 @@
       "eval_samples_per_second": 824.442,
       "eval_steps_per_second": 34.352,
       "step": 764203
     }
   ],
   "max_steps": 972622,
   "num_train_epochs": 14,
-  "total_flos": 5.477391803378303e+18,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 12.0,
+  "global_step": 833676,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 824.442,
       "eval_steps_per_second": 34.352,
       "step": 764203
+    },
+    {
+      "epoch": 11.0,
+      "learning_rate": 2.177277896343838e-05,
+      "loss": 1.7241,
+      "step": 764500
+    },
+    {
+      "epoch": 11.01,
+      "learning_rate": 2.1721059928652658e-05,
+      "loss": 1.7231,
+      "step": 765000
+    },
+    {
+      "epoch": 11.02,
+      "learning_rate": 2.1669133186899923e-05,
+      "loss": 1.7191,
+      "step": 765500
+    },
+    {
+      "epoch": 11.03,
+      "learning_rate": 2.1617414152114197e-05,
+      "loss": 1.7213,
+      "step": 766000
+    },
+    {
+      "epoch": 11.03,
+      "learning_rate": 2.1565487410361462e-05,
+      "loss": 1.7183,
+      "step": 766500
+    },
+    {
+      "epoch": 11.04,
+      "learning_rate": 2.1513768375575737e-05,
+      "loss": 1.7218,
+      "step": 767000
+    },
+    {
+      "epoch": 11.05,
+      "learning_rate": 2.1461841633823005e-05,
+      "loss": 1.72,
+      "step": 767500
+    },
+    {
+      "epoch": 11.05,
+      "learning_rate": 2.141012259903728e-05,
+      "loss": 1.7179,
+      "step": 768000
+    },
+    {
+      "epoch": 11.06,
+      "learning_rate": 2.1358195857284544e-05,
+      "loss": 1.722,
+      "step": 768500
+    },
+    {
+      "epoch": 11.07,
+      "learning_rate": 2.130647682249882e-05,
+      "loss": 1.7249,
+      "step": 769000
+    },
+    {
+      "epoch": 11.08,
+      "learning_rate": 2.1254550080746087e-05,
+      "loss": 1.7184,
+      "step": 769500
+    },
+    {
+      "epoch": 11.08,
+      "learning_rate": 2.120283104596036e-05,
+      "loss": 1.7217,
+      "step": 770000
+    },
+    {
+      "epoch": 11.09,
+      "learning_rate": 2.1150904304207626e-05,
+      "loss": 1.7151,
+      "step": 770500
+    },
+    {
+      "epoch": 11.1,
+      "learning_rate": 2.10991852694219e-05,
+      "loss": 1.7216,
+      "step": 771000
+    },
+    {
+      "epoch": 11.11,
+      "learning_rate": 2.1047258527669165e-05,
+      "loss": 1.7187,
+      "step": 771500
+    },
+    {
+      "epoch": 11.11,
+      "learning_rate": 2.099553949288344e-05,
+      "loss": 1.7231,
+      "step": 772000
+    },
+    {
+      "epoch": 11.12,
+      "learning_rate": 2.0943612751130705e-05,
+      "loss": 1.7166,
+      "step": 772500
+    },
+    {
+      "epoch": 11.13,
+      "learning_rate": 2.0891893716344982e-05,
+      "loss": 1.721,
+      "step": 773000
+    },
+    {
+      "epoch": 11.13,
+      "learning_rate": 2.0839966974592244e-05,
+      "loss": 1.7188,
+      "step": 773500
+    },
+    {
+      "epoch": 11.14,
+      "learning_rate": 2.0788247939806522e-05,
+      "loss": 1.7186,
+      "step": 774000
+    },
+    {
+      "epoch": 11.15,
+      "learning_rate": 2.0736321198053787e-05,
+      "loss": 1.7172,
+      "step": 774500
+    },
+    {
+      "epoch": 11.16,
+      "learning_rate": 2.0684602163268064e-05,
+      "loss": 1.7187,
+      "step": 775000
+    },
+    {
+      "epoch": 11.16,
+      "learning_rate": 2.0632675421515326e-05,
+      "loss": 1.721,
+      "step": 775500
+    },
+    {
+      "epoch": 11.17,
+      "learning_rate": 2.0580956386729604e-05,
+      "loss": 1.72,
+      "step": 776000
+    },
+    {
+      "epoch": 11.18,
+      "learning_rate": 2.052902964497687e-05,
+      "loss": 1.7235,
+      "step": 776500
+    },
+    {
+      "epoch": 11.18,
+      "learning_rate": 2.0477310610191143e-05,
+      "loss": 1.7188,
+      "step": 777000
+    },
+    {
+      "epoch": 11.19,
+      "learning_rate": 2.0425383868438408e-05,
+      "loss": 1.7149,
+      "step": 777500
+    },
+    {
+      "epoch": 11.2,
+      "learning_rate": 2.0373664833652682e-05,
+      "loss": 1.7217,
+      "step": 778000
+    },
+    {
+      "epoch": 11.21,
+      "learning_rate": 2.0321738091899947e-05,
+      "loss": 1.7167,
+      "step": 778500
+    },
+    {
+      "epoch": 11.21,
+      "learning_rate": 2.027001905711422e-05,
+      "loss": 1.7174,
+      "step": 779000
+    },
+    {
+      "epoch": 11.22,
+      "learning_rate": 2.021809231536149e-05,
+      "loss": 1.7199,
+      "step": 779500
+    },
+    {
+      "epoch": 11.23,
+      "learning_rate": 2.0166373280575764e-05,
+      "loss": 1.7173,
+      "step": 780000
+    },
+    {
+      "epoch": 11.23,
+      "learning_rate": 2.011444653882303e-05,
+      "loss": 1.7184,
+      "step": 780500
+    },
+    {
+      "epoch": 11.24,
+      "learning_rate": 2.0062727504037303e-05,
+      "loss": 1.714,
+      "step": 781000
+    },
+    {
+      "epoch": 11.25,
+      "learning_rate": 2.001080076228457e-05,
+      "loss": 1.7196,
+      "step": 781500
+    },
+    {
+      "epoch": 11.26,
+      "learning_rate": 1.9959081727498846e-05,
+      "loss": 1.7174,
+      "step": 782000
+    },
+    {
+      "epoch": 11.26,
+      "learning_rate": 1.990715498574611e-05,
+      "loss": 1.7227,
+      "step": 782500
+    },
+    {
+      "epoch": 11.27,
+      "learning_rate": 1.9855435950960385e-05,
+      "loss": 1.7177,
+      "step": 783000
+    },
+    {
+      "epoch": 11.28,
+      "learning_rate": 1.980350920920765e-05,
+      "loss": 1.7197,
+      "step": 783500
+    },
+    {
+      "epoch": 11.28,
+      "learning_rate": 1.9751790174421928e-05,
+      "loss": 1.7229,
+      "step": 784000
+    },
+    {
+      "epoch": 11.29,
+      "learning_rate": 1.969986343266919e-05,
+      "loss": 1.7191,
+      "step": 784500
+    },
+    {
+      "epoch": 11.3,
+      "learning_rate": 1.9648144397883467e-05,
+      "loss": 1.7138,
+      "step": 785000
+    },
+    {
+      "epoch": 11.31,
+      "learning_rate": 1.959621765613073e-05,
+      "loss": 1.7207,
+      "step": 785500
+    },
+    {
+      "epoch": 11.31,
+      "learning_rate": 1.954449862134501e-05,
+      "loss": 1.7146,
+      "step": 786000
+    },
+    {
+      "epoch": 11.32,
+      "learning_rate": 1.949257187959227e-05,
+      "loss": 1.7196,
+      "step": 786500
+    },
+    {
+      "epoch": 11.33,
+      "learning_rate": 1.944085284480655e-05,
+      "loss": 1.7191,
+      "step": 787000
+    },
+    {
+      "epoch": 11.34,
+      "learning_rate": 1.938892610305381e-05,
+      "loss": 1.7159,
+      "step": 787500
+    },
+    {
+      "epoch": 11.34,
+      "learning_rate": 1.933720706826809e-05,
+      "loss": 1.7162,
+      "step": 788000
+    },
+    {
+      "epoch": 11.35,
+      "learning_rate": 1.9285280326515353e-05,
+      "loss": 1.7182,
+      "step": 788500
+    },
+    {
+      "epoch": 11.36,
+      "learning_rate": 1.9233561291729628e-05,
+      "loss": 1.7189,
+      "step": 789000
+    },
+    {
+      "epoch": 11.36,
+      "learning_rate": 1.9181634549976893e-05,
+      "loss": 1.717,
+      "step": 789500
+    },
+    {
+      "epoch": 11.37,
+      "learning_rate": 1.9129915515191167e-05,
+      "loss": 1.7177,
+      "step": 790000
+    },
+    {
+      "epoch": 11.38,
+      "learning_rate": 1.9077988773438435e-05,
+      "loss": 1.7161,
+      "step": 790500
+    },
+    {
+      "epoch": 11.39,
+      "learning_rate": 1.902626973865271e-05,
+      "loss": 1.7167,
+      "step": 791000
+    },
+    {
+      "epoch": 11.39,
+      "learning_rate": 1.8974342996899974e-05,
+      "loss": 1.7182,
+      "step": 791500
+    },
+    {
+      "epoch": 11.4,
+      "learning_rate": 1.892262396211425e-05,
+      "loss": 1.7168,
+      "step": 792000
+    },
+    {
+      "epoch": 11.41,
+      "learning_rate": 1.8870697220361517e-05,
+      "loss": 1.7151,
+      "step": 792500
+    },
+    {
+      "epoch": 11.41,
+      "learning_rate": 1.881897818557579e-05,
+      "loss": 1.7218,
+      "step": 793000
+    },
+    {
+      "epoch": 11.42,
+      "learning_rate": 1.8767051443823056e-05,
+      "loss": 1.7196,
+      "step": 793500
+    },
+    {
+      "epoch": 11.43,
+      "learning_rate": 1.871533240903733e-05,
+      "loss": 1.7158,
+      "step": 794000
+    },
+    {
+      "epoch": 11.44,
+      "learning_rate": 1.8663405667284596e-05,
+      "loss": 1.7207,
+      "step": 794500
+    },
+    {
+      "epoch": 11.44,
+      "learning_rate": 1.861168663249887e-05,
+      "loss": 1.7135,
+      "step": 795000
+    },
+    {
+      "epoch": 11.45,
+      "learning_rate": 1.855975989074614e-05,
+      "loss": 1.7185,
+      "step": 795500
+    },
+    {
+      "epoch": 11.46,
+      "learning_rate": 1.8508040855960413e-05,
+      "loss": 1.715,
+      "step": 796000
+    },
+    {
+      "epoch": 11.46,
+      "learning_rate": 1.8456114114207678e-05,
+      "loss": 1.7159,
+      "step": 796500
+    },
+    {
+      "epoch": 11.47,
+      "learning_rate": 1.8404395079421952e-05,
+      "loss": 1.722,
+      "step": 797000
+    },
+    {
+      "epoch": 11.48,
+      "learning_rate": 1.8352468337669217e-05,
+      "loss": 1.7182,
+      "step": 797500
+    },
+    {
+      "epoch": 11.49,
+      "learning_rate": 1.8300749302883495e-05,
+      "loss": 1.7209,
+      "step": 798000
+    },
+    {
+      "epoch": 11.49,
+      "learning_rate": 1.8248822561130756e-05,
+      "loss": 1.7154,
+      "step": 798500
+    },
+    {
+      "epoch": 11.5,
+      "learning_rate": 1.8197103526345034e-05,
+      "loss": 1.7182,
+      "step": 799000
+    },
+    {
+      "epoch": 11.51,
+      "learning_rate": 1.81451767845923e-05,
+      "loss": 1.7143,
+      "step": 799500
+    },
+    {
+      "epoch": 11.52,
+      "learning_rate": 1.8093457749806577e-05,
+      "loss": 1.7141,
+      "step": 800000
+    },
+    {
+      "epoch": 11.52,
+      "learning_rate": 1.8041531008053838e-05,
+      "loss": 1.7146,
+      "step": 800500
+    },
+    {
+      "epoch": 11.53,
+      "learning_rate": 1.7989811973268116e-05,
+      "loss": 1.7161,
+      "step": 801000
+    },
+    {
+      "epoch": 11.54,
+      "learning_rate": 1.7937885231515377e-05,
+      "loss": 1.7129,
+      "step": 801500
+    },
+    {
+      "epoch": 11.54,
+      "learning_rate": 1.7886166196729655e-05,
+      "loss": 1.7192,
+      "step": 802000
+    },
+    {
+      "epoch": 11.55,
+      "learning_rate": 1.783423945497692e-05,
+      "loss": 1.7209,
+      "step": 802500
+    },
+    {
+      "epoch": 11.56,
+      "learning_rate": 1.7782520420191194e-05,
+      "loss": 1.717,
+      "step": 803000
+    },
+    {
+      "epoch": 11.57,
+      "learning_rate": 1.773059367843846e-05,
+      "loss": 1.7134,
+      "step": 803500
+    },
+    {
+      "epoch": 11.57,
+      "learning_rate": 1.7678874643652734e-05,
+      "loss": 1.7199,
+      "step": 804000
+    },
+    {
+      "epoch": 11.58,
+      "learning_rate": 1.7626947901900002e-05,
+      "loss": 1.7099,
+      "step": 804500
+    },
+    {
+      "epoch": 11.59,
+      "learning_rate": 1.7575228867114276e-05,
+      "loss": 1.7197,
+      "step": 805000
+    },
+    {
+      "epoch": 11.59,
+      "learning_rate": 1.752330212536154e-05,
+      "loss": 1.7135,
+      "step": 805500
+    },
+    {
+      "epoch": 11.6,
+      "learning_rate": 1.7471583090575816e-05,
+      "loss": 1.7177,
+      "step": 806000
+    },
+    {
+      "epoch": 11.61,
+      "learning_rate": 1.7419656348823084e-05,
+      "loss": 1.7178,
+      "step": 806500
+    },
+    {
+      "epoch": 11.62,
+      "learning_rate": 1.7367937314037358e-05,
+      "loss": 1.7157,
+      "step": 807000
+    },
+    {
+      "epoch": 11.62,
+      "learning_rate": 1.7316010572284623e-05,
+      "loss": 1.7178,
+      "step": 807500
+    },
+    {
+      "epoch": 11.63,
+      "learning_rate": 1.7264291537498897e-05,
+      "loss": 1.7147,
+      "step": 808000
+    },
+    {
+      "epoch": 11.64,
+      "learning_rate": 1.7212364795746162e-05,
+      "loss": 1.7179,
+      "step": 808500
+    },
+    {
+      "epoch": 11.64,
+      "learning_rate": 1.7160645760960437e-05,
+      "loss": 1.7159,
+      "step": 809000
+    },
+    {
+      "epoch": 11.65,
+      "learning_rate": 1.71087190192077e-05,
+      "loss": 1.7157,
+      "step": 809500
+    },
+    {
+      "epoch": 11.66,
+      "learning_rate": 1.705699998442198e-05,
+      "loss": 1.7194,
+      "step": 810000
+    },
+    {
+      "epoch": 11.67,
+      "learning_rate": 1.700507324266924e-05,
+      "loss": 1.7165,
+      "step": 810500
+    },
+    {
+      "epoch": 11.67,
+      "learning_rate": 1.695335420788352e-05,
+      "loss": 1.717,
+      "step": 811000
+    },
+    {
+      "epoch": 11.68,
+      "learning_rate": 1.6901427466130784e-05,
+      "loss": 1.7156,
+      "step": 811500
+    },
+    {
+      "epoch": 11.69,
+      "learning_rate": 1.684970843134506e-05,
+      "loss": 1.7136,
+      "step": 812000
+    },
+    {
+      "epoch": 11.7,
+      "learning_rate": 1.6797781689592323e-05,
+      "loss": 1.7164,
+      "step": 812500
+    },
+    {
+      "epoch": 11.7,
+      "learning_rate": 1.67460626548066e-05,
+      "loss": 1.7159,
+      "step": 813000
+    },
+    {
+      "epoch": 11.71,
+      "learning_rate": 1.6694135913053865e-05,
+      "loss": 1.7176,
+      "step": 813500
+    },
+    {
+      "epoch": 11.72,
+      "learning_rate": 1.664241687826814e-05,
+      "loss": 1.7167,
+      "step": 814000
+    },
+    {
+      "epoch": 11.72,
+      "learning_rate": 1.6590490136515405e-05,
+      "loss": 1.7175,
+      "step": 814500
+    },
+    {
+      "epoch": 11.73,
+      "learning_rate": 1.653877110172968e-05,
+      "loss": 1.7126,
+      "step": 815000
+    },
+    {
+      "epoch": 11.74,
+      "learning_rate": 1.6486844359976944e-05,
+      "loss": 1.7118,
+      "step": 815500
+    },
+    {
+      "epoch": 11.75,
+      "learning_rate": 1.6435125325191222e-05,
+      "loss": 1.7122,
+      "step": 816000
+    },
+    {
+      "epoch": 11.75,
+      "learning_rate": 1.6383198583438487e-05,
+      "loss": 1.7169,
+      "step": 816500
+    },
+    {
+      "epoch": 11.76,
+      "learning_rate": 1.633147954865276e-05,
+      "loss": 1.7138,
+      "step": 817000
+    },
+    {
+      "epoch": 11.77,
+      "learning_rate": 1.6279552806900026e-05,
+      "loss": 1.7133,
+      "step": 817500
+    },
+    {
+      "epoch": 11.77,
+      "learning_rate": 1.62278337721143e-05,
+      "loss": 1.7167,
+      "step": 818000
+    },
+    {
+      "epoch": 11.78,
+      "learning_rate": 1.617590703036157e-05,
+      "loss": 1.7165,
+      "step": 818500
+    },
+    {
+      "epoch": 11.79,
+      "learning_rate": 1.6124187995575843e-05,
+      "loss": 1.7147,
+      "step": 819000
+    },
+    {
+      "epoch": 11.8,
+      "learning_rate": 1.6072261253823108e-05,
+      "loss": 1.7116,
+      "step": 819500
+    },
+    {
+      "epoch": 11.8,
+      "learning_rate": 1.6020542219037382e-05,
+      "loss": 1.7131,
+      "step": 820000
+    },
+    {
+      "epoch": 11.81,
+      "learning_rate": 1.5968615477284647e-05,
+      "loss": 1.7125,
+      "step": 820500
+    },
+    {
+      "epoch": 11.82,
+      "learning_rate": 1.5916896442498925e-05,
+      "loss": 1.7159,
+      "step": 821000
+    },
+    {
+      "epoch": 11.82,
+      "learning_rate": 1.5864969700746186e-05,
+      "loss": 1.7116,
+      "step": 821500
+    },
+    {
+      "epoch": 11.83,
+      "learning_rate": 1.5813250665960464e-05,
+      "loss": 1.7134,
+      "step": 822000
+    },
+    {
+      "epoch": 11.84,
+      "learning_rate": 1.576132392420773e-05,
+      "loss": 1.7176,
+      "step": 822500
+    },
+    {
+      "epoch": 11.85,
+      "learning_rate": 1.5709604889422007e-05,
+      "loss": 1.7149,
+      "step": 823000
+    },
+    {
+      "epoch": 11.85,
+      "learning_rate": 1.565767814766927e-05,
+      "loss": 1.7154,
+      "step": 823500
+    },
+    {
+      "epoch": 11.86,
+      "learning_rate": 1.5605959112883546e-05,
+      "loss": 1.7141,
+      "step": 824000
+    },
+    {
+      "epoch": 11.87,
+      "learning_rate": 1.5554032371130808e-05,
+      "loss": 1.714,
+      "step": 824500
+    },
+    {
+      "epoch": 11.88,
+      "learning_rate": 1.5502313336345085e-05,
+      "loss": 1.7131,
+      "step": 825000
+    },
+    {
+      "epoch": 11.88,
+      "learning_rate": 1.545038659459235e-05,
+      "loss": 1.7094,
+      "step": 825500
+    },
+    {
+      "epoch": 11.89,
+      "learning_rate": 1.5398667559806625e-05,
+      "loss": 1.713,
+      "step": 826000
+    },
+    {
+      "epoch": 11.9,
+      "learning_rate": 1.534674081805389e-05,
+      "loss": 1.7131,
+      "step": 826500
+    },
+    {
+      "epoch": 11.9,
+      "learning_rate": 1.5295021783268164e-05,
+      "loss": 1.7134,
+      "step": 827000
+    },
+    {
+      "epoch": 11.91,
+      "learning_rate": 1.5243095041515432e-05,
+      "loss": 1.7143,
+      "step": 827500
+    },
+    {
+      "epoch": 11.92,
+      "learning_rate": 1.5191376006729707e-05,
+      "loss": 1.7123,
+      "step": 828000
+    },
+    {
+      "epoch": 11.93,
+      "learning_rate": 1.5139449264976971e-05,
+      "loss": 1.7154,
+      "step": 828500
+    },
+    {
+      "epoch": 11.93,
+      "learning_rate": 1.5087730230191246e-05,
+      "loss": 1.7142,
+      "step": 829000
+    },
+    {
+      "epoch": 11.94,
+      "learning_rate": 1.5035803488438512e-05,
+      "loss": 1.7115,
+      "step": 829500
+    },
+    {
+      "epoch": 11.95,
+      "learning_rate": 1.4984084453652788e-05,
+      "loss": 1.714,
+      "step": 830000
+    },
+    {
+      "epoch": 11.95,
+      "learning_rate": 1.4932157711900052e-05,
+      "loss": 1.7141,
+      "step": 830500
+    },
+    {
+      "epoch": 11.96,
+      "learning_rate": 1.4880438677114328e-05,
+      "loss": 1.7081,
+      "step": 831000
+    },
+    {
+      "epoch": 11.97,
+      "learning_rate": 1.4828511935361591e-05,
+      "loss": 1.7111,
+      "step": 831500
+    },
+    {
+      "epoch": 11.98,
+      "learning_rate": 1.4776792900575867e-05,
+      "loss": 1.7114,
+      "step": 832000
+    },
+    {
+      "epoch": 11.98,
+      "learning_rate": 1.4724866158823134e-05,
+      "loss": 1.7137,
+      "step": 832500
+    },
+    {
+      "epoch": 11.99,
+      "learning_rate": 1.467314712403741e-05,
+      "loss": 1.7155,
+      "step": 833000
+    },
+    {
+      "epoch": 12.0,
+      "learning_rate": 1.4621220382284673e-05,
+      "loss": 1.707,
+      "step": 833500
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.6659963122125594,
+      "eval_loss": 1.5859375,
+      "eval_runtime": 653.3093,
+      "eval_samples_per_second": 824.934,
+      "eval_steps_per_second": 34.373,
+      "step": 833676
     }
   ],
   "max_steps": 972622,
   "num_train_epochs": 14,
+  "total_flos": 5.975328764899361e+18,
   "trial_name": null,
   "trial_params": null
 }

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eda519537384a51d41a4a58b603f16ba211d4cdc516840c5fe985d5f26ea19e0
 size 59121639

 version https://git-lfs.github.com/spec/v1
+oid sha256:272bd073e3c6a55e1b280e577ccf6e7eae43b9f46eebdd8784e4a65120c26605
 size 59121639

runs/Feb22_11-16-27_user-SYS-5049A-TR/events.out.tfevents.1677032209.user-SYS-5049A-TR.55703.0 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3bdf33703fbf3b6aa16fbab3def8fe9ed924d0ad3c9b789ba3b9b80a46cf39cc
-size 251444

 version https://git-lfs.github.com/spec/v1
+oid sha256:20742676ddcabe52e63bdd91301e91e6971de4198f5b3457342b663670e454d6
+size 274013