Training in progress, epoch 3, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/global_step3744/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3744/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step3744/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step3744/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00004.safetensors +1 -1
last-checkpoint/model-00002-of-00004.safetensors +1 -1
last-checkpoint/model-00003-of-00004.safetensors +1 -1
last-checkpoint/model-00004-of-00004.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +1894 -3

last-checkpoint/global_step3744/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:10aa22d0b86834e271c2260d25e9d0e6a2220dae19d9787828e4348b1421e2f7
+size 30462473157

last-checkpoint/global_step3744/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2b1dd7b8f42c293ec88f22157ab743fda1e47b9342f250d6719a9f6f39b8d778
+size 30462473157

last-checkpoint/global_step3744/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7ac3896df02945578505e5be29a4b6b7c9a2e582aaed23c9ae20b3db17eab617
+size 168021

last-checkpoint/global_step3744/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a000715579fa90fb876d81d3a862e534315f1dcd52c014cd773aa4327cab5466
+size 168021

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step2496~~


1	+ global_step3744

last-checkpoint/model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9fc827e0e29fe68064287084a789c280ee07071edfaf802494bfd45a4328d9b4
 size 4877660776

 version https://git-lfs.github.com/spec/v1
+oid sha256:5177a8e6782bb88bda2135ebe4b556b112bb813fd6ff6a0be384c71f8e0189d6
 size 4877660776

last-checkpoint/model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:17eff878abe01ff745e70abc42b2798b23c5cca5a165c37c10a14930bca0d0c6
 size 4932751008

 version https://git-lfs.github.com/spec/v1
+oid sha256:fc8950fe3195f952346a0b52c6dfe6413f42e8dbbef2ad1916bd02c754b27342
 size 4932751008

last-checkpoint/model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:614d95265342337ab7854c0fec6ee9677c78a2d9c93f081a8c779cc5a910acd8
 size 4330865200

 version https://git-lfs.github.com/spec/v1
+oid sha256:6fb232eefc76f6ffc2aa58fe324177383ef7b1c3560473ced7dfbf1ccf253d47
 size 4330865200

last-checkpoint/model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a018f26b180a313b65824cdc68761f2b6f1700c2d360dfc69b6300fcb5e461b
 size 1089994880

 version https://git-lfs.github.com/spec/v1
+oid sha256:cabea12f73243814a74bfd1b213f64fb4c6348bad93b08cd5641d428fd19614e
 size 1089994880

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9698021f2d84167912e7be6ba48d3d2b8d6b20894f23319f36df078c03b33a64
 size 14768

 version https://git-lfs.github.com/spec/v1
+oid sha256:95430508d31bbe1a66a940e2572bf04addefae3e1c4e861e8657f66d302aa23e
 size 14768

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:90a140d1d010220b1679bf6e519f8d3d518cb57331e0e7fb30008dc00e427811
 size 14768

 version https://git-lfs.github.com/spec/v1
+oid sha256:b70a6983e6085768b4d2b447a8bd35374bce9cf4ea8e8fbefc1260ca2e054a70
 size 14768

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:76861627b7d29ad5e6036c31e8897f76435dd322d24f5d6f9e3f8afd8fab8ced
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa515306b1c7f0b288d157b662096d041c14c3bbec98c937898173d64b5dfffa
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 2496,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3789,6 +3789,1897 @@
       "eval_samples_per_second": 7.686,
       "eval_steps_per_second": 0.966,
       "step": 2496
     }
   ],
   "logging_steps": 10,
@@ -3803,7 +5694,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 3744,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 7.686,
       "eval_steps_per_second": 0.966,
       "step": 2496
+    },
+    {
+      "epoch": 2.003205128205128,
+      "grad_norm": 4.521723680059775e-05,
+      "learning_rate": 1.84624517661027e-07,
+      "logits/chosen": 0.8828125,
+      "logits/rejected": 1.203125,
+      "logps/chosen": -166.0,
+      "logps/rejected": -320.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.625,
+      "rewards/margins": 22.875,
+      "rewards/rejected": -19.25,
+      "step": 2500
+    },
+    {
+      "epoch": 2.011217948717949,
+      "grad_norm": 3.030267966817534e-06,
+      "learning_rate": 1.8314039774413774e-07,
+      "logits/chosen": 0.640625,
+      "logits/rejected": 1.1171875,
+      "logps/chosen": -195.0,
+      "logps/rejected": -332.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.28125,
+      "rewards/margins": 23.125,
+      "rewards/rejected": -19.875,
+      "step": 2510
+    },
+    {
+      "epoch": 2.019230769230769,
+      "grad_norm": 6.205803823998353e-07,
+      "learning_rate": 1.8165627782724842e-07,
+      "logits/chosen": 0.796875,
+      "logits/rejected": 1.1328125,
+      "logps/chosen": -141.0,
+      "logps/rejected": -340.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.3125,
+      "rewards/margins": 23.875,
+      "rewards/rejected": -20.5,
+      "step": 2520
+    },
+    {
+      "epoch": 2.02724358974359,
+      "grad_norm": 1.5474883916264918e-05,
+      "learning_rate": 1.8017215791035914e-07,
+      "logits/chosen": 0.87109375,
+      "logits/rejected": 1.375,
+      "logps/chosen": -172.0,
+      "logps/rejected": -338.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.21875,
+      "rewards/margins": 23.25,
+      "rewards/rejected": -20.125,
+      "step": 2530
+    },
+    {
+      "epoch": 2.03525641025641,
+      "grad_norm": 3.136476138411595e-06,
+      "learning_rate": 1.7868803799346988e-07,
+      "logits/chosen": 0.9140625,
+      "logits/rejected": 1.2578125,
+      "logps/chosen": -159.0,
+      "logps/rejected": -326.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.890625,
+      "rewards/margins": 23.0,
+      "rewards/rejected": -19.125,
+      "step": 2540
+    },
+    {
+      "epoch": 2.043269230769231,
+      "grad_norm": 2.0185773664202382e-07,
+      "learning_rate": 1.772039180765806e-07,
+      "logits/chosen": 0.8203125,
+      "logits/rejected": 1.46875,
+      "logps/chosen": -157.0,
+      "logps/rejected": -316.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.96875,
+      "rewards/margins": 22.0,
+      "rewards/rejected": -18.0,
+      "step": 2550
+    },
+    {
+      "epoch": 2.051282051282051,
+      "grad_norm": 6.762579805129387e-06,
+      "learning_rate": 1.757197981596913e-07,
+      "logits/chosen": 0.6953125,
+      "logits/rejected": 1.2578125,
+      "logps/chosen": -175.0,
+      "logps/rejected": -320.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.828125,
+      "rewards/margins": 22.375,
+      "rewards/rejected": -18.5,
+      "step": 2560
+    },
+    {
+      "epoch": 2.059294871794872,
+      "grad_norm": 1.272394096308946e-06,
+      "learning_rate": 1.74235678242802e-07,
+      "logits/chosen": 0.9921875,
+      "logits/rejected": 1.2734375,
+      "logps/chosen": -168.0,
+      "logps/rejected": -338.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.6875,
+      "rewards/margins": 23.125,
+      "rewards/rejected": -19.5,
+      "step": 2570
+    },
+    {
+      "epoch": 2.0673076923076925,
+      "grad_norm": 0.00022224801984980412,
+      "learning_rate": 1.7275155832591273e-07,
+      "logits/chosen": 0.86328125,
+      "logits/rejected": 1.2734375,
+      "logps/chosen": -124.0,
+      "logps/rejected": -326.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.484375,
+      "rewards/margins": 23.5,
+      "rewards/rejected": -20.0,
+      "step": 2580
+    },
+    {
+      "epoch": 2.0753205128205128,
+      "grad_norm": 5.872515304133134e-06,
+      "learning_rate": 1.7126743840902344e-07,
+      "logits/chosen": 0.9140625,
+      "logits/rejected": 1.15625,
+      "logps/chosen": -160.0,
+      "logps/rejected": -318.0,
+      "loss": 0.0001,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.734375,
+      "rewards/margins": 22.5,
+      "rewards/rejected": -18.875,
+      "step": 2590
+    },
+    {
+      "epoch": 2.0833333333333335,
+      "grad_norm": 0.0015141429378734963,
+      "learning_rate": 1.6978331849213416e-07,
+      "logits/chosen": 0.7578125,
+      "logits/rejected": 1.1484375,
+      "logps/chosen": -183.0,
+      "logps/rejected": -336.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.328125,
+      "rewards/margins": 23.125,
+      "rewards/rejected": -19.875,
+      "step": 2600
+    },
+    {
+      "epoch": 2.0913461538461537,
+      "grad_norm": 2.991210518482803e-06,
+      "learning_rate": 1.6829919857524487e-07,
+      "logits/chosen": 0.81640625,
+      "logits/rejected": 0.8671875,
+      "logps/chosen": -140.0,
+      "logps/rejected": -342.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.96875,
+      "rewards/margins": 23.5,
+      "rewards/rejected": -20.5,
+      "step": 2610
+    },
+    {
+      "epoch": 2.0993589743589745,
+      "grad_norm": 5.742496354978091e-06,
+      "learning_rate": 1.6681507865835558e-07,
+      "logits/chosen": 0.6953125,
+      "logits/rejected": 1.3203125,
+      "logps/chosen": -186.0,
+      "logps/rejected": -338.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.265625,
+      "rewards/margins": 23.125,
+      "rewards/rejected": -19.875,
+      "step": 2620
+    },
+    {
+      "epoch": 2.1073717948717947,
+      "grad_norm": 3.757183821571958e-05,
+      "learning_rate": 1.653309587414663e-07,
+      "logits/chosen": 0.98046875,
+      "logits/rejected": 1.3046875,
+      "logps/chosen": -150.0,
+      "logps/rejected": -316.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.46875,
+      "rewards/margins": 21.875,
+      "rewards/rejected": -18.375,
+      "step": 2630
+    },
+    {
+      "epoch": 2.1153846153846154,
+      "grad_norm": 1.1309302661788921e-05,
+      "learning_rate": 1.63846838824577e-07,
+      "logits/chosen": 0.796875,
+      "logits/rejected": 1.21875,
+      "logps/chosen": -195.0,
+      "logps/rejected": -330.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.015625,
+      "rewards/margins": 22.125,
+      "rewards/rejected": -19.125,
+      "step": 2640
+    },
+    {
+      "epoch": 2.123397435897436,
+      "grad_norm": 0.00011609396836253147,
+      "learning_rate": 1.6236271890768775e-07,
+      "logits/chosen": 0.8828125,
+      "logits/rejected": 1.578125,
+      "logps/chosen": -143.0,
+      "logps/rejected": -334.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.53125,
+      "rewards/margins": 23.125,
+      "rewards/rejected": -19.625,
+      "step": 2650
+    },
+    {
+      "epoch": 2.1314102564102564,
+      "grad_norm": 2.37606345324713e-07,
+      "learning_rate": 1.6087859899079844e-07,
+      "logits/chosen": 0.703125,
+      "logits/rejected": 1.40625,
+      "logps/chosen": -175.0,
+      "logps/rejected": -334.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.71875,
+      "rewards/margins": 24.0,
+      "rewards/rejected": -20.25,
+      "step": 2660
+    },
+    {
+      "epoch": 2.139423076923077,
+      "grad_norm": 1.7790769529114564e-05,
+      "learning_rate": 1.5939447907390915e-07,
+      "logits/chosen": 0.59765625,
+      "logits/rejected": 1.21875,
+      "logps/chosen": -207.0,
+      "logps/rejected": -352.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.453125,
+      "rewards/margins": 23.625,
+      "rewards/rejected": -20.25,
+      "step": 2670
+    },
+    {
+      "epoch": 2.1474358974358974,
+      "grad_norm": 1.2324246884581975e-07,
+      "learning_rate": 1.579103591570199e-07,
+      "logits/chosen": 0.9296875,
+      "logits/rejected": 1.3828125,
+      "logps/chosen": -185.0,
+      "logps/rejected": -334.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.34375,
+      "rewards/margins": 23.125,
+      "rewards/rejected": -19.75,
+      "step": 2680
+    },
+    {
+      "epoch": 2.155448717948718,
+      "grad_norm": 8.415390201667563e-05,
+      "learning_rate": 1.564262392401306e-07,
+      "logits/chosen": 0.828125,
+      "logits/rejected": 1.421875,
+      "logps/chosen": -173.0,
+      "logps/rejected": -338.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.5625,
+      "rewards/margins": 24.125,
+      "rewards/rejected": -20.5,
+      "step": 2690
+    },
+    {
+      "epoch": 2.1634615384615383,
+      "grad_norm": 0.0011339204404605804,
+      "learning_rate": 1.549421193232413e-07,
+      "logits/chosen": 0.82421875,
+      "logits/rejected": 1.15625,
+      "logps/chosen": -168.0,
+      "logps/rejected": -342.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.578125,
+      "rewards/margins": 23.875,
+      "rewards/rejected": -20.25,
+      "step": 2700
+    },
+    {
+      "epoch": 2.171474358974359,
+      "grad_norm": 6.851096339481569e-06,
+      "learning_rate": 1.5345799940635203e-07,
+      "logits/chosen": 0.53125,
+      "logits/rejected": 1.2734375,
+      "logps/chosen": -197.0,
+      "logps/rejected": -348.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.328125,
+      "rewards/margins": 24.25,
+      "rewards/rejected": -20.875,
+      "step": 2710
+    },
+    {
+      "epoch": 2.1794871794871793,
+      "grad_norm": 0.0003726374461810356,
+      "learning_rate": 1.5197387948946275e-07,
+      "logits/chosen": 1.03125,
+      "logits/rejected": 1.453125,
+      "logps/chosen": -169.0,
+      "logps/rejected": -320.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.8125,
+      "rewards/margins": 22.5,
+      "rewards/rejected": -18.75,
+      "step": 2720
+    },
+    {
+      "epoch": 2.1875,
+      "grad_norm": 2.8940339945841385e-05,
+      "learning_rate": 1.5048975957257346e-07,
+      "logits/chosen": 0.78125,
+      "logits/rejected": 1.1171875,
+      "logps/chosen": -168.0,
+      "logps/rejected": -340.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.96875,
+      "rewards/margins": 23.125,
+      "rewards/rejected": -20.125,
+      "step": 2730
+    },
+    {
+      "epoch": 2.1955128205128207,
+      "grad_norm": 0.002859780208342844,
+      "learning_rate": 1.4900563965568417e-07,
+      "logits/chosen": 0.8671875,
+      "logits/rejected": 1.4140625,
+      "logps/chosen": -171.0,
+      "logps/rejected": -312.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.453125,
+      "rewards/margins": 21.0,
+      "rewards/rejected": -17.625,
+      "step": 2740
+    },
+    {
+      "epoch": 2.203525641025641,
+      "grad_norm": 8.642451938502949e-05,
+      "learning_rate": 1.4752151973879489e-07,
+      "logits/chosen": 0.92578125,
+      "logits/rejected": 1.0703125,
+      "logps/chosen": -152.0,
+      "logps/rejected": -322.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.625,
+      "rewards/margins": 23.125,
+      "rewards/rejected": -19.5,
+      "step": 2750
+    },
+    {
+      "epoch": 2.2115384615384617,
+      "grad_norm": 0.004973797903281045,
+      "learning_rate": 1.460373998219056e-07,
+      "logits/chosen": 1.171875,
+      "logits/rejected": 1.5859375,
+      "logps/chosen": -154.0,
+      "logps/rejected": -312.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.296875,
+      "rewards/margins": 22.625,
+      "rewards/rejected": -19.25,
+      "step": 2760
+    },
+    {
+      "epoch": 2.219551282051282,
+      "grad_norm": 0.0007041585520470051,
+      "learning_rate": 1.4455327990501631e-07,
+      "logits/chosen": 0.796875,
+      "logits/rejected": 1.015625,
+      "logps/chosen": -140.0,
+      "logps/rejected": -338.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.421875,
+      "rewards/margins": 24.75,
+      "rewards/rejected": -21.25,
+      "step": 2770
+    },
+    {
+      "epoch": 2.2275641025641026,
+      "grad_norm": 0.00045000223905260884,
+      "learning_rate": 1.4306915998812705e-07,
+      "logits/chosen": 1.0625,
+      "logits/rejected": 1.4375,
+      "logps/chosen": -171.0,
+      "logps/rejected": -336.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.328125,
+      "rewards/margins": 23.375,
+      "rewards/rejected": -20.0,
+      "step": 2780
+    },
+    {
+      "epoch": 2.235576923076923,
+      "grad_norm": 3.7708664164834145e-07,
+      "learning_rate": 1.4158504007123777e-07,
+      "logits/chosen": 0.921875,
+      "logits/rejected": 1.34375,
+      "logps/chosen": -188.0,
+      "logps/rejected": -308.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.359375,
+      "rewards/margins": 22.0,
+      "rewards/rejected": -18.75,
+      "step": 2790
+    },
+    {
+      "epoch": 2.2435897435897436,
+      "grad_norm": 2.820076649705414e-06,
+      "learning_rate": 1.4010092015434845e-07,
+      "logits/chosen": 0.765625,
+      "logits/rejected": 1.375,
+      "logps/chosen": -211.0,
+      "logps/rejected": -330.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.703125,
+      "rewards/margins": 22.625,
+      "rewards/rejected": -19.0,
+      "step": 2800
+    },
+    {
+      "epoch": 2.251602564102564,
+      "grad_norm": 7.476346576947421e-06,
+      "learning_rate": 1.3861680023745917e-07,
+      "logits/chosen": 0.96875,
+      "logits/rejected": 1.171875,
+      "logps/chosen": -150.0,
+      "logps/rejected": -342.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.984375,
+      "rewards/margins": 23.5,
+      "rewards/rejected": -20.5,
+      "step": 2810
+    },
+    {
+      "epoch": 2.2596153846153846,
+      "grad_norm": 7.318508636096753e-07,
+      "learning_rate": 1.371326803205699e-07,
+      "logits/chosen": 0.94140625,
+      "logits/rejected": 1.4296875,
+      "logps/chosen": -164.0,
+      "logps/rejected": -322.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.46875,
+      "rewards/margins": 22.625,
+      "rewards/rejected": -19.125,
+      "step": 2820
+    },
+    {
+      "epoch": 2.2676282051282053,
+      "grad_norm": 4.8320214702453866e-05,
+      "learning_rate": 1.3564856040368062e-07,
+      "logits/chosen": 0.94140625,
+      "logits/rejected": 1.21875,
+      "logps/chosen": -160.0,
+      "logps/rejected": -332.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.5,
+      "rewards/margins": 22.75,
+      "rewards/rejected": -19.25,
+      "step": 2830
+    },
+    {
+      "epoch": 2.2756410256410255,
+      "grad_norm": 5.030183317968072e-06,
+      "learning_rate": 1.341644404867913e-07,
+      "logits/chosen": 0.76953125,
+      "logits/rejected": 1.0703125,
+      "logps/chosen": -185.0,
+      "logps/rejected": -328.0,
+      "loss": 0.0005,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.671875,
+      "rewards/margins": 23.0,
+      "rewards/rejected": -19.25,
+      "step": 2840
+    },
+    {
+      "epoch": 2.2836538461538463,
+      "grad_norm": 0.00014825087080426772,
+      "learning_rate": 1.3268032056990205e-07,
+      "logits/chosen": 0.78515625,
+      "logits/rejected": 1.3203125,
+      "logps/chosen": -181.0,
+      "logps/rejected": -338.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.796875,
+      "rewards/margins": 23.5,
+      "rewards/rejected": -19.75,
+      "step": 2850
+    },
+    {
+      "epoch": 2.2916666666666665,
+      "grad_norm": 1.3011868588303958e-06,
+      "learning_rate": 1.3119620065301276e-07,
+      "logits/chosen": 1.0625,
+      "logits/rejected": 1.3359375,
+      "logps/chosen": -146.0,
+      "logps/rejected": -332.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.09375,
+      "rewards/margins": 23.25,
+      "rewards/rejected": -20.125,
+      "step": 2860
+    },
+    {
+      "epoch": 2.2996794871794872,
+      "grad_norm": 4.246488981116065e-06,
+      "learning_rate": 1.2971208073612347e-07,
+      "logits/chosen": 0.86328125,
+      "logits/rejected": 1.4921875,
+      "logps/chosen": -184.0,
+      "logps/rejected": -332.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.578125,
+      "rewards/margins": 22.875,
+      "rewards/rejected": -19.25,
+      "step": 2870
+    },
+    {
+      "epoch": 2.3076923076923075,
+      "grad_norm": 7.270042186092499e-06,
+      "learning_rate": 1.282279608192342e-07,
+      "logits/chosen": 0.66015625,
+      "logits/rejected": 1.390625,
+      "logps/chosen": -144.0,
+      "logps/rejected": -326.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.203125,
+      "rewards/margins": 23.75,
+      "rewards/rejected": -20.5,
+      "step": 2880
+    },
+    {
+      "epoch": 2.315705128205128,
+      "grad_norm": 1.4457369601091267e-08,
+      "learning_rate": 1.267438409023449e-07,
+      "logits/chosen": 1.0703125,
+      "logits/rejected": 1.296875,
+      "logps/chosen": -122.5,
+      "logps/rejected": -336.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.015625,
+      "rewards/margins": 23.375,
+      "rewards/rejected": -20.25,
+      "step": 2890
+    },
+    {
+      "epoch": 2.323717948717949,
+      "grad_norm": 1.2540641729400349e-06,
+      "learning_rate": 1.2525972098545562e-07,
+      "logits/chosen": 0.98828125,
+      "logits/rejected": 1.1484375,
+      "logps/chosen": -187.0,
+      "logps/rejected": -330.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.640625,
+      "rewards/margins": 22.5,
+      "rewards/rejected": -18.875,
+      "step": 2900
+    },
+    {
+      "epoch": 2.331730769230769,
+      "grad_norm": 1.0058948099975264e-05,
+      "learning_rate": 1.2377560106856633e-07,
+      "logits/chosen": 0.9140625,
+      "logits/rejected": 1.296875,
+      "logps/chosen": -146.0,
+      "logps/rejected": -342.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.234375,
+      "rewards/margins": 23.75,
+      "rewards/rejected": -20.625,
+      "step": 2910
+    },
+    {
+      "epoch": 2.33974358974359,
+      "grad_norm": 3.2768050524307317e-06,
+      "learning_rate": 1.2229148115167704e-07,
+      "logits/chosen": 0.87109375,
+      "logits/rejected": 1.0,
+      "logps/chosen": -145.0,
+      "logps/rejected": -336.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.3125,
+      "rewards/margins": 23.75,
+      "rewards/rejected": -20.5,
+      "step": 2920
+    },
+    {
+      "epoch": 2.34775641025641,
+      "grad_norm": 8.279411059572999e-06,
+      "learning_rate": 1.2080736123478776e-07,
+      "logits/chosen": 0.71484375,
+      "logits/rejected": 1.296875,
+      "logps/chosen": -183.0,
+      "logps/rejected": -338.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.734375,
+      "rewards/margins": 22.625,
+      "rewards/rejected": -19.875,
+      "step": 2930
+    },
+    {
+      "epoch": 2.355769230769231,
+      "grad_norm": 5.097273243887312e-06,
+      "learning_rate": 1.1932324131789847e-07,
+      "logits/chosen": 0.9375,
+      "logits/rejected": 1.4453125,
+      "logps/chosen": -161.0,
+      "logps/rejected": -360.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.15625,
+      "rewards/margins": 24.75,
+      "rewards/rejected": -21.625,
+      "step": 2940
+    },
+    {
+      "epoch": 2.363782051282051,
+      "grad_norm": 0.001364815117768273,
+      "learning_rate": 1.178391214010092e-07,
+      "logits/chosen": 0.82421875,
+      "logits/rejected": 1.0546875,
+      "logps/chosen": -196.0,
+      "logps/rejected": -340.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.5,
+      "rewards/margins": 22.5,
+      "rewards/rejected": -18.875,
+      "step": 2950
+    },
+    {
+      "epoch": 2.371794871794872,
+      "grad_norm": 0.00013766237352927737,
+      "learning_rate": 1.1635500148411991e-07,
+      "logits/chosen": 0.828125,
+      "logits/rejected": 1.53125,
+      "logps/chosen": -160.0,
+      "logps/rejected": -324.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.46875,
+      "rewards/margins": 22.875,
+      "rewards/rejected": -19.5,
+      "step": 2960
+    },
+    {
+      "epoch": 2.3798076923076925,
+      "grad_norm": 7.072038044334629e-06,
+      "learning_rate": 1.1487088156723062e-07,
+      "logits/chosen": 0.97265625,
+      "logits/rejected": 1.4609375,
+      "logps/chosen": -148.0,
+      "logps/rejected": -318.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.1875,
+      "rewards/margins": 22.75,
+      "rewards/rejected": -19.625,
+      "step": 2970
+    },
+    {
+      "epoch": 2.3878205128205128,
+      "grad_norm": 1.434535069439472e-06,
+      "learning_rate": 1.1338676165034135e-07,
+      "logits/chosen": 0.87890625,
+      "logits/rejected": 0.93359375,
+      "logps/chosen": -147.0,
+      "logps/rejected": -342.0,
+      "loss": 0.0002,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.203125,
+      "rewards/margins": 22.75,
+      "rewards/rejected": -19.5,
+      "step": 2980
+    },
+    {
+      "epoch": 2.3958333333333335,
+      "grad_norm": 0.0003150427679969826,
+      "learning_rate": 1.1190264173345205e-07,
+      "logits/chosen": 0.78125,
+      "logits/rejected": 1.0703125,
+      "logps/chosen": -185.0,
+      "logps/rejected": -330.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.375,
+      "rewards/margins": 22.875,
+      "rewards/rejected": -19.5,
+      "step": 2990
+    },
+    {
+      "epoch": 2.4038461538461537,
+      "grad_norm": 7.914823589207877e-05,
+      "learning_rate": 1.1041852181656278e-07,
+      "logits/chosen": 0.9296875,
+      "logits/rejected": 1.421875,
+      "logps/chosen": -151.0,
+      "logps/rejected": -342.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.703125,
+      "rewards/margins": 23.375,
+      "rewards/rejected": -19.75,
+      "step": 3000
+    },
+    {
+      "epoch": 2.4118589743589745,
+      "grad_norm": 0.00026905024279143275,
+      "learning_rate": 1.0893440189967348e-07,
+      "logits/chosen": 0.76171875,
+      "logits/rejected": 1.34375,
+      "logps/chosen": -161.0,
+      "logps/rejected": -354.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.40625,
+      "rewards/margins": 24.5,
+      "rewards/rejected": -21.125,
+      "step": 3010
+    },
+    {
+      "epoch": 2.4198717948717947,
+      "grad_norm": 2.5621741265848455e-06,
+      "learning_rate": 1.074502819827842e-07,
+      "logits/chosen": 0.83203125,
+      "logits/rejected": 1.3515625,
+      "logps/chosen": -155.0,
+      "logps/rejected": -352.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.46875,
+      "rewards/margins": 23.25,
+      "rewards/rejected": -19.875,
+      "step": 3020
+    },
+    {
+      "epoch": 2.4278846153846154,
+      "grad_norm": 0.0006476017033990356,
+      "learning_rate": 1.0596616206589493e-07,
+      "logits/chosen": 0.83203125,
+      "logits/rejected": 1.3046875,
+      "logps/chosen": -176.0,
+      "logps/rejected": -326.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.03125,
+      "rewards/margins": 22.0,
+      "rewards/rejected": -19.0,
+      "step": 3030
+    },
+    {
+      "epoch": 2.435897435897436,
+      "grad_norm": 1.1941928602219868e-05,
+      "learning_rate": 1.0448204214900563e-07,
+      "logits/chosen": 1.1171875,
+      "logits/rejected": 1.125,
+      "logps/chosen": -167.0,
+      "logps/rejected": -336.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.21875,
+      "rewards/margins": 22.75,
+      "rewards/rejected": -19.5,
+      "step": 3040
+    },
+    {
+      "epoch": 2.4439102564102564,
+      "grad_norm": 4.511019063462089e-06,
+      "learning_rate": 1.0299792223211636e-07,
+      "logits/chosen": 0.96875,
+      "logits/rejected": 1.2421875,
+      "logps/chosen": -173.0,
+      "logps/rejected": -338.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.421875,
+      "rewards/margins": 22.75,
+      "rewards/rejected": -19.375,
+      "step": 3050
+    },
+    {
+      "epoch": 2.451923076923077,
+      "grad_norm": 1.1909188473574983e-06,
+      "learning_rate": 1.0151380231522706e-07,
+      "logits/chosen": 0.71875,
+      "logits/rejected": 1.1953125,
+      "logps/chosen": -189.0,
+      "logps/rejected": -338.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.703125,
+      "rewards/margins": 23.875,
+      "rewards/rejected": -20.125,
+      "step": 3060
+    },
+    {
+      "epoch": 2.4599358974358974,
+      "grad_norm": 0.00016413461567918458,
+      "learning_rate": 1.0002968239833778e-07,
+      "logits/chosen": 0.8515625,
+      "logits/rejected": 1.140625,
+      "logps/chosen": -176.0,
+      "logps/rejected": -360.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.046875,
+      "rewards/margins": 24.0,
+      "rewards/rejected": -21.0,
+      "step": 3070
+    },
+    {
+      "epoch": 2.467948717948718,
+      "grad_norm": 0.0004207874699143046,
+      "learning_rate": 9.854556248144849e-08,
+      "logits/chosen": 1.0625,
+      "logits/rejected": 1.0703125,
+      "logps/chosen": -171.0,
+      "logps/rejected": -336.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.265625,
+      "rewards/margins": 23.0,
+      "rewards/rejected": -19.75,
+      "step": 3080
+    },
+    {
+      "epoch": 2.4759615384615383,
+      "grad_norm": 0.0013603810220500937,
+      "learning_rate": 9.706144256455921e-08,
+      "logits/chosen": 0.859375,
+      "logits/rejected": 1.4453125,
+      "logps/chosen": -201.0,
+      "logps/rejected": -330.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.75,
+      "rewards/margins": 23.0,
+      "rewards/rejected": -19.25,
+      "step": 3090
+    },
+    {
+      "epoch": 2.483974358974359,
+      "grad_norm": 1.8119361476861766e-07,
+      "learning_rate": 9.557732264766994e-08,
+      "logits/chosen": 1.125,
+      "logits/rejected": 1.65625,
+      "logps/chosen": -181.0,
+      "logps/rejected": -320.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.859375,
+      "rewards/margins": 21.875,
+      "rewards/rejected": -19.0,
+      "step": 3100
+    },
+    {
+      "epoch": 2.4919871794871793,
+      "grad_norm": 1.0849727745118161e-05,
+      "learning_rate": 9.409320273078064e-08,
+      "logits/chosen": 0.75,
+      "logits/rejected": 1.25,
+      "logps/chosen": -194.0,
+      "logps/rejected": -346.0,
+      "loss": 0.0001,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.65625,
+      "rewards/margins": 25.125,
+      "rewards/rejected": -21.375,
+      "step": 3110
+    },
+    {
+      "epoch": 2.5,
+      "grad_norm": 0.00190454125856642,
+      "learning_rate": 9.260908281389137e-08,
+      "logits/chosen": 0.79296875,
+      "logits/rejected": 1.1328125,
+      "logps/chosen": -174.0,
+      "logps/rejected": -318.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.671875,
+      "rewards/margins": 23.0,
+      "rewards/rejected": -19.25,
+      "step": 3120
+    },
+    {
+      "epoch": 2.5080128205128203,
+      "grad_norm": 4.817138155607492e-05,
+      "learning_rate": 9.112496289700207e-08,
+      "logits/chosen": 1.078125,
+      "logits/rejected": 1.0546875,
+      "logps/chosen": -151.0,
+      "logps/rejected": -336.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.6875,
+      "rewards/margins": 23.5,
+      "rewards/rejected": -19.875,
+      "step": 3130
+    },
+    {
+      "epoch": 2.516025641025641,
+      "grad_norm": 4.1634510560200736e-07,
+      "learning_rate": 8.964084298011279e-08,
+      "logits/chosen": 0.89453125,
+      "logits/rejected": 1.21875,
+      "logps/chosen": -165.0,
+      "logps/rejected": -350.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.03125,
+      "rewards/margins": 23.625,
+      "rewards/rejected": -20.625,
+      "step": 3140
+    },
+    {
+      "epoch": 2.5240384615384617,
+      "grad_norm": 0.0030510730836868943,
+      "learning_rate": 8.815672306322349e-08,
+      "logits/chosen": 0.83984375,
+      "logits/rejected": 1.3359375,
+      "logps/chosen": -150.0,
+      "logps/rejected": -338.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.09375,
+      "rewards/margins": 23.5,
+      "rewards/rejected": -20.375,
+      "step": 3150
+    },
+    {
+      "epoch": 2.532051282051282,
+      "grad_norm": 4.333397926948427e-05,
+      "learning_rate": 8.667260314633422e-08,
+      "logits/chosen": 0.8203125,
+      "logits/rejected": 1.328125,
+      "logps/chosen": -144.0,
+      "logps/rejected": -350.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.65625,
+      "rewards/margins": 24.625,
+      "rewards/rejected": -21.0,
+      "step": 3160
+    },
+    {
+      "epoch": 2.5400641025641026,
+      "grad_norm": 3.816937452899327e-05,
+      "learning_rate": 8.518848322944495e-08,
+      "logits/chosen": 0.83203125,
+      "logits/rejected": 1.1953125,
+      "logps/chosen": -184.0,
+      "logps/rejected": -330.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.515625,
+      "rewards/margins": 23.25,
+      "rewards/rejected": -19.75,
+      "step": 3170
+    },
+    {
+      "epoch": 2.5480769230769234,
+      "grad_norm": 4.438174995412161e-06,
+      "learning_rate": 8.370436331255565e-08,
+      "logits/chosen": 0.9921875,
+      "logits/rejected": 1.234375,
+      "logps/chosen": -137.0,
+      "logps/rejected": -334.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.546875,
+      "rewards/margins": 23.75,
+      "rewards/rejected": -20.25,
+      "step": 3180
+    },
+    {
+      "epoch": 2.5560897435897436,
+      "grad_norm": 1.2674210936494033e-05,
+      "learning_rate": 8.222024339566637e-08,
+      "logits/chosen": 0.9765625,
+      "logits/rejected": 1.1953125,
+      "logps/chosen": -189.0,
+      "logps/rejected": -338.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.828125,
+      "rewards/margins": 22.625,
+      "rewards/rejected": -18.75,
+      "step": 3190
+    },
+    {
+      "epoch": 2.564102564102564,
+      "grad_norm": 2.2470915894489486e-06,
+      "learning_rate": 8.073612347877707e-08,
+      "logits/chosen": 0.7578125,
+      "logits/rejected": 0.94140625,
+      "logps/chosen": -210.0,
+      "logps/rejected": -336.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.8125,
+      "rewards/margins": 22.875,
+      "rewards/rejected": -20.0,
+      "step": 3200
+    },
+    {
+      "epoch": 2.5721153846153846,
+      "grad_norm": 0.0013392786326408394,
+      "learning_rate": 7.92520035618878e-08,
+      "logits/chosen": 0.70703125,
+      "logits/rejected": 1.0625,
+      "logps/chosen": -166.0,
+      "logps/rejected": -330.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.28125,
+      "rewards/margins": 23.125,
+      "rewards/rejected": -19.875,
+      "step": 3210
+    },
+    {
+      "epoch": 2.5801282051282053,
+      "grad_norm": 1.1479055755141908e-06,
+      "learning_rate": 7.776788364499851e-08,
+      "logits/chosen": 0.392578125,
+      "logits/rejected": 1.03125,
+      "logps/chosen": -176.0,
+      "logps/rejected": -342.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.3125,
+      "rewards/margins": 23.75,
+      "rewards/rejected": -20.5,
+      "step": 3220
+    },
+    {
+      "epoch": 2.5881410256410255,
+      "grad_norm": 6.57721816711125e-08,
+      "learning_rate": 7.628376372810923e-08,
+      "logits/chosen": 0.859375,
+      "logits/rejected": 0.92578125,
+      "logps/chosen": -161.0,
+      "logps/rejected": -348.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.3125,
+      "rewards/margins": 25.5,
+      "rewards/rejected": -22.25,
+      "step": 3230
+    },
+    {
+      "epoch": 2.5961538461538463,
+      "grad_norm": 8.654157902362506e-07,
+      "learning_rate": 7.479964381121995e-08,
+      "logits/chosen": 0.84375,
+      "logits/rejected": 1.34375,
+      "logps/chosen": -131.0,
+      "logps/rejected": -296.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.34375,
+      "rewards/margins": 21.125,
+      "rewards/rejected": -17.75,
+      "step": 3240
+    },
+    {
+      "epoch": 2.6041666666666665,
+      "grad_norm": 2.107173176911769e-05,
+      "learning_rate": 7.331552389433065e-08,
+      "logits/chosen": 0.92578125,
+      "logits/rejected": 1.2421875,
+      "logps/chosen": -182.0,
+      "logps/rejected": -332.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.75,
+      "rewards/margins": 22.625,
+      "rewards/rejected": -18.875,
+      "step": 3250
+    },
+    {
+      "epoch": 2.6121794871794872,
+      "grad_norm": 3.0995378385019935e-05,
+      "learning_rate": 7.183140397744138e-08,
+      "logits/chosen": 0.78515625,
+      "logits/rejected": 1.1484375,
+      "logps/chosen": -185.0,
+      "logps/rejected": -330.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.53125,
+      "rewards/margins": 23.375,
+      "rewards/rejected": -19.75,
+      "step": 3260
+    },
+    {
+      "epoch": 2.6201923076923075,
+      "grad_norm": 7.163491430995317e-06,
+      "learning_rate": 7.034728406055208e-08,
+      "logits/chosen": 1.0390625,
+      "logits/rejected": 1.03125,
+      "logps/chosen": -163.0,
+      "logps/rejected": -336.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.5,
+      "rewards/margins": 23.625,
+      "rewards/rejected": -20.125,
+      "step": 3270
+    },
+    {
+      "epoch": 2.628205128205128,
+      "grad_norm": 3.2825173935148675e-06,
+      "learning_rate": 6.886316414366281e-08,
+      "logits/chosen": 0.9921875,
+      "logits/rejected": 1.1875,
+      "logps/chosen": -167.0,
+      "logps/rejected": -346.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.578125,
+      "rewards/margins": 23.875,
+      "rewards/rejected": -20.375,
+      "step": 3280
+    },
+    {
+      "epoch": 2.636217948717949,
+      "grad_norm": 3.7018247685930666e-06,
+      "learning_rate": 6.737904422677352e-08,
+      "logits/chosen": 0.64453125,
+      "logits/rejected": 1.125,
+      "logps/chosen": -154.0,
+      "logps/rejected": -340.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.28125,
+      "rewards/margins": 25.0,
+      "rewards/rejected": -21.625,
+      "step": 3290
+    },
+    {
+      "epoch": 2.644230769230769,
+      "grad_norm": 1.5235500032868652e-06,
+      "learning_rate": 6.589492430988424e-08,
+      "logits/chosen": 0.86328125,
+      "logits/rejected": 1.171875,
+      "logps/chosen": -158.0,
+      "logps/rejected": -326.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 4.0625,
+      "rewards/margins": 23.0,
+      "rewards/rejected": -19.0,
+      "step": 3300
+    },
+    {
+      "epoch": 2.65224358974359,
+      "grad_norm": 2.4028100208495416e-05,
+      "learning_rate": 6.441080439299495e-08,
+      "logits/chosen": 0.9453125,
+      "logits/rejected": 1.203125,
+      "logps/chosen": -174.0,
+      "logps/rejected": -330.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.484375,
+      "rewards/margins": 23.375,
+      "rewards/rejected": -19.875,
+      "step": 3310
+    },
+    {
+      "epoch": 2.66025641025641,
+      "grad_norm": 0.0006641311306163846,
+      "learning_rate": 6.292668447610566e-08,
+      "logits/chosen": 1.03125,
+      "logits/rejected": 1.375,
+      "logps/chosen": -154.0,
+      "logps/rejected": -348.0,
+      "loss": 0.0002,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.671875,
+      "rewards/margins": 24.25,
+      "rewards/rejected": -20.5,
+      "step": 3320
+    },
+    {
+      "epoch": 2.668269230769231,
+      "grad_norm": 1.3261677467269389e-05,
+      "learning_rate": 6.144256455921639e-08,
+      "logits/chosen": 1.171875,
+      "logits/rejected": 1.671875,
+      "logps/chosen": -136.0,
+      "logps/rejected": -342.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.6875,
+      "rewards/margins": 24.0,
+      "rewards/rejected": -20.375,
+      "step": 3330
+    },
+    {
+      "epoch": 2.676282051282051,
+      "grad_norm": 2.3998995719683365e-07,
+      "learning_rate": 5.99584446423271e-08,
+      "logits/chosen": 0.890625,
+      "logits/rejected": 1.2890625,
+      "logps/chosen": -212.0,
+      "logps/rejected": -320.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.40625,
+      "rewards/margins": 22.875,
+      "rewards/rejected": -19.5,
+      "step": 3340
+    },
+    {
+      "epoch": 2.684294871794872,
+      "grad_norm": 1.1770292696948012e-07,
+      "learning_rate": 5.847432472543781e-08,
+      "logits/chosen": 0.83984375,
+      "logits/rejected": 1.6484375,
+      "logps/chosen": -168.0,
+      "logps/rejected": -342.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.484375,
+      "rewards/margins": 24.5,
+      "rewards/rejected": -21.0,
+      "step": 3350
+    },
+    {
+      "epoch": 2.6923076923076925,
+      "grad_norm": 2.900580842341117e-07,
+      "learning_rate": 5.699020480854853e-08,
+      "logits/chosen": 0.91796875,
+      "logits/rejected": 1.09375,
+      "logps/chosen": -142.0,
+      "logps/rejected": -352.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.53125,
+      "rewards/margins": 25.625,
+      "rewards/rejected": -22.125,
+      "step": 3360
+    },
+    {
+      "epoch": 2.7003205128205128,
+      "grad_norm": 1.4745279648366565e-05,
+      "learning_rate": 5.550608489165924e-08,
+      "logits/chosen": 0.84375,
+      "logits/rejected": 1.09375,
+      "logps/chosen": -150.0,
+      "logps/rejected": -324.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.578125,
+      "rewards/margins": 23.25,
+      "rewards/rejected": -19.75,
+      "step": 3370
+    },
+    {
+      "epoch": 2.7083333333333335,
+      "grad_norm": 1.4514272796826e-06,
+      "learning_rate": 5.4021964974769963e-08,
+      "logits/chosen": 0.92578125,
+      "logits/rejected": 1.359375,
+      "logps/chosen": -163.0,
+      "logps/rejected": -332.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.375,
+      "rewards/margins": 23.0,
+      "rewards/rejected": -19.625,
+      "step": 3380
+    },
+    {
+      "epoch": 2.7163461538461537,
+      "grad_norm": 0.0005888690086543229,
+      "learning_rate": 5.253784505788068e-08,
+      "logits/chosen": 1.03125,
+      "logits/rejected": 1.0234375,
+      "logps/chosen": -155.0,
+      "logps/rejected": -328.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.125,
+      "rewards/margins": 22.625,
+      "rewards/rejected": -19.5,
+      "step": 3390
+    },
+    {
+      "epoch": 2.7243589743589745,
+      "grad_norm": 2.0042622885174553e-05,
+      "learning_rate": 5.105372514099139e-08,
+      "logits/chosen": 0.87890625,
+      "logits/rejected": 1.390625,
+      "logps/chosen": -144.0,
+      "logps/rejected": -336.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.6875,
+      "rewards/margins": 23.5,
+      "rewards/rejected": -19.875,
+      "step": 3400
+    },
+    {
+      "epoch": 2.7323717948717947,
+      "grad_norm": 5.635967172397906e-05,
+      "learning_rate": 4.9569605224102104e-08,
+      "logits/chosen": 0.99609375,
+      "logits/rejected": 1.4375,
+      "logps/chosen": -171.0,
+      "logps/rejected": -336.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.546875,
+      "rewards/margins": 24.125,
+      "rewards/rejected": -20.625,
+      "step": 3410
+    },
+    {
+      "epoch": 2.7403846153846154,
+      "grad_norm": 6.551150056642263e-06,
+      "learning_rate": 4.808548530721282e-08,
+      "logits/chosen": 1.0078125,
+      "logits/rejected": 1.359375,
+      "logps/chosen": -172.0,
+      "logps/rejected": -350.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.609375,
+      "rewards/margins": 24.5,
+      "rewards/rejected": -20.875,
+      "step": 3420
+    },
+    {
+      "epoch": 2.748397435897436,
+      "grad_norm": 2.170737569638303e-05,
+      "learning_rate": 4.660136539032353e-08,
+      "logits/chosen": 1.09375,
+      "logits/rejected": 1.3203125,
+      "logps/chosen": -170.0,
+      "logps/rejected": -348.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.40625,
+      "rewards/margins": 24.75,
+      "rewards/rejected": -21.375,
+      "step": 3430
+    },
+    {
+      "epoch": 2.7564102564102564,
+      "grad_norm": 3.662218737713611e-05,
+      "learning_rate": 4.511724547343425e-08,
+      "logits/chosen": 0.734375,
+      "logits/rejected": 1.3671875,
+      "logps/chosen": -139.0,
+      "logps/rejected": -334.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.359375,
+      "rewards/margins": 23.5,
+      "rewards/rejected": -20.125,
+      "step": 3440
+    },
+    {
+      "epoch": 2.7644230769230766,
+      "grad_norm": 2.0092823057660767e-07,
+      "learning_rate": 4.363312555654497e-08,
+      "logits/chosen": 1.0078125,
+      "logits/rejected": 1.1640625,
+      "logps/chosen": -178.0,
+      "logps/rejected": -334.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.53125,
+      "rewards/margins": 22.5,
+      "rewards/rejected": -19.0,
+      "step": 3450
+    },
+    {
+      "epoch": 2.7724358974358974,
+      "grad_norm": 8.047688007594987e-05,
+      "learning_rate": 4.2149005639655685e-08,
+      "logits/chosen": 0.8046875,
+      "logits/rejected": 1.2578125,
+      "logps/chosen": -163.0,
+      "logps/rejected": -354.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.46875,
+      "rewards/margins": 24.75,
+      "rewards/rejected": -21.25,
+      "step": 3460
+    },
+    {
+      "epoch": 2.780448717948718,
+      "grad_norm": 0.0006711480616614469,
+      "learning_rate": 4.06648857227664e-08,
+      "logits/chosen": 0.76953125,
+      "logits/rejected": 1.40625,
+      "logps/chosen": -167.0,
+      "logps/rejected": -330.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.421875,
+      "rewards/margins": 23.125,
+      "rewards/rejected": -19.75,
+      "step": 3470
+    },
+    {
+      "epoch": 2.7884615384615383,
+      "grad_norm": 0.0003280497102533483,
+      "learning_rate": 3.918076580587711e-08,
+      "logits/chosen": 0.6875,
+      "logits/rejected": 1.1796875,
+      "logps/chosen": -174.0,
+      "logps/rejected": -350.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.265625,
+      "rewards/margins": 23.125,
+      "rewards/rejected": -19.875,
+      "step": 3480
+    },
+    {
+      "epoch": 2.796474358974359,
+      "grad_norm": 6.798795586197906e-05,
+      "learning_rate": 3.7696645888987825e-08,
+      "logits/chosen": 0.87109375,
+      "logits/rejected": 0.99609375,
+      "logps/chosen": -147.0,
+      "logps/rejected": -356.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.265625,
+      "rewards/margins": 24.625,
+      "rewards/rejected": -21.375,
+      "step": 3490
+    },
+    {
+      "epoch": 2.8044871794871797,
+      "grad_norm": 4.364786537805849e-06,
+      "learning_rate": 3.621252597209854e-08,
+      "logits/chosen": 0.91796875,
+      "logits/rejected": 1.3984375,
+      "logps/chosen": -159.0,
+      "logps/rejected": -338.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.375,
+      "rewards/margins": 23.625,
+      "rewards/rejected": -20.25,
+      "step": 3500
+    },
+    {
+      "epoch": 2.8125,
+      "grad_norm": 1.9387537093442454e-08,
+      "learning_rate": 3.4728406055209265e-08,
+      "logits/chosen": 0.75390625,
+      "logits/rejected": 1.1171875,
+      "logps/chosen": -185.0,
+      "logps/rejected": -348.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.578125,
+      "rewards/margins": 25.125,
+      "rewards/rejected": -21.5,
+      "step": 3510
+    },
+    {
+      "epoch": 2.8205128205128203,
+      "grad_norm": 1.3880341861407807e-05,
+      "learning_rate": 3.324428613831998e-08,
+      "logits/chosen": 1.015625,
+      "logits/rejected": 1.296875,
+      "logps/chosen": -143.0,
+      "logps/rejected": -358.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.53125,
+      "rewards/margins": 24.75,
+      "rewards/rejected": -21.25,
+      "step": 3520
+    },
+    {
+      "epoch": 2.828525641025641,
+      "grad_norm": 1.8304365557650966e-05,
+      "learning_rate": 3.176016622143069e-08,
+      "logits/chosen": 1.046875,
+      "logits/rejected": 1.203125,
+      "logps/chosen": -167.0,
+      "logps/rejected": -340.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.78125,
+      "rewards/margins": 24.25,
+      "rewards/rejected": -20.5,
+      "step": 3530
+    },
+    {
+      "epoch": 2.8365384615384617,
+      "grad_norm": 5.07839088524003e-07,
+      "learning_rate": 3.0276046304541406e-08,
+      "logits/chosen": 0.94140625,
+      "logits/rejected": 1.203125,
+      "logps/chosen": -170.0,
+      "logps/rejected": -344.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.140625,
+      "rewards/margins": 23.75,
+      "rewards/rejected": -20.625,
+      "step": 3540
+    },
+    {
+      "epoch": 2.844551282051282,
+      "grad_norm": 6.497502370566641e-06,
+      "learning_rate": 2.879192638765212e-08,
+      "logits/chosen": 0.7578125,
+      "logits/rejected": 1.09375,
+      "logps/chosen": -180.0,
+      "logps/rejected": -320.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.796875,
+      "rewards/margins": 22.125,
+      "rewards/rejected": -18.375,
+      "step": 3550
+    },
+    {
+      "epoch": 2.8525641025641026,
+      "grad_norm": 2.0919183207981193e-05,
+      "learning_rate": 2.7307806470762836e-08,
+      "logits/chosen": 0.93359375,
+      "logits/rejected": 1.4609375,
+      "logps/chosen": -171.0,
+      "logps/rejected": -334.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.65625,
+      "rewards/margins": 23.25,
+      "rewards/rejected": -19.5,
+      "step": 3560
+    },
+    {
+      "epoch": 2.8605769230769234,
+      "grad_norm": 5.495725650489294e-08,
+      "learning_rate": 2.5823686553873553e-08,
+      "logits/chosen": 0.8359375,
+      "logits/rejected": 1.140625,
+      "logps/chosen": -166.0,
+      "logps/rejected": -366.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.984375,
+      "rewards/margins": 25.125,
+      "rewards/rejected": -22.125,
+      "step": 3570
+    },
+    {
+      "epoch": 2.8685897435897436,
+      "grad_norm": 0.00027587029209878266,
+      "learning_rate": 2.4339566636984267e-08,
+      "logits/chosen": 0.92578125,
+      "logits/rejected": 1.46875,
+      "logps/chosen": -178.0,
+      "logps/rejected": -314.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.78125,
+      "rewards/margins": 21.75,
+      "rewards/rejected": -18.0,
+      "step": 3580
+    },
+    {
+      "epoch": 2.876602564102564,
+      "grad_norm": 3.145906163646421e-06,
+      "learning_rate": 2.2855446720094983e-08,
+      "logits/chosen": 0.93359375,
+      "logits/rejected": 1.2109375,
+      "logps/chosen": -168.0,
+      "logps/rejected": -356.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.390625,
+      "rewards/margins": 24.875,
+      "rewards/rejected": -21.5,
+      "step": 3590
+    },
+    {
+      "epoch": 2.8846153846153846,
+      "grad_norm": 0.002758379167699333,
+      "learning_rate": 2.1371326803205697e-08,
+      "logits/chosen": 0.92578125,
+      "logits/rejected": 1.46875,
+      "logps/chosen": -172.0,
+      "logps/rejected": -328.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.875,
+      "rewards/margins": 23.25,
+      "rewards/rejected": -19.375,
+      "step": 3600
+    },
+    {
+      "epoch": 2.8926282051282053,
+      "grad_norm": 3.8764981035982807e-07,
+      "learning_rate": 1.9887206886316414e-08,
+      "logits/chosen": 0.8046875,
+      "logits/rejected": 1.4375,
+      "logps/chosen": -166.0,
+      "logps/rejected": -364.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 2.875,
+      "rewards/margins": 25.25,
+      "rewards/rejected": -22.5,
+      "step": 3610
+    },
+    {
+      "epoch": 2.9006410256410255,
+      "grad_norm": 2.459298995862145e-05,
+      "learning_rate": 1.840308696942713e-08,
+      "logits/chosen": 0.9296875,
+      "logits/rejected": 1.2109375,
+      "logps/chosen": -170.0,
+      "logps/rejected": -346.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.390625,
+      "rewards/margins": 24.0,
+      "rewards/rejected": -20.5,
+      "step": 3620
+    },
+    {
+      "epoch": 2.9086538461538463,
+      "grad_norm": 0.0033663621977632068,
+      "learning_rate": 1.6918967052537844e-08,
+      "logits/chosen": 0.90234375,
+      "logits/rejected": 1.1015625,
+      "logps/chosen": -158.0,
+      "logps/rejected": -342.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.640625,
+      "rewards/margins": 24.625,
+      "rewards/rejected": -21.0,
+      "step": 3630
+    },
+    {
+      "epoch": 2.9166666666666665,
+      "grad_norm": 2.0820327560442435e-05,
+      "learning_rate": 1.5434847135648558e-08,
+      "logits/chosen": 1.0,
+      "logits/rejected": 1.4140625,
+      "logps/chosen": -125.0,
+      "logps/rejected": -336.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.078125,
+      "rewards/margins": 23.625,
+      "rewards/rejected": -20.625,
+      "step": 3640
+    },
+    {
+      "epoch": 2.9246794871794872,
+      "grad_norm": 9.867503905955064e-07,
+      "learning_rate": 1.3950727218759274e-08,
+      "logits/chosen": 0.8359375,
+      "logits/rejected": 1.2421875,
+      "logps/chosen": -178.0,
+      "logps/rejected": -354.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.328125,
+      "rewards/margins": 24.75,
+      "rewards/rejected": -21.5,
+      "step": 3650
+    },
+    {
+      "epoch": 2.9326923076923075,
+      "grad_norm": 3.192135749286814e-05,
+      "learning_rate": 1.2466607301869991e-08,
+      "logits/chosen": 0.88671875,
+      "logits/rejected": 1.3671875,
+      "logps/chosen": -144.0,
+      "logps/rejected": -348.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.578125,
+      "rewards/margins": 24.875,
+      "rewards/rejected": -21.25,
+      "step": 3660
+    },
+    {
+      "epoch": 2.940705128205128,
+      "grad_norm": 2.715406001289612e-08,
+      "learning_rate": 1.0982487384980706e-08,
+      "logits/chosen": 1.046875,
+      "logits/rejected": 1.203125,
+      "logps/chosen": -157.0,
+      "logps/rejected": -344.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.4375,
+      "rewards/margins": 24.125,
+      "rewards/rejected": -20.75,
+      "step": 3670
+    },
+    {
+      "epoch": 2.948717948717949,
+      "grad_norm": 2.672696571203794e-07,
+      "learning_rate": 9.498367468091422e-09,
+      "logits/chosen": 0.78515625,
+      "logits/rejected": 1.1484375,
+      "logps/chosen": -177.0,
+      "logps/rejected": -348.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.890625,
+      "rewards/margins": 24.875,
+      "rewards/rejected": -21.0,
+      "step": 3680
+    },
+    {
+      "epoch": 2.956730769230769,
+      "grad_norm": 7.489910666014967e-05,
+      "learning_rate": 8.014247551202137e-09,
+      "logits/chosen": 0.54296875,
+      "logits/rejected": 1.1953125,
+      "logps/chosen": -206.0,
+      "logps/rejected": -338.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.75,
+      "rewards/margins": 23.625,
+      "rewards/rejected": -19.875,
+      "step": 3690
+    },
+    {
+      "epoch": 2.96474358974359,
+      "grad_norm": 1.3844115894190923e-05,
+      "learning_rate": 6.530127634312852e-09,
+      "logits/chosen": 0.85546875,
+      "logits/rejected": 1.0703125,
+      "logps/chosen": -172.0,
+      "logps/rejected": -328.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.671875,
+      "rewards/margins": 22.5,
+      "rewards/rejected": -18.875,
+      "step": 3700
+    },
+    {
+      "epoch": 2.97275641025641,
+      "grad_norm": 2.3143826423249172e-05,
+      "learning_rate": 5.046007717423567e-09,
+      "logits/chosen": 1.0390625,
+      "logits/rejected": 1.0390625,
+      "logps/chosen": -152.0,
+      "logps/rejected": -332.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.46875,
+      "rewards/margins": 24.75,
+      "rewards/rejected": -21.25,
+      "step": 3710
+    },
+    {
+      "epoch": 2.980769230769231,
+      "grad_norm": 9.095521401560934e-05,
+      "learning_rate": 3.561887800534283e-09,
+      "logits/chosen": 0.90625,
+      "logits/rejected": 0.86328125,
+      "logps/chosen": -127.0,
+      "logps/rejected": -326.0,
+      "loss": 0.0002,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.171875,
+      "rewards/margins": 23.75,
+      "rewards/rejected": -20.5,
+      "step": 3720
+    },
+    {
+      "epoch": 2.988782051282051,
+      "grad_norm": 2.7589599160714447e-07,
+      "learning_rate": 2.0777678836449987e-09,
+      "logits/chosen": 0.73046875,
+      "logits/rejected": 1.078125,
+      "logps/chosen": -193.0,
+      "logps/rejected": -336.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.25,
+      "rewards/margins": 24.5,
+      "rewards/rejected": -21.125,
+      "step": 3730
+    },
+    {
+      "epoch": 2.996794871794872,
+      "grad_norm": 5.964151597883472e-05,
+      "learning_rate": 5.936479667557139e-10,
+      "logits/chosen": 0.83203125,
+      "logits/rejected": 1.3046875,
+      "logps/chosen": -153.0,
+      "logps/rejected": -336.0,
+      "loss": 0.0,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": 3.609375,
+      "rewards/margins": 23.125,
+      "rewards/rejected": -19.5,
+      "step": 3740
+    },
+    {
+      "epoch": 3.0,
+      "eval_logits/chosen": 0.88671875,
+      "eval_logits/rejected": 1.4453125,
+      "eval_logps/chosen": -170.0,
+      "eval_logps/rejected": -344.0,
+      "eval_loss": 2.2770025225327117e-06,
+      "eval_rewards/accuracies": 1.0,
+      "eval_rewards/chosen": 3.296875,
+      "eval_rewards/margins": 23.5,
+      "eval_rewards/rejected": -20.25,
+      "eval_runtime": 32.9212,
+      "eval_samples_per_second": 6.045,
+      "eval_steps_per_second": 0.759,
+      "step": 3744
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }