Model save

Browse files

Files changed (8) hide show

README.md +68 -0
all_results.json +9 -0
generation_config.json +6 -0
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
train_results.json +9 -0
trainer_state.json +2546 -0

README.md ADDED Viewed

	@@ -0,0 +1,68 @@

+---
+base_model: alignment-handbook/zephyr-7b-sft-full
+library_name: transformers
+model_name: ultrafeedbackSkyworkAgree_alignmentZephyr7BSftFull_sdpo_score_ebs64_lr1e-07_0
+tags:
+- generated_from_trainer
+- trl
+- dpo
+licence: license
+---
+# Model Card for ultrafeedbackSkyworkAgree_alignmentZephyr7BSftFull_sdpo_score_ebs64_lr1e-07_0
+This model is a fine-tuned version of [alignment-handbook/zephyr-7b-sft-full](https://huggingface.co/alignment-handbook/zephyr-7b-sft-full).
+It has been trained using [TRL](https://github.com/huggingface/trl).
+## Quick start
+```python
+from transformers import pipeline
+question = "If you had a time machine, but could only go to the past or the future once and never return, which would you choose and why?"
+generator = pipeline("text-generation", model="YuchenLi01/ultrafeedbackSkyworkAgree_alignmentZephyr7BSftFull_sdpo_score_ebs64_lr1e-07_0", device="cuda")
+output = generator([{"role": "user", "content": question}], max_new_tokens=128, return_full_text=False)[0]
+print(output["generated_text"])
+```
+## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/yuchenl4/lmpref/runs/ultrafeedbackSkyworkAgree_alignmentZephyr7BSftFull_sdpo_score_ebs64_lr1e-07_0try1prJ7sto2sYHlSCIOJJTTEhdKWJiU3dhkNo0dSnqgrczqZp)
+This model was trained with DPO, a method introduced in [Direct Preference Optimization: Your Language Model is Secretly a Reward Model](https://huggingface.co/papers/2305.18290).
+### Framework versions
+- TRL: 0.12.0
+- Transformers: 4.46.3
+- Pytorch: 2.3.0
+- Datasets: 3.1.0
+- Tokenizers: 0.20.3
+## Citations
+Cite DPO as:
+```bibtex
+@inproceedings{rafailov2023direct,
+    title        = {{Direct Preference Optimization: Your Language Model is Secretly a Reward Model}},
+    author       = {Rafael Rafailov and Archit Sharma and Eric Mitchell and Christopher D. Manning and Stefano Ermon and Chelsea Finn},
+    year         = 2023,
+    booktitle    = {Advances in Neural Information Processing Systems 36: Annual Conference on Neural Information Processing Systems 2023, NeurIPS 2023, New Orleans, LA, USA, December 10 - 16, 2023},
+    url          = {http://papers.nips.cc/paper_files/paper/2023/hash/a85b405ed65c6477a4fe8302b5e06ce7-Abstract-Conference.html},
+    editor       = {Alice Oh and Tristan Naumann and Amir Globerson and Kate Saenko and Moritz Hardt and Sergey Levine},
+}
+```
+Cite TRL as:
+```bibtex
+@misc{vonwerra2022trl,
+	title        = {{TRL: Transformer Reinforcement Learning}},
+	author       = {Leandro von Werra and Younes Belkada and Lewis Tunstall and Edward Beeching and Tristan Thrush and Nathan Lambert and Shengyi Huang and Kashif Rasul and Quentin Gallouédec},
+	year         = 2020,
+	journal      = {GitHub repository},
+	publisher    = {GitHub},
+	howpublished = {\url{https://github.com/huggingface/trl}}
+}
+```

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0,
+    "total_flos": 0.0,
+    "train_loss": 0.5638467967928208,
+    "train_runtime": 32082.6297,
+    "train_samples": 45608,
+    "train_samples_per_second": 1.422,
+    "train_steps_per_second": 0.022
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 2,
+  "transformers_version": "4.46.3"
+}

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fbc706cd3380d0ba63b227c11859b89d4a29e436a262fa322e5b69b61897e6a6
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:961b26ebfb4b70fee969a499072dbadc0e5b980ab8278407269561cd99946597
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:548b1af57a5ee26dc3f83a46eba6cdc3d9649660943160f52fe7df12c948a3fc
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:b468511ff6adc1a7bb835581d7f713f6d5a27f40bf0a97436a833067c658c7ed
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d08716c2fb898ee01ec61f32fd753ef8157569f532519be91a34e4a1f018b861
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:796bbafa99f0bd0d7a660d35bdde78d861ab57505eef01785075d37482b2d86c
 size 4540516344

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 1.0,
+    "total_flos": 0.0,
+    "train_loss": 0.5638467967928208,
+    "train_runtime": 32082.6297,
+    "train_samples": 45608,
+    "train_samples_per_second": 1.422,
+    "train_steps_per_second": 0.022
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,2546 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 8,
+  "global_step": 713,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.001402524544179523,
+      "grad_norm": 13.312526408630161,
+      "learning_rate": 1.3888888888888888e-09,
+      "logits/chosen": -3.09375,
+      "logits/rejected": -3.0,
+      "logps/chosen": -410.0,
+      "logps/rejected": -408.0,
+      "loss": 0.6914,
+      "rewards/accuracies": 0.0,
+      "rewards/chosen": 0.0,
+      "rewards/margins": 0.0,
+      "rewards/rejected": 0.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.011220196353436185,
+      "eval_logits/chosen": -3.234375,
+      "eval_logits/rejected": -3.28125,
+      "eval_logps/chosen": -322.0,
+      "eval_logps/rejected": -276.0,
+      "eval_loss": 0.6922186017036438,
+      "eval_rewards/accuracies": 0.228723406791687,
+      "eval_rewards/chosen": -0.0003604888916015625,
+      "eval_rewards/margins": -0.001190185546875,
+      "eval_rewards/rejected": 0.000823974609375,
+      "eval_runtime": 64.4932,
+      "eval_samples_per_second": 23.057,
+      "eval_steps_per_second": 0.729,
+      "step": 8
+    },
+    {
+      "epoch": 0.014025245441795231,
+      "grad_norm": 10.597327421994228,
+      "learning_rate": 1.3888888888888889e-08,
+      "logits/chosen": -3.1875,
+      "logits/rejected": -3.125,
+      "logps/chosen": -310.0,
+      "logps/rejected": -286.0,
+      "loss": 0.6921,
+      "rewards/accuracies": 0.2222222238779068,
+      "rewards/chosen": 0.00128936767578125,
+      "rewards/margins": 0.00201416015625,
+      "rewards/rejected": -0.000728607177734375,
+      "step": 10
+    },
+    {
+      "epoch": 0.02244039270687237,
+      "eval_logits/chosen": -3.234375,
+      "eval_logits/rejected": -3.28125,
+      "eval_logps/chosen": -322.0,
+      "eval_logps/rejected": -276.0,
+      "eval_loss": 0.6920655369758606,
+      "eval_rewards/accuracies": 0.18617020547389984,
+      "eval_rewards/chosen": -0.0014801025390625,
+      "eval_rewards/margins": -0.0022125244140625,
+      "eval_rewards/rejected": 0.00074005126953125,
+      "eval_runtime": 66.7125,
+      "eval_samples_per_second": 22.29,
+      "eval_steps_per_second": 0.705,
+      "step": 16
+    },
+    {
+      "epoch": 0.028050490883590462,
+      "grad_norm": 13.836822232155031,
+      "learning_rate": 2.7777777777777777e-08,
+      "logits/chosen": -3.171875,
+      "logits/rejected": -3.25,
+      "logps/chosen": -324.0,
+      "logps/rejected": -255.0,
+      "loss": 0.6922,
+      "rewards/accuracies": 0.20000000298023224,
+      "rewards/chosen": -0.000904083251953125,
+      "rewards/margins": 0.0003910064697265625,
+      "rewards/rejected": -0.0012969970703125,
+      "step": 20
+    },
+    {
+      "epoch": 0.033660589060308554,
+      "eval_logits/chosen": -3.234375,
+      "eval_logits/rejected": -3.28125,
+      "eval_logps/chosen": -322.0,
+      "eval_logps/rejected": -276.0,
+      "eval_loss": 0.6919813752174377,
+      "eval_rewards/accuracies": 0.25,
+      "eval_rewards/chosen": -0.00095367431640625,
+      "eval_rewards/margins": -0.00067138671875,
+      "eval_rewards/rejected": -0.0002803802490234375,
+      "eval_runtime": 65.6733,
+      "eval_samples_per_second": 22.642,
+      "eval_steps_per_second": 0.716,
+      "step": 24
+    },
+    {
+      "epoch": 0.04207573632538569,
+      "grad_norm": 9.808894950380177,
+      "learning_rate": 4.166666666666667e-08,
+      "logits/chosen": -3.1875,
+      "logits/rejected": -3.1875,
+      "logps/chosen": -322.0,
+      "logps/rejected": -280.0,
+      "loss": 0.6917,
+      "rewards/accuracies": 0.3375000059604645,
+      "rewards/chosen": 0.00023365020751953125,
+      "rewards/margins": 0.0014190673828125,
+      "rewards/rejected": -0.001190185546875,
+      "step": 30
+    },
+    {
+      "epoch": 0.04488078541374474,
+      "eval_logits/chosen": -3.234375,
+      "eval_logits/rejected": -3.28125,
+      "eval_logps/chosen": -322.0,
+      "eval_logps/rejected": -276.0,
+      "eval_loss": 0.691659152507782,
+      "eval_rewards/accuracies": 0.24468085169792175,
+      "eval_rewards/chosen": -0.000888824462890625,
+      "eval_rewards/margins": 0.0002002716064453125,
+      "eval_rewards/rejected": -0.00109100341796875,
+      "eval_runtime": 65.5796,
+      "eval_samples_per_second": 22.675,
+      "eval_steps_per_second": 0.717,
+      "step": 32
+    },
+    {
+      "epoch": 0.056100981767180924,
+      "grad_norm": 10.03150100621376,
+      "learning_rate": 5.5555555555555555e-08,
+      "logits/chosen": -3.234375,
+      "logits/rejected": -3.234375,
+      "logps/chosen": -324.0,
+      "logps/rejected": -240.0,
+      "loss": 0.6919,
+      "rewards/accuracies": 0.1875,
+      "rewards/chosen": -0.002655029296875,
+      "rewards/margins": -0.001373291015625,
+      "rewards/rejected": -0.00128173828125,
+      "step": 40
+    },
+    {
+      "epoch": 0.056100981767180924,
+      "eval_logits/chosen": -3.234375,
+      "eval_logits/rejected": -3.28125,
+      "eval_logps/chosen": -322.0,
+      "eval_logps/rejected": -276.0,
+      "eval_loss": 0.6911664009094238,
+      "eval_rewards/accuracies": 0.3085106313228607,
+      "eval_rewards/chosen": -0.001922607421875,
+      "eval_rewards/margins": 0.00115203857421875,
+      "eval_rewards/rejected": -0.0030670166015625,
+      "eval_runtime": 65.5097,
+      "eval_samples_per_second": 22.699,
+      "eval_steps_per_second": 0.717,
+      "step": 40
+    },
+    {
+      "epoch": 0.06732117812061711,
+      "eval_logits/chosen": -3.234375,
+      "eval_logits/rejected": -3.265625,
+      "eval_logps/chosen": -322.0,
+      "eval_logps/rejected": -276.0,
+      "eval_loss": 0.6904101371765137,
+      "eval_rewards/accuracies": 0.4095744788646698,
+      "eval_rewards/chosen": -0.00360107421875,
+      "eval_rewards/margins": 0.0032958984375,
+      "eval_rewards/rejected": -0.00689697265625,
+      "eval_runtime": 65.8647,
+      "eval_samples_per_second": 22.577,
+      "eval_steps_per_second": 0.714,
+      "step": 48
+    },
+    {
+      "epoch": 0.07012622720897616,
+      "grad_norm": 11.024207801738104,
+      "learning_rate": 6.944444444444444e-08,
+      "logits/chosen": -3.03125,
+      "logits/rejected": -3.15625,
+      "logps/chosen": -342.0,
+      "logps/rejected": -306.0,
+      "loss": 0.6917,
+      "rewards/accuracies": 0.38749998807907104,
+      "rewards/chosen": -0.0007171630859375,
+      "rewards/margins": 0.004364013671875,
+      "rewards/rejected": -0.005096435546875,
+      "step": 50
+    },
+    {
+      "epoch": 0.0785413744740533,
+      "eval_logits/chosen": -3.234375,
+      "eval_logits/rejected": -3.265625,
+      "eval_logps/chosen": -322.0,
+      "eval_logps/rejected": -276.0,
+      "eval_loss": 0.6893861293792725,
+      "eval_rewards/accuracies": 0.5,
+      "eval_rewards/chosen": -0.007110595703125,
+      "eval_rewards/margins": 0.006195068359375,
+      "eval_rewards/rejected": -0.0133056640625,
+      "eval_runtime": 66.2121,
+      "eval_samples_per_second": 22.458,
+      "eval_steps_per_second": 0.71,
+      "step": 56
+    },
+    {
+      "epoch": 0.08415147265077139,
+      "grad_norm": 11.128580526610264,
+      "learning_rate": 8.333333333333334e-08,
+      "logits/chosen": -3.1875,
+      "logits/rejected": -3.15625,
+      "logps/chosen": -286.0,
+      "logps/rejected": -266.0,
+      "loss": 0.6902,
+      "rewards/accuracies": 0.512499988079071,
+      "rewards/chosen": -0.00726318359375,
+      "rewards/margins": 0.005401611328125,
+      "rewards/rejected": -0.0126953125,
+      "step": 60
+    },
+    {
+      "epoch": 0.08976157082748948,
+      "eval_logits/chosen": -3.234375,
+      "eval_logits/rejected": -3.265625,
+      "eval_logps/chosen": -322.0,
+      "eval_logps/rejected": -278.0,
+      "eval_loss": 0.6874608993530273,
+      "eval_rewards/accuracies": 0.542553186416626,
+      "eval_rewards/chosen": -0.0118408203125,
+      "eval_rewards/margins": 0.01043701171875,
+      "eval_rewards/rejected": -0.0223388671875,
+      "eval_runtime": 65.3339,
+      "eval_samples_per_second": 22.76,
+      "eval_steps_per_second": 0.719,
+      "step": 64
+    },
+    {
+      "epoch": 0.09817671809256662,
+      "grad_norm": 11.049642821906803,
+      "learning_rate": 9.722222222222221e-08,
+      "logits/chosen": -3.21875,
+      "logits/rejected": -3.234375,
+      "logps/chosen": -290.0,
+      "logps/rejected": -280.0,
+      "loss": 0.6868,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.0150146484375,
+      "rewards/margins": 0.01202392578125,
+      "rewards/rejected": -0.027099609375,
+      "step": 70
+    },
+    {
+      "epoch": 0.10098176718092566,
+      "eval_logits/chosen": -3.21875,
+      "eval_logits/rejected": -3.265625,
+      "eval_logps/chosen": -324.0,
+      "eval_logps/rejected": -280.0,
+      "eval_loss": 0.6850191354751587,
+      "eval_rewards/accuracies": 0.6117021441459656,
+      "eval_rewards/chosen": -0.0218505859375,
+      "eval_rewards/margins": 0.01531982421875,
+      "eval_rewards/rejected": -0.037109375,
+      "eval_runtime": 65.5283,
+      "eval_samples_per_second": 22.692,
+      "eval_steps_per_second": 0.717,
+      "step": 72
+    },
+    {
+      "epoch": 0.11220196353436185,
+      "grad_norm": 12.079775942720834,
+      "learning_rate": 9.996157197797842e-08,
+      "logits/chosen": -3.1875,
+      "logits/rejected": -3.234375,
+      "logps/chosen": -332.0,
+      "logps/rejected": -286.0,
+      "loss": 0.6839,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.0262451171875,
+      "rewards/margins": 0.02587890625,
+      "rewards/rejected": -0.052001953125,
+      "step": 80
+    },
+    {
+      "epoch": 0.11220196353436185,
+      "eval_logits/chosen": -3.21875,
+      "eval_logits/rejected": -3.25,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -282.0,
+      "eval_loss": 0.6817147135734558,
+      "eval_rewards/accuracies": 0.6595744490623474,
+      "eval_rewards/chosen": -0.03564453125,
+      "eval_rewards/margins": 0.0233154296875,
+      "eval_rewards/rejected": -0.058837890625,
+      "eval_runtime": 65.1964,
+      "eval_samples_per_second": 22.808,
+      "eval_steps_per_second": 0.721,
+      "step": 80
+    },
+    {
+      "epoch": 0.12342215988779803,
+      "eval_logits/chosen": -3.203125,
+      "eval_logits/rejected": -3.25,
+      "eval_logps/chosen": -326.0,
+      "eval_logps/rejected": -284.0,
+      "eval_loss": 0.6778491139411926,
+      "eval_rewards/accuracies": 0.664893627166748,
+      "eval_rewards/chosen": -0.0517578125,
+      "eval_rewards/margins": 0.033935546875,
+      "eval_rewards/rejected": -0.08544921875,
+      "eval_runtime": 65.8317,
+      "eval_samples_per_second": 22.588,
+      "eval_steps_per_second": 0.714,
+      "step": 88
+    },
+    {
+      "epoch": 0.12622720897615708,
+      "grad_norm": 13.482170939282454,
+      "learning_rate": 9.980555936859367e-08,
+      "logits/chosen": -3.171875,
+      "logits/rejected": -3.15625,
+      "logps/chosen": -338.0,
+      "logps/rejected": -304.0,
+      "loss": 0.6802,
+      "rewards/accuracies": 0.612500011920929,
+      "rewards/chosen": -0.05029296875,
+      "rewards/margins": 0.0245361328125,
+      "rewards/rejected": -0.07470703125,
+      "step": 90
+    },
+    {
+      "epoch": 0.13464235624123422,
+      "eval_logits/chosen": -3.203125,
+      "eval_logits/rejected": -3.234375,
+      "eval_logps/chosen": -328.0,
+      "eval_logps/rejected": -286.0,
+      "eval_loss": 0.6740643978118896,
+      "eval_rewards/accuracies": 0.6702127456665039,
+      "eval_rewards/chosen": -0.07177734375,
+      "eval_rewards/margins": 0.041015625,
+      "eval_rewards/rejected": -0.11279296875,
+      "eval_runtime": 66.7185,
+      "eval_samples_per_second": 22.288,
+      "eval_steps_per_second": 0.704,
+      "step": 96
+    },
+    {
+      "epoch": 0.1402524544179523,
+      "grad_norm": 11.204042194314384,
+      "learning_rate": 9.952993480848836e-08,
+      "logits/chosen": -3.15625,
+      "logits/rejected": -3.171875,
+      "logps/chosen": -344.0,
+      "logps/rejected": -316.0,
+      "loss": 0.6744,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.0732421875,
+      "rewards/margins": 0.03369140625,
+      "rewards/rejected": -0.10693359375,
+      "step": 100
+    },
+    {
+      "epoch": 0.1458625525946704,
+      "eval_logits/chosen": -3.203125,
+      "eval_logits/rejected": -3.234375,
+      "eval_logps/chosen": -330.0,
+      "eval_logps/rejected": -290.0,
+      "eval_loss": 0.6696762442588806,
+      "eval_rewards/accuracies": 0.6808510422706604,
+      "eval_rewards/chosen": -0.08447265625,
+      "eval_rewards/margins": 0.052490234375,
+      "eval_rewards/rejected": -0.13671875,
+      "eval_runtime": 65.3752,
+      "eval_samples_per_second": 22.746,
+      "eval_steps_per_second": 0.719,
+      "step": 104
+    },
+    {
+      "epoch": 0.15427769985974754,
+      "grad_norm": 10.547622004632332,
+      "learning_rate": 9.913536023162564e-08,
+      "logits/chosen": -3.109375,
+      "logits/rejected": -3.15625,
+      "logps/chosen": -338.0,
+      "logps/rejected": -284.0,
+      "loss": 0.6694,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.0966796875,
+      "rewards/margins": 0.034423828125,
+      "rewards/rejected": -0.130859375,
+      "step": 110
+    },
+    {
+      "epoch": 0.1570827489481066,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -332.0,
+      "eval_logps/rejected": -292.0,
+      "eval_loss": 0.6651813387870789,
+      "eval_rewards/accuracies": 0.6808510422706604,
+      "eval_rewards/chosen": -0.09912109375,
+      "eval_rewards/margins": 0.0625,
+      "eval_rewards/rejected": -0.1611328125,
+      "eval_runtime": 66.8719,
+      "eval_samples_per_second": 22.237,
+      "eval_steps_per_second": 0.703,
+      "step": 112
+    },
+    {
+      "epoch": 0.16830294530154277,
+      "grad_norm": 11.442066252813966,
+      "learning_rate": 9.862278323974797e-08,
+      "logits/chosen": -3.25,
+      "logits/rejected": -3.25,
+      "logps/chosen": -332.0,
+      "logps/rejected": -266.0,
+      "loss": 0.6609,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.11376953125,
+      "rewards/margins": 0.0927734375,
+      "rewards/rejected": -0.2060546875,
+      "step": 120
+    },
+    {
+      "epoch": 0.16830294530154277,
+      "eval_logits/chosen": -3.1875,
+      "eval_logits/rejected": -3.21875,
+      "eval_logps/chosen": -334.0,
+      "eval_logps/rejected": -294.0,
+      "eval_loss": 0.6606339812278748,
+      "eval_rewards/accuracies": 0.707446813583374,
+      "eval_rewards/chosen": -0.11572265625,
+      "eval_rewards/margins": 0.07568359375,
+      "eval_rewards/rejected": -0.19140625,
+      "eval_runtime": 65.1545,
+      "eval_samples_per_second": 22.823,
+      "eval_steps_per_second": 0.721,
+      "step": 120
+    },
+    {
+      "epoch": 0.17952314165497896,
+      "eval_logits/chosen": -3.171875,
+      "eval_logits/rejected": -3.203125,
+      "eval_logps/chosen": -334.0,
+      "eval_logps/rejected": -298.0,
+      "eval_loss": 0.6557604074478149,
+      "eval_rewards/accuracies": 0.7234042286872864,
+      "eval_rewards/chosen": -0.126953125,
+      "eval_rewards/margins": 0.0888671875,
+      "eval_rewards/rejected": -0.2158203125,
+      "eval_runtime": 65.0762,
+      "eval_samples_per_second": 22.85,
+      "eval_steps_per_second": 0.722,
+      "step": 128
+    },
+    {
+      "epoch": 0.182328190743338,
+      "grad_norm": 10.846341171274817,
+      "learning_rate": 9.79934348266374e-08,
+      "logits/chosen": -2.984375,
+      "logits/rejected": -3.1875,
+      "logps/chosen": -390.0,
+      "logps/rejected": -352.0,
+      "loss": 0.6616,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.11474609375,
+      "rewards/margins": 0.08251953125,
+      "rewards/rejected": -0.197265625,
+      "step": 130
+    },
+    {
+      "epoch": 0.19074333800841514,
+      "eval_logits/chosen": -3.171875,
+      "eval_logits/rejected": -3.203125,
+      "eval_logps/chosen": -334.0,
+      "eval_logps/rejected": -298.0,
+      "eval_loss": 0.6506365537643433,
+      "eval_rewards/accuracies": 0.7234042286872864,
+      "eval_rewards/chosen": -0.12890625,
+      "eval_rewards/margins": 0.10205078125,
+      "eval_rewards/rejected": -0.2314453125,
+      "eval_runtime": 65.5912,
+      "eval_samples_per_second": 22.671,
+      "eval_steps_per_second": 0.717,
+      "step": 136
+    },
+    {
+      "epoch": 0.19635343618513323,
+      "grad_norm": 11.36989829334774,
+      "learning_rate": 9.724882642178755e-08,
+      "logits/chosen": -3.140625,
+      "logits/rejected": -3.203125,
+      "logps/chosen": -314.0,
+      "logps/rejected": -296.0,
+      "loss": 0.6564,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.1533203125,
+      "rewards/margins": 0.09765625,
+      "rewards/rejected": -0.251953125,
+      "step": 140
+    },
+    {
+      "epoch": 0.20196353436185133,
+      "eval_logits/chosen": -3.171875,
+      "eval_logits/rejected": -3.203125,
+      "eval_logps/chosen": -334.0,
+      "eval_logps/rejected": -300.0,
+      "eval_loss": 0.6449890732765198,
+      "eval_rewards/accuracies": 0.7234042286872864,
+      "eval_rewards/chosen": -0.130859375,
+      "eval_rewards/margins": 0.11474609375,
+      "eval_rewards/rejected": -0.2451171875,
+      "eval_runtime": 65.0,
+      "eval_samples_per_second": 22.877,
+      "eval_steps_per_second": 0.723,
+      "step": 144
+    },
+    {
+      "epoch": 0.21037868162692847,
+      "grad_norm": 10.745243280453327,
+      "learning_rate": 9.63907462605873e-08,
+      "logits/chosen": -3.203125,
+      "logits/rejected": -3.140625,
+      "logps/chosen": -332.0,
+      "logps/rejected": -306.0,
+      "loss": 0.6413,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.1513671875,
+      "rewards/margins": 0.09423828125,
+      "rewards/rejected": -0.24609375,
+      "step": 150
+    },
+    {
+      "epoch": 0.2131837307152875,
+      "eval_logits/chosen": -3.15625,
+      "eval_logits/rejected": -3.1875,
+      "eval_logps/chosen": -336.0,
+      "eval_logps/rejected": -304.0,
+      "eval_loss": 0.6383941173553467,
+      "eval_rewards/accuracies": 0.7234042286872864,
+      "eval_rewards/chosen": -0.1435546875,
+      "eval_rewards/margins": 0.1337890625,
+      "eval_rewards/rejected": -0.27734375,
+      "eval_runtime": 65.4753,
+      "eval_samples_per_second": 22.711,
+      "eval_steps_per_second": 0.718,
+      "step": 152
+    },
+    {
+      "epoch": 0.2244039270687237,
+      "grad_norm": 11.27553371495036,
+      "learning_rate": 9.542125508973355e-08,
+      "logits/chosen": -3.03125,
+      "logits/rejected": -3.078125,
+      "logps/chosen": -368.0,
+      "logps/rejected": -282.0,
+      "loss": 0.6307,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.12353515625,
+      "rewards/margins": 0.189453125,
+      "rewards/rejected": -0.314453125,
+      "step": 160
+    },
+    {
+      "epoch": 0.2244039270687237,
+      "eval_logits/chosen": -3.15625,
+      "eval_logits/rejected": -3.1875,
+      "eval_logps/chosen": -336.0,
+      "eval_logps/rejected": -306.0,
+      "eval_loss": 0.6307098269462585,
+      "eval_rewards/accuracies": 0.728723406791687,
+      "eval_rewards/chosen": -0.1435546875,
+      "eval_rewards/margins": 0.154296875,
+      "eval_rewards/rejected": -0.296875,
+      "eval_runtime": 65.6298,
+      "eval_samples_per_second": 22.657,
+      "eval_steps_per_second": 0.716,
+      "step": 160
+    },
+    {
+      "epoch": 0.23562412342215988,
+      "eval_logits/chosen": -3.140625,
+      "eval_logits/rejected": -3.171875,
+      "eval_logps/chosen": -332.0,
+      "eval_logps/rejected": -304.0,
+      "eval_loss": 0.6231443881988525,
+      "eval_rewards/accuracies": 0.728723406791687,
+      "eval_rewards/chosen": -0.1123046875,
+      "eval_rewards/margins": 0.1689453125,
+      "eval_rewards/rejected": -0.28125,
+      "eval_runtime": 65.3606,
+      "eval_samples_per_second": 22.751,
+      "eval_steps_per_second": 0.719,
+      "step": 168
+    },
+    {
+      "epoch": 0.23842917251051893,
+      "grad_norm": 10.59379621805741,
+      "learning_rate": 9.434268121818663e-08,
+      "logits/chosen": -3.234375,
+      "logits/rejected": -3.203125,
+      "logps/chosen": -292.0,
+      "logps/rejected": -268.0,
+      "loss": 0.627,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.18359375,
+      "rewards/margins": 0.16015625,
+      "rewards/rejected": -0.34375,
+      "step": 170
+    },
+    {
+      "epoch": 0.24684431977559607,
+      "eval_logits/chosen": -3.140625,
+      "eval_logits/rejected": -3.171875,
+      "eval_logps/chosen": -334.0,
+      "eval_logps/rejected": -308.0,
+      "eval_loss": 0.6149851679801941,
+      "eval_rewards/accuracies": 0.7393617033958435,
+      "eval_rewards/chosen": -0.126953125,
+      "eval_rewards/margins": 0.193359375,
+      "eval_rewards/rejected": -0.3203125,
+      "eval_runtime": 65.2812,
+      "eval_samples_per_second": 22.778,
+      "eval_steps_per_second": 0.72,
+      "step": 176
+    },
+    {
+      "epoch": 0.25245441795231416,
+      "grad_norm": 13.319281173183153,
+      "learning_rate": 9.315761492555401e-08,
+      "logits/chosen": -2.953125,
+      "logits/rejected": -3.03125,
+      "logps/chosen": -354.0,
+      "logps/rejected": -316.0,
+      "loss": 0.6139,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.1259765625,
+      "rewards/margins": 0.1943359375,
+      "rewards/rejected": -0.3203125,
+      "step": 180
+    },
+    {
+      "epoch": 0.25806451612903225,
+      "eval_logits/chosen": -3.125,
+      "eval_logits/rejected": -3.15625,
+      "eval_logps/chosen": -336.0,
+      "eval_logps/rejected": -310.0,
+      "eval_loss": 0.6060777902603149,
+      "eval_rewards/accuracies": 0.7340425252914429,
+      "eval_rewards/chosen": -0.1337890625,
+      "eval_rewards/margins": 0.2197265625,
+      "eval_rewards/rejected": -0.353515625,
+      "eval_runtime": 65.7676,
+      "eval_samples_per_second": 22.61,
+      "eval_steps_per_second": 0.715,
+      "step": 184
+    },
+    {
+      "epoch": 0.2664796633941094,
+      "grad_norm": 13.439011203083904,
+      "learning_rate": 9.186890224133106e-08,
+      "logits/chosen": -3.03125,
+      "logits/rejected": -3.09375,
+      "logps/chosen": -356.0,
+      "logps/rejected": -314.0,
+      "loss": 0.5955,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.107421875,
+      "rewards/margins": 0.2236328125,
+      "rewards/rejected": -0.33203125,
+      "step": 190
+    },
+    {
+      "epoch": 0.26928471248246844,
+      "eval_logits/chosen": -3.125,
+      "eval_logits/rejected": -3.15625,
+      "eval_logps/chosen": -338.0,
+      "eval_logps/rejected": -316.0,
+      "eval_loss": 0.5989786386489868,
+      "eval_rewards/accuracies": 0.7446808218955994,
+      "eval_rewards/chosen": -0.1572265625,
+      "eval_rewards/margins": 0.248046875,
+      "eval_rewards/rejected": -0.404296875,
+      "eval_runtime": 67.4593,
+      "eval_samples_per_second": 22.043,
+      "eval_steps_per_second": 0.697,
+      "step": 192
+    },
+    {
+      "epoch": 0.2805049088359046,
+      "grad_norm": 15.24476795667356,
+      "learning_rate": 9.047963810993828e-08,
+      "logits/chosen": -2.96875,
+      "logits/rejected": -3.21875,
+      "logps/chosen": -340.0,
+      "logps/rejected": -332.0,
+      "loss": 0.5975,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.220703125,
+      "rewards/margins": 0.318359375,
+      "rewards/rejected": -0.5390625,
+      "step": 200
+    },
+    {
+      "epoch": 0.2805049088359046,
+      "eval_logits/chosen": -3.125,
+      "eval_logits/rejected": -3.15625,
+      "eval_logps/chosen": -336.0,
+      "eval_logps/rejected": -318.0,
+      "eval_loss": 0.591622531414032,
+      "eval_rewards/accuracies": 0.728723406791687,
+      "eval_rewards/chosen": -0.1455078125,
+      "eval_rewards/margins": 0.275390625,
+      "eval_rewards/rejected": -0.421875,
+      "eval_runtime": 65.7395,
+      "eval_samples_per_second": 22.62,
+      "eval_steps_per_second": 0.715,
+      "step": 200
+    },
+    {
+      "epoch": 0.2917251051893408,
+      "eval_logits/chosen": -3.125,
+      "eval_logits/rejected": -3.15625,
+      "eval_logps/chosen": -334.0,
+      "eval_logps/rejected": -318.0,
+      "eval_loss": 0.5862420797348022,
+      "eval_rewards/accuracies": 0.7180851101875305,
+      "eval_rewards/chosen": -0.1279296875,
+      "eval_rewards/margins": 0.298828125,
+      "eval_rewards/rejected": -0.42578125,
+      "eval_runtime": 65.2479,
+      "eval_samples_per_second": 22.79,
+      "eval_steps_per_second": 0.72,
+      "step": 208
+    },
+    {
+      "epoch": 0.29453015427769985,
+      "grad_norm": 19.945956726222818,
+      "learning_rate": 8.899315895796999e-08,
+      "logits/chosen": -3.109375,
+      "logits/rejected": -3.171875,
+      "logps/chosen": -376.0,
+      "logps/rejected": -312.0,
+      "loss": 0.5887,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.189453125,
+      "rewards/margins": 0.369140625,
+      "rewards/rejected": -0.55859375,
+      "step": 210
+    },
+    {
+      "epoch": 0.302945301542777,
+      "eval_logits/chosen": -3.125,
+      "eval_logits/rejected": -3.15625,
+      "eval_logps/chosen": -334.0,
+      "eval_logps/rejected": -318.0,
+      "eval_loss": 0.5828134417533875,
+      "eval_rewards/accuracies": 0.728723406791687,
+      "eval_rewards/chosen": -0.1171875,
+      "eval_rewards/margins": 0.310546875,
+      "eval_rewards/rejected": -0.427734375,
+      "eval_runtime": 65.4231,
+      "eval_samples_per_second": 22.729,
+      "eval_steps_per_second": 0.718,
+      "step": 216
+    },
+    {
+      "epoch": 0.3085553997194951,
+      "grad_norm": 13.610682023585936,
+      "learning_rate": 8.741303468150459e-08,
+      "logits/chosen": -3.140625,
+      "logits/rejected": -3.0625,
+      "logps/chosen": -262.0,
+      "logps/rejected": -272.0,
+      "loss": 0.5819,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.13671875,
+      "rewards/margins": 0.3515625,
+      "rewards/rejected": -0.486328125,
+      "step": 220
+    },
+    {
+      "epoch": 0.3141654978962132,
+      "eval_logits/chosen": -3.125,
+      "eval_logits/rejected": -3.15625,
+      "eval_logps/chosen": -334.0,
+      "eval_logps/rejected": -320.0,
+      "eval_loss": 0.5790321826934814,
+      "eval_rewards/accuracies": 0.7446808218955994,
+      "eval_rewards/chosen": -0.126953125,
+      "eval_rewards/margins": 0.322265625,
+      "eval_rewards/rejected": -0.44921875,
+      "eval_runtime": 65.6686,
+      "eval_samples_per_second": 22.644,
+      "eval_steps_per_second": 0.716,
+      "step": 224
+    },
+    {
+      "epoch": 0.3225806451612903,
+      "grad_norm": 16.393253456859437,
+      "learning_rate": 8.574306007271956e-08,
+      "logits/chosen": -3.09375,
+      "logits/rejected": -3.203125,
+      "logps/chosen": -372.0,
+      "logps/rejected": -344.0,
+      "loss": 0.5694,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.14453125,
+      "rewards/margins": 0.345703125,
+      "rewards/rejected": -0.490234375,
+      "step": 230
+    },
+    {
+      "epoch": 0.32538569424964936,
+      "eval_logits/chosen": -3.125,
+      "eval_logits/rejected": -3.15625,
+      "eval_logps/chosen": -340.0,
+      "eval_logps/rejected": -328.0,
+      "eval_loss": 0.5725518465042114,
+      "eval_rewards/accuracies": 0.7180851101875305,
+      "eval_rewards/chosen": -0.1748046875,
+      "eval_rewards/margins": 0.34765625,
+      "eval_rewards/rejected": -0.5234375,
+      "eval_runtime": 65.6729,
+      "eval_samples_per_second": 22.643,
+      "eval_steps_per_second": 0.716,
+      "step": 232
+    },
+    {
+      "epoch": 0.33660589060308554,
+      "grad_norm": 20.54581221908109,
+      "learning_rate": 8.398724570640106e-08,
+      "logits/chosen": -3.078125,
+      "logits/rejected": -3.0,
+      "logps/chosen": -386.0,
+      "logps/rejected": -390.0,
+      "loss": 0.5678,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.1826171875,
+      "rewards/margins": 0.443359375,
+      "rewards/rejected": -0.625,
+      "step": 240
+    },
+    {
+      "epoch": 0.33660589060308554,
+      "eval_logits/chosen": -3.125,
+      "eval_logits/rejected": -3.140625,
+      "eval_logps/chosen": -342.0,
+      "eval_logps/rejected": -332.0,
+      "eval_loss": 0.5683075785636902,
+      "eval_rewards/accuracies": 0.7180851101875305,
+      "eval_rewards/chosen": -0.1943359375,
+      "eval_rewards/margins": 0.3671875,
+      "eval_rewards/rejected": -0.5625,
+      "eval_runtime": 66.0149,
+      "eval_samples_per_second": 22.525,
+      "eval_steps_per_second": 0.712,
+      "step": 240
+    },
+    {
+      "epoch": 0.34782608695652173,
+      "eval_logits/chosen": -3.125,
+      "eval_logits/rejected": -3.140625,
+      "eval_logps/chosen": -338.0,
+      "eval_logps/rejected": -330.0,
+      "eval_loss": 0.5656094551086426,
+      "eval_rewards/accuracies": 0.7606382966041565,
+      "eval_rewards/chosen": -0.16796875,
+      "eval_rewards/margins": 0.384765625,
+      "eval_rewards/rejected": -0.5546875,
+      "eval_runtime": 65.715,
+      "eval_samples_per_second": 22.628,
+      "eval_steps_per_second": 0.715,
+      "step": 248
+    },
+    {
+      "epoch": 0.3506311360448808,
+      "grad_norm": 18.794252770652808,
+      "learning_rate": 8.214980830823428e-08,
+      "logits/chosen": -3.03125,
+      "logits/rejected": -3.140625,
+      "logps/chosen": -306.0,
+      "logps/rejected": -288.0,
+      "loss": 0.5712,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.2109375,
+      "rewards/margins": 0.373046875,
+      "rewards/rejected": -0.5859375,
+      "step": 250
+    },
+    {
+      "epoch": 0.3590462833099579,
+      "eval_logits/chosen": -3.125,
+      "eval_logits/rejected": -3.140625,
+      "eval_logps/chosen": -336.0,
+      "eval_logps/rejected": -330.0,
+      "eval_loss": 0.5647580027580261,
+      "eval_rewards/accuracies": 0.7819148898124695,
+      "eval_rewards/chosen": -0.142578125,
+      "eval_rewards/margins": 0.392578125,
+      "eval_rewards/rejected": -0.53515625,
+      "eval_runtime": 66.6553,
+      "eval_samples_per_second": 22.309,
+      "eval_steps_per_second": 0.705,
+      "step": 256
+    },
+    {
+      "epoch": 0.364656381486676,
+      "grad_norm": 12.474351601104692,
+      "learning_rate": 8.02351606280068e-08,
+      "logits/chosen": -3.09375,
+      "logits/rejected": -3.078125,
+      "logps/chosen": -356.0,
+      "logps/rejected": -378.0,
+      "loss": 0.5516,
+      "rewards/accuracies": 0.7749999761581421,
+      "rewards/chosen": -0.212890625,
+      "rewards/margins": 0.435546875,
+      "rewards/rejected": -0.6484375,
+      "step": 260
+    },
+    {
+      "epoch": 0.3702664796633941,
+      "eval_logits/chosen": -3.109375,
+      "eval_logits/rejected": -3.140625,
+      "eval_logps/chosen": -334.0,
+      "eval_logps/rejected": -326.0,
+      "eval_loss": 0.5650196671485901,
+      "eval_rewards/accuracies": 0.771276593208313,
+      "eval_rewards/chosen": -0.11376953125,
+      "eval_rewards/margins": 0.392578125,
+      "eval_rewards/rejected": -0.5078125,
+      "eval_runtime": 65.7734,
+      "eval_samples_per_second": 22.608,
+      "eval_steps_per_second": 0.715,
+      "step": 264
+    },
+    {
+      "epoch": 0.37868162692847124,
+      "grad_norm": 16.401892485604222,
+      "learning_rate": 7.824790084204426e-08,
+      "logits/chosen": -3.0625,
+      "logits/rejected": -3.140625,
+      "logps/chosen": -342.0,
+      "logps/rejected": -382.0,
+      "loss": 0.5561,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.11962890625,
+      "rewards/margins": 0.5,
+      "rewards/rejected": -0.62109375,
+      "step": 270
+    },
+    {
+      "epoch": 0.3814866760168303,
+      "eval_logits/chosen": -3.109375,
+      "eval_logits/rejected": -3.140625,
+      "eval_logps/chosen": -336.0,
+      "eval_logps/rejected": -332.0,
+      "eval_loss": 0.5578521490097046,
+      "eval_rewards/accuracies": 0.7659574747085571,
+      "eval_rewards/chosen": -0.1416015625,
+      "eval_rewards/margins": 0.421875,
+      "eval_rewards/rejected": -0.5625,
+      "eval_runtime": 65.6246,
+      "eval_samples_per_second": 22.659,
+      "eval_steps_per_second": 0.716,
+      "step": 272
+    },
+    {
+      "epoch": 0.39270687237026647,
+      "grad_norm": 15.668844063971891,
+      "learning_rate": 7.619280151032996e-08,
+      "logits/chosen": -3.078125,
+      "logits/rejected": -3.125,
+      "logps/chosen": -308.0,
+      "logps/rejected": -310.0,
+      "loss": 0.5511,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.2041015625,
+      "rewards/margins": 0.412109375,
+      "rewards/rejected": -0.6171875,
+      "step": 280
+    },
+    {
+      "epoch": 0.39270687237026647,
+      "eval_logits/chosen": -3.109375,
+      "eval_logits/rejected": -3.140625,
+      "eval_logps/chosen": -338.0,
+      "eval_logps/rejected": -336.0,
+      "eval_loss": 0.5538753867149353,
+      "eval_rewards/accuracies": 0.7659574747085571,
+      "eval_rewards/chosen": -0.15625,
+      "eval_rewards/margins": 0.447265625,
+      "eval_rewards/rejected": -0.6015625,
+      "eval_runtime": 66.0541,
+      "eval_samples_per_second": 22.512,
+      "eval_steps_per_second": 0.712,
+      "step": 280
+    },
+    {
+      "epoch": 0.40392706872370265,
+      "eval_logits/chosen": -3.109375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -340.0,
+      "eval_logps/rejected": -340.0,
+      "eval_loss": 0.5501448512077332,
+      "eval_rewards/accuracies": 0.771276593208313,
+      "eval_rewards/chosen": -0.18359375,
+      "eval_rewards/margins": 0.462890625,
+      "eval_rewards/rejected": -0.6484375,
+      "eval_runtime": 65.3015,
+      "eval_samples_per_second": 22.771,
+      "eval_steps_per_second": 0.72,
+      "step": 288
+    },
+    {
+      "epoch": 0.4067321178120617,
+      "grad_norm": 16.413044382075544,
+      "learning_rate": 7.407479811482827e-08,
+      "logits/chosen": -3.09375,
+      "logits/rejected": -3.046875,
+      "logps/chosen": -364.0,
+      "logps/rejected": -338.0,
+      "loss": 0.5385,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.1630859375,
+      "rewards/margins": 0.45703125,
+      "rewards/rejected": -0.62109375,
+      "step": 290
+    },
+    {
+      "epoch": 0.41514726507713884,
+      "eval_logits/chosen": -3.109375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -344.0,
+      "eval_logps/rejected": -344.0,
+      "eval_loss": 0.5482958555221558,
+      "eval_rewards/accuracies": 0.75,
+      "eval_rewards/chosen": -0.2197265625,
+      "eval_rewards/margins": 0.466796875,
+      "eval_rewards/rejected": -0.6875,
+      "eval_runtime": 65.3898,
+      "eval_samples_per_second": 22.741,
+      "eval_steps_per_second": 0.719,
+      "step": 296
+    },
+    {
+      "epoch": 0.42075736325385693,
+      "grad_norm": 19.32972616150208,
+      "learning_rate": 7.189897720653835e-08,
+      "logits/chosen": -3.015625,
+      "logits/rejected": -3.109375,
+      "logps/chosen": -338.0,
+      "logps/rejected": -322.0,
+      "loss": 0.5486,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -0.30859375,
+      "rewards/margins": 0.455078125,
+      "rewards/rejected": -0.765625,
+      "step": 300
+    },
+    {
+      "epoch": 0.426367461430575,
+      "eval_logits/chosen": -3.109375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -340.0,
+      "eval_logps/rejected": -342.0,
+      "eval_loss": 0.5460695028305054,
+      "eval_rewards/accuracies": 0.7659574747085571,
+      "eval_rewards/chosen": -0.1884765625,
+      "eval_rewards/margins": 0.482421875,
+      "eval_rewards/rejected": -0.671875,
+      "eval_runtime": 65.6401,
+      "eval_samples_per_second": 22.654,
+      "eval_steps_per_second": 0.716,
+      "step": 304
+    },
+    {
+      "epoch": 0.43478260869565216,
+      "grad_norm": 20.84038979708752,
+      "learning_rate": 6.967056418974356e-08,
+      "logits/chosen": -3.078125,
+      "logits/rejected": -3.09375,
+      "logps/chosen": -382.0,
+      "logps/rejected": -366.0,
+      "loss": 0.5263,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.27734375,
+      "rewards/margins": 0.5234375,
+      "rewards/rejected": -0.80078125,
+      "step": 310
+    },
+    {
+      "epoch": 0.4375876577840112,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -344.0,
+      "eval_logps/rejected": -346.0,
+      "eval_loss": 0.5433906316757202,
+      "eval_rewards/accuracies": 0.7659574747085571,
+      "eval_rewards/chosen": -0.21484375,
+      "eval_rewards/margins": 0.490234375,
+      "eval_rewards/rejected": -0.703125,
+      "eval_runtime": 65.6624,
+      "eval_samples_per_second": 22.646,
+      "eval_steps_per_second": 0.716,
+      "step": 312
+    },
+    {
+      "epoch": 0.4488078541374474,
+      "grad_norm": 19.39801079549374,
+      "learning_rate": 6.739491077279388e-08,
+      "logits/chosen": -3.09375,
+      "logits/rejected": -3.171875,
+      "logps/chosen": -418.0,
+      "logps/rejected": -354.0,
+      "loss": 0.539,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.26171875,
+      "rewards/margins": 0.49609375,
+      "rewards/rejected": -0.7578125,
+      "step": 320
+    },
+    {
+      "epoch": 0.4488078541374474,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -346.0,
+      "eval_logps/rejected": -350.0,
+      "eval_loss": 0.5414044260978699,
+      "eval_rewards/accuracies": 0.7553191781044006,
+      "eval_rewards/chosen": -0.2490234375,
+      "eval_rewards/margins": 0.48828125,
+      "eval_rewards/rejected": -0.73828125,
+      "eval_runtime": 65.8794,
+      "eval_samples_per_second": 22.572,
+      "eval_steps_per_second": 0.713,
+      "step": 320
+    },
+    {
+      "epoch": 0.4600280504908836,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -336.0,
+      "eval_logps/rejected": -342.0,
+      "eval_loss": 0.5408417582511902,
+      "eval_rewards/accuracies": 0.7872340679168701,
+      "eval_rewards/chosen": -0.1474609375,
+      "eval_rewards/margins": 0.51171875,
+      "eval_rewards/rejected": -0.65625,
+      "eval_runtime": 65.2872,
+      "eval_samples_per_second": 22.776,
+      "eval_steps_per_second": 0.72,
+      "step": 328
+    },
+    {
+      "epoch": 0.4628330995792426,
+      "grad_norm": 25.683811989115487,
+      "learning_rate": 6.507748211555935e-08,
+      "logits/chosen": -3.0,
+      "logits/rejected": -3.046875,
+      "logps/chosen": -364.0,
+      "logps/rejected": -356.0,
+      "loss": 0.5491,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -0.220703125,
+      "rewards/margins": 0.578125,
+      "rewards/rejected": -0.796875,
+      "step": 330
+    },
+    {
+      "epoch": 0.47124824684431976,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -344.0,
+      "eval_logps/rejected": -348.0,
+      "eval_loss": 0.5370554327964783,
+      "eval_rewards/accuracies": 0.771276593208313,
+      "eval_rewards/chosen": -0.21875,
+      "eval_rewards/margins": 0.51953125,
+      "eval_rewards/rejected": -0.73828125,
+      "eval_runtime": 65.8828,
+      "eval_samples_per_second": 22.57,
+      "eval_steps_per_second": 0.713,
+      "step": 336
+    },
+    {
+      "epoch": 0.47685834502103785,
+      "grad_norm": 25.38527516497017,
+      "learning_rate": 6.272384370442064e-08,
+      "logits/chosen": -2.953125,
+      "logits/rejected": -2.96875,
+      "logps/chosen": -332.0,
+      "logps/rejected": -362.0,
+      "loss": 0.525,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.31640625,
+      "rewards/margins": 0.439453125,
+      "rewards/rejected": -0.75390625,
+      "step": 340
+    },
+    {
+      "epoch": 0.48246844319775595,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -350.0,
+      "eval_logps/rejected": -354.0,
+      "eval_loss": 0.5372266173362732,
+      "eval_rewards/accuracies": 0.7606382966041565,
+      "eval_rewards/chosen": -0.28125,
+      "eval_rewards/margins": 0.51171875,
+      "eval_rewards/rejected": -0.79296875,
+      "eval_runtime": 65.5252,
+      "eval_samples_per_second": 22.694,
+      "eval_steps_per_second": 0.717,
+      "step": 344
+    },
+    {
+      "epoch": 0.4908835904628331,
+      "grad_norm": 20.41249212586205,
+      "learning_rate": 6.033964798631775e-08,
+      "logits/chosen": -3.0,
+      "logits/rejected": -3.046875,
+      "logps/chosen": -348.0,
+      "logps/rejected": -356.0,
+      "loss": 0.5509,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.4375,
+      "rewards/margins": 0.3828125,
+      "rewards/rejected": -0.8203125,
+      "step": 350
+    },
+    {
+      "epoch": 0.49368863955119213,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -338.0,
+      "eval_logps/rejected": -344.0,
+      "eval_loss": 0.53655606508255,
+      "eval_rewards/accuracies": 0.7978723645210266,
+      "eval_rewards/chosen": -0.1572265625,
+      "eval_rewards/margins": 0.53515625,
+      "eval_rewards/rejected": -0.6953125,
+      "eval_runtime": 65.8155,
+      "eval_samples_per_second": 22.593,
+      "eval_steps_per_second": 0.714,
+      "step": 352
+    },
+    {
+      "epoch": 0.5049088359046283,
+      "grad_norm": 26.68036848508083,
+      "learning_rate": 5.793062079395602e-08,
+      "logits/chosen": -3.078125,
+      "logits/rejected": -3.140625,
+      "logps/chosen": -384.0,
+      "logps/rejected": -362.0,
+      "loss": 0.5342,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.169921875,
+      "rewards/margins": 0.5078125,
+      "rewards/rejected": -0.67578125,
+      "step": 360
+    },
+    {
+      "epoch": 0.5049088359046283,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -338.0,
+      "eval_logps/rejected": -346.0,
+      "eval_loss": 0.5345030426979065,
+      "eval_rewards/accuracies": 0.7978723645210266,
+      "eval_rewards/chosen": -0.162109375,
+      "eval_rewards/margins": 0.546875,
+      "eval_rewards/rejected": -0.70703125,
+      "eval_runtime": 65.1382,
+      "eval_samples_per_second": 22.828,
+      "eval_steps_per_second": 0.722,
+      "step": 360
+    },
+    {
+      "epoch": 0.5161290322580645,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -350.0,
+      "eval_logps/rejected": -358.0,
+      "eval_loss": 0.5322470664978027,
+      "eval_rewards/accuracies": 0.7765957713127136,
+      "eval_rewards/chosen": -0.2890625,
+      "eval_rewards/margins": 0.53515625,
+      "eval_rewards/rejected": -0.82421875,
+      "eval_runtime": 65.4517,
+      "eval_samples_per_second": 22.719,
+      "eval_steps_per_second": 0.718,
+      "step": 368
+    },
+    {
+      "epoch": 0.5189340813464236,
+      "grad_norm": 35.318750139832915,
+      "learning_rate": 5.550254759477064e-08,
+      "logits/chosen": -3.0625,
+      "logits/rejected": -3.0625,
+      "logps/chosen": -342.0,
+      "logps/rejected": -386.0,
+      "loss": 0.5392,
+      "rewards/accuracies": 0.737500011920929,
+      "rewards/chosen": -0.328125,
+      "rewards/margins": 0.4609375,
+      "rewards/rejected": -0.7890625,
+      "step": 370
+    },
+    {
+      "epoch": 0.5273492286115007,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -342.0,
+      "eval_logps/rejected": -352.0,
+      "eval_loss": 0.5290676951408386,
+      "eval_rewards/accuracies": 0.7819148898124695,
+      "eval_rewards/chosen": -0.2109375,
+      "eval_rewards/margins": 0.5625,
+      "eval_rewards/rejected": -0.7734375,
+      "eval_runtime": 66.0225,
+      "eval_samples_per_second": 22.523,
+      "eval_steps_per_second": 0.712,
+      "step": 376
+    },
+    {
+      "epoch": 0.5329593267882188,
+      "grad_norm": 25.630480455788526,
+      "learning_rate": 5.3061259596673514e-08,
+      "logits/chosen": -2.875,
+      "logits/rejected": -2.984375,
+      "logps/chosen": -334.0,
+      "logps/rejected": -384.0,
+      "loss": 0.5275,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.32421875,
+      "rewards/margins": 0.52734375,
+      "rewards/rejected": -0.8515625,
+      "step": 380
+    },
+    {
+      "epoch": 0.5385694249649369,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -342.0,
+      "eval_logps/rejected": -350.0,
+      "eval_loss": 0.5304205417633057,
+      "eval_rewards/accuracies": 0.7872340679168701,
+      "eval_rewards/chosen": -0.197265625,
+      "eval_rewards/margins": 0.5546875,
+      "eval_rewards/rejected": -0.75390625,
+      "eval_runtime": 66.8954,
+      "eval_samples_per_second": 22.229,
+      "eval_steps_per_second": 0.703,
+      "step": 384
+    },
+    {
+      "epoch": 0.5469845722300141,
+      "grad_norm": 19.177955351319696,
+      "learning_rate": 5.061261974395087e-08,
+      "logits/chosen": -3.0625,
+      "logits/rejected": -3.078125,
+      "logps/chosen": -340.0,
+      "logps/rejected": -370.0,
+      "loss": 0.5228,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.21875,
+      "rewards/margins": 0.578125,
+      "rewards/rejected": -0.80078125,
+      "step": 390
+    },
+    {
+      "epoch": 0.5497896213183731,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -346.0,
+      "eval_logps/rejected": -356.0,
+      "eval_loss": 0.5286569595336914,
+      "eval_rewards/accuracies": 0.771276593208313,
+      "eval_rewards/chosen": -0.2490234375,
+      "eval_rewards/margins": 0.55859375,
+      "eval_rewards/rejected": -0.80859375,
+      "eval_runtime": 66.2711,
+      "eval_samples_per_second": 22.438,
+      "eval_steps_per_second": 0.709,
+      "step": 392
+    },
+    {
+      "epoch": 0.5610098176718092,
+      "grad_norm": 22.280250814675583,
+      "learning_rate": 4.81625086369435e-08,
+      "logits/chosen": -3.0625,
+      "logits/rejected": -3.125,
+      "logps/chosen": -318.0,
+      "logps/rejected": -350.0,
+      "loss": 0.5174,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.3125,
+      "rewards/margins": 0.53125,
+      "rewards/rejected": -0.84375,
+      "step": 400
+    },
+    {
+      "epoch": 0.5610098176718092,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -346.0,
+      "eval_logps/rejected": -358.0,
+      "eval_loss": 0.5268398523330688,
+      "eval_rewards/accuracies": 0.771276593208313,
+      "eval_rewards/chosen": -0.251953125,
+      "eval_rewards/margins": 0.56640625,
+      "eval_rewards/rejected": -0.8203125,
+      "eval_runtime": 65.9859,
+      "eval_samples_per_second": 22.535,
+      "eval_steps_per_second": 0.712,
+      "step": 400
+    },
+    {
+      "epoch": 0.5722300140252454,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.125,
+      "eval_logps/chosen": -344.0,
+      "eval_logps/rejected": -356.0,
+      "eval_loss": 0.5255098938941956,
+      "eval_rewards/accuracies": 0.771276593208313,
+      "eval_rewards/chosen": -0.2265625,
+      "eval_rewards/margins": 0.578125,
+      "eval_rewards/rejected": -0.8046875,
+      "eval_runtime": 65.6155,
+      "eval_samples_per_second": 22.662,
+      "eval_steps_per_second": 0.716,
+      "step": 408
+    },
+    {
+      "epoch": 0.5750350631136045,
+      "grad_norm": 18.983834453019576,
+      "learning_rate": 4.571681040932457e-08,
+      "logits/chosen": -3.046875,
+      "logits/rejected": -3.09375,
+      "logps/chosen": -350.0,
+      "logps/rejected": -346.0,
+      "loss": 0.5184,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -0.27734375,
+      "rewards/margins": 0.59375,
+      "rewards/rejected": -0.8671875,
+      "step": 410
+    },
+    {
+      "epoch": 0.5834502103786816,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -350.0,
+      "eval_logps/rejected": -362.0,
+      "eval_loss": 0.524753212928772,
+      "eval_rewards/accuracies": 0.7659574747085571,
+      "eval_rewards/chosen": -0.27734375,
+      "eval_rewards/margins": 0.5859375,
+      "eval_rewards/rejected": -0.859375,
+      "eval_runtime": 65.6143,
+      "eval_samples_per_second": 22.663,
+      "eval_steps_per_second": 0.716,
+      "step": 416
+    },
+    {
+      "epoch": 0.5890603085553997,
+      "grad_norm": 25.592693204204966,
+      "learning_rate": 4.3281398596891846e-08,
+      "logits/chosen": -2.96875,
+      "logits/rejected": -3.046875,
+      "logps/chosen": -354.0,
+      "logps/rejected": -374.0,
+      "loss": 0.5095,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -0.236328125,
+      "rewards/margins": 0.7421875,
+      "rewards/rejected": -0.9765625,
+      "step": 420
+    },
+    {
+      "epoch": 0.5946704067321178,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -348.0,
+      "eval_logps/rejected": -362.0,
+      "eval_loss": 0.523405909538269,
+      "eval_rewards/accuracies": 0.7819148898124695,
+      "eval_rewards/chosen": -0.271484375,
+      "eval_rewards/margins": 0.59765625,
+      "eval_rewards/rejected": -0.8671875,
+      "eval_runtime": 65.4312,
+      "eval_samples_per_second": 22.726,
+      "eval_steps_per_second": 0.718,
+      "step": 424
+    },
+    {
+      "epoch": 0.603085553997195,
+      "grad_norm": 20.945961565616308,
+      "learning_rate": 4.0862122031811584e-08,
+      "logits/chosen": -3.09375,
+      "logits/rejected": -2.96875,
+      "logps/chosen": -398.0,
+      "logps/rejected": -406.0,
+      "loss": 0.5259,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.2314453125,
+      "rewards/margins": 0.66015625,
+      "rewards/rejected": -0.890625,
+      "step": 430
+    },
+    {
+      "epoch": 0.605890603085554,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -346.0,
+      "eval_logps/rejected": -360.0,
+      "eval_loss": 0.5217041373252869,
+      "eval_rewards/accuracies": 0.7819148898124695,
+      "eval_rewards/chosen": -0.2412109375,
+      "eval_rewards/margins": 0.60546875,
+      "eval_rewards/rejected": -0.84765625,
+      "eval_runtime": 66.0803,
+      "eval_samples_per_second": 22.503,
+      "eval_steps_per_second": 0.711,
+      "step": 432
+    },
+    {
+      "epoch": 0.6171107994389902,
+      "grad_norm": 32.43796306320174,
+      "learning_rate": 3.84647907961901e-08,
+      "logits/chosen": -3.0625,
+      "logits/rejected": -2.96875,
+      "logps/chosen": -348.0,
+      "logps/rejected": -366.0,
+      "loss": 0.5131,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.279296875,
+      "rewards/margins": 0.67578125,
+      "rewards/rejected": -0.953125,
+      "step": 440
+    },
+    {
+      "epoch": 0.6171107994389902,
+      "eval_logits/chosen": -3.09375,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -346.0,
+      "eval_logps/rejected": -360.0,
+      "eval_loss": 0.520456075668335,
+      "eval_rewards/accuracies": 0.792553186416626,
+      "eval_rewards/chosen": -0.23828125,
+      "eval_rewards/margins": 0.61328125,
+      "eval_rewards/rejected": -0.85546875,
+      "eval_runtime": 65.5788,
+      "eval_samples_per_second": 22.675,
+      "eval_steps_per_second": 0.717,
+      "step": 440
+    },
+    {
+      "epoch": 0.6283309957924264,
+      "eval_logits/chosen": -3.078125,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -344.0,
+      "eval_logps/rejected": -360.0,
+      "eval_loss": 0.5200462937355042,
+      "eval_rewards/accuracies": 0.7978723645210266,
+      "eval_rewards/chosen": -0.2236328125,
+      "eval_rewards/margins": 0.62109375,
+      "eval_rewards/rejected": -0.84765625,
+      "eval_runtime": 65.4678,
+      "eval_samples_per_second": 22.713,
+      "eval_steps_per_second": 0.718,
+      "step": 448
+    },
+    {
+      "epoch": 0.6311360448807855,
+      "grad_norm": 25.78934426006984,
+      "learning_rate": 3.609516226870659e-08,
+      "logits/chosen": -3.015625,
+      "logits/rejected": -3.09375,
+      "logps/chosen": -378.0,
+      "logps/rejected": -394.0,
+      "loss": 0.536,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.349609375,
+      "rewards/margins": 0.60546875,
+      "rewards/rejected": -0.953125,
+      "step": 450
+    },
+    {
+      "epoch": 0.6395511921458625,
+      "eval_logits/chosen": -3.078125,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -344.0,
+      "eval_logps/rejected": -360.0,
+      "eval_loss": 0.5196602940559387,
+      "eval_rewards/accuracies": 0.7978723645210266,
+      "eval_rewards/chosen": -0.22265625,
+      "eval_rewards/margins": 0.625,
+      "eval_rewards/rejected": -0.84765625,
+      "eval_runtime": 66.1158,
+      "eval_samples_per_second": 22.491,
+      "eval_steps_per_second": 0.711,
+      "step": 456
+    },
+    {
+      "epoch": 0.6451612903225806,
+      "grad_norm": 27.561675324577404,
+      "learning_rate": 3.375892729781754e-08,
+      "logits/chosen": -2.953125,
+      "logits/rejected": -3.046875,
+      "logps/chosen": -380.0,
+      "logps/rejected": -392.0,
+      "loss": 0.52,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.2890625,
+      "rewards/margins": 0.62890625,
+      "rewards/rejected": -0.91796875,
+      "step": 460
+    },
+    {
+      "epoch": 0.6507713884992987,
+      "eval_logits/chosen": -3.078125,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -350.0,
+      "eval_logps/rejected": -366.0,
+      "eval_loss": 0.5189826488494873,
+      "eval_rewards/accuracies": 0.7978723645210266,
+      "eval_rewards/chosen": -0.287109375,
+      "eval_rewards/margins": 0.62109375,
+      "eval_rewards/rejected": -0.90625,
+      "eval_runtime": 66.7501,
+      "eval_samples_per_second": 22.277,
+      "eval_steps_per_second": 0.704,
+      "step": 464
+    },
+    {
+      "epoch": 0.6591865357643759,
+      "grad_norm": 28.5091931919782,
+      "learning_rate": 3.146169653473842e-08,
+      "logits/chosen": -2.953125,
+      "logits/rejected": -3.0,
+      "logps/chosen": -392.0,
+      "logps/rejected": -370.0,
+      "loss": 0.5136,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -0.2265625,
+      "rewards/margins": 0.69921875,
+      "rewards/rejected": -0.92578125,
+      "step": 470
+    },
+    {
+      "epoch": 0.6619915848527349,
+      "eval_logits/chosen": -3.078125,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -356.0,
+      "eval_logps/rejected": -372.0,
+      "eval_loss": 0.5202246904373169,
+      "eval_rewards/accuracies": 0.7819148898124695,
+      "eval_rewards/chosen": -0.349609375,
+      "eval_rewards/margins": 0.61328125,
+      "eval_rewards/rejected": -0.96484375,
+      "eval_runtime": 65.2435,
+      "eval_samples_per_second": 22.792,
+      "eval_steps_per_second": 0.72,
+      "step": 472
+    },
+    {
+      "epoch": 0.6732117812061711,
+      "grad_norm": 28.307915984199855,
+      "learning_rate": 2.920898695902556e-08,
+      "logits/chosen": -2.96875,
+      "logits/rejected": -3.015625,
+      "logps/chosen": -388.0,
+      "logps/rejected": -386.0,
+      "loss": 0.5402,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.46875,
+      "rewards/margins": 0.5703125,
+      "rewards/rejected": -1.0390625,
+      "step": 480
+    },
+    {
+      "epoch": 0.6732117812061711,
+      "eval_logits/chosen": -3.078125,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -358.0,
+      "eval_logps/rejected": -372.0,
+      "eval_loss": 0.5193986296653748,
+      "eval_rewards/accuracies": 0.7765957713127136,
+      "eval_rewards/chosen": -0.357421875,
+      "eval_rewards/margins": 0.6171875,
+      "eval_rewards/rejected": -0.9765625,
+      "eval_runtime": 65.2533,
+      "eval_samples_per_second": 22.788,
+      "eval_steps_per_second": 0.72,
+      "step": 480
+    },
+    {
+      "epoch": 0.6844319775596073,
+      "eval_logits/chosen": -3.078125,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -350.0,
+      "eval_logps/rejected": -366.0,
+      "eval_loss": 0.5179064869880676,
+      "eval_rewards/accuracies": 0.7978723645210266,
+      "eval_rewards/chosen": -0.287109375,
+      "eval_rewards/margins": 0.625,
+      "eval_rewards/rejected": -0.9140625,
+      "eval_runtime": 65.4006,
+      "eval_samples_per_second": 22.737,
+      "eval_steps_per_second": 0.719,
+      "step": 488
+    },
+    {
+      "epoch": 0.6872370266479664,
+      "grad_norm": 34.377948997484125,
+      "learning_rate": 2.7006208629117678e-08,
+      "logits/chosen": -3.046875,
+      "logits/rejected": -3.125,
+      "logps/chosen": -418.0,
+      "logps/rejected": -362.0,
+      "loss": 0.5,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.341796875,
+      "rewards/margins": 0.66796875,
+      "rewards/rejected": -1.0078125,
+      "step": 490
+    },
+    {
+      "epoch": 0.6956521739130435,
+      "eval_logits/chosen": -3.078125,
+      "eval_logits/rejected": -3.109375,
+      "eval_logps/chosen": -348.0,
+      "eval_logps/rejected": -366.0,
+      "eval_loss": 0.5165696144104004,
+      "eval_rewards/accuracies": 0.792553186416626,
+      "eval_rewards/chosen": -0.265625,
+      "eval_rewards/margins": 0.6328125,
+      "eval_rewards/rejected": -0.89453125,
+      "eval_runtime": 66.0312,
+      "eval_samples_per_second": 22.52,
+      "eval_steps_per_second": 0.712,
+      "step": 496
+    },
+    {
+      "epoch": 0.7012622720897616,
+      "grad_norm": 24.33249271202181,
+      "learning_rate": 2.485865168965695e-08,
+      "logits/chosen": -2.96875,
+      "logits/rejected": -3.09375,
+      "logps/chosen": -386.0,
+      "logps/rejected": -404.0,
+      "loss": 0.5087,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.25390625,
+      "rewards/margins": 0.66796875,
+      "rewards/rejected": -0.921875,
+      "step": 500
+    },
+    {
+      "epoch": 0.7068723702664796,
+      "eval_logits/chosen": -3.078125,
+      "eval_logits/rejected": -3.09375,
+      "eval_logps/chosen": -348.0,
+      "eval_logps/rejected": -366.0,
+      "eval_loss": 0.5151299834251404,
+      "eval_rewards/accuracies": 0.8031914830207825,
+      "eval_rewards/chosen": -0.26171875,
+      "eval_rewards/margins": 0.640625,
+      "eval_rewards/rejected": -0.90234375,
+      "eval_runtime": 65.7259,
+      "eval_samples_per_second": 22.624,
+      "eval_steps_per_second": 0.715,
+      "step": 504
+    },
+    {
+      "epoch": 0.7152875175315568,
+      "grad_norm": 17.54957543271777,
+      "learning_rate": 2.2771473666792496e-08,
+      "logits/chosen": -2.90625,
+      "logits/rejected": -3.03125,
+      "logps/chosen": -380.0,
+      "logps/rejected": -384.0,
+      "loss": 0.5192,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -0.23046875,
+      "rewards/margins": 0.7109375,
+      "rewards/rejected": -0.94140625,
+      "step": 510
+    },
+    {
+      "epoch": 0.7180925666199158,
+      "eval_logits/chosen": -3.078125,
+      "eval_logits/rejected": -3.09375,
+      "eval_logps/chosen": -352.0,
+      "eval_logps/rejected": -370.0,
+      "eval_loss": 0.5147544145584106,
+      "eval_rewards/accuracies": 0.8031914830207825,
+      "eval_rewards/chosen": -0.298828125,
+      "eval_rewards/margins": 0.63671875,
+      "eval_rewards/rejected": -0.9375,
+      "eval_runtime": 65.4306,
+      "eval_samples_per_second": 22.726,
+      "eval_steps_per_second": 0.718,
+      "step": 512
+    },
+    {
+      "epoch": 0.729312762973352,
+      "grad_norm": 35.64036533963828,
+      "learning_rate": 2.0749687081977334e-08,
+      "logits/chosen": -3.03125,
+      "logits/rejected": -3.0,
+      "logps/chosen": -382.0,
+      "logps/rejected": -378.0,
+      "loss": 0.5057,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.275390625,
+      "rewards/margins": 0.71484375,
+      "rewards/rejected": -0.98828125,
+      "step": 520
+    },
+    {
+      "epoch": 0.729312762973352,
+      "eval_logits/chosen": -3.0625,
+      "eval_logits/rejected": -3.09375,
+      "eval_logps/chosen": -354.0,
+      "eval_logps/rejected": -372.0,
+      "eval_loss": 0.5146514177322388,
+      "eval_rewards/accuracies": 0.7872340679168701,
+      "eval_rewards/chosen": -0.328125,
+      "eval_rewards/margins": 0.6328125,
+      "eval_rewards/rejected": -0.9609375,
+      "eval_runtime": 65.754,
+      "eval_samples_per_second": 22.615,
+      "eval_steps_per_second": 0.715,
+      "step": 520
+    },
+    {
+      "epoch": 0.7405329593267882,
+      "eval_logits/chosen": -3.0625,
+      "eval_logits/rejected": -3.09375,
+      "eval_logps/chosen": -354.0,
+      "eval_logps/rejected": -372.0,
+      "eval_loss": 0.5139682292938232,
+      "eval_rewards/accuracies": 0.792553186416626,
+      "eval_rewards/chosen": -0.326171875,
+      "eval_rewards/margins": 0.63671875,
+      "eval_rewards/rejected": -0.9609375,
+      "eval_runtime": 65.2389,
+      "eval_samples_per_second": 22.793,
+      "eval_steps_per_second": 0.72,
+      "step": 528
+    },
+    {
+      "epoch": 0.7433380084151473,
+      "grad_norm": 26.831689294819764,
+      "learning_rate": 1.8798147414005737e-08,
+      "logits/chosen": -3.0,
+      "logits/rejected": -2.875,
+      "logps/chosen": -330.0,
+      "logps/rejected": -372.0,
+      "loss": 0.5183,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -0.34765625,
+      "rewards/margins": 0.5859375,
+      "rewards/rejected": -0.93359375,
+      "step": 530
+    },
+    {
+      "epoch": 0.7517531556802244,
+      "eval_logits/chosen": -3.0625,
+      "eval_logits/rejected": -3.09375,
+      "eval_logps/chosen": -352.0,
+      "eval_logps/rejected": -370.0,
+      "eval_loss": 0.5127372741699219,
+      "eval_rewards/accuracies": 0.7978723645210266,
+      "eval_rewards/chosen": -0.298828125,
+      "eval_rewards/margins": 0.64453125,
+      "eval_rewards/rejected": -0.9453125,
+      "eval_runtime": 66.3192,
+      "eval_samples_per_second": 22.422,
+      "eval_steps_per_second": 0.709,
+      "step": 536
+    },
+    {
+      "epoch": 0.7573632538569425,
+      "grad_norm": 46.59871665028949,
+      "learning_rate": 1.692154143820063e-08,
+      "logits/chosen": -3.03125,
+      "logits/rejected": -2.96875,
+      "logps/chosen": -348.0,
+      "logps/rejected": -328.0,
+      "loss": 0.5034,
+      "rewards/accuracies": 0.7124999761581421,
+      "rewards/chosen": -0.388671875,
+      "rewards/margins": 0.515625,
+      "rewards/rejected": -0.90234375,
+      "step": 540
+    },
+    {
+      "epoch": 0.7629733520336606,
+      "eval_logits/chosen": -3.0625,
+      "eval_logits/rejected": -3.09375,
+      "eval_logps/chosen": -350.0,
+      "eval_logps/rejected": -368.0,
+      "eval_loss": 0.5124016404151917,
+      "eval_rewards/accuracies": 0.7978723645210266,
+      "eval_rewards/chosen": -0.271484375,
+      "eval_rewards/margins": 0.65234375,
+      "eval_rewards/rejected": -0.92578125,
+      "eval_runtime": 68.1586,
+      "eval_samples_per_second": 21.817,
+      "eval_steps_per_second": 0.69,
+      "step": 544
+    },
+    {
+      "epoch": 0.7713884992987378,
+      "grad_norm": 17.28019155088413,
+      "learning_rate": 1.5124375970755755e-08,
+      "logits/chosen": -3.078125,
+      "logits/rejected": -3.078125,
+      "logps/chosen": -356.0,
+      "logps/rejected": -392.0,
+      "loss": 0.5075,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.390625,
+      "rewards/margins": 0.62890625,
+      "rewards/rejected": -1.015625,
+      "step": 550
+    },
+    {
+      "epoch": 0.7741935483870968,
+      "eval_logits/chosen": -3.0625,
+      "eval_logits/rejected": -3.09375,
+      "eval_logps/chosen": -350.0,
+      "eval_logps/rejected": -368.0,
+      "eval_loss": 0.51242595911026,
+      "eval_rewards/accuracies": 0.792553186416626,
+      "eval_rewards/chosen": -0.28515625,
+      "eval_rewards/margins": 0.65234375,
+      "eval_rewards/rejected": -0.9375,
+      "eval_runtime": 66.0347,
+      "eval_samples_per_second": 22.518,
+      "eval_steps_per_second": 0.712,
+      "step": 552
+    },
+    {
+      "epoch": 0.7854137447405329,
+      "grad_norm": 18.119529412971673,
+      "learning_rate": 1.3410967045263622e-08,
+      "logits/chosen": -3.0,
+      "logits/rejected": -2.90625,
+      "logps/chosen": -348.0,
+      "logps/rejected": -384.0,
+      "loss": 0.5274,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.29296875,
+      "rewards/margins": 0.703125,
+      "rewards/rejected": -0.99609375,
+      "step": 560
+    },
+    {
+      "epoch": 0.7854137447405329,
+      "eval_logits/chosen": -3.0625,
+      "eval_logits/rejected": -3.09375,
+      "eval_logps/chosen": -354.0,
+      "eval_logps/rejected": -372.0,
+      "eval_loss": 0.5127307176589966,
+      "eval_rewards/accuracies": 0.792553186416626,
+      "eval_rewards/chosen": -0.31640625,
+      "eval_rewards/margins": 0.64453125,
+      "eval_rewards/rejected": -0.9609375,
+      "eval_runtime": 65.7053,
+      "eval_samples_per_second": 22.631,
+      "eval_steps_per_second": 0.715,
+      "step": 560
+    },
+    {
+      "epoch": 0.7966339410939691,
+      "eval_logits/chosen": -3.0625,
+      "eval_logits/rejected": -3.09375,
+      "eval_logps/chosen": -354.0,
+      "eval_logps/rejected": -372.0,
+      "eval_loss": 0.5127339959144592,
+      "eval_rewards/accuracies": 0.7819148898124695,
+      "eval_rewards/chosen": -0.3203125,
+      "eval_rewards/margins": 0.64453125,
+      "eval_rewards/rejected": -0.96875,
+      "eval_runtime": 65.5474,
+      "eval_samples_per_second": 22.686,
+      "eval_steps_per_second": 0.717,
+      "step": 568
+    },
+    {
+      "epoch": 0.7994389901823282,
+      "grad_norm": 28.16590781200549,
+      "learning_rate": 1.1785429547422909e-08,
+      "logits/chosen": -3.0,
+      "logits/rejected": -3.03125,
+      "logps/chosen": -318.0,
+      "logps/rejected": -362.0,
+      "loss": 0.5138,
+      "rewards/accuracies": 0.699999988079071,
+      "rewards/chosen": -0.462890625,
+      "rewards/margins": 0.48828125,
+      "rewards/rejected": -0.953125,
+      "step": 570
+    },
+    {
+      "epoch": 0.8078541374474053,
+      "eval_logits/chosen": -3.0625,
+      "eval_logits/rejected": -3.09375,
+      "eval_logps/chosen": -354.0,
+      "eval_logps/rejected": -372.0,
+      "eval_loss": 0.5122042298316956,
+      "eval_rewards/accuracies": 0.7872340679168701,
+      "eval_rewards/chosen": -0.3125,
+      "eval_rewards/margins": 0.6484375,
+      "eval_rewards/rejected": -0.9609375,
+      "eval_runtime": 65.369,
+      "eval_samples_per_second": 22.748,
+      "eval_steps_per_second": 0.719,
+      "step": 576
+    },
+    {
+      "epoch": 0.8134642356241234,
+      "grad_norm": 20.331557503849197,
+      "learning_rate": 1.0251667332818215e-08,
+      "logits/chosen": -2.875,
+      "logits/rejected": -2.96875,
+      "logps/chosen": -364.0,
+      "logps/rejected": -390.0,
+      "loss": 0.5087,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.4140625,
+      "rewards/margins": 0.75390625,
+      "rewards/rejected": -1.171875,
+      "step": 580
+    },
+    {
+      "epoch": 0.8190743338008415,
+      "eval_logits/chosen": -3.0625,
+      "eval_logits/rejected": -3.09375,
+      "eval_logps/chosen": -352.0,
+      "eval_logps/rejected": -370.0,
+      "eval_loss": 0.5114827156066895,
+      "eval_rewards/accuracies": 0.7978723645210266,
+      "eval_rewards/chosen": -0.30078125,
+      "eval_rewards/margins": 0.65234375,
+      "eval_rewards/rejected": -0.953125,
+      "eval_runtime": 65.3364,
+      "eval_samples_per_second": 22.759,
+      "eval_steps_per_second": 0.719,
+      "step": 584
+    },
+    {
+      "epoch": 0.8274894810659187,
+      "grad_norm": 26.321821934426545,
+      "learning_rate": 8.813363851505284e-09,
+      "logits/chosen": -2.96875,
+      "logits/rejected": -2.96875,
+      "logps/chosen": -412.0,
+      "logps/rejected": -410.0,
+      "loss": 0.5026,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.46875,
+      "rewards/margins": 0.55078125,
+      "rewards/rejected": -1.0234375,
+      "step": 590
+    },
+    {
+      "epoch": 0.8302945301542777,
+      "eval_logits/chosen": -3.0625,
+      "eval_logits/rejected": -3.078125,
+      "eval_logps/chosen": -352.0,
+      "eval_logps/rejected": -370.0,
+      "eval_loss": 0.5113134384155273,
+      "eval_rewards/accuracies": 0.7978723645210266,
+      "eval_rewards/chosen": -0.30078125,
+      "eval_rewards/margins": 0.65234375,
+      "eval_rewards/rejected": -0.953125,
+      "eval_runtime": 65.7466,
+      "eval_samples_per_second": 22.617,
+      "eval_steps_per_second": 0.715,
+      "step": 592
+    },
+    {
+      "epoch": 0.8415147265077139,
+      "grad_norm": 17.927505615509187,
+      "learning_rate": 7.473973301917124e-09,
+      "logits/chosen": -2.90625,
+      "logits/rejected": -2.875,
+      "logps/chosen": -322.0,
+      "logps/rejected": -352.0,
+      "loss": 0.4993,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -0.26171875,
+      "rewards/margins": 0.63671875,
+      "rewards/rejected": -0.8984375,
+      "step": 600
+    },
+    {
+      "epoch": 0.8415147265077139,
+      "eval_logits/chosen": -3.0625,
+      "eval_logits/rejected": -3.078125,
+      "eval_logps/chosen": -352.0,
+      "eval_logps/rejected": -372.0,
+      "eval_loss": 0.5112673044204712,
+      "eval_rewards/accuracies": 0.7978723645210266,
+      "eval_rewards/chosen": -0.3046875,
+      "eval_rewards/margins": 0.65234375,
+      "eval_rewards/rejected": -0.95703125,
+      "eval_runtime": 65.3172,
+      "eval_samples_per_second": 22.766,
+      "eval_steps_per_second": 0.72,
+      "step": 600
+    },
+    {
+      "epoch": 0.85273492286115,
+      "eval_logits/chosen": -3.0625,
+      "eval_logits/rejected": -3.078125,
+      "eval_logps/chosen": -354.0,
+      "eval_logps/rejected": -372.0,
+      "eval_loss": 0.5110276341438293,
+      "eval_rewards/accuracies": 0.7872340679168701,
+      "eval_rewards/chosen": -0.314453125,
+      "eval_rewards/margins": 0.6484375,
+      "eval_rewards/rejected": -0.9609375,
+      "eval_runtime": 65.4306,
+      "eval_samples_per_second": 22.726,
+      "eval_steps_per_second": 0.718,
+      "step": 608
+    },
+    {
+      "epoch": 0.8555399719495091,
+      "grad_norm": 23.917252124640086,
+      "learning_rate": 6.236712335336131e-09,
+      "logits/chosen": -3.0625,
+      "logits/rejected": -2.90625,
+      "logps/chosen": -292.0,
+      "logps/rejected": -342.0,
+      "loss": 0.5145,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.37109375,
+      "rewards/margins": 0.578125,
+      "rewards/rejected": -0.94921875,
+      "step": 610
+    },
+    {
+      "epoch": 0.8639551192145862,
+      "eval_logits/chosen": -3.0625,
+      "eval_logits/rejected": -3.078125,
+      "eval_logps/chosen": -354.0,
+      "eval_logps/rejected": -372.0,
+      "eval_loss": 0.5110043883323669,
+      "eval_rewards/accuracies": 0.7872340679168701,
+      "eval_rewards/chosen": -0.31640625,
+      "eval_rewards/margins": 0.6484375,
+      "eval_rewards/rejected": -0.96484375,
+      "eval_runtime": 65.4869,
+      "eval_samples_per_second": 22.707,
+      "eval_steps_per_second": 0.718,
+      "step": 616
+    },
+    {
+      "epoch": 0.8695652173913043,
+      "grad_norm": 35.23685131659172,
+      "learning_rate": 5.104552330854112e-09,
+      "logits/chosen": -2.921875,
+      "logits/rejected": -2.90625,
+      "logps/chosen": -406.0,
+      "logps/rejected": -434.0,
+      "loss": 0.4857,
+      "rewards/accuracies": 0.862500011920929,
+      "rewards/chosen": -0.353515625,
+      "rewards/margins": 0.76953125,
+      "rewards/rejected": -1.125,
+      "step": 620
+    },
+    {
+      "epoch": 0.8751753155680224,
+      "eval_logits/chosen": -3.0625,
+      "eval_logits/rejected": -3.078125,
+      "eval_logps/chosen": -354.0,
+      "eval_logps/rejected": -372.0,
+      "eval_loss": 0.5109130144119263,
+      "eval_rewards/accuracies": 0.7872340679168701,
+      "eval_rewards/chosen": -0.31640625,
+      "eval_rewards/margins": 0.65234375,
+      "eval_rewards/rejected": -0.96875,
+      "eval_runtime": 65.4952,
+      "eval_samples_per_second": 22.704,
+      "eval_steps_per_second": 0.718,
+      "step": 624
+    },
+    {
+      "epoch": 0.8835904628330996,
+      "grad_norm": 28.24616740578334,
+      "learning_rate": 4.080212259372711e-09,
+      "logits/chosen": -3.0625,
+      "logits/rejected": -3.0625,
+      "logps/chosen": -334.0,
+      "logps/rejected": -356.0,
+      "loss": 0.5163,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -0.33984375,
+      "rewards/margins": 0.73046875,
+      "rewards/rejected": -1.0703125,
+      "step": 630
+    },
+    {
+      "epoch": 0.8863955119214586,
+      "eval_logits/chosen": -3.0625,
+      "eval_logits/rejected": -3.078125,
+      "eval_logps/chosen": -354.0,
+      "eval_logps/rejected": -372.0,
+      "eval_loss": 0.5109508037567139,
+      "eval_rewards/accuracies": 0.7872340679168701,
+      "eval_rewards/chosen": -0.3203125,
+      "eval_rewards/margins": 0.6484375,
+      "eval_rewards/rejected": -0.96875,
+      "eval_runtime": 65.7135,
+      "eval_samples_per_second": 22.629,
+      "eval_steps_per_second": 0.715,
+      "step": 632
+    },
+    {
+      "epoch": 0.8976157082748948,
+      "grad_norm": 23.74887530831686,
+      "learning_rate": 3.1661521537819257e-09,
+      "logits/chosen": -3.03125,
+      "logits/rejected": -2.96875,
+      "logps/chosen": -384.0,
+      "logps/rejected": -402.0,
+      "loss": 0.5258,
+      "rewards/accuracies": 0.8374999761581421,
+      "rewards/chosen": -0.34375,
+      "rewards/margins": 0.73828125,
+      "rewards/rejected": -1.0859375,
+      "step": 640
+    },
+    {
+      "epoch": 0.8976157082748948,
+      "eval_logits/chosen": -3.0625,
+      "eval_logits/rejected": -3.078125,
+      "eval_logps/chosen": -354.0,
+      "eval_logps/rejected": -372.0,
+      "eval_loss": 0.5108342170715332,
+      "eval_rewards/accuracies": 0.7819148898124695,
+      "eval_rewards/chosen": -0.32421875,
+      "eval_rewards/margins": 0.65234375,
+      "eval_rewards/rejected": -0.9765625,
+      "eval_runtime": 65.4352,
+      "eval_samples_per_second": 22.725,
+      "eval_steps_per_second": 0.718,
+      "step": 640
+    },
+    {
+      "epoch": 0.908835904628331,
+      "eval_logits/chosen": -3.0625,
+      "eval_logits/rejected": -3.078125,
+      "eval_logps/chosen": -354.0,
+      "eval_logps/rejected": -374.0,
+      "eval_loss": 0.510999321937561,
+      "eval_rewards/accuracies": 0.7765957713127136,
+      "eval_rewards/chosen": -0.328125,
+      "eval_rewards/margins": 0.65234375,
+      "eval_rewards/rejected": -0.98046875,
+      "eval_runtime": 66.8594,
+      "eval_samples_per_second": 22.241,
+      "eval_steps_per_second": 0.703,
+      "step": 648
+    },
+    {
+      "epoch": 0.9116409537166901,
+      "grad_norm": 23.848849763801983,
+      "learning_rate": 2.3645672009984684e-09,
+      "logits/chosen": -2.90625,
+      "logits/rejected": -2.859375,
+      "logps/chosen": -334.0,
+      "logps/rejected": -372.0,
+      "loss": 0.5206,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.4765625,
+      "rewards/margins": 0.56640625,
+      "rewards/rejected": -1.046875,
+      "step": 650
+    },
+    {
+      "epoch": 0.9200561009817672,
+      "eval_logits/chosen": -3.0625,
+      "eval_logits/rejected": -3.078125,
+      "eval_logps/chosen": -354.0,
+      "eval_logps/rejected": -374.0,
+      "eval_loss": 0.5108804702758789,
+      "eval_rewards/accuracies": 0.7765957713127136,
+      "eval_rewards/chosen": -0.326171875,
+      "eval_rewards/margins": 0.65234375,
+      "eval_rewards/rejected": -0.98046875,
+      "eval_runtime": 66.985,
+      "eval_samples_per_second": 22.199,
+      "eval_steps_per_second": 0.702,
+      "step": 656
+    },
+    {
+      "epoch": 0.9256661991584852,
+      "grad_norm": 20.841266069644966,
+      "learning_rate": 1.677382470052513e-09,
+      "logits/chosen": -3.0,
+      "logits/rejected": -2.984375,
+      "logps/chosen": -412.0,
+      "logps/rejected": -372.0,
+      "loss": 0.4926,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -0.43359375,
+      "rewards/margins": 0.6875,
+      "rewards/rejected": -1.125,
+      "step": 660
+    },
+    {
+      "epoch": 0.9312762973352033,
+      "eval_logits/chosen": -3.0625,
+      "eval_logits/rejected": -3.078125,
+      "eval_logps/chosen": -354.0,
+      "eval_logps/rejected": -374.0,
+      "eval_loss": 0.5108736753463745,
+      "eval_rewards/accuracies": 0.7819148898124695,
+      "eval_rewards/chosen": -0.328125,
+      "eval_rewards/margins": 0.65234375,
+      "eval_rewards/rejected": -0.98046875,
+      "eval_runtime": 66.0163,
+      "eval_samples_per_second": 22.525,
+      "eval_steps_per_second": 0.712,
+      "step": 664
+    },
+    {
+      "epoch": 0.9396914446002805,
+      "grad_norm": 42.65600681696292,
+      "learning_rate": 1.1062482888836656e-09,
+      "logits/chosen": -3.0625,
+      "logits/rejected": -2.953125,
+      "logps/chosen": -372.0,
+      "logps/rejected": -374.0,
+      "loss": 0.5,
+      "rewards/accuracies": 0.875,
+      "rewards/chosen": -0.349609375,
+      "rewards/margins": 0.8828125,
+      "rewards/rejected": -1.234375,
+      "step": 670
+    },
+    {
+      "epoch": 0.9424964936886395,
+      "eval_logits/chosen": -3.0625,
+      "eval_logits/rejected": -3.078125,
+      "eval_logps/chosen": -354.0,
+      "eval_logps/rejected": -374.0,
+      "eval_loss": 0.5107899904251099,
+      "eval_rewards/accuracies": 0.7819148898124695,
+      "eval_rewards/chosen": -0.326171875,
+      "eval_rewards/margins": 0.65625,
+      "eval_rewards/rejected": -0.984375,
+      "eval_runtime": 65.1766,
+      "eval_samples_per_second": 22.815,
+      "eval_steps_per_second": 0.721,
+      "step": 672
+    },
+    {
+      "epoch": 0.9537166900420757,
+      "grad_norm": 22.14348589619,
+      "learning_rate": 6.525362809492008e-10,
+      "logits/chosen": -2.90625,
+      "logits/rejected": -3.078125,
+      "logps/chosen": -350.0,
+      "logps/rejected": -390.0,
+      "loss": 0.5101,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -0.26953125,
+      "rewards/margins": 0.76171875,
+      "rewards/rejected": -1.03125,
+      "step": 680
+    },
+    {
+      "epoch": 0.9537166900420757,
+      "eval_logits/chosen": -3.0625,
+      "eval_logits/rejected": -3.078125,
+      "eval_logps/chosen": -354.0,
+      "eval_logps/rejected": -372.0,
+      "eval_loss": 0.5109755992889404,
+      "eval_rewards/accuracies": 0.7872340679168701,
+      "eval_rewards/chosen": -0.32421875,
+      "eval_rewards/margins": 0.65234375,
+      "eval_rewards/rejected": -0.9765625,
+      "eval_runtime": 65.4357,
+      "eval_samples_per_second": 22.725,
+      "eval_steps_per_second": 0.718,
+      "step": 680
+    },
+    {
+      "epoch": 0.9649368863955119,
+      "eval_logits/chosen": -3.0625,
+      "eval_logits/rejected": -3.078125,
+      "eval_logps/chosen": -354.0,
+      "eval_logps/rejected": -374.0,
+      "eval_loss": 0.510669469833374,
+      "eval_rewards/accuracies": 0.7819148898124695,
+      "eval_rewards/chosen": -0.32421875,
+      "eval_rewards/margins": 0.65234375,
+      "eval_rewards/rejected": -0.9765625,
+      "eval_runtime": 65.5907,
+      "eval_samples_per_second": 22.671,
+      "eval_steps_per_second": 0.717,
+      "step": 688
+    },
+    {
+      "epoch": 0.967741935483871,
+      "grad_norm": 18.79687876463209,
+      "learning_rate": 3.173360711629325e-10,
+      "logits/chosen": -2.921875,
+      "logits/rejected": -3.0,
+      "logps/chosen": -284.0,
+      "logps/rejected": -380.0,
+      "loss": 0.4995,
+      "rewards/accuracies": 0.824999988079071,
+      "rewards/chosen": -0.357421875,
+      "rewards/margins": 0.64453125,
+      "rewards/rejected": -1.0,
+      "step": 690
+    },
+    {
+      "epoch": 0.9761570827489481,
+      "eval_logits/chosen": -3.0625,
+      "eval_logits/rejected": -3.078125,
+      "eval_logps/chosen": -354.0,
+      "eval_logps/rejected": -372.0,
+      "eval_loss": 0.5105814337730408,
+      "eval_rewards/accuracies": 0.7872340679168701,
+      "eval_rewards/chosen": -0.32421875,
+      "eval_rewards/margins": 0.65234375,
+      "eval_rewards/rejected": -0.9765625,
+      "eval_runtime": 65.6777,
+      "eval_samples_per_second": 22.641,
+      "eval_steps_per_second": 0.716,
+      "step": 696
+    },
+    {
+      "epoch": 0.9817671809256662,
+      "grad_norm": 27.90140864474871,
+      "learning_rate": 1.014526690756634e-10,
+      "logits/chosen": -3.046875,
+      "logits/rejected": -3.09375,
+      "logps/chosen": -368.0,
+      "logps/rejected": -396.0,
+      "loss": 0.5048,
+      "rewards/accuracies": 0.8500000238418579,
+      "rewards/chosen": -0.341796875,
+      "rewards/margins": 0.859375,
+      "rewards/rejected": -1.203125,
+      "step": 700
+    },
+    {
+      "epoch": 0.9873772791023843,
+      "eval_logits/chosen": -3.0625,
+      "eval_logits/rejected": -3.078125,
+      "eval_logps/chosen": -354.0,
+      "eval_logps/rejected": -372.0,
+      "eval_loss": 0.5105742812156677,
+      "eval_rewards/accuracies": 0.7872340679168701,
+      "eval_rewards/chosen": -0.322265625,
+      "eval_rewards/margins": 0.65625,
+      "eval_rewards/rejected": -0.9765625,
+      "eval_runtime": 64.9937,
+      "eval_samples_per_second": 22.879,
+      "eval_steps_per_second": 0.723,
+      "step": 704
+    },
+    {
+      "epoch": 0.9957924263674615,
+      "grad_norm": 25.796305051934237,
+      "learning_rate": 5.404535581693403e-12,
+      "logits/chosen": -3.015625,
+      "logits/rejected": -2.953125,
+      "logps/chosen": -370.0,
+      "logps/rejected": -408.0,
+      "loss": 0.5149,
+      "rewards/accuracies": 0.800000011920929,
+      "rewards/chosen": -0.392578125,
+      "rewards/margins": 0.63671875,
+      "rewards/rejected": -1.03125,
+      "step": 710
+    },
+    {
+      "epoch": 0.9985974754558204,
+      "eval_logits/chosen": -3.0625,
+      "eval_logits/rejected": -3.078125,
+      "eval_logps/chosen": -354.0,
+      "eval_logps/rejected": -374.0,
+      "eval_loss": 0.5107670426368713,
+      "eval_rewards/accuracies": 0.7872340679168701,
+      "eval_rewards/chosen": -0.32421875,
+      "eval_rewards/margins": 0.65234375,
+      "eval_rewards/rejected": -0.9765625,
+      "eval_runtime": 65.9108,
+      "eval_samples_per_second": 22.561,
+      "eval_steps_per_second": 0.713,
+      "step": 712
+    },
+    {
+      "epoch": 1.0,
+      "step": 713,
+      "total_flos": 0.0,
+      "train_loss": 0.5638467967928208,
+      "train_runtime": 32082.6297,
+      "train_samples_per_second": 1.422,
+      "train_steps_per_second": 0.022
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 713,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 8,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 0.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}