Training in progress, step 20, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.bin +1 -1
last-checkpoint/pytorch_model_fsdp.bin +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +152 -2

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88894e9b0bafcf88835cd631c0d09cb2387fde8e8e05a50e5038262c8b4f19f7
 size 167832240

 version https://git-lfs.github.com/spec/v1
+oid sha256:fd748236b4ef4e42b47b6ff97597d1978c0e9acbb1dd052e1d0533f43480a821
 size 167832240

last-checkpoint/optimizer.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a7b0dc1e79fe23b2921d631590bc7563486342c9c074e95da180c914c96f220
 size 335945362

 version https://git-lfs.github.com/spec/v1
+oid sha256:7434f9551b74d332180f0173a27eeb45c296284bf42c192abf06341c04101219
 size 335945362

last-checkpoint/pytorch_model_fsdp.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7fad6cb68d83c9131414ad19bbf5a21e6e10131ba2e63d5bf44bec020d78411a
 size 167939550

 version https://git-lfs.github.com/spec/v1
+oid sha256:7d512715415b0bdfe254311c5cbd8beef790a280954b3415d76b8e480262dca5
 size 167939550

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c188a6a4749e6ca627bb6d536eb7443f499d5b1b88d98a78f9c713443e010d9c
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:015707cb16790250630febca682498cb5d3456d5a13443b953687f19dc7d59ed
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.0015226494099733537,
   "eval_steps": 500,
-  "global_step": 10,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -157,6 +157,156 @@
       "rewards/margins": 0.6743541359901428,
       "rewards/rejected": -0.9285954833030701,
       "step": 10
     }
   ],
   "logging_steps": 1,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.0030452988199467074,
   "eval_steps": 500,
+  "global_step": 20,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "rewards/margins": 0.6743541359901428,
       "rewards/rejected": -0.9285954833030701,
       "step": 10
+    },
+    {
+      "epoch": 0.001674914350970689,
+      "grad_norm": 12.694933891296387,
+      "learning_rate": 0.00017289686274214118,
+      "logits/chosen": 0.028933856636285782,
+      "logits/rejected": 0.00032558292150497437,
+      "logps/chosen": -156.97647094726562,
+      "logps/rejected": -182.00267028808594,
+      "loss": 0.6836,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": -0.747052788734436,
+      "rewards/margins": 0.1833851933479309,
+      "rewards/rejected": -0.9304379820823669,
+      "step": 11
+    },
+    {
+      "epoch": 0.0018271792919680244,
+      "grad_norm": 14.31529712677002,
+      "learning_rate": 0.000163742398974869,
+      "logits/chosen": 0.08384992182254791,
+      "logits/rejected": 0.1143774539232254,
+      "logps/chosen": -187.43304443359375,
+      "logps/rejected": -182.16583251953125,
+      "loss": 0.7032,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -0.8268721103668213,
+      "rewards/margins": 0.055836014449596405,
+      "rewards/rejected": -0.8827080726623535,
+      "step": 12
+    },
+    {
+      "epoch": 0.0019794442329653596,
+      "grad_norm": 10.662793159484863,
+      "learning_rate": 0.00015358267949789966,
+      "logits/chosen": 0.12315154075622559,
+      "logits/rejected": 0.15528245270252228,
+      "logps/chosen": -157.62741088867188,
+      "logps/rejected": -142.5953826904297,
+      "loss": 0.6688,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.5131796002388,
+      "rewards/margins": 0.14580143988132477,
+      "rewards/rejected": -0.6589810848236084,
+      "step": 13
+    },
+    {
+      "epoch": 0.0021317091739626952,
+      "grad_norm": 13.018126487731934,
+      "learning_rate": 0.00014257792915650728,
+      "logits/chosen": 0.1431768834590912,
+      "logits/rejected": 0.03350931778550148,
+      "logps/chosen": -146.06101989746094,
+      "logps/rejected": -152.32742309570312,
+      "loss": 0.6922,
+      "rewards/accuracies": 0.375,
+      "rewards/chosen": -0.8030464053153992,
+      "rewards/margins": -0.06302566081285477,
+      "rewards/rejected": -0.740020751953125,
+      "step": 14
+    },
+    {
+      "epoch": 0.0022839741149600305,
+      "grad_norm": 12.851974487304688,
+      "learning_rate": 0.00013090169943749476,
+      "logits/chosen": 0.10366199910640717,
+      "logits/rejected": 0.04498244822025299,
+      "logps/chosen": -153.73416137695312,
+      "logps/rejected": -168.11575317382812,
+      "loss": 0.721,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.8541444540023804,
+      "rewards/margins": 0.09350776672363281,
+      "rewards/rejected": -0.947652280330658,
+      "step": 15
+    },
+    {
+      "epoch": 0.0024362390559573657,
+      "grad_norm": 10.859753608703613,
+      "learning_rate": 0.00011873813145857249,
+      "logits/chosen": 0.018513256683945656,
+      "logits/rejected": 0.020192591473460197,
+      "logps/chosen": -149.4884033203125,
+      "logps/rejected": -158.08319091796875,
+      "loss": 0.646,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -0.997456967830658,
+      "rewards/margins": 0.2520313262939453,
+      "rewards/rejected": -1.249488353729248,
+      "step": 16
+    },
+    {
+      "epoch": 0.0025885039969547013,
+      "grad_norm": 17.59671974182129,
+      "learning_rate": 0.00010627905195293135,
+      "logits/chosen": -0.13020677864551544,
+      "logits/rejected": -0.03429074585437775,
+      "logps/chosen": -142.9901123046875,
+      "logps/rejected": -151.025634765625,
+      "loss": 0.7414,
+      "rewards/accuracies": 0.5,
+      "rewards/chosen": -0.9945340156555176,
+      "rewards/margins": 0.11265383660793304,
+      "rewards/rejected": -1.1071878671646118,
+      "step": 17
+    },
+    {
+      "epoch": 0.0027407689379520365,
+      "grad_norm": 12.00832462310791,
+      "learning_rate": 9.372094804706867e-05,
+      "logits/chosen": 0.015887008979916573,
+      "logits/rejected": 0.015174375846982002,
+      "logps/chosen": -148.59466552734375,
+      "logps/rejected": -164.22711181640625,
+      "loss": 0.5364,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.0675632953643799,
+      "rewards/margins": 0.4369748830795288,
+      "rewards/rejected": -1.5045380592346191,
+      "step": 18
+    },
+    {
+      "epoch": 0.0028930338789493718,
+      "grad_norm": 14.49167251586914,
+      "learning_rate": 8.126186854142752e-05,
+      "logits/chosen": 0.026431191712617874,
+      "logits/rejected": -0.0005289912223815918,
+      "logps/chosen": -171.24415588378906,
+      "logps/rejected": -193.31686401367188,
+      "loss": 0.627,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.253060221672058,
+      "rewards/margins": 0.13999736309051514,
+      "rewards/rejected": -1.3930575847625732,
+      "step": 19
+    },
+    {
+      "epoch": 0.0030452988199467074,
+      "grad_norm": 16.078474044799805,
+      "learning_rate": 6.909830056250527e-05,
+      "logits/chosen": 0.06809265166521072,
+      "logits/rejected": 0.034393489360809326,
+      "logps/chosen": -155.27926635742188,
+      "logps/rejected": -175.18618774414062,
+      "loss": 0.726,
+      "rewards/accuracies": 0.625,
+      "rewards/chosen": -1.043820858001709,
+      "rewards/margins": 0.27667587995529175,
+      "rewards/rejected": -1.320496678352356,
+      "step": 20
     }
   ],
   "logging_steps": 1,