Model save

Browse files

Files changed (9) hide show

README.md +1 -6
all_results.json +4 -4
config.json +1 -1
model-00001-of-00003.safetensors +1 -1
model-00002-of-00003.safetensors +1 -1
model-00003-of-00003.safetensors +1 -1
train_results.json +4 -4
trainer_state.json +131 -131
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -2,14 +2,9 @@
 license: mit
 base_model: ShenaoZhang/0.001_ablation_4iters_bs128_nodpo_iter_1
 tags:
-- alignment-handbook
-- generated_from_trainer
 - trl
 - dpo
 - generated_from_trainer
-datasets:
-- updated
-- original
 model-index:
 - name: 0.001_ablation_4iters_bs128_nodpo_iter_2
   results: []
@@ -20,7 +15,7 @@ should probably proofread and complete it, then remove this comment. -->
 # 0.001_ablation_4iters_bs128_nodpo_iter_2
-This model is a fine-tuned version of [ShenaoZhang/0.001_ablation_4iters_bs128_nodpo_iter_1](https://huggingface.co/ShenaoZhang/0.001_ablation_4iters_bs128_nodpo_iter_1) on the updated and the original datasets.
 ## Model description

 license: mit
 base_model: ShenaoZhang/0.001_ablation_4iters_bs128_nodpo_iter_1
 tags:
 - trl
 - dpo
 - generated_from_trainer
 model-index:
 - name: 0.001_ablation_4iters_bs128_nodpo_iter_2
   results: []
 # 0.001_ablation_4iters_bs128_nodpo_iter_2
+This model is a fine-tuned version of [ShenaoZhang/0.001_ablation_4iters_bs128_nodpo_iter_1](https://huggingface.co/ShenaoZhang/0.001_ablation_4iters_bs128_nodpo_iter_1) on the None dataset.
 ## Model description

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.5155397543386251,
-    "train_runtime": 3544.4653,
     "train_samples": 15283,
-    "train_samples_per_second": 4.312,
-    "train_steps_per_second": 0.034
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.5123876844133649,
+    "train_runtime": 3580.7399,
     "train_samples": 15283,
+    "train_samples_per_second": 4.268,
+    "train_steps_per_second": 0.033
 }

config.json CHANGED Viewed

@@ -21,6 +21,6 @@
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.36.2",
-  "use_cache": true,
   "vocab_size": 32000
 }

   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.36.2",
+  "use_cache": false,
   "vocab_size": 32000
 }

model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b6a4a8f33f7cd22f68beb713ab961fdc674f47c187dc0c31e9c447b0263a166a
 size 4943162336

 version https://git-lfs.github.com/spec/v1
+oid sha256:1eeb1d6bc4c9c71b9901440afbcadde9074dc1b609e805eff3e1ba5eb919a293
 size 4943162336

model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:998f3455ad4b695e0e9cee3c94a2d450a0652ff7016d7fea834dc5da7dbbcd28
 size 4999819336

 version https://git-lfs.github.com/spec/v1
+oid sha256:daae2a827686870c5740dfb45d7085e40a24afae1c4c43d802e6052d40b84d6d
 size 4999819336

model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6ee50a9e5c82f0c9f712195a29b1bbbfc40af87273098c456b696f22ca7d5f3d
 size 4540516344

 version https://git-lfs.github.com/spec/v1
+oid sha256:b633f2fe5bb5bbd7b194dd4a0e53debb776a136b8bca8d35a6d1d3820cdd0740
 size 4540516344

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "epoch": 1.0,
-    "train_loss": 0.5155397543386251,
-    "train_runtime": 3544.4653,
     "train_samples": 15283,
-    "train_samples_per_second": 4.312,
-    "train_steps_per_second": 0.034
 }

 {
     "epoch": 1.0,
+    "train_loss": 0.5123876844133649,
+    "train_runtime": 3580.7399,
     "train_samples": 15283,
+    "train_samples_per_second": 4.268,
+    "train_steps_per_second": 0.033
 }

trainer_state.json CHANGED Viewed

@@ -11,12 +11,12 @@
     {
       "epoch": 0.01,
       "learning_rate": 4.166666666666666e-08,
-      "logits/chosen": -2.6911520957946777,
-      "logits/rejected": -2.6465554237365723,
-      "logps/chosen": -184.49661254882812,
-      "logps/pi_response": -139.5087890625,
-      "logps/ref_response": -139.5087890625,
-      "logps/rejected": -296.51641845703125,
       "loss": 0.6931,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
@@ -27,187 +27,187 @@
     {
       "epoch": 0.08,
       "learning_rate": 4.1666666666666667e-07,
-      "logits/chosen": -2.6858456134796143,
-      "logits/rejected": -2.6641671657562256,
-      "logps/chosen": -208.271240234375,
-      "logps/pi_response": -148.94398498535156,
-      "logps/ref_response": -148.13111877441406,
-      "logps/rejected": -352.410888671875,
-      "loss": 0.6845,
-      "rewards/accuracies": 0.6041666865348816,
-      "rewards/chosen": -0.011623169295489788,
-      "rewards/margins": 0.028608590364456177,
-      "rewards/rejected": -0.04023175686597824,
       "step": 10
     },
     {
       "epoch": 0.17,
       "learning_rate": 4.931352528237397e-07,
-      "logits/chosen": -2.626678943634033,
-      "logits/rejected": -2.5818490982055664,
-      "logps/chosen": -290.82843017578125,
-      "logps/pi_response": -157.5281524658203,
-      "logps/ref_response": -153.23585510253906,
-      "logps/rejected": -433.90478515625,
-      "loss": 0.6211,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -0.40517061948776245,
-      "rewards/margins": 0.4539198875427246,
-      "rewards/rejected": -0.8590905070304871,
       "step": 20
     },
     {
       "epoch": 0.25,
       "learning_rate": 4.658920803689553e-07,
-      "logits/chosen": -2.6315205097198486,
-      "logits/rejected": -2.612787961959839,
-      "logps/chosen": -279.93316650390625,
-      "logps/pi_response": -139.732177734375,
-      "logps/ref_response": -133.53305053710938,
-      "logps/rejected": -475.787109375,
-      "loss": 0.5927,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -0.6063723564147949,
-      "rewards/margins": 0.8305813074111938,
-      "rewards/rejected": -1.4369536638259888,
       "step": 30
     },
     {
       "epoch": 0.33,
       "learning_rate": 4.201712553872657e-07,
-      "logits/chosen": -2.5569541454315186,
-      "logits/rejected": -2.500791072845459,
-      "logps/chosen": -332.53753662109375,
-      "logps/pi_response": -179.93458557128906,
-      "logps/ref_response": -155.60166931152344,
-      "logps/rejected": -513.1066284179688,
-      "loss": 0.5165,
-      "rewards/accuracies": 0.6812499761581421,
-      "rewards/chosen": -0.6680192351341248,
-      "rewards/margins": 0.8153729438781738,
-      "rewards/rejected": -1.4833922386169434,
       "step": 40
     },
     {
       "epoch": 0.42,
       "learning_rate": 3.598859066780754e-07,
-      "logits/chosen": -2.47841739654541,
-      "logits/rejected": -2.409036636352539,
-      "logps/chosen": -309.3136291503906,
-      "logps/pi_response": -171.49142456054688,
-      "logps/ref_response": -147.92498779296875,
-      "logps/rejected": -520.16552734375,
-      "loss": 0.499,
-      "rewards/accuracies": 0.793749988079071,
-      "rewards/chosen": -0.7337684035301208,
-      "rewards/margins": 1.0852042436599731,
-      "rewards/rejected": -1.8189725875854492,
       "step": 50
     },
     {
       "epoch": 0.5,
       "learning_rate": 2.9019570347986706e-07,
-      "logits/chosen": -2.2959446907043457,
-      "logits/rejected": -2.2667393684387207,
-      "logps/chosen": -350.14996337890625,
-      "logps/pi_response": -193.71585083007812,
-      "logps/ref_response": -136.9359588623047,
-      "logps/rejected": -525.8280029296875,
-      "loss": 0.5013,
-      "rewards/accuracies": 0.731249988079071,
-      "rewards/chosen": -1.0568283796310425,
-      "rewards/margins": 0.8585710525512695,
-      "rewards/rejected": -1.9153995513916016,
       "step": 60
     },
     {
       "epoch": 0.59,
       "learning_rate": 2.1706525253979534e-07,
-      "logits/chosen": -2.272998332977295,
-      "logits/rejected": -2.209773302078247,
-      "logps/chosen": -322.48974609375,
-      "logps/pi_response": -191.36929321289062,
-      "logps/ref_response": -146.25982666015625,
-      "logps/rejected": -540.8594970703125,
-      "loss": 0.4806,
-      "rewards/accuracies": 0.7562500238418579,
-      "rewards/chosen": -0.8404802083969116,
-      "rewards/margins": 1.0443588495254517,
-      "rewards/rejected": -1.8848390579223633,
       "step": 70
     },
     {
       "epoch": 0.67,
       "learning_rate": 1.4675360263490295e-07,
-      "logits/chosen": -2.2215452194213867,
-      "logits/rejected": -2.1440436840057373,
-      "logps/chosen": -327.8442687988281,
-      "logps/pi_response": -181.72433471679688,
-      "logps/ref_response": -136.20291137695312,
-      "logps/rejected": -519.2799072265625,
-      "loss": 0.4574,
-      "rewards/accuracies": 0.7124999761581421,
-      "rewards/chosen": -0.9074360728263855,
-      "rewards/margins": 0.9569914937019348,
-      "rewards/rejected": -1.8644273281097412,
       "step": 80
     },
     {
       "epoch": 0.75,
       "learning_rate": 8.527854855097224e-08,
-      "logits/chosen": -2.221020460128784,
-      "logits/rejected": -2.087261199951172,
-      "logps/chosen": -340.190673828125,
-      "logps/pi_response": -209.3700714111328,
-      "logps/ref_response": -147.84341430664062,
-      "logps/rejected": -536.7362060546875,
-      "loss": 0.4452,
-      "rewards/accuracies": 0.7875000238418579,
-      "rewards/chosen": -1.0263036489486694,
-      "rewards/margins": 1.1081960201263428,
-      "rewards/rejected": -2.134500026702881,
       "step": 90
     },
     {
       "epoch": 0.84,
       "learning_rate": 3.790158337517127e-08,
-      "logits/chosen": -2.1238274574279785,
-      "logits/rejected": -2.120473623275757,
-      "logps/chosen": -347.0937194824219,
-      "logps/pi_response": -210.205078125,
-      "logps/ref_response": -146.23873901367188,
-      "logps/rejected": -536.5059814453125,
-      "loss": 0.4757,
-      "rewards/accuracies": 0.699999988079071,
-      "rewards/chosen": -1.1245771646499634,
-      "rewards/margins": 0.8947040438652039,
-      "rewards/rejected": -2.0192811489105225,
       "step": 100
     },
     {
       "epoch": 0.92,
       "learning_rate": 8.677580722139671e-09,
-      "logits/chosen": -2.1690449714660645,
-      "logits/rejected": -2.079481363296509,
-      "logps/chosen": -313.77606201171875,
-      "logps/pi_response": -206.690185546875,
-      "logps/ref_response": -138.90621948242188,
-      "logps/rejected": -530.0359497070312,
-      "loss": 0.4302,
-      "rewards/accuracies": 0.8187500238418579,
-      "rewards/chosen": -0.9440746307373047,
-      "rewards/margins": 1.1629929542541504,
-      "rewards/rejected": -2.107067584991455,
       "step": 110
     },
     {
       "epoch": 1.0,
       "step": 119,
       "total_flos": 0.0,
-      "train_loss": 0.5155397543386251,
-      "train_runtime": 3544.4653,
-      "train_samples_per_second": 4.312,
-      "train_steps_per_second": 0.034
     }
   ],
   "logging_steps": 10,

     {
       "epoch": 0.01,
       "learning_rate": 4.166666666666666e-08,
+      "logits/chosen": -2.601804256439209,
+      "logits/rejected": -2.4488413333892822,
+      "logps/chosen": -309.41717529296875,
+      "logps/pi_response": -218.36558532714844,
+      "logps/ref_response": -218.36558532714844,
+      "logps/rejected": -352.54058837890625,
       "loss": 0.6931,
       "rewards/accuracies": 0.0,
       "rewards/chosen": 0.0,
     {
       "epoch": 0.08,
       "learning_rate": 4.1666666666666667e-07,
+      "logits/chosen": -2.587738513946533,
+      "logits/rejected": -2.5415542125701904,
+      "logps/chosen": -282.608154296875,
+      "logps/pi_response": -210.7708282470703,
+      "logps/ref_response": -211.15887451171875,
+      "logps/rejected": -350.5467224121094,
+      "loss": 0.6896,
+      "rewards/accuracies": 0.4166666567325592,
+      "rewards/chosen": 0.006864532828330994,
+      "rewards/margins": 0.002634861972182989,
+      "rewards/rejected": 0.004229670390486717,
       "step": 10
     },
     {
       "epoch": 0.17,
       "learning_rate": 4.931352528237397e-07,
+      "logits/chosen": -2.5801992416381836,
+      "logits/rejected": -2.526615858078003,
+      "logps/chosen": -321.7696228027344,
+      "logps/pi_response": -246.4761199951172,
+      "logps/ref_response": -208.217041015625,
+      "logps/rejected": -366.0833435058594,
+      "loss": 0.6334,
+      "rewards/accuracies": 0.6625000238418579,
+      "rewards/chosen": -0.2522856295108795,
+      "rewards/margins": 0.16487669944763184,
+      "rewards/rejected": -0.41716232895851135,
       "step": 20
     },
     {
       "epoch": 0.25,
       "learning_rate": 4.658920803689553e-07,
+      "logits/chosen": -2.4065756797790527,
+      "logits/rejected": -2.348301410675049,
+      "logps/chosen": -375.37969970703125,
+      "logps/pi_response": -379.5442810058594,
+      "logps/ref_response": -218.188232421875,
+      "logps/rejected": -469.886962890625,
+      "loss": 0.5773,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -0.9461199045181274,
+      "rewards/margins": 0.6475059986114502,
+      "rewards/rejected": -1.5936260223388672,
       "step": 30
     },
     {
       "epoch": 0.33,
       "learning_rate": 4.201712553872657e-07,
+      "logits/chosen": -2.316896438598633,
+      "logits/rejected": -2.2457833290100098,
+      "logps/chosen": -419.0770568847656,
+      "logps/pi_response": -449.25067138671875,
+      "logps/ref_response": -225.2439422607422,
+      "logps/rejected": -575.4486083984375,
+      "loss": 0.4922,
+      "rewards/accuracies": 0.7875000238418579,
+      "rewards/chosen": -1.1946828365325928,
+      "rewards/margins": 1.144521951675415,
+      "rewards/rejected": -2.3392045497894287,
       "step": 40
     },
     {
       "epoch": 0.42,
       "learning_rate": 3.598859066780754e-07,
+      "logits/chosen": -2.2486929893493652,
+      "logits/rejected": -2.1755928993225098,
+      "logps/chosen": -445.09942626953125,
+      "logps/pi_response": -452.2618103027344,
+      "logps/ref_response": -229.0274658203125,
+      "logps/rejected": -522.7374877929688,
+      "loss": 0.4686,
+      "rewards/accuracies": 0.7250000238418579,
+      "rewards/chosen": -1.2075799703598022,
+      "rewards/margins": 0.8736856579780579,
+      "rewards/rejected": -2.081265687942505,
       "step": 50
     },
     {
       "epoch": 0.5,
       "learning_rate": 2.9019570347986706e-07,
+      "logits/chosen": -2.1504597663879395,
+      "logits/rejected": -2.0797207355499268,
+      "logps/chosen": -436.8817443847656,
+      "logps/pi_response": -447.95123291015625,
+      "logps/ref_response": -223.42208862304688,
+      "logps/rejected": -558.6624145507812,
+      "loss": 0.4562,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -1.3431683778762817,
+      "rewards/margins": 1.0750805139541626,
+      "rewards/rejected": -2.4182491302490234,
       "step": 60
     },
     {
       "epoch": 0.59,
       "learning_rate": 2.1706525253979534e-07,
+      "logits/chosen": -2.138681411743164,
+      "logits/rejected": -2.0570006370544434,
+      "logps/chosen": -440.0376892089844,
+      "logps/pi_response": -416.15435791015625,
+      "logps/ref_response": -193.9953155517578,
+      "logps/rejected": -525.2066040039062,
+      "loss": 0.4531,
+      "rewards/accuracies": 0.8125,
+      "rewards/chosen": -1.4727153778076172,
+      "rewards/margins": 0.8203312158584595,
+      "rewards/rejected": -2.293046474456787,
       "step": 70
     },
     {
       "epoch": 0.67,
       "learning_rate": 1.4675360263490295e-07,
+      "logits/chosen": -2.073247194290161,
+      "logits/rejected": -2.0226058959960938,
+      "logps/chosen": -397.6239929199219,
+      "logps/pi_response": -399.37701416015625,
+      "logps/ref_response": -194.95201110839844,
+      "logps/rejected": -524.5493774414062,
+      "loss": 0.4631,
+      "rewards/accuracies": 0.768750011920929,
+      "rewards/chosen": -1.335193157196045,
+      "rewards/margins": 0.893665611743927,
+      "rewards/rejected": -2.228858470916748,
       "step": 80
     },
     {
       "epoch": 0.75,
       "learning_rate": 8.527854855097224e-08,
+      "logits/chosen": -2.1284587383270264,
+      "logits/rejected": -2.057450771331787,
+      "logps/chosen": -467.1397399902344,
+      "logps/pi_response": -451.71929931640625,
+      "logps/ref_response": -203.74961853027344,
+      "logps/rejected": -569.0457153320312,
+      "loss": 0.4792,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -1.6770477294921875,
+      "rewards/margins": 0.9977802038192749,
+      "rewards/rejected": -2.674827814102173,
       "step": 90
     },
     {
       "epoch": 0.84,
       "learning_rate": 3.790158337517127e-08,
+      "logits/chosen": -2.0567708015441895,
+      "logits/rejected": -1.9975345134735107,
+      "logps/chosen": -508.8993225097656,
+      "logps/pi_response": -477.3226013183594,
+      "logps/ref_response": -213.10018920898438,
+      "logps/rejected": -581.6873779296875,
+      "loss": 0.4706,
+      "rewards/accuracies": 0.75,
+      "rewards/chosen": -1.7259727716445923,
+      "rewards/margins": 0.9824594259262085,
+      "rewards/rejected": -2.708432197570801,
       "step": 100
     },
     {
       "epoch": 0.92,
       "learning_rate": 8.677580722139671e-09,
+      "logits/chosen": -2.1619856357574463,
+      "logits/rejected": -2.041363000869751,
+      "logps/chosen": -498.51531982421875,
+      "logps/pi_response": -450.4139709472656,
+      "logps/ref_response": -207.01895141601562,
+      "logps/rejected": -583.1207885742188,
+      "loss": 0.4992,
+      "rewards/accuracies": 0.762499988079071,
+      "rewards/chosen": -1.6402676105499268,
+      "rewards/margins": 1.0984296798706055,
+      "rewards/rejected": -2.7386972904205322,
       "step": 110
     },
     {
       "epoch": 1.0,
       "step": 119,
       "total_flos": 0.0,
+      "train_loss": 0.5123876844133649,
+      "train_runtime": 3580.7399,
+      "train_samples_per_second": 4.268,
+      "train_steps_per_second": 0.033
     }
   ],
   "logging_steps": 10,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9dd70008d573b944cc0bff847fa7dc92dffb5fb3348275bcd1b9b42bdcb71bcb
 size 6008

 version https://git-lfs.github.com/spec/v1
+oid sha256:085e5b9bd3b9b0c06c387ebb25f499f0d882a1c6618cd968b550404cc82f0678
 size 6008