Model save

Browse files

Files changed (10) hide show

README.md +2 -4
all_results.json +4 -4
config.json +1 -1
model-00001-of-00004.safetensors +1 -1
model-00002-of-00004.safetensors +1 -1
model-00003-of-00004.safetensors +1 -1
model-00004-of-00004.safetensors +1 -1
train_results.json +4 -4
trainer_state.json +169 -65
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -1,11 +1,9 @@
 ---
 base_model: Qwen/Qwen2.5-Math-7B
-datasets: Dongwei/Math_8K_for_GRPO
 library_name: transformers
 model_name: Qwen-2.5-7B_Base_Math_smalllr_newdata
 tags:
 - generated_from_trainer
-- open-r1
 - trl
 - grpo
 licence: license
@@ -13,7 +11,7 @@ licence: license
 # Model Card for Qwen-2.5-7B_Base_Math_smalllr_newdata
-This model is a fine-tuned version of [Qwen/Qwen2.5-Math-7B](https://huggingface.co/Qwen/Qwen2.5-Math-7B) on the [Dongwei/Math_8K_for_GRPO](https://huggingface.co/datasets/Dongwei/Math_8K_for_GRPO) dataset.
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
@@ -29,7 +27,7 @@ print(output["generated_text"])
 ## Training procedure
-[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/dongwei_jiang/huggingface/runs/kvh15moq)
 This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://huggingface.co/papers/2402.03300).

 ---
 base_model: Qwen/Qwen2.5-Math-7B
 library_name: transformers
 model_name: Qwen-2.5-7B_Base_Math_smalllr_newdata
 tags:
 - generated_from_trainer
 - trl
 - grpo
 licence: license
 # Model Card for Qwen-2.5-7B_Base_Math_smalllr_newdata
+This model is a fine-tuned version of [Qwen/Qwen2.5-Math-7B](https://huggingface.co/Qwen/Qwen2.5-Math-7B).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start
 ## Training procedure
+[<img src="https://raw.githubusercontent.com/wandb/assets/main/wandb-github-badge-28.svg" alt="Visualize in Weights & Biases" width="150" height="24"/>](https://wandb.ai/dongwei_jiang/huggingface/runs/652a79wz)
 This model was trained with GRPO, a method introduced in [DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models](https://huggingface.co/papers/2402.03300).

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 0.0001293725906606009,
-    "train_runtime": 14407.4123,
     "train_samples": 8890,
-    "train_samples_per_second": 0.617,
-    "train_steps_per_second": 0.005
 }

 {
     "total_flos": 0.0,
+    "train_loss": 0.00014615306474896194,
+    "train_runtime": 28501.5732,
     "train_samples": 8890,
+    "train_samples_per_second": 0.624,
+    "train_steps_per_second": 0.006
 }

config.json CHANGED Viewed

@@ -23,7 +23,7 @@
   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.49.0.dev0",
-  "use_cache": true,
   "use_mrope": false,
   "use_sliding_window": false,
   "vocab_size": 152064

   "tie_word_embeddings": false,
   "torch_dtype": "bfloat16",
   "transformers_version": "4.49.0.dev0",
+  "use_cache": false,
   "use_mrope": false,
   "use_sliding_window": false,
   "vocab_size": 152064

model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8972c8502993056e5a729fd0afcc3e5615e006c6f6ae9c48e3c010c27911e217
 size 4877660776

 version https://git-lfs.github.com/spec/v1
+oid sha256:187bfcc26ec49b526f3552d5beb693685c033886a74e6f90b9da0d792e3034bb
 size 4877660776

model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4444bd3f19d52fe2eaaf2f4d572c48b0e45aeb1ee01712343968922920667cf1
 size 4932751008

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae2f3bd6a1e3a6cbd063ea21ae30aa9c41adff47681ec50a0e9af5865fc89c14
 size 4932751008

model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8f7ec89a2ae9bc3f162701488aec0c11f73dd9ab89ea4a1d8b13f98d0c955546
 size 4330865200

 version https://git-lfs.github.com/spec/v1
+oid sha256:713b58386664b4c694580e30b72548c7693541e5856f477176032cdcaa75c50f
 size 4330865200

model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6683f32c99805f719d04aea0c1aeb591f69bfcf3aebca5e4a901bb965246b1ca
 size 1089994880

 version https://git-lfs.github.com/spec/v1
+oid sha256:5cc3484c418f6b882c73d89ba5f3009b0e83924c78cd04d97d59b50ddb474d03
 size 1089994880

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
     "total_flos": 0.0,
-    "train_loss": 0.0001293725906606009,
-    "train_runtime": 14407.4123,
     "train_samples": 8890,
-    "train_samples_per_second": 0.617,
-    "train_steps_per_second": 0.005
 }

 {
     "total_flos": 0.0,
+    "train_loss": 0.00014615306474896194,
+    "train_runtime": 28501.5732,
     "train_samples": 8890,
+    "train_samples_per_second": 0.624,
+    "train_steps_per_second": 0.006
 }

trainer_state.json CHANGED Viewed

@@ -1,124 +1,228 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9952755905511811,
   "eval_steps": 100,
-  "global_step": 79,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "completion_length": 662.1981317520142,
       "epoch": 0.12598425196850394,
-      "grad_norm": 0.34752824902534485,
-      "kl": 0.00043702125549316406,
-      "learning_rate": 2.994130233112417e-06,
       "loss": 0.0,
-      "reward": 0.5890625271946192,
-      "reward_std": 0.3153728174045682,
-      "rewards/accuracy_reward": 0.5890625271946192,
-      "rewards/format_reward": 0.0,
       "step": 10
     },
     {
-      "completion_length": 687.3097408294677,
       "epoch": 0.25196850393700787,
-      "grad_norm": 0.1284249722957611,
-      "kl": 0.002486562728881836,
-      "learning_rate": 2.7934718587800417e-06,
       "loss": 0.0001,
-      "reward": 0.6207589566707611,
-      "reward_std": 0.2419956461992115,
-      "rewards/accuracy_reward": 0.6207589566707611,
       "rewards/format_reward": 0.0,
       "step": 20
     },
     {
-      "completion_length": 640.5951181411743,
       "epoch": 0.3779527559055118,
-      "grad_norm": 0.10701598972082138,
-      "kl": 0.002702617645263672,
-      "learning_rate": 2.343673931461171e-06,
       "loss": 0.0001,
-      "reward": 0.6760044954717159,
-      "reward_std": 0.21417916007339954,
-      "rewards/accuracy_reward": 0.6760044954717159,
       "rewards/format_reward": 0.0,
       "step": 30
     },
     {
-      "completion_length": 635.6863019943237,
       "epoch": 0.5039370078740157,
-      "grad_norm": 0.07730241119861603,
-      "kl": 0.003352832794189453,
-      "learning_rate": 1.7313733994479534e-06,
       "loss": 0.0001,
-      "reward": 0.7145089605823159,
-      "reward_std": 0.19259586185216904,
-      "rewards/accuracy_reward": 0.7145089605823159,
       "rewards/format_reward": 0.0,
       "step": 40
     },
     {
-      "completion_length": 627.000700378418,
       "epoch": 0.6299212598425197,
-      "grad_norm": 0.12998902797698975,
-      "kl": 0.0035908699035644533,
-      "learning_rate": 1.0745073324985549e-06,
       "loss": 0.0001,
-      "reward": 0.7094866376370191,
-      "reward_std": 0.19745821370743216,
-      "rewards/accuracy_reward": 0.7094866376370191,
       "rewards/format_reward": 0.0,
       "step": 50
     },
     {
-      "completion_length": 633.1238014221192,
       "epoch": 0.7559055118110236,
-      "grad_norm": 0.2921755015850067,
-      "kl": 0.0037825584411621095,
-      "learning_rate": 4.995967037450238e-07,
       "loss": 0.0002,
-      "reward": 0.6771205646917224,
-      "reward_std": 0.2015925908461213,
-      "rewards/accuracy_reward": 0.6771205646917224,
       "rewards/format_reward": 0.0,
       "step": 60
     },
     {
-      "completion_length": 628.302260017395,
       "epoch": 0.8818897637795275,
-      "grad_norm": 0.21092118322849274,
-      "kl": 0.005428695678710937,
-      "learning_rate": 1.1737679983668259e-07,
       "loss": 0.0002,
-      "reward": 0.7151786023750901,
-      "reward_std": 0.19608180108480155,
-      "rewards/accuracy_reward": 0.7151786023750901,
       "rewards/format_reward": 0.0,
       "step": 70
     },
     {
-      "completion_length": 609.5488855573866,
-      "epoch": 0.9952755905511811,
-      "kl": 0.0041395823160807295,
-      "reward": 0.7307788046697775,
-      "reward_std": 0.18725943296319908,
-      "rewards/accuracy_reward": 0.7307788046697775,
       "rewards/format_reward": 0.0,
-      "step": 79,
       "total_flos": 0.0,
-      "train_loss": 0.0001293725906606009,
-      "train_runtime": 14407.4123,
-      "train_samples_per_second": 0.617,
-      "train_steps_per_second": 0.005
     }
   ],
   "logging_steps": 10,
-  "max_steps": 79,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 1,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.9826771653543307,
   "eval_steps": 100,
+  "global_step": 158,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "completion_length": 652.5913221359253,
       "epoch": 0.12598425196850394,
+      "grad_norm": 0.5412344932556152,
+      "kl": 0.00025856494903564453,
+      "learning_rate": 1.875e-06,
       "loss": 0.0,
+      "reward": 0.5777902046218515,
+      "reward_std": 0.32899713758379223,
+      "rewards/accuracy_reward": 0.5776785971596837,
+      "rewards/format_reward": 0.00011160714784637093,
       "step": 10
     },
     {
+      "completion_length": 694.438868522644,
       "epoch": 0.25196850393700787,
+      "grad_norm": 0.24628566205501556,
+      "kl": 0.0019156813621520996,
+      "learning_rate": 2.994130233112417e-06,
       "loss": 0.0001,
+      "reward": 0.6052455639466643,
+      "reward_std": 0.26475782548077403,
+      "rewards/accuracy_reward": 0.6052455639466643,
       "rewards/format_reward": 0.0,
       "step": 20
     },
     {
+      "completion_length": 651.5066148757935,
       "epoch": 0.3779527559055118,
+      "grad_norm": 0.14223581552505493,
+      "kl": 0.0024756908416748045,
+      "learning_rate": 2.9286218000371976e-06,
       "loss": 0.0001,
+      "reward": 0.6724330654367805,
+      "reward_std": 0.23531078966334462,
+      "rewards/accuracy_reward": 0.6724330654367805,
       "rewards/format_reward": 0.0,
       "step": 30
     },
     {
+      "completion_length": 642.1838449478149,
       "epoch": 0.5039370078740157,
+      "grad_norm": 0.1239105761051178,
+      "kl": 0.0031515121459960937,
+      "learning_rate": 2.7934718587800417e-06,
       "loss": 0.0001,
+      "reward": 0.7046875322237611,
+      "reward_std": 0.19434297760017216,
+      "rewards/accuracy_reward": 0.7046875322237611,
       "rewards/format_reward": 0.0,
       "step": 40
     },
     {
+      "completion_length": 627.14924659729,
       "epoch": 0.6299212598425197,
+      "grad_norm": 0.13240313529968262,
+      "kl": 0.003639984130859375,
+      "learning_rate": 2.595268609058752e-06,
       "loss": 0.0001,
+      "reward": 0.7179687809199095,
+      "reward_std": 0.19313886840827763,
+      "rewards/accuracy_reward": 0.7179687809199095,
       "rewards/format_reward": 0.0,
       "step": 50
     },
     {
+      "completion_length": 626.9296024322509,
       "epoch": 0.7559055118110236,
+      "grad_norm": 0.15062075853347778,
+      "kl": 0.004168796539306641,
+      "learning_rate": 2.343673931461171e-06,
       "loss": 0.0002,
+      "reward": 0.6809152102097868,
+      "reward_std": 0.1983337783254683,
+      "rewards/accuracy_reward": 0.6809152102097868,
       "rewards/format_reward": 0.0,
       "step": 60
     },
     {
+      "completion_length": 610.840876197815,
       "epoch": 0.8818897637795275,
+      "grad_norm": 0.11126791685819626,
+      "kl": 0.004203128814697266,
+      "learning_rate": 2.0509523964971355e-06,
       "loss": 0.0002,
+      "reward": 0.7165178887546062,
+      "reward_std": 0.1934912689961493,
+      "rewards/accuracy_reward": 0.7165178887546062,
       "rewards/format_reward": 0.0,
       "step": 70
     },
     {
+      "completion_length": 592.2336000569661,
+      "epoch": 1.0,
+      "grad_norm": 0.17808477580547333,
+      "kl": 0.0042411295572916665,
+      "learning_rate": 1.7313733994479534e-06,
+      "loss": 0.0002,
+      "reward": 0.7291666994492213,
+      "reward_std": 0.1846819964547952,
+      "rewards/accuracy_reward": 0.7291666994492213,
+      "rewards/format_reward": 0.0,
+      "step": 80
+    },
+    {
+      "completion_length": 609.6807176589966,
+      "epoch": 1.125984251968504,
+      "grad_norm": 0.08229045569896698,
+      "kl": 0.004135942459106446,
+      "learning_rate": 1.4005155653473445e-06,
+      "loss": 0.0002,
+      "reward": 0.7156250355765224,
+      "reward_std": 0.20761510250158607,
+      "rewards/accuracy_reward": 0.7156250355765224,
+      "rewards/format_reward": 0.0,
+      "step": 90
+    },
+    {
+      "completion_length": 611.2092897415162,
+      "epoch": 1.2519685039370079,
+      "grad_norm": 0.16556662321090698,
+      "kl": 0.0037270545959472655,
+      "learning_rate": 1.0745073324985549e-06,
+      "loss": 0.0001,
+      "reward": 0.7110491398721933,
+      "reward_std": 0.18295098417438566,
+      "rewards/accuracy_reward": 0.7110491398721933,
+      "rewards/format_reward": 0.0,
+      "step": 100
+    },
+    {
+      "completion_length": 606.3881959915161,
+      "epoch": 1.3779527559055118,
+      "grad_norm": 0.09432197362184525,
+      "kl": 0.0037145614624023438,
+      "learning_rate": 7.692407340588056e-07,
+      "loss": 0.0001,
+      "reward": 0.7323661027476192,
+      "reward_std": 0.1929833421483636,
+      "rewards/accuracy_reward": 0.7323661027476192,
+      "rewards/format_reward": 0.0,
+      "step": 110
+    },
+    {
+      "completion_length": 604.5668788909912,
+      "epoch": 1.5039370078740157,
+      "grad_norm": 0.38694441318511963,
+      "kl": 0.004090404510498047,
+      "learning_rate": 4.995967037450238e-07,
+      "loss": 0.0002,
+      "reward": 0.7164062798023224,
+      "reward_std": 0.18084403886459768,
+      "rewards/accuracy_reward": 0.7164062798023224,
+      "rewards/format_reward": 0.0,
+      "step": 120
+    },
+    {
+      "completion_length": 606.2777070999146,
+      "epoch": 1.6299212598425197,
+      "grad_norm": 0.15648125112056732,
+      "kl": 0.0037802696228027345,
+      "learning_rate": 2.787196699446389e-07,
+      "loss": 0.0002,
+      "reward": 0.7242187837138772,
+      "reward_std": 0.19052648572251202,
+      "rewards/accuracy_reward": 0.7242187837138772,
+      "rewards/format_reward": 0.0,
+      "step": 130
+    },
+    {
+      "completion_length": 605.7184408187866,
+      "epoch": 1.7559055118110236,
+      "grad_norm": 0.4628942608833313,
+      "kl": 0.003756284713745117,
+      "learning_rate": 1.1737679983668259e-07,
+      "loss": 0.0002,
+      "reward": 0.7152902094647289,
+      "reward_std": 0.20197481904178857,
+      "rewards/accuracy_reward": 0.7152902094647289,
+      "rewards/format_reward": 0.0,
+      "step": 140
+    },
+    {
+      "completion_length": 605.061745262146,
+      "epoch": 1.8818897637795275,
+      "grad_norm": 0.1207461878657341,
+      "kl": 0.007715559005737305,
+      "learning_rate": 2.343312866591163e-08,
+      "loss": 0.0003,
+      "reward": 0.7013393187895417,
+      "reward_std": 0.1918664438650012,
+      "rewards/accuracy_reward": 0.7013393187895417,
+      "rewards/format_reward": 0.0,
+      "step": 150
+    },
+    {
+      "completion_length": 607.0647583007812,
+      "epoch": 1.9826771653543307,
+      "kl": 0.0038232803344726562,
+      "reward": 0.7250279379077256,
+      "reward_std": 0.17406430409755558,
+      "rewards/accuracy_reward": 0.7250279379077256,
       "rewards/format_reward": 0.0,
+      "step": 158,
       "total_flos": 0.0,
+      "train_loss": 0.00014615306474896194,
+      "train_runtime": 28501.5732,
+      "train_samples_per_second": 0.624,
+      "train_steps_per_second": 0.006
     }
   ],
   "logging_steps": 10,
+  "max_steps": 158,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:12b648ea5b071ecce323732091588c2678cec73e93d6a189db3cc8362754dd64
 size 7096

 version https://git-lfs.github.com/spec/v1
+oid sha256:509855e3603ba407b20fab4440b0197a9a8bb6c13a146cf9b0f47765d36950e4
 size 7096