haoyuw
/

Qwen2.5-1.5B-Math-Instruct-LIMO

@@ -1,16 +1,17 @@
 ---
 base_model: Qwen/Qwen2.5-Math-1.5B-Instruct
-datasets: GAIR/LIMO
 library_name: transformers
 tags:
 - generated_from_trainer
-- open-r1
 licence: license
 ---
-# Model Card for None
-This model is a fine-tuned version of [Qwen/Qwen2.5-Math-1.5B-Instruct](https://huggingface.co/Qwen/Qwen2.5-Math-1.5B-Instruct) on the [GAIR/LIMO](https://huggingface.co/datasets/GAIR/LIMO) dataset.
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start

 ---
 base_model: Qwen/Qwen2.5-Math-1.5B-Instruct
 library_name: transformers
+model_name: Qwen2.5-1.5B-Math-Instruct-LIMO
 tags:
 - generated_from_trainer
+- trl
+- sft
 licence: license
 ---
+# Model Card for Qwen2.5-1.5B-Math-Instruct-LIMO
+This model is a fine-tuned version of [Qwen/Qwen2.5-Math-1.5B-Instruct](https://huggingface.co/Qwen/Qwen2.5-Math-1.5B-Instruct).
 It has been trained using [TRL](https://github.com/huggingface/trl).
 ## Quick start

all_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "total_flos": 20283251490816.0,
-    "train_loss": 0.7583397939968645,
-    "train_runtime": 1935.5651,
     "train_samples": 817,
-    "train_samples_per_second": 11.753,
-    "train_steps_per_second": 0.184
 }

 {
+    "total_flos": 40566502981632.0,
+    "train_loss": 0.25444099340545995,
+    "train_runtime": 2064.0536,
     "train_samples": 817,
+    "train_samples_per_second": 22.042,
+    "train_steps_per_second": 0.345
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "total_flos": 20283251490816.0,
-    "train_loss": 0.7583397939968645,
-    "train_runtime": 1935.5651,
     "train_samples": 817,
-    "train_samples_per_second": 11.753,
-    "train_steps_per_second": 0.184
 }

 {
+    "total_flos": 40566502981632.0,
+    "train_loss": 0.25444099340545995,
+    "train_runtime": 2064.0536,
     "train_samples": 817,
+    "train_samples_per_second": 22.042,
+    "train_steps_per_second": 0.345
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.0,
   "eval_steps": 500,
-  "global_step": 356,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -506,19 +506,516 @@
       "step": 355
     },
     {
-      "epoch": 4.0,
-      "step": 356,
-      "total_flos": 20283251490816.0,
-      "train_loss": 0.7583397939968645,
-      "train_runtime": 1935.5651,
-      "train_samples_per_second": 11.753,
-      "train_steps_per_second": 0.184
     }
   ],
   "logging_steps": 5,
-  "max_steps": 356,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 4,
   "save_steps": 200,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -532,7 +1029,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 20283251490816.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 8.0,
   "eval_steps": 500,
+  "global_step": 712,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "step": 355
     },
     {
+      "epoch": 4.044943820224719,
+      "grad_norm": 0.4074217412543327,
+      "learning_rate": 1.1585150086919896e-05,
+      "loss": 0.6009,
+      "step": 360
+    },
+    {
+      "epoch": 4.101123595505618,
+      "grad_norm": 0.4271665264127198,
+      "learning_rate": 1.137632369284973e-05,
+      "loss": 0.6207,
+      "step": 365
+    },
+    {
+      "epoch": 4.157303370786517,
+      "grad_norm": 0.43109911858630096,
+      "learning_rate": 1.1167294115304992e-05,
+      "loss": 0.5911,
+      "step": 370
+    },
+    {
+      "epoch": 4.213483146067416,
+      "grad_norm": 0.43839912783355806,
+      "learning_rate": 1.0958174212861062e-05,
+      "loss": 0.6011,
+      "step": 375
+    },
+    {
+      "epoch": 4.269662921348314,
+      "grad_norm": 0.4190687745455898,
+      "learning_rate": 1.0749076892861227e-05,
+      "loss": 0.5983,
+      "step": 380
+    },
+    {
+      "epoch": 4.325842696629214,
+      "grad_norm": 0.4272292754884261,
+      "learning_rate": 1.0540115050456152e-05,
+      "loss": 0.6298,
+      "step": 385
+    },
+    {
+      "epoch": 4.382022471910112,
+      "grad_norm": 0.4188166195248199,
+      "learning_rate": 1.0331401507649868e-05,
+      "loss": 0.614,
+      "step": 390
+    },
+    {
+      "epoch": 4.438202247191011,
+      "grad_norm": 0.46031386712411543,
+      "learning_rate": 1.012304895238529e-05,
+      "loss": 0.5934,
+      "step": 395
+    },
+    {
+      "epoch": 4.49438202247191,
+      "grad_norm": 0.4198160623739865,
+      "learning_rate": 9.915169877702096e-06,
+      "loss": 0.5816,
+      "step": 400
+    },
+    {
+      "epoch": 4.550561797752809,
+      "grad_norm": 0.41877479862746064,
+      "learning_rate": 9.707876520999864e-06,
+      "loss": 0.6071,
+      "step": 405
+    },
+    {
+      "epoch": 4.606741573033708,
+      "grad_norm": 0.445785010864897,
+      "learning_rate": 9.501280803439204e-06,
+      "loss": 0.5816,
+      "step": 410
+    },
+    {
+      "epoch": 4.662921348314606,
+      "grad_norm": 0.4481588101026953,
+      "learning_rate": 9.295494269513659e-06,
+      "loss": 0.6006,
+      "step": 415
+    },
+    {
+      "epoch": 4.719101123595506,
+      "grad_norm": 0.4260960071459342,
+      "learning_rate": 9.090628026824941e-06,
+      "loss": 0.6357,
+      "step": 420
+    },
+    {
+      "epoch": 4.775280898876405,
+      "grad_norm": 0.4192037207998735,
+      "learning_rate": 8.886792686094096e-06,
+      "loss": 0.6006,
+      "step": 425
+    },
+    {
+      "epoch": 4.831460674157303,
+      "grad_norm": 0.43566168980415704,
+      "learning_rate": 8.684098301440903e-06,
+      "loss": 0.6267,
+      "step": 430
+    },
+    {
+      "epoch": 4.887640449438202,
+      "grad_norm": 0.42117325698617175,
+      "learning_rate": 8.482654310963817e-06,
+      "loss": 0.595,
+      "step": 435
+    },
+    {
+      "epoch": 4.943820224719101,
+      "grad_norm": 0.4414097385180421,
+      "learning_rate": 8.2825694776525e-06,
+      "loss": 0.5871,
+      "step": 440
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.41448225752045526,
+      "learning_rate": 8.083951830664867e-06,
+      "loss": 0.5838,
+      "step": 445
+    },
+    {
+      "epoch": 5.056179775280899,
+      "grad_norm": 0.44467080989005614,
+      "learning_rate": 7.886908607000321e-06,
+      "loss": 0.5612,
+      "step": 450
+    },
+    {
+      "epoch": 5.112359550561798,
+      "grad_norm": 0.48267692647228083,
+      "learning_rate": 7.691546193600702e-06,
+      "loss": 0.5438,
+      "step": 455
+    },
+    {
+      "epoch": 5.168539325842697,
+      "grad_norm": 0.46882770217949304,
+      "learning_rate": 7.497970069910192e-06,
+      "loss": 0.5145,
+      "step": 460
+    },
+    {
+      "epoch": 5.224719101123595,
+      "grad_norm": 0.45016082689033277,
+      "learning_rate": 7.306284750925192e-06,
+      "loss": 0.5392,
+      "step": 465
+    },
+    {
+      "epoch": 5.280898876404494,
+      "grad_norm": 0.4904333208280953,
+      "learning_rate": 7.116593730764929e-06,
+      "loss": 0.5172,
+      "step": 470
+    },
+    {
+      "epoch": 5.337078651685394,
+      "grad_norm": 0.5047681974857045,
+      "learning_rate": 6.928999426793234e-06,
+      "loss": 0.5408,
+      "step": 475
+    },
+    {
+      "epoch": 5.393258426966292,
+      "grad_norm": 0.46939981998911995,
+      "learning_rate": 6.743603124321712e-06,
+      "loss": 0.5408,
+      "step": 480
+    },
+    {
+      "epoch": 5.449438202247191,
+      "grad_norm": 0.48583542280728176,
+      "learning_rate": 6.5605049219240635e-06,
+      "loss": 0.5564,
+      "step": 485
+    },
+    {
+      "epoch": 5.50561797752809,
+      "grad_norm": 0.445507769617856,
+      "learning_rate": 6.379803677391223e-06,
+      "loss": 0.5272,
+      "step": 490
+    },
+    {
+      "epoch": 5.561797752808989,
+      "grad_norm": 0.48127792996455504,
+      "learning_rate": 6.201596954356362e-06,
+      "loss": 0.5221,
+      "step": 495
+    },
+    {
+      "epoch": 5.617977528089888,
+      "grad_norm": 0.48763800709480937,
+      "learning_rate": 6.02598096961865e-06,
+      "loss": 0.5017,
+      "step": 500
+    },
+    {
+      "epoch": 5.674157303370786,
+      "grad_norm": 0.45141538643328166,
+      "learning_rate": 5.853050541194187e-06,
+      "loss": 0.5301,
+      "step": 505
+    },
+    {
+      "epoch": 5.730337078651686,
+      "grad_norm": 0.46888316703181054,
+      "learning_rate": 5.682899037122178e-06,
+      "loss": 0.5088,
+      "step": 510
+    },
+    {
+      "epoch": 5.786516853932584,
+      "grad_norm": 0.49578196304683,
+      "learning_rate": 5.515618325053952e-06,
+      "loss": 0.5051,
+      "step": 515
+    },
+    {
+      "epoch": 5.842696629213483,
+      "grad_norm": 0.4766026956952897,
+      "learning_rate": 5.351298722652064e-06,
+      "loss": 0.509,
+      "step": 520
+    },
+    {
+      "epoch": 5.898876404494382,
+      "grad_norm": 0.5255442360578876,
+      "learning_rate": 5.190028948826304e-06,
+      "loss": 0.5465,
+      "step": 525
+    },
+    {
+      "epoch": 5.955056179775281,
+      "grad_norm": 0.5102538127102871,
+      "learning_rate": 5.031896075832846e-06,
+      "loss": 0.5186,
+      "step": 530
+    },
+    {
+      "epoch": 6.01123595505618,
+      "grad_norm": 0.5022519456849229,
+      "learning_rate": 4.876985482262482e-06,
+      "loss": 0.5204,
+      "step": 535
+    },
+    {
+      "epoch": 6.067415730337078,
+      "grad_norm": 0.46834498920984025,
+      "learning_rate": 4.725380806943299e-06,
+      "loss": 0.4707,
+      "step": 540
+    },
+    {
+      "epoch": 6.123595505617978,
+      "grad_norm": 0.5403111606747254,
+      "learning_rate": 4.577163903782655e-06,
+      "loss": 0.4491,
+      "step": 545
+    },
+    {
+      "epoch": 6.179775280898877,
+      "grad_norm": 0.5964108863972761,
+      "learning_rate": 4.432414797572894e-06,
+      "loss": 0.4709,
+      "step": 550
+    },
+    {
+      "epoch": 6.235955056179775,
+      "grad_norm": 0.4994302712693112,
+      "learning_rate": 4.291211640784608e-06,
+      "loss": 0.4708,
+      "step": 555
+    },
+    {
+      "epoch": 6.292134831460674,
+      "grad_norm": 0.49243733113864285,
+      "learning_rate": 4.153630671370821e-06,
+      "loss": 0.4926,
+      "step": 560
+    },
+    {
+      "epoch": 6.348314606741573,
+      "grad_norm": 0.49658882787661995,
+      "learning_rate": 4.019746171604824e-06,
+      "loss": 0.502,
+      "step": 565
+    },
+    {
+      "epoch": 6.404494382022472,
+      "grad_norm": 0.5418840142061598,
+      "learning_rate": 3.889630427973951e-06,
+      "loss": 0.4602,
+      "step": 570
+    },
+    {
+      "epoch": 6.460674157303371,
+      "grad_norm": 0.5008443330249364,
+      "learning_rate": 3.763353692150864e-06,
+      "loss": 0.4665,
+      "step": 575
+    },
+    {
+      "epoch": 6.51685393258427,
+      "grad_norm": 0.48589030681678613,
+      "learning_rate": 3.6409841430635166e-06,
+      "loss": 0.4497,
+      "step": 580
+    },
+    {
+      "epoch": 6.573033707865169,
+      "grad_norm": 0.5820871330261026,
+      "learning_rate": 3.522587850084197e-06,
+      "loss": 0.4629,
+      "step": 585
+    },
+    {
+      "epoch": 6.629213483146067,
+      "grad_norm": 0.49834548702881326,
+      "learning_rate": 3.408228737357575e-06,
+      "loss": 0.483,
+      "step": 590
+    },
+    {
+      "epoch": 6.685393258426966,
+      "grad_norm": 0.5052799618260936,
+      "learning_rate": 3.297968549286974e-06,
+      "loss": 0.4808,
+      "step": 595
+    },
+    {
+      "epoch": 6.741573033707866,
+      "grad_norm": 0.492591898344833,
+      "learning_rate": 3.191866817197539e-06,
+      "loss": 0.472,
+      "step": 600
+    },
+    {
+      "epoch": 6.797752808988764,
+      "grad_norm": 0.49032082408314204,
+      "learning_rate": 3.089980827194276e-06,
+      "loss": 0.4611,
+      "step": 605
+    },
+    {
+      "epoch": 6.853932584269663,
+      "grad_norm": 0.4959126643842184,
+      "learning_rate": 2.9923655892323144e-06,
+      "loss": 0.4726,
+      "step": 610
+    },
+    {
+      "epoch": 6.910112359550562,
+      "grad_norm": 0.5335774103596451,
+      "learning_rate": 2.8990738074161196e-06,
+      "loss": 0.4792,
+      "step": 615
+    },
+    {
+      "epoch": 6.966292134831461,
+      "grad_norm": 0.5201706543464556,
+      "learning_rate": 2.8101558515436506e-06,
+      "loss": 0.4711,
+      "step": 620
+    },
+    {
+      "epoch": 7.022471910112359,
+      "grad_norm": 0.4623475019520009,
+      "learning_rate": 2.725659729910878e-06,
+      "loss": 0.4545,
+      "step": 625
+    },
+    {
+      "epoch": 7.078651685393258,
+      "grad_norm": 0.4834608390252829,
+      "learning_rate": 2.645631063391285e-06,
+      "loss": 0.443,
+      "step": 630
+    },
+    {
+      "epoch": 7.134831460674158,
+      "grad_norm": 0.5359592571307704,
+      "learning_rate": 2.570113060804401e-06,
+      "loss": 0.441,
+      "step": 635
+    },
+    {
+      "epoch": 7.191011235955056,
+      "grad_norm": 0.5433362481606256,
+      "learning_rate": 2.4991464955866314e-06,
+      "loss": 0.4264,
+      "step": 640
+    },
+    {
+      "epoch": 7.247191011235955,
+      "grad_norm": 0.5225953610583668,
+      "learning_rate": 2.432769683776995e-06,
+      "loss": 0.4145,
+      "step": 645
+    },
+    {
+      "epoch": 7.303370786516854,
+      "grad_norm": 0.5205000317985969,
+      "learning_rate": 2.371018463329651e-06,
+      "loss": 0.435,
+      "step": 650
+    },
+    {
+      "epoch": 7.359550561797753,
+      "grad_norm": 0.5007819526288158,
+      "learning_rate": 2.3139261747643925e-06,
+      "loss": 0.41,
+      "step": 655
+    },
+    {
+      "epoch": 7.415730337078652,
+      "grad_norm": 0.518942310039327,
+      "learning_rate": 2.261523643165532e-06,
+      "loss": 0.4502,
+      "step": 660
+    },
+    {
+      "epoch": 7.47191011235955,
+      "grad_norm": 0.49873700284836797,
+      "learning_rate": 2.2138391615389306e-06,
+      "loss": 0.4324,
+      "step": 665
+    },
+    {
+      "epoch": 7.52808988764045,
+      "grad_norm": 0.5208414783528387,
+      "learning_rate": 2.1708984755361205e-06,
+      "loss": 0.4449,
+      "step": 670
+    },
+    {
+      "epoch": 7.584269662921348,
+      "grad_norm": 0.5791900845785815,
+      "learning_rate": 2.1327247695538015e-06,
+      "loss": 0.4484,
+      "step": 675
+    },
+    {
+      "epoch": 7.640449438202247,
+      "grad_norm": 0.5438940813210439,
+      "learning_rate": 2.0993386542161944e-06,
+      "loss": 0.4685,
+      "step": 680
+    },
+    {
+      "epoch": 7.696629213483146,
+      "grad_norm": 0.5127534158556458,
+      "learning_rate": 2.070758155247017e-06,
+      "loss": 0.4339,
+      "step": 685
+    },
+    {
+      "epoch": 7.752808988764045,
+      "grad_norm": 0.5415209164546988,
+      "learning_rate": 2.0469987037371005e-06,
+      "loss": 0.4103,
+      "step": 690
+    },
+    {
+      "epoch": 7.808988764044944,
+      "grad_norm": 0.5136419675345572,
+      "learning_rate": 2.028073127812876e-06,
+      "loss": 0.4169,
+      "step": 695
+    },
+    {
+      "epoch": 7.865168539325842,
+      "grad_norm": 0.5319921953080505,
+      "learning_rate": 2.013991645710262e-06,
+      "loss": 0.4286,
+      "step": 700
+    },
+    {
+      "epoch": 7.921348314606742,
+      "grad_norm": 0.5733506841186511,
+      "learning_rate": 2.0047618602576594e-06,
+      "loss": 0.4505,
+      "step": 705
+    },
+    {
+      "epoch": 7.97752808988764,
+      "grad_norm": 0.5142139821667071,
+      "learning_rate": 2.0003887547710647e-06,
+      "loss": 0.4202,
+      "step": 710
+    },
+    {
+      "epoch": 8.0,
+      "step": 712,
+      "total_flos": 40566502981632.0,
+      "train_loss": 0.25444099340545995,
+      "train_runtime": 2064.0536,
+      "train_samples_per_second": 22.042,
+      "train_steps_per_second": 0.345
     }
   ],
   "logging_steps": 5,
+  "max_steps": 712,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 8,
   "save_steps": 200,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 40566502981632.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null