Training in progress, step 100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +363 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:083de0e17bec98e47e272e249c16fa5dde71b8dba3310558a507bbd46523f5ee
 size 140815952

 version https://git-lfs.github.com/spec/v1
+oid sha256:bc6679f17a4eba4cb719d3c1c23ad9fd8766b595f7ee0a020f248abc707f4393
 size 140815952

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5e1a86ff754ffb0b8734d24659c4fc524a00407ec4b0ba3d9561f5ff76b34885
 size 71878612

 version https://git-lfs.github.com/spec/v1
+oid sha256:2c6e65581068362858715e14bb97798f8e03fabfa411d17280c733ec3d9bc66a
 size 71878612

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:217395e233075be7599fd8d7436e9b9723665b45d2d6269731631964b1bd72ef
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:535fdf4c0a3f71d25281edce97d7d5cb1c2b4e518dff96eeb9a6e9efb0fe9ed7
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d359eb5d29e75fb2bbe5b7026981da69b95b8ad1fea469302d13cde104f7e8a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ddb9588ea654e56e83effcf81a2bc03480954babcf6415cb44d41d3bfb8039f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.5392982959747314,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.0942951438000943,
   "eval_steps": 50,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -373,6 +373,364 @@
       "eval_samples_per_second": 56.303,
       "eval_steps_per_second": 14.123,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -401,7 +759,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3883562421977088.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.4839268922805786,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.1885902876001886,
   "eval_steps": 50,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 56.303,
       "eval_steps_per_second": 14.123,
       "step": 50
+    },
+    {
+      "epoch": 0.09618104667609619,
+      "grad_norm": 1.2728794813156128,
+      "learning_rate": 8.894386393810563e-05,
+      "loss": 1.3532,
+      "step": 51
+    },
+    {
+      "epoch": 0.09806694955209806,
+      "grad_norm": 1.2738091945648193,
+      "learning_rate": 8.842005554284296e-05,
+      "loss": 1.3604,
+      "step": 52
+    },
+    {
+      "epoch": 0.09995285242809995,
+      "grad_norm": 1.0199331045150757,
+      "learning_rate": 8.788574348801675e-05,
+      "loss": 1.3546,
+      "step": 53
+    },
+    {
+      "epoch": 0.10183875530410184,
+      "grad_norm": 0.8882190585136414,
+      "learning_rate": 8.73410738492077e-05,
+      "loss": 1.1719,
+      "step": 54
+    },
+    {
+      "epoch": 0.10372465818010372,
+      "grad_norm": 0.8215413093566895,
+      "learning_rate": 8.678619553365659e-05,
+      "loss": 1.3678,
+      "step": 55
+    },
+    {
+      "epoch": 0.10561056105610561,
+      "grad_norm": 0.7815274000167847,
+      "learning_rate": 8.622126023955446e-05,
+      "loss": 1.3791,
+      "step": 56
+    },
+    {
+      "epoch": 0.1074964639321075,
+      "grad_norm": 0.7754129767417908,
+      "learning_rate": 8.564642241456986e-05,
+      "loss": 1.3071,
+      "step": 57
+    },
+    {
+      "epoch": 0.10938236680810938,
+      "grad_norm": 0.8610193729400635,
+      "learning_rate": 8.506183921362443e-05,
+      "loss": 1.4257,
+      "step": 58
+    },
+    {
+      "epoch": 0.11126826968411127,
+      "grad_norm": 0.7398249506950378,
+      "learning_rate": 8.44676704559283e-05,
+      "loss": 1.3307,
+      "step": 59
+    },
+    {
+      "epoch": 0.11315417256011315,
+      "grad_norm": 0.8163387179374695,
+      "learning_rate": 8.386407858128706e-05,
+      "loss": 1.2897,
+      "step": 60
+    },
+    {
+      "epoch": 0.11504007543611504,
+      "grad_norm": 0.8740779161453247,
+      "learning_rate": 8.32512286056924e-05,
+      "loss": 1.2508,
+      "step": 61
+    },
+    {
+      "epoch": 0.11692597831211693,
+      "grad_norm": 0.818240225315094,
+      "learning_rate": 8.262928807620843e-05,
+      "loss": 1.2878,
+      "step": 62
+    },
+    {
+      "epoch": 0.1188118811881188,
+      "grad_norm": 0.8404731154441833,
+      "learning_rate": 8.199842702516583e-05,
+      "loss": 1.3849,
+      "step": 63
+    },
+    {
+      "epoch": 0.1206977840641207,
+      "grad_norm": 0.896458625793457,
+      "learning_rate": 8.135881792367686e-05,
+      "loss": 1.4535,
+      "step": 64
+    },
+    {
+      "epoch": 0.12258368694012259,
+      "grad_norm": 0.8432134389877319,
+      "learning_rate": 8.07106356344834e-05,
+      "loss": 1.4789,
+      "step": 65
+    },
+    {
+      "epoch": 0.12446958981612447,
+      "grad_norm": 0.8519056439399719,
+      "learning_rate": 8.005405736415126e-05,
+      "loss": 1.5264,
+      "step": 66
+    },
+    {
+      "epoch": 0.12635549269212634,
+      "grad_norm": 0.7978764772415161,
+      "learning_rate": 7.938926261462366e-05,
+      "loss": 1.3318,
+      "step": 67
+    },
+    {
+      "epoch": 0.12824139556812825,
+      "grad_norm": 0.8735756278038025,
+      "learning_rate": 7.871643313414718e-05,
+      "loss": 1.355,
+      "step": 68
+    },
+    {
+      "epoch": 0.13012729844413012,
+      "grad_norm": 0.8317325711250305,
+      "learning_rate": 7.803575286758364e-05,
+      "loss": 1.3436,
+      "step": 69
+    },
+    {
+      "epoch": 0.132013201320132,
+      "grad_norm": 0.9063963294029236,
+      "learning_rate": 7.734740790612136e-05,
+      "loss": 1.5033,
+      "step": 70
+    },
+    {
+      "epoch": 0.1338991041961339,
+      "grad_norm": 0.8298577070236206,
+      "learning_rate": 7.66515864363997e-05,
+      "loss": 1.4334,
+      "step": 71
+    },
+    {
+      "epoch": 0.13578500707213578,
+      "grad_norm": 0.821303129196167,
+      "learning_rate": 7.594847868906076e-05,
+      "loss": 1.4554,
+      "step": 72
+    },
+    {
+      "epoch": 0.13767090994813766,
+      "grad_norm": 0.8228156566619873,
+      "learning_rate": 7.52382768867422e-05,
+      "loss": 1.3866,
+      "step": 73
+    },
+    {
+      "epoch": 0.13955681282413956,
+      "grad_norm": 0.8506703972816467,
+      "learning_rate": 7.452117519152542e-05,
+      "loss": 1.473,
+      "step": 74
+    },
+    {
+      "epoch": 0.14144271570014144,
+      "grad_norm": 0.8994743824005127,
+      "learning_rate": 7.379736965185368e-05,
+      "loss": 1.6536,
+      "step": 75
+    },
+    {
+      "epoch": 0.14332861857614332,
+      "grad_norm": 0.9050391912460327,
+      "learning_rate": 7.30670581489344e-05,
+      "loss": 1.3966,
+      "step": 76
+    },
+    {
+      "epoch": 0.14521452145214522,
+      "grad_norm": 0.9391245245933533,
+      "learning_rate": 7.233044034264034e-05,
+      "loss": 1.7276,
+      "step": 77
+    },
+    {
+      "epoch": 0.1471004243281471,
+      "grad_norm": 0.8455343842506409,
+      "learning_rate": 7.158771761692464e-05,
+      "loss": 1.4665,
+      "step": 78
+    },
+    {
+      "epoch": 0.14898632720414898,
+      "grad_norm": 0.9894546866416931,
+      "learning_rate": 7.083909302476453e-05,
+      "loss": 1.5861,
+      "step": 79
+    },
+    {
+      "epoch": 0.15087223008015088,
+      "grad_norm": 0.883921205997467,
+      "learning_rate": 7.008477123264848e-05,
+      "loss": 1.4461,
+      "step": 80
+    },
+    {
+      "epoch": 0.15275813295615276,
+      "grad_norm": 0.9232316613197327,
+      "learning_rate": 6.932495846462261e-05,
+      "loss": 1.7158,
+      "step": 81
+    },
+    {
+      "epoch": 0.15464403583215464,
+      "grad_norm": 0.9596819877624512,
+      "learning_rate": 6.855986244591104e-05,
+      "loss": 1.7722,
+      "step": 82
+    },
+    {
+      "epoch": 0.15652993870815654,
+      "grad_norm": 0.920516848564148,
+      "learning_rate": 6.778969234612584e-05,
+      "loss": 1.4213,
+      "step": 83
+    },
+    {
+      "epoch": 0.15841584158415842,
+      "grad_norm": 0.9526838660240173,
+      "learning_rate": 6.701465872208216e-05,
+      "loss": 1.6793,
+      "step": 84
+    },
+    {
+      "epoch": 0.1603017444601603,
+      "grad_norm": 0.9615785479545593,
+      "learning_rate": 6.623497346023418e-05,
+      "loss": 1.5577,
+      "step": 85
+    },
+    {
+      "epoch": 0.1621876473361622,
+      "grad_norm": 0.891538679599762,
+      "learning_rate": 6.545084971874738e-05,
+      "loss": 1.4552,
+      "step": 86
+    },
+    {
+      "epoch": 0.16407355021216408,
+      "grad_norm": 0.9908190369606018,
+      "learning_rate": 6.466250186922325e-05,
+      "loss": 1.4512,
+      "step": 87
+    },
+    {
+      "epoch": 0.16595945308816595,
+      "grad_norm": 0.9302291870117188,
+      "learning_rate": 6.387014543809223e-05,
+      "loss": 1.6369,
+      "step": 88
+    },
+    {
+      "epoch": 0.16784535596416786,
+      "grad_norm": 1.0175998210906982,
+      "learning_rate": 6.307399704769099e-05,
+      "loss": 1.5077,
+      "step": 89
+    },
+    {
+      "epoch": 0.16973125884016974,
+      "grad_norm": 0.9874126315116882,
+      "learning_rate": 6.227427435703997e-05,
+      "loss": 1.733,
+      "step": 90
+    },
+    {
+      "epoch": 0.1716171617161716,
+      "grad_norm": 0.9775768518447876,
+      "learning_rate": 6.147119600233758e-05,
+      "loss": 1.5483,
+      "step": 91
+    },
+    {
+      "epoch": 0.1735030645921735,
+      "grad_norm": 1.0082566738128662,
+      "learning_rate": 6.066498153718735e-05,
+      "loss": 1.5691,
+      "step": 92
+    },
+    {
+      "epoch": 0.1753889674681754,
+      "grad_norm": 1.0059901475906372,
+      "learning_rate": 5.985585137257401e-05,
+      "loss": 1.4483,
+      "step": 93
+    },
+    {
+      "epoch": 0.17727487034417727,
+      "grad_norm": 0.9890210628509521,
+      "learning_rate": 5.90440267166055e-05,
+      "loss": 1.5623,
+      "step": 94
+    },
+    {
+      "epoch": 0.17916077322017915,
+      "grad_norm": 1.0527801513671875,
+      "learning_rate": 5.8229729514036705e-05,
+      "loss": 1.6086,
+      "step": 95
+    },
+    {
+      "epoch": 0.18104667609618105,
+      "grad_norm": 1.0493412017822266,
+      "learning_rate": 5.74131823855921e-05,
+      "loss": 1.6354,
+      "step": 96
+    },
+    {
+      "epoch": 0.18293257897218293,
+      "grad_norm": 1.129049301147461,
+      "learning_rate": 5.6594608567103456e-05,
+      "loss": 1.4702,
+      "step": 97
+    },
+    {
+      "epoch": 0.1848184818481848,
+      "grad_norm": 1.0613797903060913,
+      "learning_rate": 5.577423184847932e-05,
+      "loss": 1.5875,
+      "step": 98
+    },
+    {
+      "epoch": 0.1867043847241867,
+      "grad_norm": 1.1796647310256958,
+      "learning_rate": 5.495227651252315e-05,
+      "loss": 1.6639,
+      "step": 99
+    },
+    {
+      "epoch": 0.1885902876001886,
+      "grad_norm": 1.1907509565353394,
+      "learning_rate": 5.4128967273616625e-05,
+      "loss": 1.5667,
+      "step": 100
+    },
+    {
+      "epoch": 0.1885902876001886,
+      "eval_loss": 1.4839268922805786,
+      "eval_runtime": 15.8643,
+      "eval_samples_per_second": 56.29,
+      "eval_steps_per_second": 14.12,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 7767124843954176.0,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null