pcalhoun
/

gpt-j-6b-limericks-finetuned

Text Generation

Transformers

PyTorch

gptj

Model card Files Files and versions Community

Ubuntu commited on Feb 11, 2023

Commit

cc48966

1 Parent(s): 40ab862

step 1660

Browse files

Files changed (2) hide show

pytorch_model.bin +1 -1
trainer_state.json +273 -3

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4369b6ee7ce36d31577f5b231b5dd09049ddf21563da9ef7997fa05a8d273818
 size 24673403925

 version https://git-lfs.github.com/spec/v1
+oid sha256:188b012cec3039d8440f0980b517a0c0e7c8993f8a4f07b2854d3b2f700b2494
 size 24673403925

trainer_state.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.07628928898382667,
-  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -418,11 +418,281 @@
       "eval_samples_per_second": 3.188,
       "eval_steps_per_second": 0.407,
       "step": 1000
     }
   ],
   "max_steps": 13108,
   "num_train_epochs": 1,
-  "total_flos": 14310696812544.0,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.12664021971315229,
+  "global_step": 1660,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.188,
       "eval_steps_per_second": 0.407,
       "step": 1000
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 2.1528055667877197,
+      "eval_runtime": 96.9725,
+      "eval_samples_per_second": 3.228,
+      "eval_steps_per_second": 0.412,
+      "step": 1020
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 2.167107582092285,
+      "eval_runtime": 96.6542,
+      "eval_samples_per_second": 3.238,
+      "eval_steps_per_second": 0.414,
+      "step": 1040
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 2.1584465503692627,
+      "eval_runtime": 98.4331,
+      "eval_samples_per_second": 3.18,
+      "eval_steps_per_second": 0.406,
+      "step": 1060
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 2.152431011199951,
+      "eval_runtime": 95.2227,
+      "eval_samples_per_second": 3.287,
+      "eval_steps_per_second": 0.42,
+      "step": 1080
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 2.1513078212738037,
+      "eval_runtime": 95.2983,
+      "eval_samples_per_second": 3.284,
+      "eval_steps_per_second": 0.42,
+      "step": 1100
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 2.1465654373168945,
+      "eval_runtime": 96.5284,
+      "eval_samples_per_second": 3.243,
+      "eval_steps_per_second": 0.414,
+      "step": 1120
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 2.155775785446167,
+      "eval_runtime": 95.918,
+      "eval_samples_per_second": 3.263,
+      "eval_steps_per_second": 0.417,
+      "step": 1140
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 2.148512363433838,
+      "eval_runtime": 96.3942,
+      "eval_samples_per_second": 3.247,
+      "eval_steps_per_second": 0.415,
+      "step": 1160
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 2.1571736335754395,
+      "eval_runtime": 94.8278,
+      "eval_samples_per_second": 3.301,
+      "eval_steps_per_second": 0.422,
+      "step": 1180
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 2.1482129096984863,
+      "eval_runtime": 95.7915,
+      "eval_samples_per_second": 3.268,
+      "eval_steps_per_second": 0.418,
+      "step": 1200
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 2.1445436477661133,
+      "eval_runtime": 97.0007,
+      "eval_samples_per_second": 3.227,
+      "eval_steps_per_second": 0.412,
+      "step": 1220
+    },
+    {
+      "epoch": 0.09,
+      "eval_loss": 2.1457667350769043,
+      "eval_runtime": 93.8614,
+      "eval_samples_per_second": 3.335,
+      "eval_steps_per_second": 0.426,
+      "step": 1240
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 2.155850648880005,
+      "eval_runtime": 94.8073,
+      "eval_samples_per_second": 3.301,
+      "eval_steps_per_second": 0.422,
+      "step": 1260
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 2.1380791664123535,
+      "eval_runtime": 95.9912,
+      "eval_samples_per_second": 3.261,
+      "eval_steps_per_second": 0.417,
+      "step": 1280
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 2.1424720287323,
+      "eval_runtime": 94.1052,
+      "eval_samples_per_second": 3.326,
+      "eval_steps_per_second": 0.425,
+      "step": 1300
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 2.1322383880615234,
+      "eval_runtime": 95.6595,
+      "eval_samples_per_second": 3.272,
+      "eval_steps_per_second": 0.418,
+      "step": 1320
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 2.1327874660491943,
+      "eval_runtime": 95.3348,
+      "eval_samples_per_second": 3.283,
+      "eval_steps_per_second": 0.42,
+      "step": 1340
+    },
+    {
+      "epoch": 0.1,
+      "eval_loss": 2.1295926570892334,
+      "eval_runtime": 94.6735,
+      "eval_samples_per_second": 3.306,
+      "eval_steps_per_second": 0.423,
+      "step": 1360
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 2.1335363388061523,
+      "eval_runtime": 94.2932,
+      "eval_samples_per_second": 3.319,
+      "eval_steps_per_second": 0.424,
+      "step": 1380
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 2.126971960067749,
+      "eval_runtime": 92.6523,
+      "eval_samples_per_second": 3.378,
+      "eval_steps_per_second": 0.432,
+      "step": 1400
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 2.1153903007507324,
+      "eval_runtime": 96.6374,
+      "eval_samples_per_second": 3.239,
+      "eval_steps_per_second": 0.414,
+      "step": 1420
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 2.1179113388061523,
+      "eval_runtime": 96.4386,
+      "eval_samples_per_second": 3.246,
+      "eval_steps_per_second": 0.415,
+      "step": 1440
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 2.1170127391815186,
+      "eval_runtime": 94.461,
+      "eval_samples_per_second": 3.314,
+      "eval_steps_per_second": 0.423,
+      "step": 1460
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 2.1248252391815186,
+      "eval_runtime": 95.6005,
+      "eval_samples_per_second": 3.274,
+      "eval_steps_per_second": 0.418,
+      "step": 1480
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 5e-05,
+      "loss": 1.9893,
+      "step": 1500
+    },
+    {
+      "epoch": 0.11,
+      "eval_loss": 2.117586851119995,
+      "eval_runtime": 95.6648,
+      "eval_samples_per_second": 3.272,
+      "eval_steps_per_second": 0.418,
+      "step": 1500
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 2.1058804988861084,
+      "eval_runtime": 95.0515,
+      "eval_samples_per_second": 3.293,
+      "eval_steps_per_second": 0.421,
+      "step": 1520
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 2.1127195358276367,
+      "eval_runtime": 95.0085,
+      "eval_samples_per_second": 3.294,
+      "eval_steps_per_second": 0.421,
+      "step": 1540
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 2.115964412689209,
+      "eval_runtime": 36.4716,
+      "eval_samples_per_second": 8.582,
+      "eval_steps_per_second": 0.384,
+      "step": 1560
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 2.1093251705169678,
+      "eval_runtime": 37.1698,
+      "eval_samples_per_second": 8.421,
+      "eval_steps_per_second": 0.377,
+      "step": 1580
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 2.1045827865600586,
+      "eval_runtime": 36.7758,
+      "eval_samples_per_second": 8.511,
+      "eval_steps_per_second": 0.381,
+      "step": 1600
+    },
+    {
+      "epoch": 0.12,
+      "eval_loss": 2.1027355194091797,
+      "eval_runtime": 35.9986,
+      "eval_samples_per_second": 8.695,
+      "eval_steps_per_second": 0.389,
+      "step": 1620
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 2.1164636611938477,
+      "eval_runtime": 36.3352,
+      "eval_samples_per_second": 8.614,
+      "eval_steps_per_second": 0.385,
+      "step": 1640
+    },
+    {
+      "epoch": 0.13,
+      "eval_loss": 2.105306625366211,
+      "eval_runtime": 36.3036,
+      "eval_samples_per_second": 8.622,
+      "eval_steps_per_second": 0.386,
+      "step": 1660
     }
   ],
   "max_steps": 13108,
   "num_train_epochs": 1,
+  "total_flos": 24131860955136.0,
   "trial_name": null,
   "trial_params": null
 }