End of training

Browse files

Files changed (5) hide show

README.md +16 -4
all_results.json +17 -17
eval_results.json +13 -13
train_results.json +5 -5
trainer_state.json +950 -12

README.md CHANGED Viewed

@@ -3,11 +3,23 @@ license: mit
 base_model: gpt2-xl
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
 model-index:
 - name: lmind_nq_train600_eval300_v1_recite_qa_gpt2-xl
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -15,10 +27,10 @@ should probably proofread and complete it, then remove this comment. -->
 # lmind_nq_train600_eval300_v1_recite_qa_gpt2-xl
-This model is a fine-tuned version of [gpt2-xl](https://huggingface.co/gpt2-xl) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.3638
-- Accuracy: 0.8413
 ## Model description

 base_model: gpt2-xl
 tags:
 - generated_from_trainer
+datasets:
+- tyzhu/lmind_nq_train600_eval300_v1_recite_qa
 metrics:
 - accuracy
 model-index:
 - name: lmind_nq_train600_eval300_v1_recite_qa_gpt2-xl
+  results:
+  - task:
+      name: Causal Language Modeling
+      type: text-generation
+    dataset:
+      name: tyzhu/lmind_nq_train600_eval300_v1_recite_qa
+      type: tyzhu/lmind_nq_train600_eval300_v1_recite_qa
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.8407058823529412
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # lmind_nq_train600_eval300_v1_recite_qa_gpt2-xl
+This model is a fine-tuned version of [gpt2-xl](https://huggingface.co/gpt2-xl) on the tyzhu/lmind_nq_train600_eval300_v1_recite_qa dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.3660
+- Accuracy: 0.8407
 ## Model description

all_results.json CHANGED Viewed

@@ -1,21 +1,21 @@
 {
-    "epoch": 10.0,
-    "eval_accuracy": 0.841281045751634,
-    "eval_exact_match": 11.333333333333334,
-    "eval_f1": 16.81375661375661,
-    "eval_loss": 0.3552272915840149,
-    "eval_qa_bleu": 10.662786602977969,
-    "eval_qa_exact_match": 0.08,
-    "eval_recite_bleu": 25.845376399256814,
-    "eval_recite_exact_match": 0.07,
-    "eval_runtime": 8.2767,
     "eval_samples": 300,
-    "eval_samples_per_second": 36.246,
-    "eval_steps_per_second": 2.296,
-    "perplexity": 1.4265048499835646,
-    "train_loss": 0.6045080854046729,
-    "train_runtime": 3151.2852,
     "train_samples": 1483,
-    "train_samples_per_second": 4.706,
-    "train_steps_per_second": 0.295
 }

 {
+    "epoch": 20.0,
+    "eval_accuracy": 0.8407058823529412,
+    "eval_exact_match": 12.0,
+    "eval_f1": 15.791798941798934,
+    "eval_loss": 0.365990549325943,
+    "eval_qa_bleu": 9.37996870880597,
+    "eval_qa_exact_match": 0.08666666666666667,
+    "eval_recite_bleu": 26.43773861474592,
+    "eval_recite_exact_match": 0.1,
+    "eval_runtime": 8.2014,
     "eval_samples": 300,
+    "eval_samples_per_second": 36.579,
+    "eval_steps_per_second": 2.317,
+    "perplexity": 1.441941615269907,
+    "train_loss": 0.03236631401764449,
+    "train_runtime": 2828.6852,
     "train_samples": 1483,
+    "train_samples_per_second": 10.485,
+    "train_steps_per_second": 0.658
 }

eval_results.json CHANGED Viewed

@@ -1,16 +1,16 @@
 {
-    "epoch": 10.0,
-    "eval_accuracy": 0.841281045751634,
-    "eval_exact_match": 11.333333333333334,
-    "eval_f1": 16.81375661375661,
-    "eval_loss": 0.3552272915840149,
-    "eval_qa_bleu": 10.662786602977969,
-    "eval_qa_exact_match": 0.08,
-    "eval_recite_bleu": 25.845376399256814,
-    "eval_recite_exact_match": 0.07,
-    "eval_runtime": 8.2767,
     "eval_samples": 300,
-    "eval_samples_per_second": 36.246,
-    "eval_steps_per_second": 2.296,
-    "perplexity": 1.4265048499835646
 }

 {
+    "epoch": 20.0,
+    "eval_accuracy": 0.8407058823529412,
+    "eval_exact_match": 12.0,
+    "eval_f1": 15.791798941798934,
+    "eval_loss": 0.365990549325943,
+    "eval_qa_bleu": 9.37996870880597,
+    "eval_qa_exact_match": 0.08666666666666667,
+    "eval_recite_bleu": 26.43773861474592,
+    "eval_recite_exact_match": 0.1,
+    "eval_runtime": 8.2014,
     "eval_samples": 300,
+    "eval_samples_per_second": 36.579,
+    "eval_steps_per_second": 2.317,
+    "perplexity": 1.441941615269907
 }

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 10.0,
-    "train_loss": 0.6045080854046729,
-    "train_runtime": 3151.2852,
     "train_samples": 1483,
-    "train_samples_per_second": 4.706,
-    "train_steps_per_second": 0.295
 }

 {
+    "epoch": 20.0,
+    "train_loss": 0.03236631401764449,
+    "train_runtime": 2828.6852,
     "train_samples": 1483,
+    "train_samples_per_second": 10.485,
+    "train_steps_per_second": 0.658
 }

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 10.0,
   "eval_steps": 47,
-  "global_step": 930,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -928,20 +928,958 @@
       "step": 930
     },
     {
-      "epoch": 10.0,
-      "step": 930,
-      "total_flos": 2.47434681850368e+16,
-      "train_loss": 0.6045080854046729,
-      "train_runtime": 3151.2852,
-      "train_samples_per_second": 4.706,
-      "train_steps_per_second": 0.295
     }
   ],
   "logging_steps": 10,
-  "max_steps": 930,
-  "num_train_epochs": 10,
   "save_steps": 500,
-  "total_flos": 2.47434681850368e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 20.0,
   "eval_steps": 47,
+  "global_step": 1860,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "step": 930
     },
     {
+      "epoch": 10.11,
+      "learning_rate": 3e-05,
+      "loss": 0.0637,
+      "step": 940
+    },
+    {
+      "epoch": 10.11,
+      "eval_accuracy": 0.8411764705882353,
+      "eval_loss": 0.3618181347846985,
+      "eval_runtime": 11.3655,
+      "eval_samples_per_second": 26.396,
+      "eval_steps_per_second": 1.672,
+      "step": 940
+    },
+    {
+      "epoch": 10.11,
+      "eval_exact_match": 11.666666666666666,
+      "eval_f1": 16.085185185185182,
+      "eval_qa_bleu": 8.74902056299004,
+      "eval_qa_exact_match": 0.09,
+      "eval_recite_bleu": 24.197336184324623,
+      "eval_recite_exact_match": 0.056666666666666664,
+      "step": 940
+    },
+    {
+      "epoch": 10.22,
+      "learning_rate": 3e-05,
+      "loss": 0.0643,
+      "step": 950
+    },
+    {
+      "epoch": 10.32,
+      "learning_rate": 3e-05,
+      "loss": 0.0694,
+      "step": 960
+    },
+    {
+      "epoch": 10.43,
+      "learning_rate": 3e-05,
+      "loss": 0.0691,
+      "step": 970
+    },
+    {
+      "epoch": 10.54,
+      "learning_rate": 3e-05,
+      "loss": 0.069,
+      "step": 980
+    },
+    {
+      "epoch": 10.61,
+      "eval_accuracy": 0.8414509803921568,
+      "eval_loss": 0.3563094437122345,
+      "eval_runtime": 8.2328,
+      "eval_samples_per_second": 36.439,
+      "eval_steps_per_second": 2.308,
+      "step": 987
+    },
+    {
+      "epoch": 10.61,
+      "eval_exact_match": 11.333333333333334,
+      "eval_f1": 15.137566137566136,
+      "eval_qa_bleu": 9.554429137249072,
+      "eval_qa_exact_match": 0.07666666666666666,
+      "eval_recite_bleu": 23.910757721350535,
+      "eval_recite_exact_match": 0.07333333333333333,
+      "step": 987
+    },
+    {
+      "epoch": 10.65,
+      "learning_rate": 3e-05,
+      "loss": 0.0698,
+      "step": 990
+    },
+    {
+      "epoch": 10.75,
+      "learning_rate": 3e-05,
+      "loss": 0.0696,
+      "step": 1000
+    },
+    {
+      "epoch": 10.86,
+      "learning_rate": 3e-05,
+      "loss": 0.0682,
+      "step": 1010
+    },
+    {
+      "epoch": 10.97,
+      "learning_rate": 3e-05,
+      "loss": 0.071,
+      "step": 1020
+    },
+    {
+      "epoch": 11.08,
+      "learning_rate": 3e-05,
+      "loss": 0.0636,
+      "step": 1030
+    },
+    {
+      "epoch": 11.12,
+      "eval_accuracy": 0.840875816993464,
+      "eval_loss": 0.36504313349723816,
+      "eval_runtime": 8.5962,
+      "eval_samples_per_second": 34.899,
+      "eval_steps_per_second": 2.21,
+      "step": 1034
+    },
+    {
+      "epoch": 11.12,
+      "eval_exact_match": 9.0,
+      "eval_f1": 13.016137566137564,
+      "eval_qa_bleu": 6.847070322558309,
+      "eval_qa_exact_match": 0.06,
+      "eval_recite_bleu": 20.79272983231636,
+      "eval_recite_exact_match": 0.043333333333333335,
+      "step": 1034
+    },
+    {
+      "epoch": 11.18,
+      "learning_rate": 3e-05,
+      "loss": 0.0633,
+      "step": 1040
+    },
+    {
+      "epoch": 11.29,
+      "learning_rate": 3e-05,
+      "loss": 0.0626,
+      "step": 1050
+    },
+    {
+      "epoch": 11.4,
+      "learning_rate": 3e-05,
+      "loss": 0.067,
+      "step": 1060
+    },
+    {
+      "epoch": 11.51,
+      "learning_rate": 3e-05,
+      "loss": 0.0658,
+      "step": 1070
+    },
+    {
+      "epoch": 11.61,
+      "learning_rate": 3e-05,
+      "loss": 0.0663,
+      "step": 1080
+    },
+    {
+      "epoch": 11.62,
+      "eval_accuracy": 0.8418039215686275,
+      "eval_loss": 0.3554021716117859,
+      "eval_runtime": 8.476,
+      "eval_samples_per_second": 35.394,
+      "eval_steps_per_second": 2.242,
+      "step": 1081
+    },
+    {
+      "epoch": 11.62,
+      "eval_exact_match": 10.666666666666666,
+      "eval_f1": 14.759547859547856,
+      "eval_qa_bleu": 7.764051246001461,
+      "eval_qa_exact_match": 0.07666666666666666,
+      "eval_recite_bleu": 24.921719211518564,
+      "eval_recite_exact_match": 0.08333333333333333,
+      "step": 1081
+    },
+    {
+      "epoch": 11.72,
+      "learning_rate": 3e-05,
+      "loss": 0.0674,
+      "step": 1090
+    },
+    {
+      "epoch": 11.83,
+      "learning_rate": 3e-05,
+      "loss": 0.0716,
+      "step": 1100
+    },
+    {
+      "epoch": 11.94,
+      "learning_rate": 3e-05,
+      "loss": 0.0689,
+      "step": 1110
+    },
+    {
+      "epoch": 12.04,
+      "learning_rate": 3e-05,
+      "loss": 0.0636,
+      "step": 1120
+    },
+    {
+      "epoch": 12.13,
+      "eval_accuracy": 0.840875816993464,
+      "eval_loss": 0.3674863576889038,
+      "eval_runtime": 8.463,
+      "eval_samples_per_second": 35.449,
+      "eval_steps_per_second": 2.245,
+      "step": 1128
+    },
+    {
+      "epoch": 12.13,
+      "eval_exact_match": 10.666666666666666,
+      "eval_f1": 14.650553150553147,
+      "eval_qa_bleu": 9.093912749957752,
+      "eval_qa_exact_match": 0.06666666666666667,
+      "eval_recite_bleu": 24.62110487495627,
+      "eval_recite_exact_match": 0.06666666666666667,
+      "step": 1128
+    },
+    {
+      "epoch": 12.15,
+      "learning_rate": 3e-05,
+      "loss": 0.0617,
+      "step": 1130
+    },
+    {
+      "epoch": 12.26,
+      "learning_rate": 3e-05,
+      "loss": 0.0629,
+      "step": 1140
+    },
+    {
+      "epoch": 12.37,
+      "learning_rate": 3e-05,
+      "loss": 0.061,
+      "step": 1150
+    },
+    {
+      "epoch": 12.47,
+      "learning_rate": 3e-05,
+      "loss": 0.0621,
+      "step": 1160
+    },
+    {
+      "epoch": 12.58,
+      "learning_rate": 3e-05,
+      "loss": 0.0632,
+      "step": 1170
+    },
+    {
+      "epoch": 12.63,
+      "eval_accuracy": 0.8418039215686275,
+      "eval_loss": 0.3590278625488281,
+      "eval_runtime": 8.472,
+      "eval_samples_per_second": 35.411,
+      "eval_steps_per_second": 2.243,
+      "step": 1175
+    },
+    {
+      "epoch": 12.63,
+      "eval_exact_match": 12.666666666666666,
+      "eval_f1": 16.126984126984127,
+      "eval_qa_bleu": 9.250714961910592,
+      "eval_qa_exact_match": 0.08666666666666667,
+      "eval_recite_bleu": 26.441847770240706,
+      "eval_recite_exact_match": 0.08333333333333333,
+      "step": 1175
+    },
+    {
+      "epoch": 12.69,
+      "learning_rate": 3e-05,
+      "loss": 0.0665,
+      "step": 1180
+    },
+    {
+      "epoch": 12.8,
+      "learning_rate": 3e-05,
+      "loss": 0.0656,
+      "step": 1190
+    },
+    {
+      "epoch": 12.9,
+      "learning_rate": 3e-05,
+      "loss": 0.0647,
+      "step": 1200
+    },
+    {
+      "epoch": 13.01,
+      "learning_rate": 3e-05,
+      "loss": 0.0656,
+      "step": 1210
+    },
+    {
+      "epoch": 13.12,
+      "learning_rate": 3e-05,
+      "loss": 0.0605,
+      "step": 1220
+    },
+    {
+      "epoch": 13.14,
+      "eval_accuracy": 0.8412679738562091,
+      "eval_loss": 0.36349713802337646,
+      "eval_runtime": 8.5252,
+      "eval_samples_per_second": 35.19,
+      "eval_steps_per_second": 2.229,
+      "step": 1222
+    },
+    {
+      "epoch": 13.14,
+      "eval_exact_match": 11.0,
+      "eval_f1": 14.664021164021163,
+      "eval_qa_bleu": 8.790900925095583,
+      "eval_qa_exact_match": 0.08,
+      "eval_recite_bleu": 25.058252467710584,
+      "eval_recite_exact_match": 0.07,
+      "step": 1222
+    },
+    {
+      "epoch": 13.23,
+      "learning_rate": 3e-05,
+      "loss": 0.0594,
+      "step": 1230
+    },
+    {
+      "epoch": 13.33,
+      "learning_rate": 3e-05,
+      "loss": 0.0612,
+      "step": 1240
+    },
+    {
+      "epoch": 13.44,
+      "learning_rate": 3e-05,
+      "loss": 0.0611,
+      "step": 1250
+    },
+    {
+      "epoch": 13.55,
+      "learning_rate": 3e-05,
+      "loss": 0.0621,
+      "step": 1260
+    },
+    {
+      "epoch": 13.65,
+      "eval_accuracy": 0.8413071895424836,
+      "eval_loss": 0.35581451654434204,
+      "eval_runtime": 8.6726,
+      "eval_samples_per_second": 34.592,
+      "eval_steps_per_second": 2.191,
+      "step": 1269
+    },
+    {
+      "epoch": 13.65,
+      "eval_exact_match": 12.666666666666666,
+      "eval_f1": 16.87830687830688,
+      "eval_qa_bleu": 9.046507615706695,
+      "eval_qa_exact_match": 0.09333333333333334,
+      "eval_recite_bleu": 26.358751880820996,
+      "eval_recite_exact_match": 0.08333333333333333,
+      "step": 1269
+    },
+    {
+      "epoch": 13.66,
+      "learning_rate": 3e-05,
+      "loss": 0.0662,
+      "step": 1270
+    },
+    {
+      "epoch": 13.76,
+      "learning_rate": 3e-05,
+      "loss": 0.0636,
+      "step": 1280
+    },
+    {
+      "epoch": 13.87,
+      "learning_rate": 3e-05,
+      "loss": 0.0651,
+      "step": 1290
+    },
+    {
+      "epoch": 13.98,
+      "learning_rate": 3e-05,
+      "loss": 0.0638,
+      "step": 1300
+    },
+    {
+      "epoch": 14.09,
+      "learning_rate": 3e-05,
+      "loss": 0.0579,
+      "step": 1310
+    },
+    {
+      "epoch": 14.15,
+      "eval_accuracy": 0.840967320261438,
+      "eval_loss": 0.36824384331703186,
+      "eval_runtime": 8.5554,
+      "eval_samples_per_second": 35.065,
+      "eval_steps_per_second": 2.221,
+      "step": 1316
+    },
+    {
+      "epoch": 14.15,
+      "eval_exact_match": 8.666666666666666,
+      "eval_f1": 12.518518518518519,
+      "eval_qa_bleu": 5.946814014717943,
+      "eval_qa_exact_match": 0.06,
+      "eval_recite_bleu": 23.295443887810283,
+      "eval_recite_exact_match": 0.06,
+      "step": 1316
+    },
+    {
+      "epoch": 14.19,
+      "learning_rate": 3e-05,
+      "loss": 0.0577,
+      "step": 1320
+    },
+    {
+      "epoch": 14.3,
+      "learning_rate": 3e-05,
+      "loss": 0.0603,
+      "step": 1330
+    },
+    {
+      "epoch": 14.41,
+      "learning_rate": 3e-05,
+      "loss": 0.0602,
+      "step": 1340
+    },
+    {
+      "epoch": 14.52,
+      "learning_rate": 3e-05,
+      "loss": 0.0613,
+      "step": 1350
+    },
+    {
+      "epoch": 14.62,
+      "learning_rate": 3e-05,
+      "loss": 0.0618,
+      "step": 1360
+    },
+    {
+      "epoch": 14.66,
+      "eval_accuracy": 0.8405490196078431,
+      "eval_loss": 0.36532720923423767,
+      "eval_runtime": 8.6431,
+      "eval_samples_per_second": 34.71,
+      "eval_steps_per_second": 2.198,
+      "step": 1363
+    },
+    {
+      "epoch": 14.66,
+      "eval_exact_match": 11.0,
+      "eval_f1": 15.13042328042328,
+      "eval_qa_bleu": 8.759905510533487,
+      "eval_qa_exact_match": 0.07666666666666666,
+      "eval_recite_bleu": 26.14569012302347,
+      "eval_recite_exact_match": 0.07,
+      "step": 1363
+    },
+    {
+      "epoch": 14.73,
+      "learning_rate": 3e-05,
+      "loss": 0.064,
+      "step": 1370
+    },
+    {
+      "epoch": 14.84,
+      "learning_rate": 3e-05,
+      "loss": 0.0631,
+      "step": 1380
+    },
+    {
+      "epoch": 14.95,
+      "learning_rate": 3e-05,
+      "loss": 0.0611,
+      "step": 1390
+    },
+    {
+      "epoch": 15.05,
+      "learning_rate": 3e-05,
+      "loss": 0.0582,
+      "step": 1400
+    },
+    {
+      "epoch": 15.16,
+      "learning_rate": 3e-05,
+      "loss": 0.0552,
+      "step": 1410
+    },
+    {
+      "epoch": 15.16,
+      "eval_accuracy": 0.8413071895424836,
+      "eval_loss": 0.3660917282104492,
+      "eval_runtime": 8.4709,
+      "eval_samples_per_second": 35.416,
+      "eval_steps_per_second": 2.243,
+      "step": 1410
+    },
+    {
+      "epoch": 15.16,
+      "eval_exact_match": 13.0,
+      "eval_f1": 16.49047619047619,
+      "eval_qa_bleu": 13.081354815231128,
+      "eval_qa_exact_match": 0.09333333333333334,
+      "eval_recite_bleu": 28.050116321012986,
+      "eval_recite_exact_match": 0.09333333333333334,
+      "step": 1410
+    },
+    {
+      "epoch": 15.27,
+      "learning_rate": 3e-05,
+      "loss": 0.0566,
+      "step": 1420
+    },
+    {
+      "epoch": 15.38,
+      "learning_rate": 3e-05,
+      "loss": 0.059,
+      "step": 1430
+    },
+    {
+      "epoch": 15.48,
+      "learning_rate": 3e-05,
+      "loss": 0.0611,
+      "step": 1440
+    },
+    {
+      "epoch": 15.59,
+      "learning_rate": 3e-05,
+      "loss": 0.0619,
+      "step": 1450
+    },
+    {
+      "epoch": 15.67,
+      "eval_accuracy": 0.8416209150326798,
+      "eval_loss": 0.3595679700374603,
+      "eval_runtime": 8.4125,
+      "eval_samples_per_second": 35.661,
+      "eval_steps_per_second": 2.259,
+      "step": 1457
+    },
+    {
+      "epoch": 15.67,
+      "eval_exact_match": 10.0,
+      "eval_f1": 14.556084656084652,
+      "eval_qa_bleu": 8.766722232594686,
+      "eval_qa_exact_match": 0.07,
+      "eval_recite_bleu": 25.696114831592638,
+      "eval_recite_exact_match": 0.08666666666666667,
+      "step": 1457
+    },
+    {
+      "epoch": 15.7,
+      "learning_rate": 3e-05,
+      "loss": 0.0619,
+      "step": 1460
+    },
+    {
+      "epoch": 15.81,
+      "learning_rate": 3e-05,
+      "loss": 0.063,
+      "step": 1470
+    },
+    {
+      "epoch": 15.91,
+      "learning_rate": 3e-05,
+      "loss": 0.0625,
+      "step": 1480
+    },
+    {
+      "epoch": 16.02,
+      "learning_rate": 3e-05,
+      "loss": 0.0614,
+      "step": 1490
+    },
+    {
+      "epoch": 16.13,
+      "learning_rate": 3e-05,
+      "loss": 0.0536,
+      "step": 1500
+    },
+    {
+      "epoch": 16.17,
+      "eval_accuracy": 0.8413856209150327,
+      "eval_loss": 0.3710184693336487,
+      "eval_runtime": 8.2941,
+      "eval_samples_per_second": 36.17,
+      "eval_steps_per_second": 2.291,
+      "step": 1504
+    },
+    {
+      "epoch": 16.17,
+      "eval_exact_match": 12.0,
+      "eval_f1": 16.22356902356902,
+      "eval_qa_bleu": 10.03449398398276,
+      "eval_qa_exact_match": 0.09666666666666666,
+      "eval_recite_bleu": 27.21503335381207,
+      "eval_recite_exact_match": 0.09,
+      "step": 1504
+    },
+    {
+      "epoch": 16.24,
+      "learning_rate": 3e-05,
+      "loss": 0.0594,
+      "step": 1510
+    },
+    {
+      "epoch": 16.34,
+      "learning_rate": 3e-05,
+      "loss": 0.0583,
+      "step": 1520
+    },
+    {
+      "epoch": 16.45,
+      "learning_rate": 3e-05,
+      "loss": 0.0596,
+      "step": 1530
+    },
+    {
+      "epoch": 16.56,
+      "learning_rate": 3e-05,
+      "loss": 0.0581,
+      "step": 1540
+    },
+    {
+      "epoch": 16.67,
+      "learning_rate": 3e-05,
+      "loss": 0.0602,
+      "step": 1550
+    },
+    {
+      "epoch": 16.68,
+      "eval_accuracy": 0.8417777777777777,
+      "eval_loss": 0.3608551621437073,
+      "eval_runtime": 8.5041,
+      "eval_samples_per_second": 35.277,
+      "eval_steps_per_second": 2.234,
+      "step": 1551
+    },
+    {
+      "epoch": 16.68,
+      "eval_exact_match": 12.666666666666666,
+      "eval_f1": 16.286243386243385,
+      "eval_qa_bleu": 10.983250277461813,
+      "eval_qa_exact_match": 0.08666666666666667,
+      "eval_recite_bleu": 27.970963658310353,
+      "eval_recite_exact_match": 0.1,
+      "step": 1551
+    },
+    {
+      "epoch": 16.77,
+      "learning_rate": 3e-05,
+      "loss": 0.0595,
+      "step": 1560
+    },
+    {
+      "epoch": 16.88,
+      "learning_rate": 3e-05,
+      "loss": 0.0607,
+      "step": 1570
+    },
+    {
+      "epoch": 16.99,
+      "learning_rate": 3e-05,
+      "loss": 0.0609,
+      "step": 1580
+    },
+    {
+      "epoch": 17.1,
+      "learning_rate": 3e-05,
+      "loss": 0.054,
+      "step": 1590
+    },
+    {
+      "epoch": 17.18,
+      "eval_accuracy": 0.8409934640522876,
+      "eval_loss": 0.37587499618530273,
+      "eval_runtime": 8.4497,
+      "eval_samples_per_second": 35.504,
+      "eval_steps_per_second": 2.249,
+      "step": 1598
+    },
+    {
+      "epoch": 17.18,
+      "eval_exact_match": 12.666666666666666,
+      "eval_f1": 16.83068783068783,
+      "eval_qa_bleu": 8.529481408255021,
+      "eval_qa_exact_match": 0.1,
+      "eval_recite_bleu": 27.164265779035382,
+      "eval_recite_exact_match": 0.08333333333333333,
+      "step": 1598
+    },
+    {
+      "epoch": 17.2,
+      "learning_rate": 3e-05,
+      "loss": 0.0564,
+      "step": 1600
+    },
+    {
+      "epoch": 17.31,
+      "learning_rate": 3e-05,
+      "loss": 0.061,
+      "step": 1610
+    },
+    {
+      "epoch": 17.42,
+      "learning_rate": 3e-05,
+      "loss": 0.058,
+      "step": 1620
+    },
+    {
+      "epoch": 17.53,
+      "learning_rate": 3e-05,
+      "loss": 0.0597,
+      "step": 1630
+    },
+    {
+      "epoch": 17.63,
+      "learning_rate": 3e-05,
+      "loss": 0.0635,
+      "step": 1640
+    },
+    {
+      "epoch": 17.69,
+      "eval_accuracy": 0.8414248366013072,
+      "eval_loss": 0.3596791625022888,
+      "eval_runtime": 8.3259,
+      "eval_samples_per_second": 36.032,
+      "eval_steps_per_second": 2.282,
+      "step": 1645
+    },
+    {
+      "epoch": 17.69,
+      "eval_exact_match": 10.666666666666666,
+      "eval_f1": 14.222751322751321,
+      "eval_qa_bleu": 7.525051258494909,
+      "eval_qa_exact_match": 0.07333333333333333,
+      "eval_recite_bleu": 27.177796043976347,
+      "eval_recite_exact_match": 0.09333333333333334,
+      "step": 1645
+    },
+    {
+      "epoch": 17.74,
+      "learning_rate": 3e-05,
+      "loss": 0.0596,
+      "step": 1650
+    },
+    {
+      "epoch": 17.85,
+      "learning_rate": 3e-05,
+      "loss": 0.0595,
+      "step": 1660
+    },
+    {
+      "epoch": 17.96,
+      "learning_rate": 3e-05,
+      "loss": 0.0617,
+      "step": 1670
+    },
+    {
+      "epoch": 18.06,
+      "learning_rate": 3e-05,
+      "loss": 0.0558,
+      "step": 1680
+    },
+    {
+      "epoch": 18.17,
+      "learning_rate": 3e-05,
+      "loss": 0.0536,
+      "step": 1690
+    },
+    {
+      "epoch": 18.19,
+      "eval_accuracy": 0.840967320261438,
+      "eval_loss": 0.3750253915786743,
+      "eval_runtime": 8.5676,
+      "eval_samples_per_second": 35.015,
+      "eval_steps_per_second": 2.218,
+      "step": 1692
+    },
+    {
+      "epoch": 18.19,
+      "eval_exact_match": 12.333333333333334,
+      "eval_f1": 15.669312169312168,
+      "eval_qa_bleu": 8.37631748679836,
+      "eval_qa_exact_match": 0.07,
+      "eval_recite_bleu": 28.231867454797584,
+      "eval_recite_exact_match": 0.1,
+      "step": 1692
+    },
+    {
+      "epoch": 18.28,
+      "learning_rate": 3e-05,
+      "loss": 0.0572,
+      "step": 1700
+    },
+    {
+      "epoch": 18.39,
+      "learning_rate": 3e-05,
+      "loss": 0.0578,
+      "step": 1710
+    },
+    {
+      "epoch": 18.49,
+      "learning_rate": 3e-05,
+      "loss": 0.0577,
+      "step": 1720
+    },
+    {
+      "epoch": 18.6,
+      "learning_rate": 3e-05,
+      "loss": 0.0588,
+      "step": 1730
+    },
+    {
+      "epoch": 18.7,
+      "eval_accuracy": 0.841359477124183,
+      "eval_loss": 0.36842381954193115,
+      "eval_runtime": 8.7203,
+      "eval_samples_per_second": 34.402,
+      "eval_steps_per_second": 2.179,
+      "step": 1739
+    },
+    {
+      "epoch": 18.7,
+      "eval_exact_match": 13.666666666666666,
+      "eval_f1": 16.964021164021162,
+      "eval_qa_bleu": 10.412884310411028,
+      "eval_qa_exact_match": 0.08666666666666667,
+      "eval_recite_bleu": 27.91245954086591,
+      "eval_recite_exact_match": 0.09333333333333334,
+      "step": 1739
+    },
+    {
+      "epoch": 18.71,
+      "learning_rate": 3e-05,
+      "loss": 0.0579,
+      "step": 1740
+    },
+    {
+      "epoch": 18.82,
+      "learning_rate": 3e-05,
+      "loss": 0.0623,
+      "step": 1750
+    },
+    {
+      "epoch": 18.92,
+      "learning_rate": 3e-05,
+      "loss": 0.1972,
+      "step": 1760
+    },
+    {
+      "epoch": 19.03,
+      "learning_rate": 3e-05,
+      "loss": 0.0903,
+      "step": 1770
+    },
+    {
+      "epoch": 19.14,
+      "learning_rate": 3e-05,
+      "loss": 0.0713,
+      "step": 1780
+    },
+    {
+      "epoch": 19.2,
+      "eval_accuracy": 0.8410849673202614,
+      "eval_loss": 0.36910614371299744,
+      "eval_runtime": 8.785,
+      "eval_samples_per_second": 34.149,
+      "eval_steps_per_second": 2.163,
+      "step": 1786
+    },
+    {
+      "epoch": 19.2,
+      "eval_exact_match": 9.666666666666666,
+      "eval_f1": 13.245502645502643,
+      "eval_qa_bleu": 9.06198561813076,
+      "eval_qa_exact_match": 0.06333333333333334,
+      "eval_recite_bleu": 26.9668850069419,
+      "eval_recite_exact_match": 0.1,
+      "step": 1786
+    },
+    {
+      "epoch": 19.25,
+      "learning_rate": 3e-05,
+      "loss": 0.0723,
+      "step": 1790
+    },
+    {
+      "epoch": 19.35,
+      "learning_rate": 3e-05,
+      "loss": 0.074,
+      "step": 1800
+    },
+    {
+      "epoch": 19.46,
+      "learning_rate": 3e-05,
+      "loss": 0.0748,
+      "step": 1810
+    },
+    {
+      "epoch": 19.57,
+      "learning_rate": 3e-05,
+      "loss": 0.0718,
+      "step": 1820
+    },
+    {
+      "epoch": 19.68,
+      "learning_rate": 3e-05,
+      "loss": 0.0704,
+      "step": 1830
+    },
+    {
+      "epoch": 19.71,
+      "eval_accuracy": 0.8412679738562091,
+      "eval_loss": 0.36380141973495483,
+      "eval_runtime": 8.4756,
+      "eval_samples_per_second": 35.396,
+      "eval_steps_per_second": 2.242,
+      "step": 1833
+    },
+    {
+      "epoch": 19.71,
+      "eval_exact_match": 10.333333333333334,
+      "eval_f1": 14.167724867724864,
+      "eval_qa_bleu": 9.330356281157737,
+      "eval_qa_exact_match": 0.07666666666666666,
+      "eval_recite_bleu": 26.044375085111305,
+      "eval_recite_exact_match": 0.09666666666666666,
+      "step": 1833
+    },
+    {
+      "epoch": 19.78,
+      "learning_rate": 3e-05,
+      "loss": 0.0699,
+      "step": 1840
+    },
+    {
+      "epoch": 19.89,
+      "learning_rate": 3e-05,
+      "loss": 0.0742,
+      "step": 1850
+    },
+    {
+      "epoch": 20.0,
+      "learning_rate": 3e-05,
+      "loss": 0.0708,
+      "step": 1860
+    },
+    {
+      "epoch": 20.0,
+      "step": 1860,
+      "total_flos": 4.95036515318784e+16,
+      "train_loss": 0.03236631401764449,
+      "train_runtime": 2828.6852,
+      "train_samples_per_second": 10.485,
+      "train_steps_per_second": 0.658
     }
   ],
   "logging_steps": 10,
+  "max_steps": 1860,
+  "num_train_epochs": 20,
   "save_steps": 500,
+  "total_flos": 4.95036515318784e+16,
   "trial_name": null,
   "trial_params": null
 }