End of training

Browse files

Files changed (5) hide show

README.md +14 -2
all_results.json +21 -0
eval_results.json +16 -0
train_results.json +8 -0
trainer_state.json +806 -0

README.md CHANGED Viewed

@@ -3,11 +3,23 @@ license: mit
 base_model: gpt2-xl
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
 model-index:
 - name: lmind_hotpot_train300_eval100_v1_recite_qa_gpt2-xl
-  results: []
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
@@ -15,7 +27,7 @@ should probably proofread and complete it, then remove this comment. -->
 # lmind_hotpot_train300_eval100_v1_recite_qa_gpt2-xl
-This model is a fine-tuned version of [gpt2-xl](https://huggingface.co/gpt2-xl) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.4199
 - Accuracy: 0.6908

 base_model: gpt2-xl
 tags:
 - generated_from_trainer
+datasets:
+- tyzhu/lmind_hotpot_train300_eval100_v1_recite_qa
 metrics:
 - accuracy
 model-index:
 - name: lmind_hotpot_train300_eval100_v1_recite_qa_gpt2-xl
+  results:
+  - task:
+      name: Causal Language Modeling
+      type: text-generation
+    dataset:
+      name: tyzhu/lmind_hotpot_train300_eval100_v1_recite_qa
+      type: tyzhu/lmind_hotpot_train300_eval100_v1_recite_qa
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.6908442503639011
 ---
 <!-- This model card has been generated automatically according to the information the Trainer had access to. You
 # lmind_hotpot_train300_eval100_v1_recite_qa_gpt2-xl
+This model is a fine-tuned version of [gpt2-xl](https://huggingface.co/gpt2-xl) on the tyzhu/lmind_hotpot_train300_eval100_v1_recite_qa dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.4199
 - Accuracy: 0.6908

all_results.json ADDED Viewed

	@@ -0,0 +1,21 @@

+{
+    "epoch": 10.0,
+    "eval_accuracy": 0.6908442503639011,
+    "eval_exact_match": 19.0,
+    "eval_f1": 24.855555555555558,
+    "eval_loss": 0.4198664426803589,
+    "eval_qa_bleu": 14.403045967487259,
+    "eval_qa_exact_match": 0.18,
+    "eval_recite_bleu": 45.62406704093971,
+    "eval_recite_exact_match": 0.02,
+    "eval_runtime": 3.2494,
+    "eval_samples": 100,
+    "eval_samples_per_second": 30.775,
+    "eval_steps_per_second": 2.154,
+    "perplexity": 1.5217583000861028,
+    "train_loss": 0.7305109727641811,
+    "train_runtime": 1813.2807,
+    "train_samples": 1097,
+    "train_samples_per_second": 6.05,
+    "train_steps_per_second": 0.381
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 10.0,
+    "eval_accuracy": 0.6908442503639011,
+    "eval_exact_match": 19.0,
+    "eval_f1": 24.855555555555558,
+    "eval_loss": 0.4198664426803589,
+    "eval_qa_bleu": 14.403045967487259,
+    "eval_qa_exact_match": 0.18,
+    "eval_recite_bleu": 45.62406704093971,
+    "eval_recite_exact_match": 0.02,
+    "eval_runtime": 3.2494,
+    "eval_samples": 100,
+    "eval_samples_per_second": 30.775,
+    "eval_steps_per_second": 2.154,
+    "perplexity": 1.5217583000861028
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 10.0,
+    "train_loss": 0.7305109727641811,
+    "train_runtime": 1813.2807,
+    "train_samples": 1097,
+    "train_samples_per_second": 6.05,
+    "train_steps_per_second": 0.381
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,806 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 10.0,
+  "eval_steps": 500,
+  "global_step": 690,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.1,
+      "learning_rate": 6e-06,
+      "loss": 7.4689,
+      "step": 7
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 1.2e-05,
+      "loss": 5.1854,
+      "step": 14
+    },
+    {
+      "epoch": 0.3,
+      "learning_rate": 1.8e-05,
+      "loss": 3.962,
+      "step": 21
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 2.4e-05,
+      "loss": 2.9971,
+      "step": 28
+    },
+    {
+      "epoch": 0.51,
+      "learning_rate": 3e-05,
+      "loss": 2.342,
+      "step": 35
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 2.9679389312977098e-05,
+      "loss": 2.2103,
+      "step": 42
+    },
+    {
+      "epoch": 0.71,
+      "learning_rate": 2.93587786259542e-05,
+      "loss": 2.1337,
+      "step": 49
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 2.9038167938931298e-05,
+      "loss": 2.0715,
+      "step": 56
+    },
+    {
+      "epoch": 0.91,
+      "learning_rate": 2.8717557251908395e-05,
+      "loss": 1.9548,
+      "step": 63
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.5812809315866084,
+      "eval_loss": 1.7231289148330688,
+      "eval_runtime": 9.0359,
+      "eval_samples_per_second": 11.067,
+      "eval_steps_per_second": 0.775,
+      "step": 69
+    },
+    {
+      "epoch": 1.0,
+      "eval_exact_match": 6.0,
+      "eval_f1": 10.928571428571429,
+      "eval_qa_bleu": 3.6846142429687943,
+      "eval_qa_exact_match": 0.06,
+      "eval_recite_bleu": 12.518352954015292,
+      "eval_recite_exact_match": 0.0,
+      "step": 69
+    },
+    {
+      "epoch": 1.01,
+      "learning_rate": 2.8396946564885498e-05,
+      "loss": 1.9164,
+      "step": 70
+    },
+    {
+      "epoch": 1.12,
+      "learning_rate": 2.8076335877862595e-05,
+      "loss": 1.734,
+      "step": 77
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 2.7755725190839695e-05,
+      "loss": 1.5936,
+      "step": 84
+    },
+    {
+      "epoch": 1.32,
+      "learning_rate": 2.7435114503816795e-05,
+      "loss": 1.4865,
+      "step": 91
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 2.7114503816793892e-05,
+      "loss": 1.5131,
+      "step": 98
+    },
+    {
+      "epoch": 1.52,
+      "learning_rate": 2.6793893129770996e-05,
+      "loss": 1.4826,
+      "step": 105
+    },
+    {
+      "epoch": 1.62,
+      "learning_rate": 2.6473282442748093e-05,
+      "loss": 1.5076,
+      "step": 112
+    },
+    {
+      "epoch": 1.72,
+      "learning_rate": 2.615267175572519e-05,
+      "loss": 1.3919,
+      "step": 119
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 2.5832061068702293e-05,
+      "loss": 1.458,
+      "step": 126
+    },
+    {
+      "epoch": 1.93,
+      "learning_rate": 2.551145038167939e-05,
+      "loss": 1.3306,
+      "step": 133
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.6136244541484717,
+      "eval_loss": 1.2326337099075317,
+      "eval_runtime": 3.2768,
+      "eval_samples_per_second": 30.517,
+      "eval_steps_per_second": 2.136,
+      "step": 138
+    },
+    {
+      "epoch": 2.0,
+      "eval_exact_match": 9.0,
+      "eval_f1": 18.469047619047622,
+      "eval_qa_bleu": 10.388842490007553,
+      "eval_qa_exact_match": 0.08,
+      "eval_recite_bleu": 18.414656875876464,
+      "eval_recite_exact_match": 0.0,
+      "step": 138
+    },
+    {
+      "epoch": 2.03,
+      "learning_rate": 2.5190839694656487e-05,
+      "loss": 1.2798,
+      "step": 140
+    },
+    {
+      "epoch": 2.13,
+      "learning_rate": 2.487022900763359e-05,
+      "loss": 0.911,
+      "step": 147
+    },
+    {
+      "epoch": 2.23,
+      "learning_rate": 2.4549618320610687e-05,
+      "loss": 0.9711,
+      "step": 154
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 2.4229007633587784e-05,
+      "loss": 0.9432,
+      "step": 161
+    },
+    {
+      "epoch": 2.43,
+      "learning_rate": 2.3908396946564887e-05,
+      "loss": 0.8923,
+      "step": 168
+    },
+    {
+      "epoch": 2.54,
+      "learning_rate": 2.3587786259541984e-05,
+      "loss": 0.8927,
+      "step": 175
+    },
+    {
+      "epoch": 2.64,
+      "learning_rate": 2.3267175572519084e-05,
+      "loss": 0.8711,
+      "step": 182
+    },
+    {
+      "epoch": 2.74,
+      "learning_rate": 2.2946564885496185e-05,
+      "loss": 0.8087,
+      "step": 189
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 2.262595419847328e-05,
+      "loss": 0.8442,
+      "step": 196
+    },
+    {
+      "epoch": 2.94,
+      "learning_rate": 2.2305343511450385e-05,
+      "loss": 0.8853,
+      "step": 203
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.6420524017467248,
+      "eval_loss": 0.8816230297088623,
+      "eval_runtime": 3.3365,
+      "eval_samples_per_second": 29.971,
+      "eval_steps_per_second": 2.098,
+      "step": 207
+    },
+    {
+      "epoch": 3.0,
+      "eval_exact_match": 9.0,
+      "eval_f1": 16.49920634920635,
+      "eval_qa_bleu": 8.802610551775999,
+      "eval_qa_exact_match": 0.09,
+      "eval_recite_bleu": 22.99064826237382,
+      "eval_recite_exact_match": 0.0,
+      "step": 207
+    },
+    {
+      "epoch": 3.04,
+      "learning_rate": 2.198473282442748e-05,
+      "loss": 0.6919,
+      "step": 210
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 2.166412213740458e-05,
+      "loss": 0.5836,
+      "step": 217
+    },
+    {
+      "epoch": 3.25,
+      "learning_rate": 2.1343511450381682e-05,
+      "loss": 0.5566,
+      "step": 224
+    },
+    {
+      "epoch": 3.35,
+      "learning_rate": 2.102290076335878e-05,
+      "loss": 0.5625,
+      "step": 231
+    },
+    {
+      "epoch": 3.45,
+      "learning_rate": 2.0702290076335876e-05,
+      "loss": 0.5301,
+      "step": 238
+    },
+    {
+      "epoch": 3.55,
+      "learning_rate": 2.038167938931298e-05,
+      "loss": 0.5601,
+      "step": 245
+    },
+    {
+      "epoch": 3.65,
+      "learning_rate": 2.0061068702290076e-05,
+      "loss": 0.5088,
+      "step": 252
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 1.9740458015267176e-05,
+      "loss": 0.5661,
+      "step": 259
+    },
+    {
+      "epoch": 3.86,
+      "learning_rate": 1.9419847328244276e-05,
+      "loss": 0.5007,
+      "step": 266
+    },
+    {
+      "epoch": 3.96,
+      "learning_rate": 1.9099236641221373e-05,
+      "loss": 0.5181,
+      "step": 273
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.6637554585152838,
+      "eval_loss": 0.6443885564804077,
+      "eval_runtime": 3.1883,
+      "eval_samples_per_second": 31.365,
+      "eval_steps_per_second": 2.196,
+      "step": 276
+    },
+    {
+      "epoch": 4.0,
+      "eval_exact_match": 9.0,
+      "eval_f1": 15.252380952380953,
+      "eval_qa_bleu": 4.187460029928345,
+      "eval_qa_exact_match": 0.09,
+      "eval_recite_bleu": 24.09222861395294,
+      "eval_recite_exact_match": 0.0,
+      "step": 276
+    },
+    {
+      "epoch": 4.06,
+      "learning_rate": 1.8778625954198473e-05,
+      "loss": 0.4274,
+      "step": 280
+    },
+    {
+      "epoch": 4.16,
+      "learning_rate": 1.8458015267175574e-05,
+      "loss": 0.3626,
+      "step": 287
+    },
+    {
+      "epoch": 4.26,
+      "learning_rate": 1.813740458015267e-05,
+      "loss": 0.3519,
+      "step": 294
+    },
+    {
+      "epoch": 4.36,
+      "learning_rate": 1.7816793893129774e-05,
+      "loss": 0.3387,
+      "step": 301
+    },
+    {
+      "epoch": 4.46,
+      "learning_rate": 1.749618320610687e-05,
+      "loss": 0.331,
+      "step": 308
+    },
+    {
+      "epoch": 4.57,
+      "learning_rate": 1.7175572519083968e-05,
+      "loss": 0.3131,
+      "step": 315
+    },
+    {
+      "epoch": 4.67,
+      "learning_rate": 1.685496183206107e-05,
+      "loss": 0.3166,
+      "step": 322
+    },
+    {
+      "epoch": 4.77,
+      "learning_rate": 1.6534351145038168e-05,
+      "loss": 0.3555,
+      "step": 329
+    },
+    {
+      "epoch": 4.87,
+      "learning_rate": 1.6213740458015265e-05,
+      "loss": 0.3394,
+      "step": 336
+    },
+    {
+      "epoch": 4.97,
+      "learning_rate": 1.5893129770992368e-05,
+      "loss": 0.3236,
+      "step": 343
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.6771324599708879,
+      "eval_loss": 0.5304832458496094,
+      "eval_runtime": 3.2706,
+      "eval_samples_per_second": 30.576,
+      "eval_steps_per_second": 2.14,
+      "step": 345
+    },
+    {
+      "epoch": 5.0,
+      "eval_exact_match": 6.0,
+      "eval_f1": 12.238095238095239,
+      "eval_qa_bleu": 3.673522350616593,
+      "eval_qa_exact_match": 0.06,
+      "eval_recite_bleu": 28.72242820390079,
+      "eval_recite_exact_match": 0.0,
+      "step": 345
+    },
+    {
+      "epoch": 5.07,
+      "learning_rate": 1.5572519083969465e-05,
+      "loss": 0.2619,
+      "step": 350
+    },
+    {
+      "epoch": 5.17,
+      "learning_rate": 1.5251908396946567e-05,
+      "loss": 0.2471,
+      "step": 357
+    },
+    {
+      "epoch": 5.28,
+      "learning_rate": 1.4931297709923665e-05,
+      "loss": 0.2407,
+      "step": 364
+    },
+    {
+      "epoch": 5.38,
+      "learning_rate": 1.4610687022900764e-05,
+      "loss": 0.2503,
+      "step": 371
+    },
+    {
+      "epoch": 5.48,
+      "learning_rate": 1.4290076335877862e-05,
+      "loss": 0.225,
+      "step": 378
+    },
+    {
+      "epoch": 5.58,
+      "learning_rate": 1.3969465648854963e-05,
+      "loss": 0.2486,
+      "step": 385
+    },
+    {
+      "epoch": 5.68,
+      "learning_rate": 1.3648854961832061e-05,
+      "loss": 0.2366,
+      "step": 392
+    },
+    {
+      "epoch": 5.78,
+      "learning_rate": 1.332824427480916e-05,
+      "loss": 0.2371,
+      "step": 399
+    },
+    {
+      "epoch": 5.88,
+      "learning_rate": 1.300763358778626e-05,
+      "loss": 0.2308,
+      "step": 406
+    },
+    {
+      "epoch": 5.99,
+      "learning_rate": 1.268702290076336e-05,
+      "loss": 0.2371,
+      "step": 413
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.6848471615720524,
+      "eval_loss": 0.4593181312084198,
+      "eval_runtime": 3.3218,
+      "eval_samples_per_second": 30.104,
+      "eval_steps_per_second": 2.107,
+      "step": 414
+    },
+    {
+      "epoch": 6.0,
+      "eval_exact_match": 12.0,
+      "eval_f1": 19.94920634920635,
+      "eval_qa_bleu": 7.958666643852284,
+      "eval_qa_exact_match": 0.12,
+      "eval_recite_bleu": 36.347059921630894,
+      "eval_recite_exact_match": 0.0,
+      "step": 414
+    },
+    {
+      "epoch": 6.09,
+      "learning_rate": 1.2366412213740458e-05,
+      "loss": 0.1793,
+      "step": 420
+    },
+    {
+      "epoch": 6.19,
+      "learning_rate": 1.2045801526717557e-05,
+      "loss": 0.179,
+      "step": 427
+    },
+    {
+      "epoch": 6.29,
+      "learning_rate": 1.1725190839694657e-05,
+      "loss": 0.1729,
+      "step": 434
+    },
+    {
+      "epoch": 6.39,
+      "learning_rate": 1.1404580152671756e-05,
+      "loss": 0.1748,
+      "step": 441
+    },
+    {
+      "epoch": 6.49,
+      "learning_rate": 1.1083969465648856e-05,
+      "loss": 0.1847,
+      "step": 448
+    },
+    {
+      "epoch": 6.59,
+      "learning_rate": 1.0763358778625954e-05,
+      "loss": 0.1823,
+      "step": 455
+    },
+    {
+      "epoch": 6.7,
+      "learning_rate": 1.0442748091603054e-05,
+      "loss": 0.1825,
+      "step": 462
+    },
+    {
+      "epoch": 6.8,
+      "learning_rate": 1.0122137404580153e-05,
+      "loss": 0.1651,
+      "step": 469
+    },
+    {
+      "epoch": 6.9,
+      "learning_rate": 9.801526717557251e-06,
+      "loss": 0.1675,
+      "step": 476
+    },
+    {
+      "epoch": 7.0,
+      "learning_rate": 9.480916030534352e-06,
+      "loss": 0.1839,
+      "step": 483
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.6880931586608442,
+      "eval_loss": 0.43847352266311646,
+      "eval_runtime": 4.5343,
+      "eval_samples_per_second": 22.054,
+      "eval_steps_per_second": 1.544,
+      "step": 483
+    },
+    {
+      "epoch": 7.0,
+      "eval_exact_match": 10.0,
+      "eval_f1": 16.56111111111111,
+      "eval_qa_bleu": 5.445893929820159,
+      "eval_qa_exact_match": 0.1,
+      "eval_recite_bleu": 38.055647893528544,
+      "eval_recite_exact_match": 0.0,
+      "step": 483
+    },
+    {
+      "epoch": 7.1,
+      "learning_rate": 9.16030534351145e-06,
+      "loss": 0.1371,
+      "step": 490
+    },
+    {
+      "epoch": 7.2,
+      "learning_rate": 8.83969465648855e-06,
+      "loss": 0.1461,
+      "step": 497
+    },
+    {
+      "epoch": 7.3,
+      "learning_rate": 8.519083969465649e-06,
+      "loss": 0.1343,
+      "step": 504
+    },
+    {
+      "epoch": 7.41,
+      "learning_rate": 8.198473282442749e-06,
+      "loss": 0.1452,
+      "step": 511
+    },
+    {
+      "epoch": 7.51,
+      "learning_rate": 7.877862595419847e-06,
+      "loss": 0.1415,
+      "step": 518
+    },
+    {
+      "epoch": 7.61,
+      "learning_rate": 7.557251908396946e-06,
+      "loss": 0.162,
+      "step": 525
+    },
+    {
+      "epoch": 7.71,
+      "learning_rate": 7.236641221374045e-06,
+      "loss": 0.1468,
+      "step": 532
+    },
+    {
+      "epoch": 7.81,
+      "learning_rate": 6.9160305343511455e-06,
+      "loss": 0.14,
+      "step": 539
+    },
+    {
+      "epoch": 7.91,
+      "learning_rate": 6.595419847328244e-06,
+      "loss": 0.1287,
+      "step": 546
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.6898835516739447,
+      "eval_loss": 0.42429620027542114,
+      "eval_runtime": 3.4153,
+      "eval_samples_per_second": 29.28,
+      "eval_steps_per_second": 2.05,
+      "step": 552
+    },
+    {
+      "epoch": 8.0,
+      "eval_exact_match": 17.0,
+      "eval_f1": 21.971428571428575,
+      "eval_qa_bleu": 22.723779810738534,
+      "eval_qa_exact_match": 0.16,
+      "eval_recite_bleu": 42.69152358155121,
+      "eval_recite_exact_match": 0.01,
+      "step": 552
+    },
+    {
+      "epoch": 8.01,
+      "learning_rate": 6.274809160305344e-06,
+      "loss": 0.1479,
+      "step": 553
+    },
+    {
+      "epoch": 8.12,
+      "learning_rate": 5.954198473282443e-06,
+      "loss": 0.1235,
+      "step": 560
+    },
+    {
+      "epoch": 8.22,
+      "learning_rate": 5.633587786259543e-06,
+      "loss": 0.1341,
+      "step": 567
+    },
+    {
+      "epoch": 8.32,
+      "learning_rate": 5.312977099236641e-06,
+      "loss": 0.1178,
+      "step": 574
+    },
+    {
+      "epoch": 8.42,
+      "learning_rate": 4.99236641221374e-06,
+      "loss": 0.1172,
+      "step": 581
+    },
+    {
+      "epoch": 8.52,
+      "learning_rate": 4.67175572519084e-06,
+      "loss": 0.1313,
+      "step": 588
+    },
+    {
+      "epoch": 8.62,
+      "learning_rate": 4.3511450381679385e-06,
+      "loss": 0.1173,
+      "step": 595
+    },
+    {
+      "epoch": 8.72,
+      "learning_rate": 4.030534351145039e-06,
+      "loss": 0.1148,
+      "step": 602
+    },
+    {
+      "epoch": 8.83,
+      "learning_rate": 3.709923664122137e-06,
+      "loss": 0.1208,
+      "step": 609
+    },
+    {
+      "epoch": 8.93,
+      "learning_rate": 3.3893129770992365e-06,
+      "loss": 0.1241,
+      "step": 616
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.6904949053857351,
+      "eval_loss": 0.4206622242927551,
+      "eval_runtime": 3.3293,
+      "eval_samples_per_second": 30.036,
+      "eval_steps_per_second": 2.103,
+      "step": 621
+    },
+    {
+      "epoch": 9.0,
+      "eval_exact_match": 14.0,
+      "eval_f1": 20.504761904761907,
+      "eval_qa_bleu": 13.525989143509026,
+      "eval_qa_exact_match": 0.14,
+      "eval_recite_bleu": 45.9618562736209,
+      "eval_recite_exact_match": 0.02,
+      "step": 621
+    },
+    {
+      "epoch": 9.03,
+      "learning_rate": 3.068702290076336e-06,
+      "loss": 0.122,
+      "step": 623
+    },
+    {
+      "epoch": 9.13,
+      "learning_rate": 2.748091603053435e-06,
+      "loss": 0.1121,
+      "step": 630
+    },
+    {
+      "epoch": 9.23,
+      "learning_rate": 2.4274809160305345e-06,
+      "loss": 0.1127,
+      "step": 637
+    },
+    {
+      "epoch": 9.33,
+      "learning_rate": 2.106870229007634e-06,
+      "loss": 0.1148,
+      "step": 644
+    },
+    {
+      "epoch": 9.43,
+      "learning_rate": 1.7862595419847328e-06,
+      "loss": 0.1123,
+      "step": 651
+    },
+    {
+      "epoch": 9.54,
+      "learning_rate": 1.4656488549618321e-06,
+      "loss": 0.1094,
+      "step": 658
+    },
+    {
+      "epoch": 9.64,
+      "learning_rate": 1.1450381679389313e-06,
+      "loss": 0.117,
+      "step": 665
+    },
+    {
+      "epoch": 9.74,
+      "learning_rate": 8.244274809160305e-07,
+      "loss": 0.118,
+      "step": 672
+    },
+    {
+      "epoch": 9.84,
+      "learning_rate": 5.038167938931298e-07,
+      "loss": 0.1097,
+      "step": 679
+    },
+    {
+      "epoch": 9.94,
+      "learning_rate": 1.8320610687022902e-07,
+      "loss": 0.1198,
+      "step": 686
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.6908442503639011,
+      "eval_loss": 0.4198664426803589,
+      "eval_runtime": 3.7502,
+      "eval_samples_per_second": 26.666,
+      "eval_steps_per_second": 1.867,
+      "step": 690
+    },
+    {
+      "epoch": 10.0,
+      "eval_exact_match": 19.0,
+      "eval_f1": 24.855555555555558,
+      "eval_qa_bleu": 14.403045967487259,
+      "eval_qa_exact_match": 0.18,
+      "eval_recite_bleu": 45.62406704093971,
+      "eval_recite_exact_match": 0.02,
+      "step": 690
+    },
+    {
+      "epoch": 10.0,
+      "step": 690,
+      "total_flos": 3.18562653216768e+16,
+      "train_loss": 0.7305109727641811,
+      "train_runtime": 1813.2807,
+      "train_samples_per_second": 6.05,
+      "train_steps_per_second": 0.381
+    }
+  ],
+  "logging_steps": 7,
+  "max_steps": 690,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 3.18562653216768e+16,
+  "trial_name": null,
+  "trial_params": null
+}