Training in progress, epoch 19, checkpoint

Browse files

Files changed (14) hide show

checkpoint-41401/added_tokens.json +3 -0
checkpoint-41401/config.json +42 -0
checkpoint-41401/generation_config.json +8 -0
checkpoint-41401/merges.txt +0 -0
checkpoint-41401/optimizer.pt +3 -0
checkpoint-41401/pytorch_model.bin +3 -0
checkpoint-41401/rng_state.pth +3 -0
checkpoint-41401/scheduler.pt +3 -0
checkpoint-41401/special_tokens_map.json +6 -0
checkpoint-41401/tokenizer.json +0 -0
checkpoint-41401/tokenizer_config.json +20 -0
checkpoint-41401/trainer_state.json +944 -0
checkpoint-41401/training_args.bin +3 -0
checkpoint-41401/vocab.json +0 -0

checkpoint-41401/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "<|endoftext|>": 50256
+}

checkpoint-41401/config.json ADDED Viewed

	@@ -0,0 +1,42 @@

+{
+  "_name_or_path": "gpt2-xl",
+  "activation_function": "gelu_new",
+  "architectures": [
+    "GPT2LMHeadModel"
+  ],
+  "attn_pdrop": 0.1,
+  "bos_token_id": 50256,
+  "do_sample": true,
+  "embd_pdrop": 0.1,
+  "eos_token_id": 50256,
+  "initializer_range": 0.02,
+  "layer_norm_epsilon": 1e-05,
+  "max_length": 50,
+  "model_type": "gpt2",
+  "n_ctx": 1024,
+  "n_embd": 1600,
+  "n_head": 25,
+  "n_inner": null,
+  "n_layer": 48,
+  "n_positions": 1024,
+  "output_past": true,
+  "reorder_and_upcast_attn": false,
+  "resid_pdrop": 0.1,
+  "scale_attn_by_inverse_layer_idx": false,
+  "scale_attn_weights": true,
+  "summary_activation": null,
+  "summary_first_dropout": 0.1,
+  "summary_proj_to_labels": true,
+  "summary_type": "cls_index",
+  "summary_use_proj": true,
+  "task_specific_params": {
+    "text-generation": {
+      "do_sample": true,
+      "max_length": 50
+    }
+  },
+  "torch_dtype": "float32",
+  "transformers_version": "4.34.0",
+  "use_cache": true,
+  "vocab_size": 50257
+}

checkpoint-41401/generation_config.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 50256,
+  "do_sample": true,
+  "eos_token_id": 50256,
+  "max_length": 50,
+  "transformers_version": "4.34.0"
+}

checkpoint-41401/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-41401/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:26b99ec7bd51559cb7a53991997fea2cd2a8a048c4a6b8abf35b6d528b48f3ea
+size 12461385454

checkpoint-41401/pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a6c29f30fff01cf9d254c6ae544e0b0bbbaff291693437e9154d1cf1ecdb5423
+size 6230637102

checkpoint-41401/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:77a06f70a46fa56d544a6e51e1f6a8f2b494776cce7509377e1fc61f891eecdd
+size 14244

checkpoint-41401/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f1a066503e9e4aa58eadd310a0b6c40fffff5347f19248bcc5554d6bf3f3263b
+size 1064

checkpoint-41401/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token": "<|endoftext|>",
+  "eos_token": "<|endoftext|>",
+  "pad_token": "<|endoftext|>",
+  "unk_token": "<|endoftext|>"
+}

checkpoint-41401/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-41401/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,20 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "50256": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [],
+  "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|endoftext|>",
+  "model_max_length": 1024,
+  "tokenizer_class": "GPT2Tokenizer",
+  "unk_token": "<|endoftext|>"
+}

checkpoint-41401/trainer_state.json ADDED Viewed

	@@ -0,0 +1,944 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 19.0,
+  "eval_steps": 2179,
+  "global_step": 41401,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.2,
+      "learning_rate": 3e-05,
+      "loss": 2.2464,
+      "step": 436
+    },
+    {
+      "epoch": 0.4,
+      "learning_rate": 3e-05,
+      "loss": 2.0544,
+      "step": 872
+    },
+    {
+      "epoch": 0.6,
+      "learning_rate": 3e-05,
+      "loss": 1.9968,
+      "step": 1308
+    },
+    {
+      "epoch": 0.8,
+      "learning_rate": 3e-05,
+      "loss": 1.9537,
+      "step": 1744
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.6693020521036767,
+      "eval_loss": 1.5623117685317993,
+      "eval_runtime": 220.2436,
+      "eval_samples_per_second": 33.622,
+      "eval_steps_per_second": 2.102,
+      "step": 2179
+    },
+    {
+      "epoch": 1.0,
+      "eval_exact_match": 10.24983119513842,
+      "eval_f1": 15.257097040945366,
+      "eval_qa_bleu": 5.8382901471491575,
+      "eval_qa_exact_match": 0.09736664415935178,
+      "eval_recite_bleu": 17.0930417063702,
+      "eval_recite_exact_match": 0.0,
+      "step": 2179
+    },
+    {
+      "epoch": 1.0,
+      "learning_rate": 3e-05,
+      "loss": 1.9029,
+      "step": 2180
+    },
+    {
+      "epoch": 1.2,
+      "learning_rate": 3e-05,
+      "loss": 1.5215,
+      "step": 2616
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 3e-05,
+      "loss": 1.5077,
+      "step": 3052
+    },
+    {
+      "epoch": 1.6,
+      "learning_rate": 3e-05,
+      "loss": 1.5016,
+      "step": 3488
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 3e-05,
+      "loss": 1.4734,
+      "step": 3924
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.6923618412861704,
+      "eval_loss": 1.2099343538284302,
+      "eval_runtime": 222.1542,
+      "eval_samples_per_second": 33.333,
+      "eval_steps_per_second": 2.084,
+      "step": 4358
+    },
+    {
+      "epoch": 2.0,
+      "eval_exact_match": 10.61444969615125,
+      "eval_f1": 15.935672519396675,
+      "eval_qa_bleu": 6.524750946372503,
+      "eval_qa_exact_match": 0.10209318028359217,
+      "eval_recite_bleu": 18.618913529891735,
+      "eval_recite_exact_match": 0.0,
+      "step": 4358
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 3e-05,
+      "loss": 1.4425,
+      "step": 4360
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 3e-05,
+      "loss": 1.0827,
+      "step": 4796
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 3e-05,
+      "loss": 1.0876,
+      "step": 5232
+    },
+    {
+      "epoch": 2.6,
+      "learning_rate": 3e-05,
+      "loss": 1.0887,
+      "step": 5668
+    },
+    {
+      "epoch": 2.8,
+      "learning_rate": 3e-05,
+      "loss": 1.0665,
+      "step": 6104
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.7147465927772421,
+      "eval_loss": 0.9177509546279907,
+      "eval_runtime": 226.6441,
+      "eval_samples_per_second": 32.672,
+      "eval_steps_per_second": 2.043,
+      "step": 6537
+    },
+    {
+      "epoch": 3.0,
+      "eval_exact_match": 12.397029034436192,
+      "eval_f1": 17.721572805797255,
+      "eval_qa_bleu": 8.139751517788653,
+      "eval_qa_exact_match": 0.11978392977717758,
+      "eval_recite_bleu": 21.769859861022653,
+      "eval_recite_exact_match": 0.0,
+      "step": 6537
+    },
+    {
+      "epoch": 3.0,
+      "learning_rate": 3e-05,
+      "loss": 0.7772,
+      "step": 6540
+    },
+    {
+      "epoch": 3.2,
+      "learning_rate": 3e-05,
+      "loss": 0.7688,
+      "step": 6976
+    },
+    {
+      "epoch": 3.4,
+      "learning_rate": 3e-05,
+      "loss": 0.7598,
+      "step": 7412
+    },
+    {
+      "epoch": 3.6,
+      "learning_rate": 3e-05,
+      "loss": 0.77,
+      "step": 7848
+    },
+    {
+      "epoch": 3.8,
+      "learning_rate": 3e-05,
+      "loss": 0.7684,
+      "step": 8284
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.7331474586575765,
+      "eval_loss": 0.6987847089767456,
+      "eval_runtime": 221.7249,
+      "eval_samples_per_second": 33.397,
+      "eval_steps_per_second": 2.088,
+      "step": 8716
+    },
+    {
+      "epoch": 4.0,
+      "eval_exact_match": 13.409858203916272,
+      "eval_f1": 19.326947132558665,
+      "eval_qa_bleu": 8.79837393539171,
+      "eval_qa_exact_match": 0.12869682646860228,
+      "eval_recite_bleu": 23.848732661358156,
+      "eval_recite_exact_match": 0.0,
+      "step": 8716
+    },
+    {
+      "epoch": 4.0,
+      "learning_rate": 3e-05,
+      "loss": 0.7559,
+      "step": 8720
+    },
+    {
+      "epoch": 4.2,
+      "learning_rate": 3e-05,
+      "loss": 0.5354,
+      "step": 9156
+    },
+    {
+      "epoch": 4.4,
+      "learning_rate": 3e-05,
+      "loss": 0.5511,
+      "step": 9592
+    },
+    {
+      "epoch": 4.6,
+      "learning_rate": 3e-05,
+      "loss": 0.5496,
+      "step": 10028
+    },
+    {
+      "epoch": 4.8,
+      "learning_rate": 3e-05,
+      "loss": 0.548,
+      "step": 10464
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.7465929589970037,
+      "eval_loss": 0.5567022562026978,
+      "eval_runtime": 226.4909,
+      "eval_samples_per_second": 32.694,
+      "eval_steps_per_second": 2.044,
+      "step": 10895
+    },
+    {
+      "epoch": 5.0,
+      "eval_exact_match": 14.220121539500338,
+      "eval_f1": 20.736856637999697,
+      "eval_qa_bleu": 9.542509177303282,
+      "eval_qa_exact_match": 0.13652937204591492,
+      "eval_recite_bleu": 27.315073242003514,
+      "eval_recite_exact_match": 0.0009453072248480756,
+      "step": 10895
+    },
+    {
+      "epoch": 5.0,
+      "learning_rate": 3e-05,
+      "loss": 0.5518,
+      "step": 10900
+    },
+    {
+      "epoch": 5.2,
+      "learning_rate": 3e-05,
+      "loss": 0.3837,
+      "step": 11336
+    },
+    {
+      "epoch": 5.4,
+      "learning_rate": 3e-05,
+      "loss": 0.3963,
+      "step": 11772
+    },
+    {
+      "epoch": 5.6,
+      "learning_rate": 3e-05,
+      "loss": 0.404,
+      "step": 12208
+    },
+    {
+      "epoch": 5.8,
+      "learning_rate": 3e-05,
+      "loss": 0.4039,
+      "step": 12644
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.7551407100982113,
+      "eval_loss": 0.4728190004825592,
+      "eval_runtime": 223.8973,
+      "eval_samples_per_second": 33.073,
+      "eval_steps_per_second": 2.068,
+      "step": 13074
+    },
+    {
+      "epoch": 6.0,
+      "eval_exact_match": 16.12424037812289,
+      "eval_f1": 23.0965386152669,
+      "eval_qa_bleu": 10.706681466541065,
+      "eval_qa_exact_match": 0.1524645509790682,
+      "eval_recite_bleu": 31.825156559426375,
+      "eval_recite_exact_match": 0.0036461850101282916,
+      "step": 13074
+    },
+    {
+      "epoch": 6.0,
+      "learning_rate": 3e-05,
+      "loss": 0.405,
+      "step": 13080
+    },
+    {
+      "epoch": 6.2,
+      "learning_rate": 3e-05,
+      "loss": 0.285,
+      "step": 13516
+    },
+    {
+      "epoch": 6.4,
+      "learning_rate": 3e-05,
+      "loss": 0.2984,
+      "step": 13952
+    },
+    {
+      "epoch": 6.6,
+      "learning_rate": 3e-05,
+      "loss": 0.3051,
+      "step": 14388
+    },
+    {
+      "epoch": 6.8,
+      "learning_rate": 3e-05,
+      "loss": 0.3044,
+      "step": 14824
+    },
+    {
+      "epoch": 7.0,
+      "eval_accuracy": 0.7600033806411041,
+      "eval_loss": 0.4375591278076172,
+      "eval_runtime": 225.3993,
+      "eval_samples_per_second": 32.853,
+      "eval_steps_per_second": 2.054,
+      "step": 15253
+    },
+    {
+      "epoch": 7.0,
+      "eval_exact_match": 16.948008102633356,
+      "eval_f1": 23.931422337180113,
+      "eval_qa_bleu": 11.914541362683222,
+      "eval_qa_exact_match": 0.16029709655638083,
+      "eval_recite_bleu": 35.91072342079755,
+      "eval_recite_exact_match": 0.010938555030384874,
+      "step": 15253
+    },
+    {
+      "epoch": 7.0,
+      "learning_rate": 3e-05,
+      "loss": 0.2046,
+      "step": 15260
+    },
+    {
+      "epoch": 7.2,
+      "learning_rate": 3e-05,
+      "loss": 0.2265,
+      "step": 15696
+    },
+    {
+      "epoch": 7.4,
+      "learning_rate": 3e-05,
+      "loss": 0.236,
+      "step": 16132
+    },
+    {
+      "epoch": 7.6,
+      "learning_rate": 3e-05,
+      "loss": 0.2399,
+      "step": 16568
+    },
+    {
+      "epoch": 7.8,
+      "learning_rate": 3e-05,
+      "loss": 0.2446,
+      "step": 17004
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.7628389388058522,
+      "eval_loss": 0.42204150557518005,
+      "eval_runtime": 223.5169,
+      "eval_samples_per_second": 33.129,
+      "eval_steps_per_second": 2.071,
+      "step": 17432
+    },
+    {
+      "epoch": 8.0,
+      "eval_exact_match": 18.433490884537473,
+      "eval_f1": 25.859990277646197,
+      "eval_qa_bleu": 13.293068057422849,
+      "eval_qa_exact_match": 0.17609723160027008,
+      "eval_recite_bleu": 41.25950959223269,
+      "eval_recite_exact_match": 0.015530047265361242,
+      "step": 17432
+    },
+    {
+      "epoch": 8.0,
+      "learning_rate": 3e-05,
+      "loss": 0.2466,
+      "step": 17440
+    },
+    {
+      "epoch": 8.2,
+      "learning_rate": 3e-05,
+      "loss": 0.1887,
+      "step": 17876
+    },
+    {
+      "epoch": 8.4,
+      "learning_rate": 3e-05,
+      "loss": 0.1967,
+      "step": 18312
+    },
+    {
+      "epoch": 8.6,
+      "learning_rate": 3e-05,
+      "loss": 0.2026,
+      "step": 18748
+    },
+    {
+      "epoch": 8.8,
+      "learning_rate": 3e-05,
+      "loss": 0.2039,
+      "step": 19184
+    },
+    {
+      "epoch": 9.0,
+      "eval_accuracy": 0.7641864696201232,
+      "eval_loss": 0.41897761821746826,
+      "eval_runtime": 222.9387,
+      "eval_samples_per_second": 33.215,
+      "eval_steps_per_second": 2.077,
+      "step": 19611
+    },
+    {
+      "epoch": 9.0,
+      "eval_exact_match": 18.933153274814316,
+      "eval_f1": 26.522905186169627,
+      "eval_qa_bleu": 12.546175820192783,
+      "eval_qa_exact_match": 0.1797434166103984,
+      "eval_recite_bleu": 44.27793915167843,
+      "eval_recite_exact_match": 0.02228224172856178,
+      "step": 19611
+    },
+    {
+      "epoch": 9.0,
+      "learning_rate": 3e-05,
+      "loss": 0.2067,
+      "step": 19620
+    },
+    {
+      "epoch": 9.2,
+      "learning_rate": 3e-05,
+      "loss": 0.1667,
+      "step": 20056
+    },
+    {
+      "epoch": 9.4,
+      "learning_rate": 3e-05,
+      "loss": 0.1709,
+      "step": 20492
+    },
+    {
+      "epoch": 9.6,
+      "learning_rate": 3e-05,
+      "loss": 0.1774,
+      "step": 20928
+    },
+    {
+      "epoch": 9.8,
+      "learning_rate": 3e-05,
+      "loss": 0.1787,
+      "step": 21364
+    },
+    {
+      "epoch": 10.0,
+      "eval_accuracy": 0.7648945867029934,
+      "eval_loss": 0.4250437319278717,
+      "eval_runtime": 225.6304,
+      "eval_samples_per_second": 32.819,
+      "eval_steps_per_second": 2.052,
+      "step": 21790
+    },
+    {
+      "epoch": 10.0,
+      "eval_exact_match": 20.054017555705606,
+      "eval_f1": 27.607870062960497,
+      "eval_qa_bleu": 14.597537360428676,
+      "eval_qa_exact_match": 0.1913571910871033,
+      "eval_recite_bleu": 46.3428836838782,
+      "eval_recite_exact_match": 0.029169480081026333,
+      "step": 21790
+    },
+    {
+      "epoch": 10.0,
+      "learning_rate": 3e-05,
+      "loss": 0.1829,
+      "step": 21800
+    },
+    {
+      "epoch": 10.2,
+      "learning_rate": 3e-05,
+      "loss": 0.1498,
+      "step": 22236
+    },
+    {
+      "epoch": 10.4,
+      "learning_rate": 3e-05,
+      "loss": 0.1553,
+      "step": 22672
+    },
+    {
+      "epoch": 10.6,
+      "learning_rate": 3e-05,
+      "loss": 0.1612,
+      "step": 23108
+    },
+    {
+      "epoch": 10.8,
+      "learning_rate": 3e-05,
+      "loss": 0.1652,
+      "step": 23544
+    },
+    {
+      "epoch": 11.0,
+      "eval_accuracy": 0.7653962302216591,
+      "eval_loss": 0.42946067452430725,
+      "eval_runtime": 227.2445,
+      "eval_samples_per_second": 32.586,
+      "eval_steps_per_second": 2.037,
+      "step": 23969
+    },
+    {
+      "epoch": 11.0,
+      "eval_exact_match": 19.581363943281566,
+      "eval_f1": 27.25909178622117,
+      "eval_qa_bleu": 14.227446461856255,
+      "eval_qa_exact_match": 0.18595543551654287,
+      "eval_recite_bleu": 46.797968452871594,
+      "eval_recite_exact_match": 0.03430114787305875,
+      "step": 23969
+    },
+    {
+      "epoch": 11.01,
+      "learning_rate": 3e-05,
+      "loss": 0.1439,
+      "step": 23980
+    },
+    {
+      "epoch": 11.21,
+      "learning_rate": 3e-05,
+      "loss": 0.1402,
+      "step": 24416
+    },
+    {
+      "epoch": 11.41,
+      "learning_rate": 3e-05,
+      "loss": 0.1462,
+      "step": 24852
+    },
+    {
+      "epoch": 11.61,
+      "learning_rate": 3e-05,
+      "loss": 0.1492,
+      "step": 25288
+    },
+    {
+      "epoch": 11.81,
+      "learning_rate": 3e-05,
+      "loss": 0.154,
+      "step": 25724
+    },
+    {
+      "epoch": 12.0,
+      "eval_accuracy": 0.7654645700633325,
+      "eval_loss": 0.43657177686691284,
+      "eval_runtime": 220.7713,
+      "eval_samples_per_second": 33.541,
+      "eval_steps_per_second": 2.097,
+      "step": 26148
+    },
+    {
+      "epoch": 12.0,
+      "eval_exact_match": 19.945982444294394,
+      "eval_f1": 27.398959656999555,
+      "eval_qa_bleu": 13.50737485018698,
+      "eval_qa_exact_match": 0.1886563133018231,
+      "eval_recite_bleu": 47.72099251148126,
+      "eval_recite_exact_match": 0.036326806212018906,
+      "step": 26148
+    },
+    {
+      "epoch": 12.01,
+      "learning_rate": 3e-05,
+      "loss": 0.1569,
+      "step": 26160
+    },
+    {
+      "epoch": 12.21,
+      "learning_rate": 3e-05,
+      "loss": 0.1344,
+      "step": 26596
+    },
+    {
+      "epoch": 12.41,
+      "learning_rate": 3e-05,
+      "loss": 0.14,
+      "step": 27032
+    },
+    {
+      "epoch": 12.61,
+      "learning_rate": 3e-05,
+      "loss": 0.1427,
+      "step": 27468
+    },
+    {
+      "epoch": 12.81,
+      "learning_rate": 3e-05,
+      "loss": 0.1441,
+      "step": 27904
+    },
+    {
+      "epoch": 13.0,
+      "eval_accuracy": 0.7656634099218181,
+      "eval_loss": 0.44285184144973755,
+      "eval_runtime": 222.075,
+      "eval_samples_per_second": 33.345,
+      "eval_steps_per_second": 2.085,
+      "step": 28327
+    },
+    {
+      "epoch": 13.0,
+      "eval_exact_match": 20.405131667792034,
+      "eval_f1": 28.457441663021587,
+      "eval_qa_bleu": 14.596564409389117,
+      "eval_qa_exact_match": 0.19446320054017555,
+      "eval_recite_bleu": 48.14075990339527,
+      "eval_recite_exact_match": 0.03902768399729912,
+      "step": 28327
+    },
+    {
+      "epoch": 13.01,
+      "learning_rate": 3e-05,
+      "loss": 0.1502,
+      "step": 28340
+    },
+    {
+      "epoch": 13.21,
+      "learning_rate": 3e-05,
+      "loss": 0.1288,
+      "step": 28776
+    },
+    {
+      "epoch": 13.41,
+      "learning_rate": 3e-05,
+      "loss": 0.1334,
+      "step": 29212
+    },
+    {
+      "epoch": 13.61,
+      "learning_rate": 3e-05,
+      "loss": 0.1389,
+      "step": 29648
+    },
+    {
+      "epoch": 13.81,
+      "learning_rate": 3e-05,
+      "loss": 0.143,
+      "step": 30084
+    },
+    {
+      "epoch": 14.0,
+      "eval_accuracy": 0.7656877650781592,
+      "eval_loss": 0.44177931547164917,
+      "eval_runtime": 226.2366,
+      "eval_samples_per_second": 32.731,
+      "eval_steps_per_second": 2.047,
+      "step": 30506
+    },
+    {
+      "epoch": 14.0,
+      "eval_exact_match": 20.324105334233625,
+      "eval_f1": 28.258140680396128,
+      "eval_qa_bleu": 14.043080335083465,
+      "eval_qa_exact_match": 0.19324780553679946,
+      "eval_recite_bleu": 49.992383315936785,
+      "eval_recite_exact_match": 0.042403781228899394,
+      "step": 30506
+    },
+    {
+      "epoch": 14.01,
+      "learning_rate": 3e-05,
+      "loss": 0.1434,
+      "step": 30520
+    },
+    {
+      "epoch": 14.21,
+      "learning_rate": 3e-05,
+      "loss": 0.1265,
+      "step": 30956
+    },
+    {
+      "epoch": 14.41,
+      "learning_rate": 3e-05,
+      "loss": 0.1291,
+      "step": 31392
+    },
+    {
+      "epoch": 14.61,
+      "learning_rate": 3e-05,
+      "loss": 0.1346,
+      "step": 31828
+    },
+    {
+      "epoch": 14.81,
+      "learning_rate": 3e-05,
+      "loss": 0.1366,
+      "step": 32264
+    },
+    {
+      "epoch": 15.0,
+      "eval_accuracy": 0.7660609078838914,
+      "eval_loss": 0.44691887497901917,
+      "eval_runtime": 226.6588,
+      "eval_samples_per_second": 32.67,
+      "eval_steps_per_second": 2.043,
+      "step": 32685
+    },
+    {
+      "epoch": 15.0,
+      "eval_exact_match": 19.878460499662392,
+      "eval_f1": 27.391401943316232,
+      "eval_qa_bleu": 14.761384752422014,
+      "eval_qa_exact_match": 0.18717083051991898,
+      "eval_recite_bleu": 49.40428435717536,
+      "eval_recite_exact_match": 0.04659014179608373,
+      "step": 32685
+    },
+    {
+      "epoch": 15.01,
+      "learning_rate": 3e-05,
+      "loss": 0.1234,
+      "step": 32700
+    },
+    {
+      "epoch": 15.21,
+      "learning_rate": 3e-05,
+      "loss": 0.1235,
+      "step": 33136
+    },
+    {
+      "epoch": 15.41,
+      "learning_rate": 3e-05,
+      "loss": 0.1285,
+      "step": 33572
+    },
+    {
+      "epoch": 15.61,
+      "learning_rate": 3e-05,
+      "loss": 0.1296,
+      "step": 34008
+    },
+    {
+      "epoch": 15.81,
+      "learning_rate": 3e-05,
+      "loss": 0.1335,
+      "step": 34444
+    },
+    {
+      "epoch": 16.0,
+      "eval_accuracy": 0.7660959865792183,
+      "eval_loss": 0.45172181725502014,
+      "eval_runtime": 220.6741,
+      "eval_samples_per_second": 33.556,
+      "eval_steps_per_second": 2.098,
+      "step": 34864
+    },
+    {
+      "epoch": 16.0,
+      "eval_exact_match": 19.648885887913572,
+      "eval_f1": 27.41473279396055,
+      "eval_qa_bleu": 14.081874080604702,
+      "eval_qa_exact_match": 0.1863605671843349,
+      "eval_recite_bleu": 49.64601003868678,
+      "eval_recite_exact_match": 0.044699527346387574,
+      "step": 34864
+    },
+    {
+      "epoch": 16.01,
+      "learning_rate": 3e-05,
+      "loss": 0.1335,
+      "step": 34880
+    },
+    {
+      "epoch": 16.21,
+      "learning_rate": 3e-05,
+      "loss": 0.1195,
+      "step": 35316
+    },
+    {
+      "epoch": 16.41,
+      "learning_rate": 3e-05,
+      "loss": 0.1245,
+      "step": 35752
+    },
+    {
+      "epoch": 16.61,
+      "learning_rate": 3e-05,
+      "loss": 0.1278,
+      "step": 36188
+    },
+    {
+      "epoch": 16.81,
+      "learning_rate": 3e-05,
+      "loss": 0.1299,
+      "step": 36624
+    },
+    {
+      "epoch": 17.0,
+      "eval_accuracy": 0.7661592372837458,
+      "eval_loss": 0.45338499546051025,
+      "eval_runtime": 221.2554,
+      "eval_samples_per_second": 33.468,
+      "eval_steps_per_second": 2.093,
+      "step": 37043
+    },
+    {
+      "epoch": 17.0,
+      "eval_exact_match": 19.60837272113437,
+      "eval_f1": 27.45798777202767,
+      "eval_qa_bleu": 14.536144503898182,
+      "eval_qa_exact_match": 0.1850101282916948,
+      "eval_recite_bleu": 49.273704799153755,
+      "eval_recite_exact_match": 0.048345712356515864,
+      "step": 37043
+    },
+    {
+      "epoch": 17.01,
+      "learning_rate": 3e-05,
+      "loss": 0.1325,
+      "step": 37060
+    },
+    {
+      "epoch": 17.21,
+      "learning_rate": 3e-05,
+      "loss": 0.1188,
+      "step": 37496
+    },
+    {
+      "epoch": 17.41,
+      "learning_rate": 3e-05,
+      "loss": 0.1226,
+      "step": 37932
+    },
+    {
+      "epoch": 17.61,
+      "learning_rate": 3e-05,
+      "loss": 0.1263,
+      "step": 38368
+    },
+    {
+      "epoch": 17.81,
+      "learning_rate": 3e-05,
+      "loss": 0.1271,
+      "step": 38804
+    },
+    {
+      "epoch": 18.0,
+      "eval_accuracy": 0.7663929740826603,
+      "eval_loss": 0.45788267254829407,
+      "eval_runtime": 224.1369,
+      "eval_samples_per_second": 33.038,
+      "eval_steps_per_second": 2.066,
+      "step": 39222
+    },
+    {
+      "epoch": 18.0,
+      "eval_exact_match": 19.959486833220797,
+      "eval_f1": 27.5331537130017,
+      "eval_qa_bleu": 14.102203160745331,
+      "eval_qa_exact_match": 0.1900067521944632,
+      "eval_recite_bleu": 50.42598107564746,
+      "eval_recite_exact_match": 0.05172180958811614,
+      "step": 39222
+    },
+    {
+      "epoch": 18.01,
+      "learning_rate": 3e-05,
+      "loss": 0.1298,
+      "step": 39240
+    },
+    {
+      "epoch": 18.21,
+      "learning_rate": 3e-05,
+      "loss": 0.1152,
+      "step": 39676
+    },
+    {
+      "epoch": 18.41,
+      "learning_rate": 3e-05,
+      "loss": 0.119,
+      "step": 40112
+    },
+    {
+      "epoch": 18.61,
+      "learning_rate": 3e-05,
+      "loss": 0.1251,
+      "step": 40548
+    },
+    {
+      "epoch": 18.81,
+      "learning_rate": 3e-05,
+      "loss": 0.1268,
+      "step": 40984
+    },
+    {
+      "epoch": 19.0,
+      "eval_accuracy": 0.7664202373173704,
+      "eval_loss": 0.4556055963039398,
+      "eval_runtime": 225.0055,
+      "eval_samples_per_second": 32.91,
+      "eval_steps_per_second": 2.058,
+      "step": 41401
+    },
+    {
+      "epoch": 19.0,
+      "eval_exact_match": 21.02633355840648,
+      "eval_f1": 28.383806355797034,
+      "eval_qa_bleu": 15.303943702882195,
+      "eval_qa_exact_match": 0.19905469277515192,
+      "eval_recite_bleu": 51.33952244561918,
+      "eval_recite_exact_match": 0.05442268737339635,
+      "step": 41401
+    }
+  ],
+  "logging_steps": 436,
+  "max_steps": 43580,
+  "num_train_epochs": 20,
+  "save_steps": 500,
+  "total_flos": 1.9157215780620288e+18,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-41401/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cae5a0482131a1253cac2a7ef1083f0d9bb1ac1cf467c769d2a6b8675da83dc9
+size 4728

checkpoint-41401/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff