ErrorAI commited on
Commit
6892ef7
·
verified ·
1 Parent(s): f6eacc4

Training in progress, step 1325, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:97e3d1075d72da9a3f275f06ab5b5e5ca3d33daf99dba782a08d1059c25428dc
3
  size 125248064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:715f83572aa3f4ed79e33403950f80eee9fccf552b83ef4a77bf113947f7ac7d
3
  size 125248064
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e49e48cefed6b3faaf4fe019b6ad3d7bb9b340c903e906af3a6c3b4193ba9725
3
  size 64220436
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:99b71d30026df7e8e05cad7c4763e931cb252ef5a7a6768252eb9836319a5ed0
3
  size 64220436
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:cbc2ad6a184a20149bd18b7d926c22b7e461395ecfc8dc7955d3deffde306712
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:302845160bac916181403545ad8e36243268631aeb7740ad441789eaf18357d9
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f19c405a77bbad8d8d449ad0b731c0db22b85685ecd9695faa9af70c99be0ddb
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ba54fc85a19d04f74315f4fc03468ec40e7a52d310f34854d7b1cd3ab924f698
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.7521238436851048,
5
  "eval_steps": 500,
6
- "global_step": 996,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -6979,6 +6979,2317 @@
6979
  "learning_rate": 1.4560615642794517e-05,
6980
  "loss": 0.3108,
6981
  "step": 996
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
6982
  }
6983
  ],
6984
  "logging_steps": 1,
@@ -6993,12 +9304,12 @@
6993
  "should_evaluate": false,
6994
  "should_log": false,
6995
  "should_save": true,
6996
- "should_training_stop": false
6997
  },
6998
  "attributes": {}
6999
  }
7000
  },
7001
- "total_flos": 1.2829614982299648e+18,
7002
  "train_batch_size": 4,
7003
  "trial_name": null,
7004
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 1.000566358316028,
5
  "eval_steps": 500,
6
+ "global_step": 1325,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
6979
  "learning_rate": 1.4560615642794517e-05,
6980
  "loss": 0.3108,
6981
  "step": 996
6982
+ },
6983
+ {
6984
+ "epoch": 0.7528789881064754,
6985
+ "grad_norm": 0.39953500032424927,
6986
+ "learning_rate": 1.4476771086731567e-05,
6987
+ "loss": 0.4049,
6988
+ "step": 997
6989
+ },
6990
+ {
6991
+ "epoch": 0.753634132527846,
6992
+ "grad_norm": 0.35916373133659363,
6993
+ "learning_rate": 1.4393127747410417e-05,
6994
+ "loss": 0.335,
6995
+ "step": 998
6996
+ },
6997
+ {
6998
+ "epoch": 0.7543892769492165,
6999
+ "grad_norm": 0.3811121881008148,
7000
+ "learning_rate": 1.4309686098617975e-05,
7001
+ "loss": 0.3608,
7002
+ "step": 999
7003
+ },
7004
+ {
7005
+ "epoch": 0.7551444213705871,
7006
+ "grad_norm": 0.49154841899871826,
7007
+ "learning_rate": 1.4226446612998673e-05,
7008
+ "loss": 0.4254,
7009
+ "step": 1000
7010
+ },
7011
+ {
7012
+ "epoch": 0.7558995657919577,
7013
+ "grad_norm": 0.14996010065078735,
7014
+ "learning_rate": 1.414340976205183e-05,
7015
+ "loss": 0.3259,
7016
+ "step": 1001
7017
+ },
7018
+ {
7019
+ "epoch": 0.7566547102133283,
7020
+ "grad_norm": 0.15046906471252441,
7021
+ "learning_rate": 1.4060576016128974e-05,
7022
+ "loss": 0.3184,
7023
+ "step": 1002
7024
+ },
7025
+ {
7026
+ "epoch": 0.7574098546346989,
7027
+ "grad_norm": 0.1714065670967102,
7028
+ "learning_rate": 1.3977945844431118e-05,
7029
+ "loss": 0.3564,
7030
+ "step": 1003
7031
+ },
7032
+ {
7033
+ "epoch": 0.7581649990560695,
7034
+ "grad_norm": 0.18413116037845612,
7035
+ "learning_rate": 1.3895519715006238e-05,
7036
+ "loss": 0.3889,
7037
+ "step": 1004
7038
+ },
7039
+ {
7040
+ "epoch": 0.7589201434774401,
7041
+ "grad_norm": 0.19010891020298004,
7042
+ "learning_rate": 1.3813298094746491e-05,
7043
+ "loss": 0.3909,
7044
+ "step": 1005
7045
+ },
7046
+ {
7047
+ "epoch": 0.7596752878988107,
7048
+ "grad_norm": 0.1898065060377121,
7049
+ "learning_rate": 1.373128144938563e-05,
7050
+ "loss": 0.4388,
7051
+ "step": 1006
7052
+ },
7053
+ {
7054
+ "epoch": 0.7604304323201813,
7055
+ "grad_norm": 0.1871468871831894,
7056
+ "learning_rate": 1.3649470243496326e-05,
7057
+ "loss": 0.401,
7058
+ "step": 1007
7059
+ },
7060
+ {
7061
+ "epoch": 0.7611855767415519,
7062
+ "grad_norm": 0.18679498136043549,
7063
+ "learning_rate": 1.3567864940487584e-05,
7064
+ "loss": 0.4038,
7065
+ "step": 1008
7066
+ },
7067
+ {
7068
+ "epoch": 0.7619407211629224,
7069
+ "grad_norm": 0.19137872755527496,
7070
+ "learning_rate": 1.3486466002602133e-05,
7071
+ "loss": 0.3803,
7072
+ "step": 1009
7073
+ },
7074
+ {
7075
+ "epoch": 0.762695865584293,
7076
+ "grad_norm": 0.1978340446949005,
7077
+ "learning_rate": 1.340527389091374e-05,
7078
+ "loss": 0.388,
7079
+ "step": 1010
7080
+ },
7081
+ {
7082
+ "epoch": 0.7634510100056636,
7083
+ "grad_norm": 0.19116266071796417,
7084
+ "learning_rate": 1.3324289065324608e-05,
7085
+ "loss": 0.3728,
7086
+ "step": 1011
7087
+ },
7088
+ {
7089
+ "epoch": 0.7642061544270342,
7090
+ "grad_norm": 0.21141821146011353,
7091
+ "learning_rate": 1.3243511984562824e-05,
7092
+ "loss": 0.4367,
7093
+ "step": 1012
7094
+ },
7095
+ {
7096
+ "epoch": 0.7649612988484048,
7097
+ "grad_norm": 0.22845213115215302,
7098
+ "learning_rate": 1.3162943106179749e-05,
7099
+ "loss": 0.3907,
7100
+ "step": 1013
7101
+ },
7102
+ {
7103
+ "epoch": 0.7657164432697754,
7104
+ "grad_norm": 0.22269576787948608,
7105
+ "learning_rate": 1.3082582886547395e-05,
7106
+ "loss": 0.4779,
7107
+ "step": 1014
7108
+ },
7109
+ {
7110
+ "epoch": 0.766471587691146,
7111
+ "grad_norm": 0.21351350843906403,
7112
+ "learning_rate": 1.3002431780855817e-05,
7113
+ "loss": 0.4206,
7114
+ "step": 1015
7115
+ },
7116
+ {
7117
+ "epoch": 0.7672267321125166,
7118
+ "grad_norm": 0.2109295129776001,
7119
+ "learning_rate": 1.2922490243110614e-05,
7120
+ "loss": 0.3882,
7121
+ "step": 1016
7122
+ },
7123
+ {
7124
+ "epoch": 0.767981876533887,
7125
+ "grad_norm": 0.23167261481285095,
7126
+ "learning_rate": 1.2842758726130283e-05,
7127
+ "loss": 0.4386,
7128
+ "step": 1017
7129
+ },
7130
+ {
7131
+ "epoch": 0.7687370209552576,
7132
+ "grad_norm": 0.23334629833698273,
7133
+ "learning_rate": 1.2763237681543732e-05,
7134
+ "loss": 0.4477,
7135
+ "step": 1018
7136
+ },
7137
+ {
7138
+ "epoch": 0.7694921653766282,
7139
+ "grad_norm": 0.23084315657615662,
7140
+ "learning_rate": 1.2683927559787655e-05,
7141
+ "loss": 0.423,
7142
+ "step": 1019
7143
+ },
7144
+ {
7145
+ "epoch": 0.7702473097979988,
7146
+ "grad_norm": 0.2281108796596527,
7147
+ "learning_rate": 1.2604828810103957e-05,
7148
+ "loss": 0.4073,
7149
+ "step": 1020
7150
+ },
7151
+ {
7152
+ "epoch": 0.7710024542193694,
7153
+ "grad_norm": 0.2173498570919037,
7154
+ "learning_rate": 1.2525941880537307e-05,
7155
+ "loss": 0.3423,
7156
+ "step": 1021
7157
+ },
7158
+ {
7159
+ "epoch": 0.77175759864074,
7160
+ "grad_norm": 0.21901051700115204,
7161
+ "learning_rate": 1.2447267217932507e-05,
7162
+ "loss": 0.3601,
7163
+ "step": 1022
7164
+ },
7165
+ {
7166
+ "epoch": 0.7725127430621106,
7167
+ "grad_norm": 0.22421492636203766,
7168
+ "learning_rate": 1.236880526793207e-05,
7169
+ "loss": 0.3953,
7170
+ "step": 1023
7171
+ },
7172
+ {
7173
+ "epoch": 0.7732678874834812,
7174
+ "grad_norm": 0.2377631813287735,
7175
+ "learning_rate": 1.2290556474973536e-05,
7176
+ "loss": 0.3744,
7177
+ "step": 1024
7178
+ },
7179
+ {
7180
+ "epoch": 0.7740230319048518,
7181
+ "grad_norm": 0.23121589422225952,
7182
+ "learning_rate": 1.2212521282287092e-05,
7183
+ "loss": 0.3976,
7184
+ "step": 1025
7185
+ },
7186
+ {
7187
+ "epoch": 0.7747781763262224,
7188
+ "grad_norm": 0.255655437707901,
7189
+ "learning_rate": 1.2134700131893012e-05,
7190
+ "loss": 0.4125,
7191
+ "step": 1026
7192
+ },
7193
+ {
7194
+ "epoch": 0.775533320747593,
7195
+ "grad_norm": 0.2366100549697876,
7196
+ "learning_rate": 1.2057093464599157e-05,
7197
+ "loss": 0.3724,
7198
+ "step": 1027
7199
+ },
7200
+ {
7201
+ "epoch": 0.7762884651689635,
7202
+ "grad_norm": 0.2489083856344223,
7203
+ "learning_rate": 1.1979701719998453e-05,
7204
+ "loss": 0.4281,
7205
+ "step": 1028
7206
+ },
7207
+ {
7208
+ "epoch": 0.7770436095903341,
7209
+ "grad_norm": 0.26776382327079773,
7210
+ "learning_rate": 1.1902525336466464e-05,
7211
+ "loss": 0.4041,
7212
+ "step": 1029
7213
+ },
7214
+ {
7215
+ "epoch": 0.7777987540117047,
7216
+ "grad_norm": 0.24452626705169678,
7217
+ "learning_rate": 1.1825564751158823e-05,
7218
+ "loss": 0.4135,
7219
+ "step": 1030
7220
+ },
7221
+ {
7222
+ "epoch": 0.7785538984330753,
7223
+ "grad_norm": 0.2541411817073822,
7224
+ "learning_rate": 1.1748820400008843e-05,
7225
+ "loss": 0.4086,
7226
+ "step": 1031
7227
+ },
7228
+ {
7229
+ "epoch": 0.7793090428544459,
7230
+ "grad_norm": 0.27573496103286743,
7231
+ "learning_rate": 1.167229271772498e-05,
7232
+ "loss": 0.3883,
7233
+ "step": 1032
7234
+ },
7235
+ {
7236
+ "epoch": 0.7800641872758165,
7237
+ "grad_norm": 0.2743297219276428,
7238
+ "learning_rate": 1.1595982137788403e-05,
7239
+ "loss": 0.4083,
7240
+ "step": 1033
7241
+ },
7242
+ {
7243
+ "epoch": 0.7808193316971871,
7244
+ "grad_norm": 0.2688688039779663,
7245
+ "learning_rate": 1.1519889092450542e-05,
7246
+ "loss": 0.3992,
7247
+ "step": 1034
7248
+ },
7249
+ {
7250
+ "epoch": 0.7815744761185577,
7251
+ "grad_norm": 0.28381526470184326,
7252
+ "learning_rate": 1.144401401273062e-05,
7253
+ "loss": 0.3882,
7254
+ "step": 1035
7255
+ },
7256
+ {
7257
+ "epoch": 0.7823296205399283,
7258
+ "grad_norm": 0.26710647344589233,
7259
+ "learning_rate": 1.1368357328413242e-05,
7260
+ "loss": 0.3639,
7261
+ "step": 1036
7262
+ },
7263
+ {
7264
+ "epoch": 0.7830847649612989,
7265
+ "grad_norm": 0.3097337782382965,
7266
+ "learning_rate": 1.1292919468045877e-05,
7267
+ "loss": 0.4394,
7268
+ "step": 1037
7269
+ },
7270
+ {
7271
+ "epoch": 0.7838399093826695,
7272
+ "grad_norm": 0.28815412521362305,
7273
+ "learning_rate": 1.1217700858936587e-05,
7274
+ "loss": 0.4298,
7275
+ "step": 1038
7276
+ },
7277
+ {
7278
+ "epoch": 0.78459505380404,
7279
+ "grad_norm": 0.30151909589767456,
7280
+ "learning_rate": 1.1142701927151456e-05,
7281
+ "loss": 0.393,
7282
+ "step": 1039
7283
+ },
7284
+ {
7285
+ "epoch": 0.7853501982254106,
7286
+ "grad_norm": 0.30772241950035095,
7287
+ "learning_rate": 1.1067923097512256e-05,
7288
+ "loss": 0.3688,
7289
+ "step": 1040
7290
+ },
7291
+ {
7292
+ "epoch": 0.7861053426467812,
7293
+ "grad_norm": 0.31982895731925964,
7294
+ "learning_rate": 1.099336479359398e-05,
7295
+ "loss": 0.3815,
7296
+ "step": 1041
7297
+ },
7298
+ {
7299
+ "epoch": 0.7868604870681518,
7300
+ "grad_norm": 0.3298172950744629,
7301
+ "learning_rate": 1.0919027437722513e-05,
7302
+ "loss": 0.4153,
7303
+ "step": 1042
7304
+ },
7305
+ {
7306
+ "epoch": 0.7876156314895224,
7307
+ "grad_norm": 0.33412277698516846,
7308
+ "learning_rate": 1.0844911450972229e-05,
7309
+ "loss": 0.3972,
7310
+ "step": 1043
7311
+ },
7312
+ {
7313
+ "epoch": 0.788370775910893,
7314
+ "grad_norm": 0.3366442322731018,
7315
+ "learning_rate": 1.0771017253163568e-05,
7316
+ "loss": 0.3627,
7317
+ "step": 1044
7318
+ },
7319
+ {
7320
+ "epoch": 0.7891259203322636,
7321
+ "grad_norm": 0.3680926263332367,
7322
+ "learning_rate": 1.0697345262860636e-05,
7323
+ "loss": 0.4297,
7324
+ "step": 1045
7325
+ },
7326
+ {
7327
+ "epoch": 0.7898810647536342,
7328
+ "grad_norm": 0.3372995853424072,
7329
+ "learning_rate": 1.0623895897368913e-05,
7330
+ "loss": 0.3856,
7331
+ "step": 1046
7332
+ },
7333
+ {
7334
+ "epoch": 0.7906362091750048,
7335
+ "grad_norm": 0.34899917244911194,
7336
+ "learning_rate": 1.0550669572732863e-05,
7337
+ "loss": 0.2923,
7338
+ "step": 1047
7339
+ },
7340
+ {
7341
+ "epoch": 0.7913913535963754,
7342
+ "grad_norm": 0.4165075421333313,
7343
+ "learning_rate": 1.0477666703733541e-05,
7344
+ "loss": 0.3788,
7345
+ "step": 1048
7346
+ },
7347
+ {
7348
+ "epoch": 0.792146498017746,
7349
+ "grad_norm": 0.44895628094673157,
7350
+ "learning_rate": 1.0404887703886251e-05,
7351
+ "loss": 0.373,
7352
+ "step": 1049
7353
+ },
7354
+ {
7355
+ "epoch": 0.7929016424391164,
7356
+ "grad_norm": 0.4823060631752014,
7357
+ "learning_rate": 1.0332332985438248e-05,
7358
+ "loss": 0.3716,
7359
+ "step": 1050
7360
+ },
7361
+ {
7362
+ "epoch": 0.793656786860487,
7363
+ "grad_norm": 0.15826448798179626,
7364
+ "learning_rate": 1.0260002959366349e-05,
7365
+ "loss": 0.3269,
7366
+ "step": 1051
7367
+ },
7368
+ {
7369
+ "epoch": 0.7944119312818576,
7370
+ "grad_norm": 0.1592281609773636,
7371
+ "learning_rate": 1.0187898035374682e-05,
7372
+ "loss": 0.3417,
7373
+ "step": 1052
7374
+ },
7375
+ {
7376
+ "epoch": 0.7951670757032282,
7377
+ "grad_norm": 0.18132025003433228,
7378
+ "learning_rate": 1.0116018621892237e-05,
7379
+ "loss": 0.3531,
7380
+ "step": 1053
7381
+ },
7382
+ {
7383
+ "epoch": 0.7959222201245988,
7384
+ "grad_norm": 0.16262286901474,
7385
+ "learning_rate": 1.0044365126070682e-05,
7386
+ "loss": 0.3089,
7387
+ "step": 1054
7388
+ },
7389
+ {
7390
+ "epoch": 0.7966773645459694,
7391
+ "grad_norm": 0.17961286008358002,
7392
+ "learning_rate": 9.972937953781986e-06,
7393
+ "loss": 0.3534,
7394
+ "step": 1055
7395
+ },
7396
+ {
7397
+ "epoch": 0.79743250896734,
7398
+ "grad_norm": 0.17105191946029663,
7399
+ "learning_rate": 9.901737509616143e-06,
7400
+ "loss": 0.3361,
7401
+ "step": 1056
7402
+ },
7403
+ {
7404
+ "epoch": 0.7981876533887106,
7405
+ "grad_norm": 0.1858292818069458,
7406
+ "learning_rate": 9.830764196878872e-06,
7407
+ "loss": 0.354,
7408
+ "step": 1057
7409
+ },
7410
+ {
7411
+ "epoch": 0.7989427978100812,
7412
+ "grad_norm": 0.19711358845233917,
7413
+ "learning_rate": 9.760018417589334e-06,
7414
+ "loss": 0.3887,
7415
+ "step": 1058
7416
+ },
7417
+ {
7418
+ "epoch": 0.7996979422314517,
7419
+ "grad_norm": 0.20733587443828583,
7420
+ "learning_rate": 9.689500572477855e-06,
7421
+ "loss": 0.4724,
7422
+ "step": 1059
7423
+ },
7424
+ {
7425
+ "epoch": 0.8004530866528223,
7426
+ "grad_norm": 0.2481202483177185,
7427
+ "learning_rate": 9.619211060983675e-06,
7428
+ "loss": 0.4828,
7429
+ "step": 1060
7430
+ },
7431
+ {
7432
+ "epoch": 0.8012082310741929,
7433
+ "grad_norm": 0.191118523478508,
7434
+ "learning_rate": 9.549150281252633e-06,
7435
+ "loss": 0.3909,
7436
+ "step": 1061
7437
+ },
7438
+ {
7439
+ "epoch": 0.8019633754955635,
7440
+ "grad_norm": 0.19519171118736267,
7441
+ "learning_rate": 9.479318630134976e-06,
7442
+ "loss": 0.339,
7443
+ "step": 1062
7444
+ },
7445
+ {
7446
+ "epoch": 0.8027185199169341,
7447
+ "grad_norm": 0.19820590317249298,
7448
+ "learning_rate": 9.409716503183074e-06,
7449
+ "loss": 0.3476,
7450
+ "step": 1063
7451
+ },
7452
+ {
7453
+ "epoch": 0.8034736643383047,
7454
+ "grad_norm": 0.23485320806503296,
7455
+ "learning_rate": 9.340344294649184e-06,
7456
+ "loss": 0.4675,
7457
+ "step": 1064
7458
+ },
7459
+ {
7460
+ "epoch": 0.8042288087596753,
7461
+ "grad_norm": 0.20198017358779907,
7462
+ "learning_rate": 9.271202397483215e-06,
7463
+ "loss": 0.336,
7464
+ "step": 1065
7465
+ },
7466
+ {
7467
+ "epoch": 0.8049839531810459,
7468
+ "grad_norm": 0.19426412880420685,
7469
+ "learning_rate": 9.20229120333052e-06,
7470
+ "loss": 0.3578,
7471
+ "step": 1066
7472
+ },
7473
+ {
7474
+ "epoch": 0.8057390976024165,
7475
+ "grad_norm": 0.2336643636226654,
7476
+ "learning_rate": 9.133611102529654e-06,
7477
+ "loss": 0.4355,
7478
+ "step": 1067
7479
+ },
7480
+ {
7481
+ "epoch": 0.8064942420237871,
7482
+ "grad_norm": 0.2223149985074997,
7483
+ "learning_rate": 9.065162484110179e-06,
7484
+ "loss": 0.4256,
7485
+ "step": 1068
7486
+ },
7487
+ {
7488
+ "epoch": 0.8072493864451576,
7489
+ "grad_norm": 0.23664018511772156,
7490
+ "learning_rate": 8.996945735790447e-06,
7491
+ "loss": 0.4148,
7492
+ "step": 1069
7493
+ },
7494
+ {
7495
+ "epoch": 0.8080045308665282,
7496
+ "grad_norm": 0.22716124355793,
7497
+ "learning_rate": 8.928961243975437e-06,
7498
+ "loss": 0.3981,
7499
+ "step": 1070
7500
+ },
7501
+ {
7502
+ "epoch": 0.8087596752878988,
7503
+ "grad_norm": 0.230534628033638,
7504
+ "learning_rate": 8.861209393754477e-06,
7505
+ "loss": 0.4269,
7506
+ "step": 1071
7507
+ },
7508
+ {
7509
+ "epoch": 0.8095148197092694,
7510
+ "grad_norm": 0.21818408370018005,
7511
+ "learning_rate": 8.793690568899216e-06,
7512
+ "loss": 0.3498,
7513
+ "step": 1072
7514
+ },
7515
+ {
7516
+ "epoch": 0.81026996413064,
7517
+ "grad_norm": 0.2515822947025299,
7518
+ "learning_rate": 8.7264051518613e-06,
7519
+ "loss": 0.4829,
7520
+ "step": 1073
7521
+ },
7522
+ {
7523
+ "epoch": 0.8110251085520106,
7524
+ "grad_norm": 0.23883438110351562,
7525
+ "learning_rate": 8.659353523770297e-06,
7526
+ "loss": 0.3792,
7527
+ "step": 1074
7528
+ },
7529
+ {
7530
+ "epoch": 0.8117802529733812,
7531
+ "grad_norm": 0.25294432044029236,
7532
+ "learning_rate": 8.592536064431467e-06,
7533
+ "loss": 0.3966,
7534
+ "step": 1075
7535
+ },
7536
+ {
7537
+ "epoch": 0.8125353973947518,
7538
+ "grad_norm": 0.2528051435947418,
7539
+ "learning_rate": 8.525953152323684e-06,
7540
+ "loss": 0.4245,
7541
+ "step": 1076
7542
+ },
7543
+ {
7544
+ "epoch": 0.8132905418161224,
7545
+ "grad_norm": 0.25422972440719604,
7546
+ "learning_rate": 8.459605164597267e-06,
7547
+ "loss": 0.4256,
7548
+ "step": 1077
7549
+ },
7550
+ {
7551
+ "epoch": 0.814045686237493,
7552
+ "grad_norm": 0.2697378098964691,
7553
+ "learning_rate": 8.393492477071829e-06,
7554
+ "loss": 0.4137,
7555
+ "step": 1078
7556
+ },
7557
+ {
7558
+ "epoch": 0.8148008306588636,
7559
+ "grad_norm": 0.25492045283317566,
7560
+ "learning_rate": 8.327615464234129e-06,
7561
+ "loss": 0.4055,
7562
+ "step": 1079
7563
+ },
7564
+ {
7565
+ "epoch": 0.8155559750802341,
7566
+ "grad_norm": 0.26645827293395996,
7567
+ "learning_rate": 8.261974499235987e-06,
7568
+ "loss": 0.4531,
7569
+ "step": 1080
7570
+ },
7571
+ {
7572
+ "epoch": 0.8163111195016047,
7573
+ "grad_norm": 0.2661876082420349,
7574
+ "learning_rate": 8.196569953892202e-06,
7575
+ "loss": 0.3774,
7576
+ "step": 1081
7577
+ },
7578
+ {
7579
+ "epoch": 0.8170662639229753,
7580
+ "grad_norm": 0.2471131682395935,
7581
+ "learning_rate": 8.131402198678373e-06,
7582
+ "loss": 0.3474,
7583
+ "step": 1082
7584
+ },
7585
+ {
7586
+ "epoch": 0.8178214083443458,
7587
+ "grad_norm": 0.26696231961250305,
7588
+ "learning_rate": 8.066471602728803e-06,
7589
+ "loss": 0.3357,
7590
+ "step": 1083
7591
+ },
7592
+ {
7593
+ "epoch": 0.8185765527657164,
7594
+ "grad_norm": 0.26743122935295105,
7595
+ "learning_rate": 8.001778533834487e-06,
7596
+ "loss": 0.3404,
7597
+ "step": 1084
7598
+ },
7599
+ {
7600
+ "epoch": 0.819331697187087,
7601
+ "grad_norm": 0.28732678294181824,
7602
+ "learning_rate": 7.937323358440935e-06,
7603
+ "loss": 0.389,
7604
+ "step": 1085
7605
+ },
7606
+ {
7607
+ "epoch": 0.8200868416084576,
7608
+ "grad_norm": 0.30629798769950867,
7609
+ "learning_rate": 7.873106441646205e-06,
7610
+ "loss": 0.4185,
7611
+ "step": 1086
7612
+ },
7613
+ {
7614
+ "epoch": 0.8208419860298282,
7615
+ "grad_norm": 0.2828892469406128,
7616
+ "learning_rate": 7.809128147198691e-06,
7617
+ "loss": 0.3792,
7618
+ "step": 1087
7619
+ },
7620
+ {
7621
+ "epoch": 0.8215971304511988,
7622
+ "grad_norm": 0.28884345293045044,
7623
+ "learning_rate": 7.745388837495188e-06,
7624
+ "loss": 0.369,
7625
+ "step": 1088
7626
+ },
7627
+ {
7628
+ "epoch": 0.8223522748725693,
7629
+ "grad_norm": 0.30468007922172546,
7630
+ "learning_rate": 7.681888873578786e-06,
7631
+ "loss": 0.4518,
7632
+ "step": 1089
7633
+ },
7634
+ {
7635
+ "epoch": 0.8231074192939399,
7636
+ "grad_norm": 0.3138682246208191,
7637
+ "learning_rate": 7.618628615136825e-06,
7638
+ "loss": 0.3665,
7639
+ "step": 1090
7640
+ },
7641
+ {
7642
+ "epoch": 0.8238625637153105,
7643
+ "grad_norm": 0.2910728454589844,
7644
+ "learning_rate": 7.555608420498872e-06,
7645
+ "loss": 0.2928,
7646
+ "step": 1091
7647
+ },
7648
+ {
7649
+ "epoch": 0.8246177081366811,
7650
+ "grad_norm": 0.3152346611022949,
7651
+ "learning_rate": 7.4928286466346754e-06,
7652
+ "loss": 0.3834,
7653
+ "step": 1092
7654
+ },
7655
+ {
7656
+ "epoch": 0.8253728525580517,
7657
+ "grad_norm": 0.336488276720047,
7658
+ "learning_rate": 7.430289649152156e-06,
7659
+ "loss": 0.3728,
7660
+ "step": 1093
7661
+ },
7662
+ {
7663
+ "epoch": 0.8261279969794223,
7664
+ "grad_norm": 0.32753413915634155,
7665
+ "learning_rate": 7.367991782295391e-06,
7666
+ "loss": 0.3237,
7667
+ "step": 1094
7668
+ },
7669
+ {
7670
+ "epoch": 0.8268831414007929,
7671
+ "grad_norm": 0.33121833205223083,
7672
+ "learning_rate": 7.305935398942598e-06,
7673
+ "loss": 0.3403,
7674
+ "step": 1095
7675
+ },
7676
+ {
7677
+ "epoch": 0.8276382858221635,
7678
+ "grad_norm": 0.3293071389198303,
7679
+ "learning_rate": 7.244120850604141e-06,
7680
+ "loss": 0.3105,
7681
+ "step": 1096
7682
+ },
7683
+ {
7684
+ "epoch": 0.8283934302435341,
7685
+ "grad_norm": 0.3871884047985077,
7686
+ "learning_rate": 7.182548487420554e-06,
7687
+ "loss": 0.3617,
7688
+ "step": 1097
7689
+ },
7690
+ {
7691
+ "epoch": 0.8291485746649047,
7692
+ "grad_norm": 0.4038209915161133,
7693
+ "learning_rate": 7.121218658160527e-06,
7694
+ "loss": 0.4204,
7695
+ "step": 1098
7696
+ },
7697
+ {
7698
+ "epoch": 0.8299037190862752,
7699
+ "grad_norm": 0.41719168424606323,
7700
+ "learning_rate": 7.060131710218959e-06,
7701
+ "loss": 0.299,
7702
+ "step": 1099
7703
+ },
7704
+ {
7705
+ "epoch": 0.8306588635076458,
7706
+ "grad_norm": 0.4760392904281616,
7707
+ "learning_rate": 6.999287989614972e-06,
7708
+ "loss": 0.3683,
7709
+ "step": 1100
7710
+ },
7711
+ {
7712
+ "epoch": 0.8314140079290164,
7713
+ "grad_norm": 0.17138616740703583,
7714
+ "learning_rate": 6.9386878409899715e-06,
7715
+ "loss": 0.3231,
7716
+ "step": 1101
7717
+ },
7718
+ {
7719
+ "epoch": 0.832169152350387,
7720
+ "grad_norm": 0.16634538769721985,
7721
+ "learning_rate": 6.87833160760567e-06,
7722
+ "loss": 0.3349,
7723
+ "step": 1102
7724
+ },
7725
+ {
7726
+ "epoch": 0.8329242967717576,
7727
+ "grad_norm": 0.17278127372264862,
7728
+ "learning_rate": 6.818219631342149e-06,
7729
+ "loss": 0.3614,
7730
+ "step": 1103
7731
+ },
7732
+ {
7733
+ "epoch": 0.8336794411931282,
7734
+ "grad_norm": 0.16819556057453156,
7735
+ "learning_rate": 6.758352252695949e-06,
7736
+ "loss": 0.3442,
7737
+ "step": 1104
7738
+ },
7739
+ {
7740
+ "epoch": 0.8344345856144988,
7741
+ "grad_norm": 0.181631401181221,
7742
+ "learning_rate": 6.698729810778065e-06,
7743
+ "loss": 0.3663,
7744
+ "step": 1105
7745
+ },
7746
+ {
7747
+ "epoch": 0.8351897300358694,
7748
+ "grad_norm": 0.18373197317123413,
7749
+ "learning_rate": 6.639352643312164e-06,
7750
+ "loss": 0.3636,
7751
+ "step": 1106
7752
+ },
7753
+ {
7754
+ "epoch": 0.83594487445724,
7755
+ "grad_norm": 0.1827540099620819,
7756
+ "learning_rate": 6.580221086632516e-06,
7757
+ "loss": 0.3765,
7758
+ "step": 1107
7759
+ },
7760
+ {
7761
+ "epoch": 0.8367000188786106,
7762
+ "grad_norm": 0.1983499974012375,
7763
+ "learning_rate": 6.521335475682205e-06,
7764
+ "loss": 0.3806,
7765
+ "step": 1108
7766
+ },
7767
+ {
7768
+ "epoch": 0.8374551632999812,
7769
+ "grad_norm": 0.2072797417640686,
7770
+ "learning_rate": 6.462696144011149e-06,
7771
+ "loss": 0.4196,
7772
+ "step": 1109
7773
+ },
7774
+ {
7775
+ "epoch": 0.8382103077213517,
7776
+ "grad_norm": 0.20540378987789154,
7777
+ "learning_rate": 6.40430342377426e-06,
7778
+ "loss": 0.4063,
7779
+ "step": 1110
7780
+ },
7781
+ {
7782
+ "epoch": 0.8389654521427223,
7783
+ "grad_norm": 0.22013606131076813,
7784
+ "learning_rate": 6.346157645729589e-06,
7785
+ "loss": 0.4732,
7786
+ "step": 1111
7787
+ },
7788
+ {
7789
+ "epoch": 0.8397205965640929,
7790
+ "grad_norm": 0.2054942101240158,
7791
+ "learning_rate": 6.2882591392363795e-06,
7792
+ "loss": 0.3476,
7793
+ "step": 1112
7794
+ },
7795
+ {
7796
+ "epoch": 0.8404757409854635,
7797
+ "grad_norm": 0.22685834765434265,
7798
+ "learning_rate": 6.230608232253227e-06,
7799
+ "loss": 0.4091,
7800
+ "step": 1113
7801
+ },
7802
+ {
7803
+ "epoch": 0.8412308854068341,
7804
+ "grad_norm": 0.22038882970809937,
7805
+ "learning_rate": 6.173205251336239e-06,
7806
+ "loss": 0.4229,
7807
+ "step": 1114
7808
+ },
7809
+ {
7810
+ "epoch": 0.8419860298282047,
7811
+ "grad_norm": 0.20709578692913055,
7812
+ "learning_rate": 6.116050521637218e-06,
7813
+ "loss": 0.4012,
7814
+ "step": 1115
7815
+ },
7816
+ {
7817
+ "epoch": 0.8427411742495753,
7818
+ "grad_norm": 0.2158709317445755,
7819
+ "learning_rate": 6.059144366901736e-06,
7820
+ "loss": 0.3793,
7821
+ "step": 1116
7822
+ },
7823
+ {
7824
+ "epoch": 0.8434963186709458,
7825
+ "grad_norm": 0.21242888271808624,
7826
+ "learning_rate": 6.002487109467347e-06,
7827
+ "loss": 0.334,
7828
+ "step": 1117
7829
+ },
7830
+ {
7831
+ "epoch": 0.8442514630923164,
7832
+ "grad_norm": 0.23054109513759613,
7833
+ "learning_rate": 5.946079070261773e-06,
7834
+ "loss": 0.4508,
7835
+ "step": 1118
7836
+ },
7837
+ {
7838
+ "epoch": 0.845006607513687,
7839
+ "grad_norm": 0.22902311384677887,
7840
+ "learning_rate": 5.889920568801055e-06,
7841
+ "loss": 0.4533,
7842
+ "step": 1119
7843
+ },
7844
+ {
7845
+ "epoch": 0.8457617519350575,
7846
+ "grad_norm": 0.22745831310749054,
7847
+ "learning_rate": 5.834011923187805e-06,
7848
+ "loss": 0.4043,
7849
+ "step": 1120
7850
+ },
7851
+ {
7852
+ "epoch": 0.8465168963564281,
7853
+ "grad_norm": 0.22601962089538574,
7854
+ "learning_rate": 5.778353450109286e-06,
7855
+ "loss": 0.4465,
7856
+ "step": 1121
7857
+ },
7858
+ {
7859
+ "epoch": 0.8472720407777987,
7860
+ "grad_norm": 0.2339319884777069,
7861
+ "learning_rate": 5.722945464835749e-06,
7862
+ "loss": 0.3846,
7863
+ "step": 1122
7864
+ },
7865
+ {
7866
+ "epoch": 0.8480271851991693,
7867
+ "grad_norm": 0.23972941935062408,
7868
+ "learning_rate": 5.667788281218567e-06,
7869
+ "loss": 0.4077,
7870
+ "step": 1123
7871
+ },
7872
+ {
7873
+ "epoch": 0.8487823296205399,
7874
+ "grad_norm": 0.24830228090286255,
7875
+ "learning_rate": 5.61288221168848e-06,
7876
+ "loss": 0.4068,
7877
+ "step": 1124
7878
+ },
7879
+ {
7880
+ "epoch": 0.8495374740419105,
7881
+ "grad_norm": 0.24531161785125732,
7882
+ "learning_rate": 5.558227567253832e-06,
7883
+ "loss": 0.3847,
7884
+ "step": 1125
7885
+ },
7886
+ {
7887
+ "epoch": 0.8502926184632811,
7888
+ "grad_norm": 0.2520170509815216,
7889
+ "learning_rate": 5.503824657498785e-06,
7890
+ "loss": 0.3514,
7891
+ "step": 1126
7892
+ },
7893
+ {
7894
+ "epoch": 0.8510477628846517,
7895
+ "grad_norm": 0.24631567299365997,
7896
+ "learning_rate": 5.449673790581611e-06,
7897
+ "loss": 0.4191,
7898
+ "step": 1127
7899
+ },
7900
+ {
7901
+ "epoch": 0.8518029073060223,
7902
+ "grad_norm": 0.26101672649383545,
7903
+ "learning_rate": 5.39577527323289e-06,
7904
+ "loss": 0.4393,
7905
+ "step": 1128
7906
+ },
7907
+ {
7908
+ "epoch": 0.8525580517273929,
7909
+ "grad_norm": 0.2639968991279602,
7910
+ "learning_rate": 5.34212941075381e-06,
7911
+ "loss": 0.4323,
7912
+ "step": 1129
7913
+ },
7914
+ {
7915
+ "epoch": 0.8533131961487634,
7916
+ "grad_norm": 0.2551827132701874,
7917
+ "learning_rate": 5.288736507014435e-06,
7918
+ "loss": 0.3638,
7919
+ "step": 1130
7920
+ },
7921
+ {
7922
+ "epoch": 0.854068340570134,
7923
+ "grad_norm": 0.24728746712207794,
7924
+ "learning_rate": 5.235596864451975e-06,
7925
+ "loss": 0.3579,
7926
+ "step": 1131
7927
+ },
7928
+ {
7929
+ "epoch": 0.8548234849915046,
7930
+ "grad_norm": 0.2714408040046692,
7931
+ "learning_rate": 5.182710784069067e-06,
7932
+ "loss": 0.4218,
7933
+ "step": 1132
7934
+ },
7935
+ {
7936
+ "epoch": 0.8555786294128752,
7937
+ "grad_norm": 0.26579996943473816,
7938
+ "learning_rate": 5.13007856543209e-06,
7939
+ "loss": 0.3796,
7940
+ "step": 1133
7941
+ },
7942
+ {
7943
+ "epoch": 0.8563337738342458,
7944
+ "grad_norm": 0.2808961868286133,
7945
+ "learning_rate": 5.077700506669425e-06,
7946
+ "loss": 0.35,
7947
+ "step": 1134
7948
+ },
7949
+ {
7950
+ "epoch": 0.8570889182556164,
7951
+ "grad_norm": 0.30303752422332764,
7952
+ "learning_rate": 5.025576904469842e-06,
7953
+ "loss": 0.4059,
7954
+ "step": 1135
7955
+ },
7956
+ {
7957
+ "epoch": 0.857844062676987,
7958
+ "grad_norm": 0.30269986391067505,
7959
+ "learning_rate": 4.97370805408075e-06,
7960
+ "loss": 0.4018,
7961
+ "step": 1136
7962
+ },
7963
+ {
7964
+ "epoch": 0.8585992070983576,
7965
+ "grad_norm": 0.27650511264801025,
7966
+ "learning_rate": 4.922094249306558e-06,
7967
+ "loss": 0.3363,
7968
+ "step": 1137
7969
+ },
7970
+ {
7971
+ "epoch": 0.8593543515197282,
7972
+ "grad_norm": 0.28319036960601807,
7973
+ "learning_rate": 4.87073578250698e-06,
7974
+ "loss": 0.3566,
7975
+ "step": 1138
7976
+ },
7977
+ {
7978
+ "epoch": 0.8601094959410988,
7979
+ "grad_norm": 0.31123289465904236,
7980
+ "learning_rate": 4.819632944595415e-06,
7981
+ "loss": 0.3427,
7982
+ "step": 1139
7983
+ },
7984
+ {
7985
+ "epoch": 0.8608646403624693,
7986
+ "grad_norm": 0.3235510587692261,
7987
+ "learning_rate": 4.768786025037309e-06,
7988
+ "loss": 0.3882,
7989
+ "step": 1140
7990
+ },
7991
+ {
7992
+ "epoch": 0.8616197847838399,
7993
+ "grad_norm": 0.34232163429260254,
7994
+ "learning_rate": 4.7181953118484556e-06,
7995
+ "loss": 0.4307,
7996
+ "step": 1141
7997
+ },
7998
+ {
7999
+ "epoch": 0.8623749292052105,
8000
+ "grad_norm": 0.3100459575653076,
8001
+ "learning_rate": 4.667861091593434e-06,
8002
+ "loss": 0.3515,
8003
+ "step": 1142
8004
+ },
8005
+ {
8006
+ "epoch": 0.8631300736265811,
8007
+ "grad_norm": 0.33639565110206604,
8008
+ "learning_rate": 4.617783649383905e-06,
8009
+ "loss": 0.4251,
8010
+ "step": 1143
8011
+ },
8012
+ {
8013
+ "epoch": 0.8638852180479517,
8014
+ "grad_norm": 0.30844351649284363,
8015
+ "learning_rate": 4.567963268877079e-06,
8016
+ "loss": 0.336,
8017
+ "step": 1144
8018
+ },
8019
+ {
8020
+ "epoch": 0.8646403624693223,
8021
+ "grad_norm": 0.3265226483345032,
8022
+ "learning_rate": 4.5184002322740785e-06,
8023
+ "loss": 0.3545,
8024
+ "step": 1145
8025
+ },
8026
+ {
8027
+ "epoch": 0.8653955068906929,
8028
+ "grad_norm": 0.3475089967250824,
8029
+ "learning_rate": 4.4690948203183255e-06,
8030
+ "loss": 0.3436,
8031
+ "step": 1146
8032
+ },
8033
+ {
8034
+ "epoch": 0.8661506513120635,
8035
+ "grad_norm": 0.3850986957550049,
8036
+ "learning_rate": 4.4200473122939456e-06,
8037
+ "loss": 0.4274,
8038
+ "step": 1147
8039
+ },
8040
+ {
8041
+ "epoch": 0.8669057957334341,
8042
+ "grad_norm": 0.4068509340286255,
8043
+ "learning_rate": 4.371257986024202e-06,
8044
+ "loss": 0.4225,
8045
+ "step": 1148
8046
+ },
8047
+ {
8048
+ "epoch": 0.8676609401548047,
8049
+ "grad_norm": 0.41805300116539,
8050
+ "learning_rate": 4.322727117869951e-06,
8051
+ "loss": 0.4207,
8052
+ "step": 1149
8053
+ },
8054
+ {
8055
+ "epoch": 0.8684160845761751,
8056
+ "grad_norm": 0.4633561670780182,
8057
+ "learning_rate": 4.274454982728032e-06,
8058
+ "loss": 0.3865,
8059
+ "step": 1150
8060
+ },
8061
+ {
8062
+ "epoch": 0.8691712289975457,
8063
+ "grad_norm": 0.13895747065544128,
8064
+ "learning_rate": 4.2264418540297e-06,
8065
+ "loss": 0.2752,
8066
+ "step": 1151
8067
+ },
8068
+ {
8069
+ "epoch": 0.8699263734189163,
8070
+ "grad_norm": 0.16666154563426971,
8071
+ "learning_rate": 4.178688003739129e-06,
8072
+ "loss": 0.3396,
8073
+ "step": 1152
8074
+ },
8075
+ {
8076
+ "epoch": 0.8706815178402869,
8077
+ "grad_norm": 0.1707499921321869,
8078
+ "learning_rate": 4.131193702351827e-06,
8079
+ "loss": 0.3197,
8080
+ "step": 1153
8081
+ },
8082
+ {
8083
+ "epoch": 0.8714366622616575,
8084
+ "grad_norm": 0.176160529255867,
8085
+ "learning_rate": 4.0839592188931576e-06,
8086
+ "loss": 0.3482,
8087
+ "step": 1154
8088
+ },
8089
+ {
8090
+ "epoch": 0.8721918066830281,
8091
+ "grad_norm": 0.18616865575313568,
8092
+ "learning_rate": 4.036984820916723e-06,
8093
+ "loss": 0.3697,
8094
+ "step": 1155
8095
+ },
8096
+ {
8097
+ "epoch": 0.8729469511043987,
8098
+ "grad_norm": 0.19371068477630615,
8099
+ "learning_rate": 3.990270774502941e-06,
8100
+ "loss": 0.413,
8101
+ "step": 1156
8102
+ },
8103
+ {
8104
+ "epoch": 0.8737020955257693,
8105
+ "grad_norm": 0.19405323266983032,
8106
+ "learning_rate": 3.9438173442575e-06,
8107
+ "loss": 0.3545,
8108
+ "step": 1157
8109
+ },
8110
+ {
8111
+ "epoch": 0.8744572399471399,
8112
+ "grad_norm": 0.19808508455753326,
8113
+ "learning_rate": 3.897624793309846e-06,
8114
+ "loss": 0.3991,
8115
+ "step": 1158
8116
+ },
8117
+ {
8118
+ "epoch": 0.8752123843685105,
8119
+ "grad_norm": 0.19052360951900482,
8120
+ "learning_rate": 3.851693383311722e-06,
8121
+ "loss": 0.3765,
8122
+ "step": 1159
8123
+ },
8124
+ {
8125
+ "epoch": 0.875967528789881,
8126
+ "grad_norm": 0.1995311975479126,
8127
+ "learning_rate": 3.8060233744356633e-06,
8128
+ "loss": 0.4073,
8129
+ "step": 1160
8130
+ },
8131
+ {
8132
+ "epoch": 0.8767226732112516,
8133
+ "grad_norm": 0.19826874136924744,
8134
+ "learning_rate": 3.760615025373543e-06,
8135
+ "loss": 0.3841,
8136
+ "step": 1161
8137
+ },
8138
+ {
8139
+ "epoch": 0.8774778176326222,
8140
+ "grad_norm": 0.20532841980457306,
8141
+ "learning_rate": 3.7154685933350864e-06,
8142
+ "loss": 0.3538,
8143
+ "step": 1162
8144
+ },
8145
+ {
8146
+ "epoch": 0.8782329620539928,
8147
+ "grad_norm": 0.20944344997406006,
8148
+ "learning_rate": 3.6705843340464286e-06,
8149
+ "loss": 0.4038,
8150
+ "step": 1163
8151
+ },
8152
+ {
8153
+ "epoch": 0.8789881064753634,
8154
+ "grad_norm": 0.22046121954917908,
8155
+ "learning_rate": 3.625962501748653e-06,
8156
+ "loss": 0.4242,
8157
+ "step": 1164
8158
+ },
8159
+ {
8160
+ "epoch": 0.879743250896734,
8161
+ "grad_norm": 0.22591526806354523,
8162
+ "learning_rate": 3.581603349196372e-06,
8163
+ "loss": 0.4469,
8164
+ "step": 1165
8165
+ },
8166
+ {
8167
+ "epoch": 0.8804983953181046,
8168
+ "grad_norm": 0.22444604337215424,
8169
+ "learning_rate": 3.53750712765627e-06,
8170
+ "loss": 0.3994,
8171
+ "step": 1166
8172
+ },
8173
+ {
8174
+ "epoch": 0.8812535397394752,
8175
+ "grad_norm": 0.2247525304555893,
8176
+ "learning_rate": 3.4936740869057073e-06,
8177
+ "loss": 0.4276,
8178
+ "step": 1167
8179
+ },
8180
+ {
8181
+ "epoch": 0.8820086841608458,
8182
+ "grad_norm": 0.2309032678604126,
8183
+ "learning_rate": 3.4501044752312582e-06,
8184
+ "loss": 0.463,
8185
+ "step": 1168
8186
+ },
8187
+ {
8188
+ "epoch": 0.8827638285822164,
8189
+ "grad_norm": 0.22152245044708252,
8190
+ "learning_rate": 3.406798539427386e-06,
8191
+ "loss": 0.3662,
8192
+ "step": 1169
8193
+ },
8194
+ {
8195
+ "epoch": 0.883518973003587,
8196
+ "grad_norm": 0.2504233419895172,
8197
+ "learning_rate": 3.3637565247949588e-06,
8198
+ "loss": 0.4318,
8199
+ "step": 1170
8200
+ },
8201
+ {
8202
+ "epoch": 0.8842741174249575,
8203
+ "grad_norm": 0.23805570602416992,
8204
+ "learning_rate": 3.3209786751399187e-06,
8205
+ "loss": 0.4156,
8206
+ "step": 1171
8207
+ },
8208
+ {
8209
+ "epoch": 0.8850292618463281,
8210
+ "grad_norm": 0.23133568465709686,
8211
+ "learning_rate": 3.2784652327718547e-06,
8212
+ "loss": 0.3695,
8213
+ "step": 1172
8214
+ },
8215
+ {
8216
+ "epoch": 0.8857844062676987,
8217
+ "grad_norm": 0.2318771332502365,
8218
+ "learning_rate": 3.2362164385026706e-06,
8219
+ "loss": 0.3824,
8220
+ "step": 1173
8221
+ },
8222
+ {
8223
+ "epoch": 0.8865395506890693,
8224
+ "grad_norm": 0.22176909446716309,
8225
+ "learning_rate": 3.194232531645219e-06,
8226
+ "loss": 0.3575,
8227
+ "step": 1174
8228
+ },
8229
+ {
8230
+ "epoch": 0.8872946951104399,
8231
+ "grad_norm": 0.24867790937423706,
8232
+ "learning_rate": 3.1525137500119207e-06,
8233
+ "loss": 0.4419,
8234
+ "step": 1175
8235
+ },
8236
+ {
8237
+ "epoch": 0.8880498395318105,
8238
+ "grad_norm": 0.252105176448822,
8239
+ "learning_rate": 3.111060329913401e-06,
8240
+ "loss": 0.3854,
8241
+ "step": 1176
8242
+ },
8243
+ {
8244
+ "epoch": 0.8888049839531811,
8245
+ "grad_norm": 0.24969127774238586,
8246
+ "learning_rate": 3.069872506157212e-06,
8247
+ "loss": 0.3825,
8248
+ "step": 1177
8249
+ },
8250
+ {
8251
+ "epoch": 0.8895601283745517,
8252
+ "grad_norm": 0.2607312500476837,
8253
+ "learning_rate": 3.0289505120464743e-06,
8254
+ "loss": 0.3986,
8255
+ "step": 1178
8256
+ },
8257
+ {
8258
+ "epoch": 0.8903152727959223,
8259
+ "grad_norm": 0.2574225664138794,
8260
+ "learning_rate": 2.9882945793785367e-06,
8261
+ "loss": 0.3998,
8262
+ "step": 1179
8263
+ },
8264
+ {
8265
+ "epoch": 0.8910704172172929,
8266
+ "grad_norm": 0.25807490944862366,
8267
+ "learning_rate": 2.947904938443663e-06,
8268
+ "loss": 0.4147,
8269
+ "step": 1180
8270
+ },
8271
+ {
8272
+ "epoch": 0.8918255616386634,
8273
+ "grad_norm": 0.24891719222068787,
8274
+ "learning_rate": 2.9077818180237693e-06,
8275
+ "loss": 0.3648,
8276
+ "step": 1181
8277
+ },
8278
+ {
8279
+ "epoch": 0.892580706060034,
8280
+ "grad_norm": 0.27970343828201294,
8281
+ "learning_rate": 2.8679254453910785e-06,
8282
+ "loss": 0.4347,
8283
+ "step": 1182
8284
+ },
8285
+ {
8286
+ "epoch": 0.8933358504814045,
8287
+ "grad_norm": 0.26613345742225647,
8288
+ "learning_rate": 2.8283360463068785e-06,
8289
+ "loss": 0.3969,
8290
+ "step": 1183
8291
+ },
8292
+ {
8293
+ "epoch": 0.8940909949027751,
8294
+ "grad_norm": 0.3011374771595001,
8295
+ "learning_rate": 2.789013845020205e-06,
8296
+ "loss": 0.389,
8297
+ "step": 1184
8298
+ },
8299
+ {
8300
+ "epoch": 0.8948461393241457,
8301
+ "grad_norm": 0.26815304160118103,
8302
+ "learning_rate": 2.7499590642665774e-06,
8303
+ "loss": 0.3572,
8304
+ "step": 1185
8305
+ },
8306
+ {
8307
+ "epoch": 0.8956012837455163,
8308
+ "grad_norm": 0.27228736877441406,
8309
+ "learning_rate": 2.7111719252667647e-06,
8310
+ "loss": 0.3945,
8311
+ "step": 1186
8312
+ },
8313
+ {
8314
+ "epoch": 0.8963564281668869,
8315
+ "grad_norm": 0.28344476222991943,
8316
+ "learning_rate": 2.6726526477254987e-06,
8317
+ "loss": 0.4098,
8318
+ "step": 1187
8319
+ },
8320
+ {
8321
+ "epoch": 0.8971115725882575,
8322
+ "grad_norm": 0.3316936790943146,
8323
+ "learning_rate": 2.6344014498302704e-06,
8324
+ "loss": 0.4422,
8325
+ "step": 1188
8326
+ },
8327
+ {
8328
+ "epoch": 0.8978667170096281,
8329
+ "grad_norm": 0.3098110556602478,
8330
+ "learning_rate": 2.596418548250029e-06,
8331
+ "loss": 0.3844,
8332
+ "step": 1189
8333
+ },
8334
+ {
8335
+ "epoch": 0.8986218614309986,
8336
+ "grad_norm": 0.27956005930900574,
8337
+ "learning_rate": 2.5587041581340233e-06,
8338
+ "loss": 0.3017,
8339
+ "step": 1190
8340
+ },
8341
+ {
8342
+ "epoch": 0.8993770058523692,
8343
+ "grad_norm": 0.3119887709617615,
8344
+ "learning_rate": 2.52125849311054e-06,
8345
+ "loss": 0.4119,
8346
+ "step": 1191
8347
+ },
8348
+ {
8349
+ "epoch": 0.9001321502737398,
8350
+ "grad_norm": 0.3407526910305023,
8351
+ "learning_rate": 2.4840817652857172e-06,
8352
+ "loss": 0.4231,
8353
+ "step": 1192
8354
+ },
8355
+ {
8356
+ "epoch": 0.9008872946951104,
8357
+ "grad_norm": 0.34797540307044983,
8358
+ "learning_rate": 2.4471741852423237e-06,
8359
+ "loss": 0.394,
8360
+ "step": 1193
8361
+ },
8362
+ {
8363
+ "epoch": 0.901642439116481,
8364
+ "grad_norm": 0.3451668322086334,
8365
+ "learning_rate": 2.4105359620385847e-06,
8366
+ "loss": 0.3652,
8367
+ "step": 1194
8368
+ },
8369
+ {
8370
+ "epoch": 0.9023975835378516,
8371
+ "grad_norm": 0.3375682532787323,
8372
+ "learning_rate": 2.3741673032069756e-06,
8373
+ "loss": 0.3551,
8374
+ "step": 1195
8375
+ },
8376
+ {
8377
+ "epoch": 0.9031527279592222,
8378
+ "grad_norm": 0.36490514874458313,
8379
+ "learning_rate": 2.338068414753075e-06,
8380
+ "loss": 0.3753,
8381
+ "step": 1196
8382
+ },
8383
+ {
8384
+ "epoch": 0.9039078723805928,
8385
+ "grad_norm": 0.3733910322189331,
8386
+ "learning_rate": 2.3022395011543686e-06,
8387
+ "loss": 0.4036,
8388
+ "step": 1197
8389
+ },
8390
+ {
8391
+ "epoch": 0.9046630168019634,
8392
+ "grad_norm": 0.38239195942878723,
8393
+ "learning_rate": 2.2666807653591083e-06,
8394
+ "loss": 0.4228,
8395
+ "step": 1198
8396
+ },
8397
+ {
8398
+ "epoch": 0.905418161223334,
8399
+ "grad_norm": 0.46867436170578003,
8400
+ "learning_rate": 2.2313924087851656e-06,
8401
+ "loss": 0.4567,
8402
+ "step": 1199
8403
+ },
8404
+ {
8405
+ "epoch": 0.9061733056447046,
8406
+ "grad_norm": 0.6003281474113464,
8407
+ "learning_rate": 2.196374631318876e-06,
8408
+ "loss": 0.4376,
8409
+ "step": 1200
8410
+ },
8411
+ {
8412
+ "epoch": 0.9069284500660751,
8413
+ "grad_norm": 0.1415417641401291,
8414
+ "learning_rate": 2.161627631313923e-06,
8415
+ "loss": 0.2603,
8416
+ "step": 1201
8417
+ },
8418
+ {
8419
+ "epoch": 0.9076835944874457,
8420
+ "grad_norm": 0.1586138904094696,
8421
+ "learning_rate": 2.1271516055901777e-06,
8422
+ "loss": 0.3263,
8423
+ "step": 1202
8424
+ },
8425
+ {
8426
+ "epoch": 0.9084387389088163,
8427
+ "grad_norm": 0.16962364315986633,
8428
+ "learning_rate": 2.0929467494326614e-06,
8429
+ "loss": 0.3294,
8430
+ "step": 1203
8431
+ },
8432
+ {
8433
+ "epoch": 0.9091938833301869,
8434
+ "grad_norm": 0.16859561204910278,
8435
+ "learning_rate": 2.0590132565903476e-06,
8436
+ "loss": 0.3619,
8437
+ "step": 1204
8438
+ },
8439
+ {
8440
+ "epoch": 0.9099490277515575,
8441
+ "grad_norm": 0.1871105134487152,
8442
+ "learning_rate": 2.0253513192751373e-06,
8443
+ "loss": 0.3679,
8444
+ "step": 1205
8445
+ },
8446
+ {
8447
+ "epoch": 0.9107041721729281,
8448
+ "grad_norm": 0.18284808099269867,
8449
+ "learning_rate": 1.9919611281607077e-06,
8450
+ "loss": 0.3423,
8451
+ "step": 1206
8452
+ },
8453
+ {
8454
+ "epoch": 0.9114593165942987,
8455
+ "grad_norm": 0.19052286446094513,
8456
+ "learning_rate": 1.9588428723814946e-06,
8457
+ "loss": 0.4149,
8458
+ "step": 1207
8459
+ },
8460
+ {
8461
+ "epoch": 0.9122144610156693,
8462
+ "grad_norm": 0.20341211557388306,
8463
+ "learning_rate": 1.925996739531577e-06,
8464
+ "loss": 0.3938,
8465
+ "step": 1208
8466
+ },
8467
+ {
8468
+ "epoch": 0.9129696054370399,
8469
+ "grad_norm": 0.19892559945583344,
8470
+ "learning_rate": 1.8934229156636452e-06,
8471
+ "loss": 0.361,
8472
+ "step": 1209
8473
+ },
8474
+ {
8475
+ "epoch": 0.9137247498584105,
8476
+ "grad_norm": 0.21719536185264587,
8477
+ "learning_rate": 1.8611215852879005e-06,
8478
+ "loss": 0.429,
8479
+ "step": 1210
8480
+ },
8481
+ {
8482
+ "epoch": 0.914479894279781,
8483
+ "grad_norm": 0.20925089716911316,
8484
+ "learning_rate": 1.8290929313710513e-06,
8485
+ "loss": 0.3961,
8486
+ "step": 1211
8487
+ },
8488
+ {
8489
+ "epoch": 0.9152350387011516,
8490
+ "grad_norm": 0.21349644660949707,
8491
+ "learning_rate": 1.797337135335292e-06,
8492
+ "loss": 0.3969,
8493
+ "step": 1212
8494
+ },
8495
+ {
8496
+ "epoch": 0.9159901831225222,
8497
+ "grad_norm": 0.2184101939201355,
8498
+ "learning_rate": 1.7658543770572189e-06,
8499
+ "loss": 0.3583,
8500
+ "step": 1213
8501
+ },
8502
+ {
8503
+ "epoch": 0.9167453275438928,
8504
+ "grad_norm": 0.21886181831359863,
8505
+ "learning_rate": 1.7346448348668443e-06,
8506
+ "loss": 0.42,
8507
+ "step": 1214
8508
+ },
8509
+ {
8510
+ "epoch": 0.9175004719652634,
8511
+ "grad_norm": 0.20769384503364563,
8512
+ "learning_rate": 1.70370868554659e-06,
8513
+ "loss": 0.3761,
8514
+ "step": 1215
8515
+ },
8516
+ {
8517
+ "epoch": 0.9182556163866339,
8518
+ "grad_norm": 0.2125682830810547,
8519
+ "learning_rate": 1.6730461043302726e-06,
8520
+ "loss": 0.3481,
8521
+ "step": 1216
8522
+ },
8523
+ {
8524
+ "epoch": 0.9190107608080045,
8525
+ "grad_norm": 0.22738561034202576,
8526
+ "learning_rate": 1.6426572649021476e-06,
8527
+ "loss": 0.4114,
8528
+ "step": 1217
8529
+ },
8530
+ {
8531
+ "epoch": 0.9197659052293751,
8532
+ "grad_norm": 0.22645215690135956,
8533
+ "learning_rate": 1.612542339395845e-06,
8534
+ "loss": 0.4581,
8535
+ "step": 1218
8536
+ },
8537
+ {
8538
+ "epoch": 0.9205210496507457,
8539
+ "grad_norm": 0.2223154753446579,
8540
+ "learning_rate": 1.582701498393474e-06,
8541
+ "loss": 0.4042,
8542
+ "step": 1219
8543
+ },
8544
+ {
8545
+ "epoch": 0.9212761940721163,
8546
+ "grad_norm": 0.23326793313026428,
8547
+ "learning_rate": 1.5531349109246362e-06,
8548
+ "loss": 0.4387,
8549
+ "step": 1220
8550
+ },
8551
+ {
8552
+ "epoch": 0.9220313384934868,
8553
+ "grad_norm": 0.23844638466835022,
8554
+ "learning_rate": 1.523842744465437e-06,
8555
+ "loss": 0.4143,
8556
+ "step": 1221
8557
+ },
8558
+ {
8559
+ "epoch": 0.9227864829148574,
8560
+ "grad_norm": 0.23629891872406006,
8561
+ "learning_rate": 1.4948251649375745e-06,
8562
+ "loss": 0.4301,
8563
+ "step": 1222
8564
+ },
8565
+ {
8566
+ "epoch": 0.923541627336228,
8567
+ "grad_norm": 0.23292282223701477,
8568
+ "learning_rate": 1.4660823367073751e-06,
8569
+ "loss": 0.389,
8570
+ "step": 1223
8571
+ },
8572
+ {
8573
+ "epoch": 0.9242967717575986,
8574
+ "grad_norm": 0.25617265701293945,
8575
+ "learning_rate": 1.437614422584882e-06,
8576
+ "loss": 0.4615,
8577
+ "step": 1224
8578
+ },
8579
+ {
8580
+ "epoch": 0.9250519161789692,
8581
+ "grad_norm": 0.23757751286029816,
8582
+ "learning_rate": 1.4094215838229176e-06,
8583
+ "loss": 0.3766,
8584
+ "step": 1225
8585
+ },
8586
+ {
8587
+ "epoch": 0.9258070606003398,
8588
+ "grad_norm": 0.2631858289241791,
8589
+ "learning_rate": 1.3815039801161721e-06,
8590
+ "loss": 0.4561,
8591
+ "step": 1226
8592
+ },
8593
+ {
8594
+ "epoch": 0.9265622050217104,
8595
+ "grad_norm": 0.2697192132472992,
8596
+ "learning_rate": 1.3538617696003064e-06,
8597
+ "loss": 0.4365,
8598
+ "step": 1227
8599
+ },
8600
+ {
8601
+ "epoch": 0.927317349443081,
8602
+ "grad_norm": 0.23894578218460083,
8603
+ "learning_rate": 1.3264951088510502e-06,
8604
+ "loss": 0.3623,
8605
+ "step": 1228
8606
+ },
8607
+ {
8608
+ "epoch": 0.9280724938644516,
8609
+ "grad_norm": 0.27340683341026306,
8610
+ "learning_rate": 1.2994041528833266e-06,
8611
+ "loss": 0.4602,
8612
+ "step": 1229
8613
+ },
8614
+ {
8615
+ "epoch": 0.9288276382858222,
8616
+ "grad_norm": 0.2491341382265091,
8617
+ "learning_rate": 1.2725890551503472e-06,
8618
+ "loss": 0.3397,
8619
+ "step": 1230
8620
+ },
8621
+ {
8622
+ "epoch": 0.9295827827071927,
8623
+ "grad_norm": 0.26839953660964966,
8624
+ "learning_rate": 1.2460499675427729e-06,
8625
+ "loss": 0.4095,
8626
+ "step": 1231
8627
+ },
8628
+ {
8629
+ "epoch": 0.9303379271285633,
8630
+ "grad_norm": 0.28354331851005554,
8631
+ "learning_rate": 1.2197870403878375e-06,
8632
+ "loss": 0.4034,
8633
+ "step": 1232
8634
+ },
8635
+ {
8636
+ "epoch": 0.9310930715499339,
8637
+ "grad_norm": 0.2778373062610626,
8638
+ "learning_rate": 1.1938004224484988e-06,
8639
+ "loss": 0.3612,
8640
+ "step": 1233
8641
+ },
8642
+ {
8643
+ "epoch": 0.9318482159713045,
8644
+ "grad_norm": 0.28623783588409424,
8645
+ "learning_rate": 1.1680902609225941e-06,
8646
+ "loss": 0.3763,
8647
+ "step": 1234
8648
+ },
8649
+ {
8650
+ "epoch": 0.9326033603926751,
8651
+ "grad_norm": 0.2844613790512085,
8652
+ "learning_rate": 1.1426567014420297e-06,
8653
+ "loss": 0.4077,
8654
+ "step": 1235
8655
+ },
8656
+ {
8657
+ "epoch": 0.9333585048140457,
8658
+ "grad_norm": 0.2865941524505615,
8659
+ "learning_rate": 1.1174998880718935e-06,
8660
+ "loss": 0.3973,
8661
+ "step": 1236
8662
+ },
8663
+ {
8664
+ "epoch": 0.9341136492354163,
8665
+ "grad_norm": 0.2908569276332855,
8666
+ "learning_rate": 1.0926199633097157e-06,
8667
+ "loss": 0.3688,
8668
+ "step": 1237
8669
+ },
8670
+ {
8671
+ "epoch": 0.9348687936567869,
8672
+ "grad_norm": 0.3032941520214081,
8673
+ "learning_rate": 1.0680170680846259e-06,
8674
+ "loss": 0.3971,
8675
+ "step": 1238
8676
+ },
8677
+ {
8678
+ "epoch": 0.9356239380781575,
8679
+ "grad_norm": 0.29943525791168213,
8680
+ "learning_rate": 1.0436913417565365e-06,
8681
+ "loss": 0.4151,
8682
+ "step": 1239
8683
+ },
8684
+ {
8685
+ "epoch": 0.9363790824995281,
8686
+ "grad_norm": 0.3232915997505188,
8687
+ "learning_rate": 1.0196429221153824e-06,
8688
+ "loss": 0.336,
8689
+ "step": 1240
8690
+ },
8691
+ {
8692
+ "epoch": 0.9371342269208986,
8693
+ "grad_norm": 0.3355953097343445,
8694
+ "learning_rate": 9.958719453803278e-07,
8695
+ "loss": 0.4568,
8696
+ "step": 1241
8697
+ },
8698
+ {
8699
+ "epoch": 0.9378893713422692,
8700
+ "grad_norm": 0.35610586404800415,
8701
+ "learning_rate": 9.723785461990099e-07,
8702
+ "loss": 0.4446,
8703
+ "step": 1242
8704
+ },
8705
+ {
8706
+ "epoch": 0.9386445157636398,
8707
+ "grad_norm": 0.347074031829834,
8708
+ "learning_rate": 9.491628576467515e-07,
8709
+ "loss": 0.4065,
8710
+ "step": 1243
8711
+ },
8712
+ {
8713
+ "epoch": 0.9393996601850104,
8714
+ "grad_norm": 0.37643951177597046,
8715
+ "learning_rate": 9.26225011225812e-07,
8716
+ "loss": 0.3945,
8717
+ "step": 1244
8718
+ },
8719
+ {
8720
+ "epoch": 0.940154804606381,
8721
+ "grad_norm": 0.34759992361068726,
8722
+ "learning_rate": 9.035651368646648e-07,
8723
+ "loss": 0.3654,
8724
+ "step": 1245
8725
+ },
8726
+ {
8727
+ "epoch": 0.9409099490277516,
8728
+ "grad_norm": 0.3707546889781952,
8729
+ "learning_rate": 8.811833629172428e-07,
8730
+ "loss": 0.2976,
8731
+ "step": 1246
8732
+ },
8733
+ {
8734
+ "epoch": 0.9416650934491222,
8735
+ "grad_norm": 0.3839170038700104,
8736
+ "learning_rate": 8.590798161622227e-07,
8737
+ "loss": 0.4161,
8738
+ "step": 1247
8739
+ },
8740
+ {
8741
+ "epoch": 0.9424202378704928,
8742
+ "grad_norm": 0.3534461557865143,
8743
+ "learning_rate": 8.372546218022747e-07,
8744
+ "loss": 0.3231,
8745
+ "step": 1248
8746
+ },
8747
+ {
8748
+ "epoch": 0.9431753822918634,
8749
+ "grad_norm": 0.4794304370880127,
8750
+ "learning_rate": 8.157079034633974e-07,
8751
+ "loss": 0.4584,
8752
+ "step": 1249
8753
+ },
8754
+ {
8755
+ "epoch": 0.9439305267132339,
8756
+ "grad_norm": 0.5317772030830383,
8757
+ "learning_rate": 7.944397831941952e-07,
8758
+ "loss": 0.4143,
8759
+ "step": 1250
8760
+ },
8761
+ {
8762
+ "epoch": 0.9446856711346044,
8763
+ "grad_norm": 0.16856196522712708,
8764
+ "learning_rate": 7.734503814651906e-07,
8765
+ "loss": 0.3159,
8766
+ "step": 1251
8767
+ },
8768
+ {
8769
+ "epoch": 0.945440815555975,
8770
+ "grad_norm": 0.16190548241138458,
8771
+ "learning_rate": 7.527398171681354e-07,
8772
+ "loss": 0.3332,
8773
+ "step": 1252
8774
+ },
8775
+ {
8776
+ "epoch": 0.9461959599773456,
8777
+ "grad_norm": 0.16370098292827606,
8778
+ "learning_rate": 7.323082076153509e-07,
8779
+ "loss": 0.331,
8780
+ "step": 1253
8781
+ },
8782
+ {
8783
+ "epoch": 0.9469511043987162,
8784
+ "grad_norm": 0.16921286284923553,
8785
+ "learning_rate": 7.12155668539044e-07,
8786
+ "loss": 0.2992,
8787
+ "step": 1254
8788
+ },
8789
+ {
8790
+ "epoch": 0.9477062488200868,
8791
+ "grad_norm": 0.17997263371944427,
8792
+ "learning_rate": 6.922823140906753e-07,
8793
+ "loss": 0.3884,
8794
+ "step": 1255
8795
+ },
8796
+ {
8797
+ "epoch": 0.9484613932414574,
8798
+ "grad_norm": 0.18398523330688477,
8799
+ "learning_rate": 6.726882568402871e-07,
8800
+ "loss": 0.3779,
8801
+ "step": 1256
8802
+ },
8803
+ {
8804
+ "epoch": 0.949216537662828,
8805
+ "grad_norm": 0.19981886446475983,
8806
+ "learning_rate": 6.533736077758868e-07,
8807
+ "loss": 0.3687,
8808
+ "step": 1257
8809
+ },
8810
+ {
8811
+ "epoch": 0.9499716820841986,
8812
+ "grad_norm": 0.19422514736652374,
8813
+ "learning_rate": 6.343384763028148e-07,
8814
+ "loss": 0.3624,
8815
+ "step": 1258
8816
+ },
8817
+ {
8818
+ "epoch": 0.9507268265055692,
8819
+ "grad_norm": 0.19577431678771973,
8820
+ "learning_rate": 6.15582970243117e-07,
8821
+ "loss": 0.4185,
8822
+ "step": 1259
8823
+ },
8824
+ {
8825
+ "epoch": 0.9514819709269398,
8826
+ "grad_norm": 0.2101883441209793,
8827
+ "learning_rate": 5.971071958349228e-07,
8828
+ "loss": 0.3948,
8829
+ "step": 1260
8830
+ },
8831
+ {
8832
+ "epoch": 0.9522371153483103,
8833
+ "grad_norm": 0.19973735511302948,
8834
+ "learning_rate": 5.78911257731879e-07,
8835
+ "loss": 0.4095,
8836
+ "step": 1261
8837
+ },
8838
+ {
8839
+ "epoch": 0.9529922597696809,
8840
+ "grad_norm": 0.20807954668998718,
8841
+ "learning_rate": 5.609952590025224e-07,
8842
+ "loss": 0.3892,
8843
+ "step": 1262
8844
+ },
8845
+ {
8846
+ "epoch": 0.9537474041910515,
8847
+ "grad_norm": 0.2160942405462265,
8848
+ "learning_rate": 5.4335930112972e-07,
8849
+ "loss": 0.3782,
8850
+ "step": 1263
8851
+ },
8852
+ {
8853
+ "epoch": 0.9545025486124221,
8854
+ "grad_norm": 0.1981229931116104,
8855
+ "learning_rate": 5.260034840100736e-07,
8856
+ "loss": 0.3768,
8857
+ "step": 1264
8858
+ },
8859
+ {
8860
+ "epoch": 0.9552576930337927,
8861
+ "grad_norm": 0.19447720050811768,
8862
+ "learning_rate": 5.089279059533658e-07,
8863
+ "loss": 0.3527,
8864
+ "step": 1265
8865
+ },
8866
+ {
8867
+ "epoch": 0.9560128374551633,
8868
+ "grad_norm": 0.21603922545909882,
8869
+ "learning_rate": 4.92132663681999e-07,
8870
+ "loss": 0.3792,
8871
+ "step": 1266
8872
+ },
8873
+ {
8874
+ "epoch": 0.9567679818765339,
8875
+ "grad_norm": 0.22324316203594208,
8876
+ "learning_rate": 4.756178523304622e-07,
8877
+ "loss": 0.413,
8878
+ "step": 1267
8879
+ },
8880
+ {
8881
+ "epoch": 0.9575231262979045,
8882
+ "grad_norm": 0.21948575973510742,
8883
+ "learning_rate": 4.593835654447709e-07,
8884
+ "loss": 0.4481,
8885
+ "step": 1268
8886
+ },
8887
+ {
8888
+ "epoch": 0.9582782707192751,
8889
+ "grad_norm": 0.21984027326107025,
8890
+ "learning_rate": 4.434298949819449e-07,
8891
+ "loss": 0.3766,
8892
+ "step": 1269
8893
+ },
8894
+ {
8895
+ "epoch": 0.9590334151406457,
8896
+ "grad_norm": 0.24279214441776276,
8897
+ "learning_rate": 4.277569313094809e-07,
8898
+ "loss": 0.3761,
8899
+ "step": 1270
8900
+ },
8901
+ {
8902
+ "epoch": 0.9597885595620163,
8903
+ "grad_norm": 0.23110735416412354,
8904
+ "learning_rate": 4.123647632048644e-07,
8905
+ "loss": 0.4528,
8906
+ "step": 1271
8907
+ },
8908
+ {
8909
+ "epoch": 0.9605437039833868,
8910
+ "grad_norm": 0.2304868847131729,
8911
+ "learning_rate": 3.972534778550474e-07,
8912
+ "loss": 0.3633,
8913
+ "step": 1272
8914
+ },
8915
+ {
8916
+ "epoch": 0.9612988484047574,
8917
+ "grad_norm": 0.2233697474002838,
8918
+ "learning_rate": 3.824231608559492e-07,
8919
+ "loss": 0.397,
8920
+ "step": 1273
8921
+ },
8922
+ {
8923
+ "epoch": 0.962053992826128,
8924
+ "grad_norm": 0.23600885272026062,
8925
+ "learning_rate": 3.6787389621198987e-07,
8926
+ "loss": 0.4136,
8927
+ "step": 1274
8928
+ },
8929
+ {
8930
+ "epoch": 0.9628091372474986,
8931
+ "grad_norm": 0.23501838743686676,
8932
+ "learning_rate": 3.536057663355852e-07,
8933
+ "loss": 0.323,
8934
+ "step": 1275
8935
+ },
8936
+ {
8937
+ "epoch": 0.9635642816688692,
8938
+ "grad_norm": 0.2491409033536911,
8939
+ "learning_rate": 3.3961885204673026e-07,
8940
+ "loss": 0.4763,
8941
+ "step": 1276
8942
+ },
8943
+ {
8944
+ "epoch": 0.9643194260902398,
8945
+ "grad_norm": 0.2430865615606308,
8946
+ "learning_rate": 3.2591323257248893e-07,
8947
+ "loss": 0.3949,
8948
+ "step": 1277
8949
+ },
8950
+ {
8951
+ "epoch": 0.9650745705116104,
8952
+ "grad_norm": 0.2593831717967987,
8953
+ "learning_rate": 3.124889855465718e-07,
8954
+ "loss": 0.3738,
8955
+ "step": 1278
8956
+ },
8957
+ {
8958
+ "epoch": 0.965829714932981,
8959
+ "grad_norm": 0.24975533783435822,
8960
+ "learning_rate": 2.993461870088921e-07,
8961
+ "loss": 0.3614,
8962
+ "step": 1279
8963
+ },
8964
+ {
8965
+ "epoch": 0.9665848593543516,
8966
+ "grad_norm": 0.25487789511680603,
8967
+ "learning_rate": 2.8648491140513266e-07,
8968
+ "loss": 0.46,
8969
+ "step": 1280
8970
+ },
8971
+ {
8972
+ "epoch": 0.9673400037757222,
8973
+ "grad_norm": 0.2505668103694916,
8974
+ "learning_rate": 2.7390523158633554e-07,
8975
+ "loss": 0.3317,
8976
+ "step": 1281
8977
+ },
8978
+ {
8979
+ "epoch": 0.9680951481970927,
8980
+ "grad_norm": 0.261342853307724,
8981
+ "learning_rate": 2.616072188084628e-07,
8982
+ "loss": 0.3857,
8983
+ "step": 1282
8984
+ },
8985
+ {
8986
+ "epoch": 0.9688502926184632,
8987
+ "grad_norm": 0.2685639262199402,
8988
+ "learning_rate": 2.4959094273201977e-07,
8989
+ "loss": 0.3631,
8990
+ "step": 1283
8991
+ },
8992
+ {
8993
+ "epoch": 0.9696054370398338,
8994
+ "grad_norm": 0.26906096935272217,
8995
+ "learning_rate": 2.378564714216547e-07,
8996
+ "loss": 0.4212,
8997
+ "step": 1284
8998
+ },
8999
+ {
9000
+ "epoch": 0.9703605814612044,
9001
+ "grad_norm": 0.28708136081695557,
9002
+ "learning_rate": 2.2640387134577058e-07,
9003
+ "loss": 0.5326,
9004
+ "step": 1285
9005
+ },
9006
+ {
9007
+ "epoch": 0.971115725882575,
9008
+ "grad_norm": 0.2781200706958771,
9009
+ "learning_rate": 2.1523320737613095e-07,
9010
+ "loss": 0.3952,
9011
+ "step": 1286
9012
+ },
9013
+ {
9014
+ "epoch": 0.9718708703039456,
9015
+ "grad_norm": 0.2814629077911377,
9016
+ "learning_rate": 2.0434454278752123e-07,
9017
+ "loss": 0.3578,
9018
+ "step": 1287
9019
+ },
9020
+ {
9021
+ "epoch": 0.9726260147253162,
9022
+ "grad_norm": 0.2876596450805664,
9023
+ "learning_rate": 1.937379392573768e-07,
9024
+ "loss": 0.3978,
9025
+ "step": 1288
9026
+ },
9027
+ {
9028
+ "epoch": 0.9733811591466868,
9029
+ "grad_norm": 0.3008500635623932,
9030
+ "learning_rate": 1.8341345686543332e-07,
9031
+ "loss": 0.3936,
9032
+ "step": 1289
9033
+ },
9034
+ {
9035
+ "epoch": 0.9741363035680574,
9036
+ "grad_norm": 0.32256075739860535,
9037
+ "learning_rate": 1.7337115409338244e-07,
9038
+ "loss": 0.4423,
9039
+ "step": 1290
9040
+ },
9041
+ {
9042
+ "epoch": 0.974891447989428,
9043
+ "grad_norm": 0.3017309010028839,
9044
+ "learning_rate": 1.6361108782456113e-07,
9045
+ "loss": 0.4027,
9046
+ "step": 1291
9047
+ },
9048
+ {
9049
+ "epoch": 0.9756465924107985,
9050
+ "grad_norm": 0.3096626400947571,
9051
+ "learning_rate": 1.5413331334360182e-07,
9052
+ "loss": 0.3962,
9053
+ "step": 1292
9054
+ },
9055
+ {
9056
+ "epoch": 0.9764017368321691,
9057
+ "grad_norm": 0.3427668511867523,
9058
+ "learning_rate": 1.449378843361271e-07,
9059
+ "loss": 0.4388,
9060
+ "step": 1293
9061
+ },
9062
+ {
9063
+ "epoch": 0.9771568812535397,
9064
+ "grad_norm": 0.3453672528266907,
9065
+ "learning_rate": 1.360248528884611e-07,
9066
+ "loss": 0.4638,
9067
+ "step": 1294
9068
+ },
9069
+ {
9070
+ "epoch": 0.9779120256749103,
9071
+ "grad_norm": 0.33292150497436523,
9072
+ "learning_rate": 1.2739426948732424e-07,
9073
+ "loss": 0.3513,
9074
+ "step": 1295
9075
+ },
9076
+ {
9077
+ "epoch": 0.9786671700962809,
9078
+ "grad_norm": 0.34688884019851685,
9079
+ "learning_rate": 1.190461830195333e-07,
9080
+ "loss": 0.3666,
9081
+ "step": 1296
9082
+ },
9083
+ {
9084
+ "epoch": 0.9794223145176515,
9085
+ "grad_norm": 0.41783586144447327,
9086
+ "learning_rate": 1.109806407717462e-07,
9087
+ "loss": 0.4518,
9088
+ "step": 1297
9089
+ },
9090
+ {
9091
+ "epoch": 0.9801774589390221,
9092
+ "grad_norm": 0.36416101455688477,
9093
+ "learning_rate": 1.0319768843018996e-07,
9094
+ "loss": 0.3785,
9095
+ "step": 1298
9096
+ },
9097
+ {
9098
+ "epoch": 0.9809326033603927,
9099
+ "grad_norm": 0.4353952407836914,
9100
+ "learning_rate": 9.56973700803887e-08,
9101
+ "loss": 0.4347,
9102
+ "step": 1299
9103
+ },
9104
+ {
9105
+ "epoch": 0.9816877477817633,
9106
+ "grad_norm": 0.5201441645622253,
9107
+ "learning_rate": 8.847972820693051e-08,
9108
+ "loss": 0.3487,
9109
+ "step": 1300
9110
+ },
9111
+ {
9112
+ "epoch": 0.9824428922031339,
9113
+ "grad_norm": 0.14752991497516632,
9114
+ "learning_rate": 8.15448036932176e-08,
9115
+ "loss": 0.3271,
9116
+ "step": 1301
9117
+ },
9118
+ {
9119
+ "epoch": 0.9831980366245044,
9120
+ "grad_norm": 0.1663774847984314,
9121
+ "learning_rate": 7.489263582122763e-08,
9122
+ "loss": 0.3467,
9123
+ "step": 1302
9124
+ },
9125
+ {
9126
+ "epoch": 0.983953181045875,
9127
+ "grad_norm": 0.18630105257034302,
9128
+ "learning_rate": 6.852326227130834e-08,
9129
+ "loss": 0.4198,
9130
+ "step": 1303
9131
+ },
9132
+ {
9133
+ "epoch": 0.9847083254672456,
9134
+ "grad_norm": 0.18574944138526917,
9135
+ "learning_rate": 6.243671912194993e-08,
9136
+ "loss": 0.393,
9137
+ "step": 1304
9138
+ },
9139
+ {
9140
+ "epoch": 0.9854634698886162,
9141
+ "grad_norm": 0.20900239050388336,
9142
+ "learning_rate": 5.663304084960186e-08,
9143
+ "loss": 0.3765,
9144
+ "step": 1305
9145
+ },
9146
+ {
9147
+ "epoch": 0.9862186143099868,
9148
+ "grad_norm": 0.20655685663223267,
9149
+ "learning_rate": 5.111226032843974e-08,
9150
+ "loss": 0.4079,
9151
+ "step": 1306
9152
+ },
9153
+ {
9154
+ "epoch": 0.9869737587313574,
9155
+ "grad_norm": 0.22022481262683868,
9156
+ "learning_rate": 4.5874408830215434e-08,
9157
+ "loss": 0.4319,
9158
+ "step": 1307
9159
+ },
9160
+ {
9161
+ "epoch": 0.987728903152728,
9162
+ "grad_norm": 0.22208468616008759,
9163
+ "learning_rate": 4.0919516024057195e-08,
9164
+ "loss": 0.4083,
9165
+ "step": 1308
9166
+ },
9167
+ {
9168
+ "epoch": 0.9884840475740986,
9169
+ "grad_norm": 0.24290700256824493,
9170
+ "learning_rate": 3.624760997631982e-08,
9171
+ "loss": 0.4351,
9172
+ "step": 1309
9173
+ },
9174
+ {
9175
+ "epoch": 0.9892391919954692,
9176
+ "grad_norm": 0.22663183510303497,
9177
+ "learning_rate": 3.185871715041255e-08,
9178
+ "loss": 0.3828,
9179
+ "step": 1310
9180
+ },
9181
+ {
9182
+ "epoch": 0.9899943364168398,
9183
+ "grad_norm": 0.25170832872390747,
9184
+ "learning_rate": 2.7752862406654757e-08,
9185
+ "loss": 0.4401,
9186
+ "step": 1311
9187
+ },
9188
+ {
9189
+ "epoch": 0.9907494808382104,
9190
+ "grad_norm": 0.2576093077659607,
9191
+ "learning_rate": 2.393006900212047e-08,
9192
+ "loss": 0.4513,
9193
+ "step": 1312
9194
+ },
9195
+ {
9196
+ "epoch": 0.9915046252595809,
9197
+ "grad_norm": 0.2478175014257431,
9198
+ "learning_rate": 2.0390358590538504e-08,
9199
+ "loss": 0.3902,
9200
+ "step": 1313
9201
+ },
9202
+ {
9203
+ "epoch": 0.9922597696809515,
9204
+ "grad_norm": 0.26220056414604187,
9205
+ "learning_rate": 1.7133751222137007e-08,
9206
+ "loss": 0.4562,
9207
+ "step": 1314
9208
+ },
9209
+ {
9210
+ "epoch": 0.9930149141023221,
9211
+ "grad_norm": 0.272030234336853,
9212
+ "learning_rate": 1.4160265343549083e-08,
9213
+ "loss": 0.4128,
9214
+ "step": 1315
9215
+ },
9216
+ {
9217
+ "epoch": 0.9937700585236926,
9218
+ "grad_norm": 0.282482385635376,
9219
+ "learning_rate": 1.1469917797696239e-08,
9220
+ "loss": 0.4678,
9221
+ "step": 1316
9222
+ },
9223
+ {
9224
+ "epoch": 0.9945252029450632,
9225
+ "grad_norm": 0.29758918285369873,
9226
+ "learning_rate": 9.06272382371065e-09,
9227
+ "loss": 0.4549,
9228
+ "step": 1317
9229
+ },
9230
+ {
9231
+ "epoch": 0.9952803473664338,
9232
+ "grad_norm": 0.2753942012786865,
9233
+ "learning_rate": 6.9386970568297014e-09,
9234
+ "loss": 0.3572,
9235
+ "step": 1318
9236
+ },
9237
+ {
9238
+ "epoch": 0.9960354917878044,
9239
+ "grad_norm": 0.3179655075073242,
9240
+ "learning_rate": 5.097849528334919e-09,
9241
+ "loss": 0.4328,
9242
+ "step": 1319
9243
+ },
9244
+ {
9245
+ "epoch": 0.996790636209175,
9246
+ "grad_norm": 0.30263400077819824,
9247
+ "learning_rate": 3.540191665457604e-09,
9248
+ "loss": 0.3691,
9249
+ "step": 1320
9250
+ },
9251
+ {
9252
+ "epoch": 0.9975457806305456,
9253
+ "grad_norm": 0.3153160810470581,
9254
+ "learning_rate": 2.265732291356626e-09,
9255
+ "loss": 0.3449,
9256
+ "step": 1321
9257
+ },
9258
+ {
9259
+ "epoch": 0.9983009250519161,
9260
+ "grad_norm": 0.33442163467407227,
9261
+ "learning_rate": 1.2744786250407092e-09,
9262
+ "loss": 0.3951,
9263
+ "step": 1322
9264
+ },
9265
+ {
9266
+ "epoch": 0.9990560694732867,
9267
+ "grad_norm": 0.3670744299888611,
9268
+ "learning_rate": 5.664362813406765e-10,
9269
+ "loss": 0.3497,
9270
+ "step": 1323
9271
+ },
9272
+ {
9273
+ "epoch": 0.9998112138946573,
9274
+ "grad_norm": 0.5614824891090393,
9275
+ "learning_rate": 1.416092708650396e-10,
9276
+ "loss": 0.4963,
9277
+ "step": 1324
9278
+ },
9279
+ {
9280
+ "epoch": 0.9998112138946573,
9281
+ "eval_loss": 0.3858806788921356,
9282
+ "eval_runtime": 92.8566,
9283
+ "eval_samples_per_second": 12.008,
9284
+ "eval_steps_per_second": 3.005,
9285
+ "step": 1324
9286
+ },
9287
+ {
9288
+ "epoch": 1.000566358316028,
9289
+ "grad_norm": 3.6732022762298584,
9290
+ "learning_rate": 0.0,
9291
+ "loss": 1.1897,
9292
+ "step": 1325
9293
  }
9294
  ],
9295
  "logging_steps": 1,
 
9304
  "should_evaluate": false,
9305
  "should_log": false,
9306
  "should_save": true,
9307
+ "should_training_stop": true
9308
  },
9309
  "attributes": {}
9310
  }
9311
  },
9312
+ "total_flos": 1.7073098196516864e+18,
9313
  "train_batch_size": 4,
9314
  "trial_name": null,
9315
  "trial_params": null