Alphatao commited on
Commit
d6bea5f
·
verified ·
1 Parent(s): 4761543

Training in progress, step 1200, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:77f48100db5f5032f23d7276a01f964e6643d1b32dc34750c01745f7a6444537
3
  size 35237104
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:21f1f3acda76ad4e88a7c83adc2e48f1ee2adc3335201431003f84c84136a9cb
3
  size 35237104
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a057d7537543d26b8405f1b3a06913f95079cb0260e6e77cb6e67aff79016b59
3
  size 18810356
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:127f582c7769f6b1fec4db6c3c889c96511b276e8258d33333afdb44ee48b79a
3
  size 18810356
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:55efe0fdedeb3aabf3711868667a8b9d1adcffe6440d9e5347d8fa8bfb07e987
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2ea4a928811810f84d0f8b5936c44f2709f0f2cadb34cf4fa9a714f98b7ed5c0
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e9b96617578bfc230d7a81fb4950d7c67ffa18c14dffcf3189f0dd3ecbd4b36d
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b30780423ff45c94e8ad2d6a438363a868ec26f078372884947da902f24979de
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": 1.8903758525848389,
3
  "best_model_checkpoint": "miner_id_24/checkpoint-1000",
4
- "epoch": 1.0793572917944314,
5
  "eval_steps": 100,
6
- "global_step": 1100,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -7803,6 +7803,714 @@
7803
  "eval_samples_per_second": 58.681,
7804
  "eval_steps_per_second": 14.681,
7805
  "step": 1100
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7806
  }
7807
  ],
7808
  "logging_steps": 1,
@@ -7817,7 +8525,7 @@
7817
  "early_stopping_threshold": 0.0
7818
  },
7819
  "attributes": {
7820
- "early_stopping_patience_counter": 1
7821
  }
7822
  },
7823
  "TrainerControl": {
@@ -7826,12 +8534,12 @@
7826
  "should_evaluate": false,
7827
  "should_log": false,
7828
  "should_save": true,
7829
- "should_training_stop": false
7830
  },
7831
  "attributes": {}
7832
  }
7833
  },
7834
- "total_flos": 7.929821414424576e+16,
7835
  "train_batch_size": 4,
7836
  "trial_name": null,
7837
  "trial_params": null
 
1
  {
2
  "best_metric": 1.8903758525848389,
3
  "best_model_checkpoint": "miner_id_24/checkpoint-1000",
4
+ "epoch": 1.1774806819575616,
5
  "eval_steps": 100,
6
+ "global_step": 1200,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
7803
  "eval_samples_per_second": 58.681,
7804
  "eval_steps_per_second": 14.681,
7805
  "step": 1100
7806
+ },
7807
+ {
7808
+ "epoch": 1.0803385256960627,
7809
+ "grad_norm": 2.1303536891937256,
7810
+ "learning_rate": 8.818283612384952e-05,
7811
+ "loss": 1.6892,
7812
+ "step": 1101
7813
+ },
7814
+ {
7815
+ "epoch": 1.081319759597694,
7816
+ "grad_norm": 2.003086566925049,
7817
+ "learning_rate": 8.80291007154402e-05,
7818
+ "loss": 1.5528,
7819
+ "step": 1102
7820
+ },
7821
+ {
7822
+ "epoch": 1.0823009934993255,
7823
+ "grad_norm": 2.045468807220459,
7824
+ "learning_rate": 8.787539400573867e-05,
7825
+ "loss": 1.677,
7826
+ "step": 1103
7827
+ },
7828
+ {
7829
+ "epoch": 1.0832822274009568,
7830
+ "grad_norm": 1.911670446395874,
7831
+ "learning_rate": 8.772171636323714e-05,
7832
+ "loss": 1.6431,
7833
+ "step": 1104
7834
+ },
7835
+ {
7836
+ "epoch": 1.084263461302588,
7837
+ "grad_norm": 2.1892030239105225,
7838
+ "learning_rate": 8.75680681563582e-05,
7839
+ "loss": 1.7828,
7840
+ "step": 1105
7841
+ },
7842
+ {
7843
+ "epoch": 1.0852446952042194,
7844
+ "grad_norm": 1.965929627418518,
7845
+ "learning_rate": 8.74144497534539e-05,
7846
+ "loss": 1.6294,
7847
+ "step": 1106
7848
+ },
7849
+ {
7850
+ "epoch": 1.0862259291058507,
7851
+ "grad_norm": 2.0876922607421875,
7852
+ "learning_rate": 8.726086152280483e-05,
7853
+ "loss": 1.6393,
7854
+ "step": 1107
7855
+ },
7856
+ {
7857
+ "epoch": 1.087207163007482,
7858
+ "grad_norm": 2.0882608890533447,
7859
+ "learning_rate": 8.710730383261916e-05,
7860
+ "loss": 1.7047,
7861
+ "step": 1108
7862
+ },
7863
+ {
7864
+ "epoch": 1.0881883969091133,
7865
+ "grad_norm": 1.7960344552993774,
7866
+ "learning_rate": 8.695377705103199e-05,
7867
+ "loss": 1.4743,
7868
+ "step": 1109
7869
+ },
7870
+ {
7871
+ "epoch": 1.0891696308107446,
7872
+ "grad_norm": 2.054779291152954,
7873
+ "learning_rate": 8.680028154610419e-05,
7874
+ "loss": 1.8039,
7875
+ "step": 1110
7876
+ },
7877
+ {
7878
+ "epoch": 1.0901508647123759,
7879
+ "grad_norm": 1.9848898649215698,
7880
+ "learning_rate": 8.66468176858217e-05,
7881
+ "loss": 1.6247,
7882
+ "step": 1111
7883
+ },
7884
+ {
7885
+ "epoch": 1.0911320986140072,
7886
+ "grad_norm": 1.876171350479126,
7887
+ "learning_rate": 8.649338583809466e-05,
7888
+ "loss": 1.4708,
7889
+ "step": 1112
7890
+ },
7891
+ {
7892
+ "epoch": 1.0921133325156385,
7893
+ "grad_norm": 2.000190019607544,
7894
+ "learning_rate": 8.633998637075634e-05,
7895
+ "loss": 1.6452,
7896
+ "step": 1113
7897
+ },
7898
+ {
7899
+ "epoch": 1.0930945664172698,
7900
+ "grad_norm": 1.9362976551055908,
7901
+ "learning_rate": 8.618661965156243e-05,
7902
+ "loss": 1.5954,
7903
+ "step": 1114
7904
+ },
7905
+ {
7906
+ "epoch": 1.094075800318901,
7907
+ "grad_norm": 2.1642391681671143,
7908
+ "learning_rate": 8.60332860481902e-05,
7909
+ "loss": 1.5963,
7910
+ "step": 1115
7911
+ },
7912
+ {
7913
+ "epoch": 1.0950570342205324,
7914
+ "grad_norm": 1.9460209608078003,
7915
+ "learning_rate": 8.587998592823738e-05,
7916
+ "loss": 1.5983,
7917
+ "step": 1116
7918
+ },
7919
+ {
7920
+ "epoch": 1.0960382681221637,
7921
+ "grad_norm": 2.0492846965789795,
7922
+ "learning_rate": 8.572671965922148e-05,
7923
+ "loss": 1.7892,
7924
+ "step": 1117
7925
+ },
7926
+ {
7927
+ "epoch": 1.097019502023795,
7928
+ "grad_norm": 1.9556766748428345,
7929
+ "learning_rate": 8.557348760857899e-05,
7930
+ "loss": 1.398,
7931
+ "step": 1118
7932
+ },
7933
+ {
7934
+ "epoch": 1.0980007359254262,
7935
+ "grad_norm": 2.0801281929016113,
7936
+ "learning_rate": 8.542029014366419e-05,
7937
+ "loss": 1.6695,
7938
+ "step": 1119
7939
+ },
7940
+ {
7941
+ "epoch": 1.0989819698270575,
7942
+ "grad_norm": 1.9107387065887451,
7943
+ "learning_rate": 8.526712763174844e-05,
7944
+ "loss": 1.5044,
7945
+ "step": 1120
7946
+ },
7947
+ {
7948
+ "epoch": 1.0999632037286888,
7949
+ "grad_norm": 2.10068416595459,
7950
+ "learning_rate": 8.511400044001948e-05,
7951
+ "loss": 1.7394,
7952
+ "step": 1121
7953
+ },
7954
+ {
7955
+ "epoch": 1.1009444376303201,
7956
+ "grad_norm": 1.9681599140167236,
7957
+ "learning_rate": 8.496090893558019e-05,
7958
+ "loss": 1.5235,
7959
+ "step": 1122
7960
+ },
7961
+ {
7962
+ "epoch": 1.1019256715319514,
7963
+ "grad_norm": 1.798728108406067,
7964
+ "learning_rate": 8.480785348544802e-05,
7965
+ "loss": 1.4747,
7966
+ "step": 1123
7967
+ },
7968
+ {
7969
+ "epoch": 1.1029069054335827,
7970
+ "grad_norm": 2.044416666030884,
7971
+ "learning_rate": 8.465483445655394e-05,
7972
+ "loss": 1.7187,
7973
+ "step": 1124
7974
+ },
7975
+ {
7976
+ "epoch": 1.103888139335214,
7977
+ "grad_norm": 1.8914976119995117,
7978
+ "learning_rate": 8.450185221574152e-05,
7979
+ "loss": 1.5393,
7980
+ "step": 1125
7981
+ },
7982
+ {
7983
+ "epoch": 1.1048693732368453,
7984
+ "grad_norm": 2.0890233516693115,
7985
+ "learning_rate": 8.434890712976632e-05,
7986
+ "loss": 1.5352,
7987
+ "step": 1126
7988
+ },
7989
+ {
7990
+ "epoch": 1.1058506071384766,
7991
+ "grad_norm": 2.081516742706299,
7992
+ "learning_rate": 8.419599956529466e-05,
7993
+ "loss": 1.7519,
7994
+ "step": 1127
7995
+ },
7996
+ {
7997
+ "epoch": 1.106831841040108,
7998
+ "grad_norm": 1.9843311309814453,
7999
+ "learning_rate": 8.404312988890299e-05,
8000
+ "loss": 1.6323,
8001
+ "step": 1128
8002
+ },
8003
+ {
8004
+ "epoch": 1.1078130749417392,
8005
+ "grad_norm": 2.055711269378662,
8006
+ "learning_rate": 8.389029846707688e-05,
8007
+ "loss": 1.6937,
8008
+ "step": 1129
8009
+ },
8010
+ {
8011
+ "epoch": 1.1087943088433705,
8012
+ "grad_norm": 2.023723840713501,
8013
+ "learning_rate": 8.373750566621027e-05,
8014
+ "loss": 1.5469,
8015
+ "step": 1130
8016
+ },
8017
+ {
8018
+ "epoch": 1.1097755427450018,
8019
+ "grad_norm": 1.9585527181625366,
8020
+ "learning_rate": 8.358475185260438e-05,
8021
+ "loss": 1.5684,
8022
+ "step": 1131
8023
+ },
8024
+ {
8025
+ "epoch": 1.110756776646633,
8026
+ "grad_norm": 1.8710687160491943,
8027
+ "learning_rate": 8.343203739246712e-05,
8028
+ "loss": 1.4615,
8029
+ "step": 1132
8030
+ },
8031
+ {
8032
+ "epoch": 1.1117380105482644,
8033
+ "grad_norm": 2.2277400493621826,
8034
+ "learning_rate": 8.32793626519119e-05,
8035
+ "loss": 1.7425,
8036
+ "step": 1133
8037
+ },
8038
+ {
8039
+ "epoch": 1.1127192444498957,
8040
+ "grad_norm": 2.5818541049957275,
8041
+ "learning_rate": 8.312672799695702e-05,
8042
+ "loss": 1.557,
8043
+ "step": 1134
8044
+ },
8045
+ {
8046
+ "epoch": 1.113700478351527,
8047
+ "grad_norm": 1.8735686540603638,
8048
+ "learning_rate": 8.297413379352469e-05,
8049
+ "loss": 1.5419,
8050
+ "step": 1135
8051
+ },
8052
+ {
8053
+ "epoch": 1.1146817122531583,
8054
+ "grad_norm": 2.1299853324890137,
8055
+ "learning_rate": 8.282158040744003e-05,
8056
+ "loss": 1.5744,
8057
+ "step": 1136
8058
+ },
8059
+ {
8060
+ "epoch": 1.1156629461547896,
8061
+ "grad_norm": 2.173092842102051,
8062
+ "learning_rate": 8.266906820443036e-05,
8063
+ "loss": 1.5719,
8064
+ "step": 1137
8065
+ },
8066
+ {
8067
+ "epoch": 1.1166441800564209,
8068
+ "grad_norm": 2.098710775375366,
8069
+ "learning_rate": 8.251659755012435e-05,
8070
+ "loss": 1.7516,
8071
+ "step": 1138
8072
+ },
8073
+ {
8074
+ "epoch": 1.1176254139580521,
8075
+ "grad_norm": 2.151813507080078,
8076
+ "learning_rate": 8.236416881005093e-05,
8077
+ "loss": 1.8084,
8078
+ "step": 1139
8079
+ },
8080
+ {
8081
+ "epoch": 1.1186066478596834,
8082
+ "grad_norm": 2.144266366958618,
8083
+ "learning_rate": 8.22117823496386e-05,
8084
+ "loss": 1.673,
8085
+ "step": 1140
8086
+ },
8087
+ {
8088
+ "epoch": 1.1195878817613147,
8089
+ "grad_norm": 2.0415525436401367,
8090
+ "learning_rate": 8.205943853421457e-05,
8091
+ "loss": 1.6424,
8092
+ "step": 1141
8093
+ },
8094
+ {
8095
+ "epoch": 1.1205691156629463,
8096
+ "grad_norm": 2.1223199367523193,
8097
+ "learning_rate": 8.190713772900374e-05,
8098
+ "loss": 1.7333,
8099
+ "step": 1142
8100
+ },
8101
+ {
8102
+ "epoch": 1.1215503495645776,
8103
+ "grad_norm": 1.88699471950531,
8104
+ "learning_rate": 8.175488029912783e-05,
8105
+ "loss": 1.5709,
8106
+ "step": 1143
8107
+ },
8108
+ {
8109
+ "epoch": 1.1225315834662088,
8110
+ "grad_norm": 2.1912736892700195,
8111
+ "learning_rate": 8.160266660960472e-05,
8112
+ "loss": 1.8098,
8113
+ "step": 1144
8114
+ },
8115
+ {
8116
+ "epoch": 1.1235128173678401,
8117
+ "grad_norm": 2.0326104164123535,
8118
+ "learning_rate": 8.14504970253474e-05,
8119
+ "loss": 1.6522,
8120
+ "step": 1145
8121
+ },
8122
+ {
8123
+ "epoch": 1.1244940512694714,
8124
+ "grad_norm": 1.9498326778411865,
8125
+ "learning_rate": 8.129837191116298e-05,
8126
+ "loss": 1.5352,
8127
+ "step": 1146
8128
+ },
8129
+ {
8130
+ "epoch": 1.1254752851711027,
8131
+ "grad_norm": 1.959389567375183,
8132
+ "learning_rate": 8.114629163175215e-05,
8133
+ "loss": 1.5821,
8134
+ "step": 1147
8135
+ },
8136
+ {
8137
+ "epoch": 1.126456519072734,
8138
+ "grad_norm": 1.8568264245986938,
8139
+ "learning_rate": 8.099425655170801e-05,
8140
+ "loss": 1.4137,
8141
+ "step": 1148
8142
+ },
8143
+ {
8144
+ "epoch": 1.1274377529743653,
8145
+ "grad_norm": 1.8849796056747437,
8146
+ "learning_rate": 8.084226703551528e-05,
8147
+ "loss": 1.563,
8148
+ "step": 1149
8149
+ },
8150
+ {
8151
+ "epoch": 1.1284189868759966,
8152
+ "grad_norm": 2.0412163734436035,
8153
+ "learning_rate": 8.06903234475495e-05,
8154
+ "loss": 1.5691,
8155
+ "step": 1150
8156
+ },
8157
+ {
8158
+ "epoch": 1.129400220777628,
8159
+ "grad_norm": 1.98798406124115,
8160
+ "learning_rate": 8.053842615207615e-05,
8161
+ "loss": 1.7514,
8162
+ "step": 1151
8163
+ },
8164
+ {
8165
+ "epoch": 1.1303814546792592,
8166
+ "grad_norm": 2.258009433746338,
8167
+ "learning_rate": 8.038657551324955e-05,
8168
+ "loss": 1.8773,
8169
+ "step": 1152
8170
+ },
8171
+ {
8172
+ "epoch": 1.1313626885808905,
8173
+ "grad_norm": 1.8106105327606201,
8174
+ "learning_rate": 8.02347718951124e-05,
8175
+ "loss": 1.5775,
8176
+ "step": 1153
8177
+ },
8178
+ {
8179
+ "epoch": 1.1323439224825218,
8180
+ "grad_norm": 2.030728340148926,
8181
+ "learning_rate": 8.008301566159447e-05,
8182
+ "loss": 1.7025,
8183
+ "step": 1154
8184
+ },
8185
+ {
8186
+ "epoch": 1.133325156384153,
8187
+ "grad_norm": 2.0498745441436768,
8188
+ "learning_rate": 7.993130717651207e-05,
8189
+ "loss": 1.7402,
8190
+ "step": 1155
8191
+ },
8192
+ {
8193
+ "epoch": 1.1343063902857844,
8194
+ "grad_norm": 2.068598747253418,
8195
+ "learning_rate": 7.977964680356696e-05,
8196
+ "loss": 1.7556,
8197
+ "step": 1156
8198
+ },
8199
+ {
8200
+ "epoch": 1.1352876241874157,
8201
+ "grad_norm": 1.9342832565307617,
8202
+ "learning_rate": 7.962803490634563e-05,
8203
+ "loss": 1.6636,
8204
+ "step": 1157
8205
+ },
8206
+ {
8207
+ "epoch": 1.136268858089047,
8208
+ "grad_norm": 1.9978430271148682,
8209
+ "learning_rate": 7.947647184831824e-05,
8210
+ "loss": 1.49,
8211
+ "step": 1158
8212
+ },
8213
+ {
8214
+ "epoch": 1.1372500919906783,
8215
+ "grad_norm": 2.0596561431884766,
8216
+ "learning_rate": 7.932495799283801e-05,
8217
+ "loss": 1.5796,
8218
+ "step": 1159
8219
+ },
8220
+ {
8221
+ "epoch": 1.1382313258923096,
8222
+ "grad_norm": 1.8670997619628906,
8223
+ "learning_rate": 7.917349370314007e-05,
8224
+ "loss": 1.4911,
8225
+ "step": 1160
8226
+ },
8227
+ {
8228
+ "epoch": 1.1392125597939409,
8229
+ "grad_norm": 1.8702526092529297,
8230
+ "learning_rate": 7.902207934234078e-05,
8231
+ "loss": 1.6028,
8232
+ "step": 1161
8233
+ },
8234
+ {
8235
+ "epoch": 1.1401937936955722,
8236
+ "grad_norm": 2.011188268661499,
8237
+ "learning_rate": 7.887071527343687e-05,
8238
+ "loss": 1.7725,
8239
+ "step": 1162
8240
+ },
8241
+ {
8242
+ "epoch": 1.1411750275972035,
8243
+ "grad_norm": 2.2111904621124268,
8244
+ "learning_rate": 7.871940185930438e-05,
8245
+ "loss": 1.9471,
8246
+ "step": 1163
8247
+ },
8248
+ {
8249
+ "epoch": 1.1421562614988348,
8250
+ "grad_norm": 3.008547306060791,
8251
+ "learning_rate": 7.856813946269795e-05,
8252
+ "loss": 1.6018,
8253
+ "step": 1164
8254
+ },
8255
+ {
8256
+ "epoch": 1.143137495400466,
8257
+ "grad_norm": 2.02215313911438,
8258
+ "learning_rate": 7.841692844624999e-05,
8259
+ "loss": 1.7439,
8260
+ "step": 1165
8261
+ },
8262
+ {
8263
+ "epoch": 1.1441187293020973,
8264
+ "grad_norm": 1.9515390396118164,
8265
+ "learning_rate": 7.826576917246961e-05,
8266
+ "loss": 1.4803,
8267
+ "step": 1166
8268
+ },
8269
+ {
8270
+ "epoch": 1.1450999632037286,
8271
+ "grad_norm": 2.102198362350464,
8272
+ "learning_rate": 7.811466200374194e-05,
8273
+ "loss": 1.8823,
8274
+ "step": 1167
8275
+ },
8276
+ {
8277
+ "epoch": 1.14608119710536,
8278
+ "grad_norm": 2.1199088096618652,
8279
+ "learning_rate": 7.796360730232724e-05,
8280
+ "loss": 1.7533,
8281
+ "step": 1168
8282
+ },
8283
+ {
8284
+ "epoch": 1.1470624310069912,
8285
+ "grad_norm": 1.9005942344665527,
8286
+ "learning_rate": 7.78126054303599e-05,
8287
+ "loss": 1.5241,
8288
+ "step": 1169
8289
+ },
8290
+ {
8291
+ "epoch": 1.1480436649086225,
8292
+ "grad_norm": 1.9489630460739136,
8293
+ "learning_rate": 7.766165674984766e-05,
8294
+ "loss": 1.6332,
8295
+ "step": 1170
8296
+ },
8297
+ {
8298
+ "epoch": 1.1490248988102538,
8299
+ "grad_norm": 1.9742125272750854,
8300
+ "learning_rate": 7.751076162267086e-05,
8301
+ "loss": 1.5182,
8302
+ "step": 1171
8303
+ },
8304
+ {
8305
+ "epoch": 1.1500061327118851,
8306
+ "grad_norm": 2.1530141830444336,
8307
+ "learning_rate": 7.735992041058126e-05,
8308
+ "loss": 1.7049,
8309
+ "step": 1172
8310
+ },
8311
+ {
8312
+ "epoch": 1.1509873666135164,
8313
+ "grad_norm": 1.9191465377807617,
8314
+ "learning_rate": 7.720913347520154e-05,
8315
+ "loss": 1.6947,
8316
+ "step": 1173
8317
+ },
8318
+ {
8319
+ "epoch": 1.1519686005151477,
8320
+ "grad_norm": 2.124904155731201,
8321
+ "learning_rate": 7.705840117802418e-05,
8322
+ "loss": 1.4705,
8323
+ "step": 1174
8324
+ },
8325
+ {
8326
+ "epoch": 1.152949834416779,
8327
+ "grad_norm": 2.041997194290161,
8328
+ "learning_rate": 7.69077238804107e-05,
8329
+ "loss": 1.6705,
8330
+ "step": 1175
8331
+ },
8332
+ {
8333
+ "epoch": 1.1539310683184105,
8334
+ "grad_norm": 2.099247694015503,
8335
+ "learning_rate": 7.675710194359069e-05,
8336
+ "loss": 1.8343,
8337
+ "step": 1176
8338
+ },
8339
+ {
8340
+ "epoch": 1.1549123022200418,
8341
+ "grad_norm": 2.0407588481903076,
8342
+ "learning_rate": 7.660653572866112e-05,
8343
+ "loss": 1.4873,
8344
+ "step": 1177
8345
+ },
8346
+ {
8347
+ "epoch": 1.1558935361216731,
8348
+ "grad_norm": 1.955540418624878,
8349
+ "learning_rate": 7.645602559658533e-05,
8350
+ "loss": 1.4963,
8351
+ "step": 1178
8352
+ },
8353
+ {
8354
+ "epoch": 1.1568747700233044,
8355
+ "grad_norm": 2.0383074283599854,
8356
+ "learning_rate": 7.630557190819217e-05,
8357
+ "loss": 1.5029,
8358
+ "step": 1179
8359
+ },
8360
+ {
8361
+ "epoch": 1.1578560039249357,
8362
+ "grad_norm": 1.9726423025131226,
8363
+ "learning_rate": 7.61551750241753e-05,
8364
+ "loss": 1.5796,
8365
+ "step": 1180
8366
+ },
8367
+ {
8368
+ "epoch": 1.158837237826567,
8369
+ "grad_norm": 2.105414867401123,
8370
+ "learning_rate": 7.600483530509204e-05,
8371
+ "loss": 1.6223,
8372
+ "step": 1181
8373
+ },
8374
+ {
8375
+ "epoch": 1.1598184717281983,
8376
+ "grad_norm": 1.842738151550293,
8377
+ "learning_rate": 7.58545531113627e-05,
8378
+ "loss": 1.5008,
8379
+ "step": 1182
8380
+ },
8381
+ {
8382
+ "epoch": 1.1607997056298296,
8383
+ "grad_norm": 1.8421316146850586,
8384
+ "learning_rate": 7.57043288032698e-05,
8385
+ "loss": 1.5295,
8386
+ "step": 1183
8387
+ },
8388
+ {
8389
+ "epoch": 1.1617809395314609,
8390
+ "grad_norm": 1.9387428760528564,
8391
+ "learning_rate": 7.555416274095694e-05,
8392
+ "loss": 1.6356,
8393
+ "step": 1184
8394
+ },
8395
+ {
8396
+ "epoch": 1.1627621734330922,
8397
+ "grad_norm": 2.176913261413574,
8398
+ "learning_rate": 7.540405528442822e-05,
8399
+ "loss": 1.746,
8400
+ "step": 1185
8401
+ },
8402
+ {
8403
+ "epoch": 1.1637434073347235,
8404
+ "grad_norm": 2.187565565109253,
8405
+ "learning_rate": 7.525400679354712e-05,
8406
+ "loss": 1.7062,
8407
+ "step": 1186
8408
+ },
8409
+ {
8410
+ "epoch": 1.1647246412363548,
8411
+ "grad_norm": 2.3154940605163574,
8412
+ "learning_rate": 7.510401762803575e-05,
8413
+ "loss": 1.7859,
8414
+ "step": 1187
8415
+ },
8416
+ {
8417
+ "epoch": 1.165705875137986,
8418
+ "grad_norm": 1.9886435270309448,
8419
+ "learning_rate": 7.495408814747418e-05,
8420
+ "loss": 1.5434,
8421
+ "step": 1188
8422
+ },
8423
+ {
8424
+ "epoch": 1.1666871090396174,
8425
+ "grad_norm": 2.100955009460449,
8426
+ "learning_rate": 7.480421871129914e-05,
8427
+ "loss": 1.717,
8428
+ "step": 1189
8429
+ },
8430
+ {
8431
+ "epoch": 1.1676683429412487,
8432
+ "grad_norm": 1.8335407972335815,
8433
+ "learning_rate": 7.465440967880354e-05,
8434
+ "loss": 1.3502,
8435
+ "step": 1190
8436
+ },
8437
+ {
8438
+ "epoch": 1.16864957684288,
8439
+ "grad_norm": 2.223097085952759,
8440
+ "learning_rate": 7.450466140913557e-05,
8441
+ "loss": 1.8062,
8442
+ "step": 1191
8443
+ },
8444
+ {
8445
+ "epoch": 1.1696308107445113,
8446
+ "grad_norm": 2.0861454010009766,
8447
+ "learning_rate": 7.435497426129759e-05,
8448
+ "loss": 1.6631,
8449
+ "step": 1192
8450
+ },
8451
+ {
8452
+ "epoch": 1.1706120446461425,
8453
+ "grad_norm": 2.1116607189178467,
8454
+ "learning_rate": 7.420534859414542e-05,
8455
+ "loss": 1.5691,
8456
+ "step": 1193
8457
+ },
8458
+ {
8459
+ "epoch": 1.1715932785477738,
8460
+ "grad_norm": 2.043426036834717,
8461
+ "learning_rate": 7.405578476638768e-05,
8462
+ "loss": 1.7083,
8463
+ "step": 1194
8464
+ },
8465
+ {
8466
+ "epoch": 1.1725745124494051,
8467
+ "grad_norm": 1.9768962860107422,
8468
+ "learning_rate": 7.390628313658457e-05,
8469
+ "loss": 1.5393,
8470
+ "step": 1195
8471
+ },
8472
+ {
8473
+ "epoch": 1.1735557463510364,
8474
+ "grad_norm": 1.9110056161880493,
8475
+ "learning_rate": 7.375684406314715e-05,
8476
+ "loss": 1.4994,
8477
+ "step": 1196
8478
+ },
8479
+ {
8480
+ "epoch": 1.1745369802526677,
8481
+ "grad_norm": 2.3619277477264404,
8482
+ "learning_rate": 7.360746790433672e-05,
8483
+ "loss": 1.6535,
8484
+ "step": 1197
8485
+ },
8486
+ {
8487
+ "epoch": 1.175518214154299,
8488
+ "grad_norm": 2.012925624847412,
8489
+ "learning_rate": 7.345815501826353e-05,
8490
+ "loss": 1.6035,
8491
+ "step": 1198
8492
+ },
8493
+ {
8494
+ "epoch": 1.1764994480559303,
8495
+ "grad_norm": 2.2382020950317383,
8496
+ "learning_rate": 7.330890576288619e-05,
8497
+ "loss": 1.901,
8498
+ "step": 1199
8499
+ },
8500
+ {
8501
+ "epoch": 1.1774806819575616,
8502
+ "grad_norm": 2.193420886993408,
8503
+ "learning_rate": 7.315972049601086e-05,
8504
+ "loss": 1.7189,
8505
+ "step": 1200
8506
+ },
8507
+ {
8508
+ "epoch": 1.1774806819575616,
8509
+ "eval_loss": 1.8992936611175537,
8510
+ "eval_runtime": 23.2051,
8511
+ "eval_samples_per_second": 58.565,
8512
+ "eval_steps_per_second": 14.652,
8513
+ "step": 1200
8514
  }
8515
  ],
8516
  "logging_steps": 1,
 
8525
  "early_stopping_threshold": 0.0
8526
  },
8527
  "attributes": {
8528
+ "early_stopping_patience_counter": 2
8529
  }
8530
  },
8531
  "TrainerControl": {
 
8534
  "should_evaluate": false,
8535
  "should_log": false,
8536
  "should_save": true,
8537
+ "should_training_stop": true
8538
  },
8539
  "attributes": {}
8540
  }
8541
  },
8542
+ "total_flos": 8.650775715250176e+16,
8543
  "train_batch_size": 4,
8544
  "trial_name": null,
8545
  "trial_params": null