ErrorAI commited on
Commit
09d72e1
·
verified ·
1 Parent(s): 9bd6ce1

Training in progress, step 1316, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:08542599c366cc92a14cc82e5af1e91b2a199f8f1c1513a7ec49706068b82c87
3
  size 125248064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:dd41fc97630170141dc508ec07570c754fab8d996df8653022e6bf199c96a846
3
  size 125248064
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:0c28880db112d63291c6656739d176363d7a156925494bd2a854a0f424f066f5
3
  size 64220436
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5ee389341dc923054dc48c9489b23e0003f34ebfa04e4f787e56453d6f5b1e60
3
  size 64220436
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f115dcd51bd7a24380e080921e166dc10bf7d5a708a49d6dd70253faef08367f
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:83146f5398af193bd20f19e815a6a80c30ac74ff9e56871d64fc318266a6a143
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:326cee6b22dfdeab30ce34700d2787f26bcf013bb4a60cc1430f947bb9538ba1
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a1a6ae50029ebc12ca97684c200ec4fe6ed551d6b557bd2a588d20bd09d7084e
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.7453275438927695,
5
  "eval_steps": 500,
6
- "global_step": 987,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -6916,6 +6916,2309 @@
6916
  "learning_rate": 1.4750723355605823e-05,
6917
  "loss": 0.4075,
6918
  "step": 987
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
6919
  }
6920
  ],
6921
  "logging_steps": 1,
@@ -6930,12 +9233,12 @@
6930
  "should_evaluate": false,
6931
  "should_log": false,
6932
  "should_save": true,
6933
- "should_training_stop": false
6934
  },
6935
  "attributes": {}
6936
  }
6937
  },
6938
- "total_flos": 1.2715376511025152e+18,
6939
  "train_batch_size": 4,
6940
  "trial_name": null,
6941
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.9937700585236926,
5
  "eval_steps": 500,
6
+ "global_step": 1316,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
6916
  "learning_rate": 1.4750723355605823e-05,
6917
  "loss": 0.4075,
6918
  "step": 987
6919
+ },
6920
+ {
6921
+ "epoch": 0.74608268831414,
6922
+ "grad_norm": 0.28927087783813477,
6923
+ "learning_rate": 1.4665848075973787e-05,
6924
+ "loss": 0.4336,
6925
+ "step": 988
6926
+ },
6927
+ {
6928
+ "epoch": 0.7468378327355106,
6929
+ "grad_norm": 0.3212716281414032,
6930
+ "learning_rate": 1.4581175699508982e-05,
6931
+ "loss": 0.4231,
6932
+ "step": 989
6933
+ },
6934
+ {
6935
+ "epoch": 0.7475929771568812,
6936
+ "grad_norm": 0.31144043803215027,
6937
+ "learning_rate": 1.4496706712434827e-05,
6938
+ "loss": 0.4016,
6939
+ "step": 990
6940
+ },
6941
+ {
6942
+ "epoch": 0.7483481215782518,
6943
+ "grad_norm": 0.2838822305202484,
6944
+ "learning_rate": 1.4412441599806864e-05,
6945
+ "loss": 0.3471,
6946
+ "step": 991
6947
+ },
6948
+ {
6949
+ "epoch": 0.7491032659996224,
6950
+ "grad_norm": 0.32325074076652527,
6951
+ "learning_rate": 1.4328380845509837e-05,
6952
+ "loss": 0.3989,
6953
+ "step": 992
6954
+ },
6955
+ {
6956
+ "epoch": 0.749858410420993,
6957
+ "grad_norm": 0.32019558548927307,
6958
+ "learning_rate": 1.4244524932255027e-05,
6959
+ "loss": 0.3604,
6960
+ "step": 993
6961
+ },
6962
+ {
6963
+ "epoch": 0.7506135548423636,
6964
+ "grad_norm": 0.3578037619590759,
6965
+ "learning_rate": 1.4160874341577446e-05,
6966
+ "loss": 0.4305,
6967
+ "step": 994
6968
+ },
6969
+ {
6970
+ "epoch": 0.7513686992637342,
6971
+ "grad_norm": 0.32821208238601685,
6972
+ "learning_rate": 1.4077429553832993e-05,
6973
+ "loss": 0.3459,
6974
+ "step": 995
6975
+ },
6976
+ {
6977
+ "epoch": 0.7521238436851048,
6978
+ "grad_norm": 0.32228267192840576,
6979
+ "learning_rate": 1.3994191048195827e-05,
6980
+ "loss": 0.3113,
6981
+ "step": 996
6982
+ },
6983
+ {
6984
+ "epoch": 0.7528789881064754,
6985
+ "grad_norm": 0.4038134217262268,
6986
+ "learning_rate": 1.391115930265554e-05,
6987
+ "loss": 0.4053,
6988
+ "step": 997
6989
+ },
6990
+ {
6991
+ "epoch": 0.753634132527846,
6992
+ "grad_norm": 0.36193010210990906,
6993
+ "learning_rate": 1.3828334794014381e-05,
6994
+ "loss": 0.3359,
6995
+ "step": 998
6996
+ },
6997
+ {
6998
+ "epoch": 0.7543892769492165,
6999
+ "grad_norm": 0.38052475452423096,
7000
+ "learning_rate": 1.37457179978846e-05,
7001
+ "loss": 0.3603,
7002
+ "step": 999
7003
+ },
7004
+ {
7005
+ "epoch": 0.7551444213705871,
7006
+ "grad_norm": 0.4941888153553009,
7007
+ "learning_rate": 1.366330938868569e-05,
7008
+ "loss": 0.4244,
7009
+ "step": 1000
7010
+ },
7011
+ {
7012
+ "epoch": 0.7558995657919577,
7013
+ "grad_norm": 0.15037553012371063,
7014
+ "learning_rate": 1.3581109439641588e-05,
7015
+ "loss": 0.3263,
7016
+ "step": 1001
7017
+ },
7018
+ {
7019
+ "epoch": 0.7566547102133283,
7020
+ "grad_norm": 0.14941640198230743,
7021
+ "learning_rate": 1.349911862277809e-05,
7022
+ "loss": 0.3179,
7023
+ "step": 1002
7024
+ },
7025
+ {
7026
+ "epoch": 0.7574098546346989,
7027
+ "grad_norm": 0.1701534390449524,
7028
+ "learning_rate": 1.3417337408920006e-05,
7029
+ "loss": 0.3566,
7030
+ "step": 1003
7031
+ },
7032
+ {
7033
+ "epoch": 0.7581649990560695,
7034
+ "grad_norm": 0.18360120058059692,
7035
+ "learning_rate": 1.3335766267688565e-05,
7036
+ "loss": 0.3882,
7037
+ "step": 1004
7038
+ },
7039
+ {
7040
+ "epoch": 0.7589201434774401,
7041
+ "grad_norm": 0.19040322303771973,
7042
+ "learning_rate": 1.3254405667498671e-05,
7043
+ "loss": 0.3905,
7044
+ "step": 1005
7045
+ },
7046
+ {
7047
+ "epoch": 0.7596752878988107,
7048
+ "grad_norm": 0.19472241401672363,
7049
+ "learning_rate": 1.3173256075556167e-05,
7050
+ "loss": 0.4387,
7051
+ "step": 1006
7052
+ },
7053
+ {
7054
+ "epoch": 0.7604304323201813,
7055
+ "grad_norm": 0.1870664656162262,
7056
+ "learning_rate": 1.309231795785526e-05,
7057
+ "loss": 0.4015,
7058
+ "step": 1007
7059
+ },
7060
+ {
7061
+ "epoch": 0.7611855767415519,
7062
+ "grad_norm": 0.18746329843997955,
7063
+ "learning_rate": 1.3011591779175775e-05,
7064
+ "loss": 0.4036,
7065
+ "step": 1008
7066
+ },
7067
+ {
7068
+ "epoch": 0.7619407211629224,
7069
+ "grad_norm": 0.1918107122182846,
7070
+ "learning_rate": 1.2931078003080437e-05,
7071
+ "loss": 0.3803,
7072
+ "step": 1009
7073
+ },
7074
+ {
7075
+ "epoch": 0.762695865584293,
7076
+ "grad_norm": 0.20022304356098175,
7077
+ "learning_rate": 1.2850777091912364e-05,
7078
+ "loss": 0.3884,
7079
+ "step": 1010
7080
+ },
7081
+ {
7082
+ "epoch": 0.7634510100056636,
7083
+ "grad_norm": 0.19047093391418457,
7084
+ "learning_rate": 1.2770689506792216e-05,
7085
+ "loss": 0.3729,
7086
+ "step": 1011
7087
+ },
7088
+ {
7089
+ "epoch": 0.7642061544270342,
7090
+ "grad_norm": 0.2117670625448227,
7091
+ "learning_rate": 1.2690815707615727e-05,
7092
+ "loss": 0.436,
7093
+ "step": 1012
7094
+ },
7095
+ {
7096
+ "epoch": 0.7649612988484048,
7097
+ "grad_norm": 0.20901797711849213,
7098
+ "learning_rate": 1.2611156153050963e-05,
7099
+ "loss": 0.3903,
7100
+ "step": 1013
7101
+ },
7102
+ {
7103
+ "epoch": 0.7657164432697754,
7104
+ "grad_norm": 0.2227080911397934,
7105
+ "learning_rate": 1.253171130053567e-05,
7106
+ "loss": 0.4772,
7107
+ "step": 1014
7108
+ },
7109
+ {
7110
+ "epoch": 0.766471587691146,
7111
+ "grad_norm": 0.21282415091991425,
7112
+ "learning_rate": 1.2452481606274734e-05,
7113
+ "loss": 0.4207,
7114
+ "step": 1015
7115
+ },
7116
+ {
7117
+ "epoch": 0.7672267321125166,
7118
+ "grad_norm": 0.21110861003398895,
7119
+ "learning_rate": 1.237346752523752e-05,
7120
+ "loss": 0.3875,
7121
+ "step": 1016
7122
+ },
7123
+ {
7124
+ "epoch": 0.767981876533887,
7125
+ "grad_norm": 0.23210763931274414,
7126
+ "learning_rate": 1.2294669511155193e-05,
7127
+ "loss": 0.439,
7128
+ "step": 1017
7129
+ },
7130
+ {
7131
+ "epoch": 0.7687370209552576,
7132
+ "grad_norm": 0.2336515635251999,
7133
+ "learning_rate": 1.2216088016518234e-05,
7134
+ "loss": 0.4468,
7135
+ "step": 1018
7136
+ },
7137
+ {
7138
+ "epoch": 0.7694921653766282,
7139
+ "grad_norm": 0.2305041402578354,
7140
+ "learning_rate": 1.2137723492573766e-05,
7141
+ "loss": 0.4231,
7142
+ "step": 1019
7143
+ },
7144
+ {
7145
+ "epoch": 0.7702473097979988,
7146
+ "grad_norm": 0.22647303342819214,
7147
+ "learning_rate": 1.2059576389322946e-05,
7148
+ "loss": 0.406,
7149
+ "step": 1020
7150
+ },
7151
+ {
7152
+ "epoch": 0.7710024542193694,
7153
+ "grad_norm": 0.2186606526374817,
7154
+ "learning_rate": 1.1981647155518472e-05,
7155
+ "loss": 0.3418,
7156
+ "step": 1021
7157
+ },
7158
+ {
7159
+ "epoch": 0.77175759864074,
7160
+ "grad_norm": 0.21919424831867218,
7161
+ "learning_rate": 1.1903936238661866e-05,
7162
+ "loss": 0.3603,
7163
+ "step": 1022
7164
+ },
7165
+ {
7166
+ "epoch": 0.7725127430621106,
7167
+ "grad_norm": 0.22741521894931793,
7168
+ "learning_rate": 1.1826444085001048e-05,
7169
+ "loss": 0.3957,
7170
+ "step": 1023
7171
+ },
7172
+ {
7173
+ "epoch": 0.7732678874834812,
7174
+ "grad_norm": 0.23761725425720215,
7175
+ "learning_rate": 1.174917113952772e-05,
7176
+ "loss": 0.3747,
7177
+ "step": 1024
7178
+ },
7179
+ {
7180
+ "epoch": 0.7740230319048518,
7181
+ "grad_norm": 0.23279255628585815,
7182
+ "learning_rate": 1.167211784597474e-05,
7183
+ "loss": 0.3978,
7184
+ "step": 1025
7185
+ },
7186
+ {
7187
+ "epoch": 0.7747781763262224,
7188
+ "grad_norm": 0.2562216520309448,
7189
+ "learning_rate": 1.1595284646813686e-05,
7190
+ "loss": 0.4132,
7191
+ "step": 1026
7192
+ },
7193
+ {
7194
+ "epoch": 0.775533320747593,
7195
+ "grad_norm": 0.23929475247859955,
7196
+ "learning_rate": 1.1518671983252228e-05,
7197
+ "loss": 0.3736,
7198
+ "step": 1027
7199
+ },
7200
+ {
7201
+ "epoch": 0.7762884651689635,
7202
+ "grad_norm": 0.2509770691394806,
7203
+ "learning_rate": 1.1442280295231656e-05,
7204
+ "loss": 0.4275,
7205
+ "step": 1028
7206
+ },
7207
+ {
7208
+ "epoch": 0.7770436095903341,
7209
+ "grad_norm": 0.2668601870536804,
7210
+ "learning_rate": 1.1366110021424337e-05,
7211
+ "loss": 0.406,
7212
+ "step": 1029
7213
+ },
7214
+ {
7215
+ "epoch": 0.7777987540117047,
7216
+ "grad_norm": 0.24542871117591858,
7217
+ "learning_rate": 1.1290161599231137e-05,
7218
+ "loss": 0.4133,
7219
+ "step": 1030
7220
+ },
7221
+ {
7222
+ "epoch": 0.7785538984330753,
7223
+ "grad_norm": 0.2547529935836792,
7224
+ "learning_rate": 1.1214435464779006e-05,
7225
+ "loss": 0.4081,
7226
+ "step": 1031
7227
+ },
7228
+ {
7229
+ "epoch": 0.7793090428544459,
7230
+ "grad_norm": 0.2759033441543579,
7231
+ "learning_rate": 1.1138932052918428e-05,
7232
+ "loss": 0.3879,
7233
+ "step": 1032
7234
+ },
7235
+ {
7236
+ "epoch": 0.7800641872758165,
7237
+ "grad_norm": 0.2765044867992401,
7238
+ "learning_rate": 1.106365179722088e-05,
7239
+ "loss": 0.4076,
7240
+ "step": 1033
7241
+ },
7242
+ {
7243
+ "epoch": 0.7808193316971871,
7244
+ "grad_norm": 0.27078738808631897,
7245
+ "learning_rate": 1.0988595129976442e-05,
7246
+ "loss": 0.3987,
7247
+ "step": 1034
7248
+ },
7249
+ {
7250
+ "epoch": 0.7815744761185577,
7251
+ "grad_norm": 0.27419719099998474,
7252
+ "learning_rate": 1.0913762482191198e-05,
7253
+ "loss": 0.3885,
7254
+ "step": 1035
7255
+ },
7256
+ {
7257
+ "epoch": 0.7823296205399283,
7258
+ "grad_norm": 0.26837533712387085,
7259
+ "learning_rate": 1.0839154283584868e-05,
7260
+ "loss": 0.3646,
7261
+ "step": 1036
7262
+ },
7263
+ {
7264
+ "epoch": 0.7830847649612989,
7265
+ "grad_norm": 0.30757594108581543,
7266
+ "learning_rate": 1.0764770962588277e-05,
7267
+ "loss": 0.4398,
7268
+ "step": 1037
7269
+ },
7270
+ {
7271
+ "epoch": 0.7838399093826695,
7272
+ "grad_norm": 0.28836846351623535,
7273
+ "learning_rate": 1.0690612946340894e-05,
7274
+ "loss": 0.4293,
7275
+ "step": 1038
7276
+ },
7277
+ {
7278
+ "epoch": 0.78459505380404,
7279
+ "grad_norm": 0.3034648597240448,
7280
+ "learning_rate": 1.0616680660688421e-05,
7281
+ "loss": 0.3929,
7282
+ "step": 1039
7283
+ },
7284
+ {
7285
+ "epoch": 0.7853501982254106,
7286
+ "grad_norm": 0.3083866834640503,
7287
+ "learning_rate": 1.0542974530180327e-05,
7288
+ "loss": 0.3692,
7289
+ "step": 1040
7290
+ },
7291
+ {
7292
+ "epoch": 0.7861053426467812,
7293
+ "grad_norm": 0.318313866853714,
7294
+ "learning_rate": 1.0469494978067357e-05,
7295
+ "loss": 0.381,
7296
+ "step": 1041
7297
+ },
7298
+ {
7299
+ "epoch": 0.7868604870681518,
7300
+ "grad_norm": 0.3297711908817291,
7301
+ "learning_rate": 1.0396242426299208e-05,
7302
+ "loss": 0.4136,
7303
+ "step": 1042
7304
+ },
7305
+ {
7306
+ "epoch": 0.7876156314895224,
7307
+ "grad_norm": 0.33657291531562805,
7308
+ "learning_rate": 1.0323217295522026e-05,
7309
+ "loss": 0.3967,
7310
+ "step": 1043
7311
+ },
7312
+ {
7313
+ "epoch": 0.788370775910893,
7314
+ "grad_norm": 0.3322165608406067,
7315
+ "learning_rate": 1.0250420005075995e-05,
7316
+ "loss": 0.362,
7317
+ "step": 1044
7318
+ },
7319
+ {
7320
+ "epoch": 0.7891259203322636,
7321
+ "grad_norm": 0.37014830112457275,
7322
+ "learning_rate": 1.017785097299298e-05,
7323
+ "loss": 0.4297,
7324
+ "step": 1045
7325
+ },
7326
+ {
7327
+ "epoch": 0.7898810647536342,
7328
+ "grad_norm": 0.33871424198150635,
7329
+ "learning_rate": 1.0105510615994051e-05,
7330
+ "loss": 0.3868,
7331
+ "step": 1046
7332
+ },
7333
+ {
7334
+ "epoch": 0.7906362091750048,
7335
+ "grad_norm": 0.4414469003677368,
7336
+ "learning_rate": 1.0033399349487171e-05,
7337
+ "loss": 0.2905,
7338
+ "step": 1047
7339
+ },
7340
+ {
7341
+ "epoch": 0.7913913535963754,
7342
+ "grad_norm": 0.42578282952308655,
7343
+ "learning_rate": 9.961517587564773e-06,
7344
+ "loss": 0.3776,
7345
+ "step": 1048
7346
+ },
7347
+ {
7348
+ "epoch": 0.792146498017746,
7349
+ "grad_norm": 0.45136335492134094,
7350
+ "learning_rate": 9.88986574300133e-06,
7351
+ "loss": 0.3735,
7352
+ "step": 1049
7353
+ },
7354
+ {
7355
+ "epoch": 0.7929016424391164,
7356
+ "grad_norm": 0.4850107729434967,
7357
+ "learning_rate": 9.818444227251089e-06,
7358
+ "loss": 0.3717,
7359
+ "step": 1050
7360
+ },
7361
+ {
7362
+ "epoch": 0.793656786860487,
7363
+ "grad_norm": 0.15895645320415497,
7364
+ "learning_rate": 9.747253450445649e-06,
7365
+ "loss": 0.3262,
7366
+ "step": 1051
7367
+ },
7368
+ {
7369
+ "epoch": 0.7944119312818576,
7370
+ "grad_norm": 0.15929242968559265,
7371
+ "learning_rate": 9.67629382139157e-06,
7372
+ "loss": 0.3419,
7373
+ "step": 1052
7374
+ },
7375
+ {
7376
+ "epoch": 0.7951670757032282,
7377
+ "grad_norm": 0.18021705746650696,
7378
+ "learning_rate": 9.605565747568107e-06,
7379
+ "loss": 0.3528,
7380
+ "step": 1053
7381
+ },
7382
+ {
7383
+ "epoch": 0.7959222201245988,
7384
+ "grad_norm": 0.16313131153583527,
7385
+ "learning_rate": 9.535069635124838e-06,
7386
+ "loss": 0.3082,
7387
+ "step": 1054
7388
+ },
7389
+ {
7390
+ "epoch": 0.7966773645459694,
7391
+ "grad_norm": 0.18114276230335236,
7392
+ "learning_rate": 9.464805888879263e-06,
7393
+ "loss": 0.3534,
7394
+ "step": 1055
7395
+ },
7396
+ {
7397
+ "epoch": 0.79743250896734,
7398
+ "grad_norm": 0.17138569056987762,
7399
+ "learning_rate": 9.394774912314624e-06,
7400
+ "loss": 0.3362,
7401
+ "step": 1056
7402
+ },
7403
+ {
7404
+ "epoch": 0.7981876533887106,
7405
+ "grad_norm": 0.18607540428638458,
7406
+ "learning_rate": 9.324977107577426e-06,
7407
+ "loss": 0.354,
7408
+ "step": 1057
7409
+ },
7410
+ {
7411
+ "epoch": 0.7989427978100812,
7412
+ "grad_norm": 0.19752830266952515,
7413
+ "learning_rate": 9.255412875475256e-06,
7414
+ "loss": 0.389,
7415
+ "step": 1058
7416
+ },
7417
+ {
7418
+ "epoch": 0.7996979422314517,
7419
+ "grad_norm": 0.20828400552272797,
7420
+ "learning_rate": 9.186082615474428e-06,
7421
+ "loss": 0.4721,
7422
+ "step": 1059
7423
+ },
7424
+ {
7425
+ "epoch": 0.8004530866528223,
7426
+ "grad_norm": 0.22494232654571533,
7427
+ "learning_rate": 9.116986725697657e-06,
7428
+ "loss": 0.4824,
7429
+ "step": 1060
7430
+ },
7431
+ {
7432
+ "epoch": 0.8012082310741929,
7433
+ "grad_norm": 0.19258789718151093,
7434
+ "learning_rate": 9.048125602921842e-06,
7435
+ "loss": 0.3916,
7436
+ "step": 1061
7437
+ },
7438
+ {
7439
+ "epoch": 0.8019633754955635,
7440
+ "grad_norm": 0.19615770876407623,
7441
+ "learning_rate": 8.979499642575762e-06,
7442
+ "loss": 0.3399,
7443
+ "step": 1062
7444
+ },
7445
+ {
7446
+ "epoch": 0.8027185199169341,
7447
+ "grad_norm": 0.19866204261779785,
7448
+ "learning_rate": 8.911109238737747e-06,
7449
+ "loss": 0.3476,
7450
+ "step": 1063
7451
+ },
7452
+ {
7453
+ "epoch": 0.8034736643383047,
7454
+ "grad_norm": 0.23535782098770142,
7455
+ "learning_rate": 8.842954784133516e-06,
7456
+ "loss": 0.469,
7457
+ "step": 1064
7458
+ },
7459
+ {
7460
+ "epoch": 0.8042288087596753,
7461
+ "grad_norm": 0.20158474147319794,
7462
+ "learning_rate": 8.775036670133857e-06,
7463
+ "loss": 0.3352,
7464
+ "step": 1065
7465
+ },
7466
+ {
7467
+ "epoch": 0.8049839531810459,
7468
+ "grad_norm": 0.1965356171131134,
7469
+ "learning_rate": 8.707355286752366e-06,
7470
+ "loss": 0.3574,
7471
+ "step": 1066
7472
+ },
7473
+ {
7474
+ "epoch": 0.8057390976024165,
7475
+ "grad_norm": 0.2335047870874405,
7476
+ "learning_rate": 8.639911022643288e-06,
7477
+ "loss": 0.4357,
7478
+ "step": 1067
7479
+ },
7480
+ {
7481
+ "epoch": 0.8064942420237871,
7482
+ "grad_norm": 0.22290942072868347,
7483
+ "learning_rate": 8.572704265099157e-06,
7484
+ "loss": 0.4266,
7485
+ "step": 1068
7486
+ },
7487
+ {
7488
+ "epoch": 0.8072493864451576,
7489
+ "grad_norm": 0.23795855045318604,
7490
+ "learning_rate": 8.505735400048748e-06,
7491
+ "loss": 0.4148,
7492
+ "step": 1069
7493
+ },
7494
+ {
7495
+ "epoch": 0.8080045308665282,
7496
+ "grad_norm": 0.228322833776474,
7497
+ "learning_rate": 8.439004812054657e-06,
7498
+ "loss": 0.3988,
7499
+ "step": 1070
7500
+ },
7501
+ {
7502
+ "epoch": 0.8087596752878988,
7503
+ "grad_norm": 0.23256799578666687,
7504
+ "learning_rate": 8.372512884311256e-06,
7505
+ "loss": 0.4268,
7506
+ "step": 1071
7507
+ },
7508
+ {
7509
+ "epoch": 0.8095148197092694,
7510
+ "grad_norm": 0.21915295720100403,
7511
+ "learning_rate": 8.306259998642441e-06,
7512
+ "loss": 0.3493,
7513
+ "step": 1072
7514
+ },
7515
+ {
7516
+ "epoch": 0.81026996413064,
7517
+ "grad_norm": 0.2517222464084625,
7518
+ "learning_rate": 8.24024653549937e-06,
7519
+ "loss": 0.4839,
7520
+ "step": 1073
7521
+ },
7522
+ {
7523
+ "epoch": 0.8110251085520106,
7524
+ "grad_norm": 0.24079398810863495,
7525
+ "learning_rate": 8.17447287395839e-06,
7526
+ "loss": 0.3799,
7527
+ "step": 1074
7528
+ },
7529
+ {
7530
+ "epoch": 0.8117802529733812,
7531
+ "grad_norm": 0.2544167935848236,
7532
+ "learning_rate": 8.108939391718812e-06,
7533
+ "loss": 0.3979,
7534
+ "step": 1075
7535
+ },
7536
+ {
7537
+ "epoch": 0.8125353973947518,
7538
+ "grad_norm": 0.2537594735622406,
7539
+ "learning_rate": 8.043646465100697e-06,
7540
+ "loss": 0.425,
7541
+ "step": 1076
7542
+ },
7543
+ {
7544
+ "epoch": 0.8132905418161224,
7545
+ "grad_norm": 0.2539171278476715,
7546
+ "learning_rate": 7.978594469042772e-06,
7547
+ "loss": 0.426,
7548
+ "step": 1077
7549
+ },
7550
+ {
7551
+ "epoch": 0.814045686237493,
7552
+ "grad_norm": 0.2699001729488373,
7553
+ "learning_rate": 7.913783777100253e-06,
7554
+ "loss": 0.414,
7555
+ "step": 1078
7556
+ },
7557
+ {
7558
+ "epoch": 0.8148008306588636,
7559
+ "grad_norm": 0.2574417293071747,
7560
+ "learning_rate": 7.849214761442636e-06,
7561
+ "loss": 0.4067,
7562
+ "step": 1079
7563
+ },
7564
+ {
7565
+ "epoch": 0.8155559750802341,
7566
+ "grad_norm": 0.2690460979938507,
7567
+ "learning_rate": 7.78488779285167e-06,
7568
+ "loss": 0.4546,
7569
+ "step": 1080
7570
+ },
7571
+ {
7572
+ "epoch": 0.8163111195016047,
7573
+ "grad_norm": 0.2663021683692932,
7574
+ "learning_rate": 7.72080324071912e-06,
7575
+ "loss": 0.3783,
7576
+ "step": 1081
7577
+ },
7578
+ {
7579
+ "epoch": 0.8170662639229753,
7580
+ "grad_norm": 0.24762804806232452,
7581
+ "learning_rate": 7.656961473044743e-06,
7582
+ "loss": 0.3468,
7583
+ "step": 1082
7584
+ },
7585
+ {
7586
+ "epoch": 0.8178214083443458,
7587
+ "grad_norm": 0.26688170433044434,
7588
+ "learning_rate": 7.593362856434116e-06,
7589
+ "loss": 0.3368,
7590
+ "step": 1083
7591
+ },
7592
+ {
7593
+ "epoch": 0.8185765527657164,
7594
+ "grad_norm": 0.27109459042549133,
7595
+ "learning_rate": 7.530007756096513e-06,
7596
+ "loss": 0.3406,
7597
+ "step": 1084
7598
+ },
7599
+ {
7600
+ "epoch": 0.819331697187087,
7601
+ "grad_norm": 0.28974488377571106,
7602
+ "learning_rate": 7.466896535842866e-06,
7603
+ "loss": 0.3889,
7604
+ "step": 1085
7605
+ },
7606
+ {
7607
+ "epoch": 0.8200868416084576,
7608
+ "grad_norm": 0.30808672308921814,
7609
+ "learning_rate": 7.404029558083653e-06,
7610
+ "loss": 0.418,
7611
+ "step": 1086
7612
+ },
7613
+ {
7614
+ "epoch": 0.8208419860298282,
7615
+ "grad_norm": 0.2833620309829712,
7616
+ "learning_rate": 7.341407183826776e-06,
7617
+ "loss": 0.3779,
7618
+ "step": 1087
7619
+ },
7620
+ {
7621
+ "epoch": 0.8215971304511988,
7622
+ "grad_norm": 0.2893945872783661,
7623
+ "learning_rate": 7.2790297726755716e-06,
7624
+ "loss": 0.3697,
7625
+ "step": 1088
7626
+ },
7627
+ {
7628
+ "epoch": 0.8223522748725693,
7629
+ "grad_norm": 0.3081832230091095,
7630
+ "learning_rate": 7.216897682826668e-06,
7631
+ "loss": 0.4526,
7632
+ "step": 1089
7633
+ },
7634
+ {
7635
+ "epoch": 0.8231074192939399,
7636
+ "grad_norm": 0.3169601261615753,
7637
+ "learning_rate": 7.1550112710679515e-06,
7638
+ "loss": 0.3671,
7639
+ "step": 1090
7640
+ },
7641
+ {
7642
+ "epoch": 0.8238625637153105,
7643
+ "grad_norm": 0.29276758432388306,
7644
+ "learning_rate": 7.093370892776558e-06,
7645
+ "loss": 0.2938,
7646
+ "step": 1091
7647
+ },
7648
+ {
7649
+ "epoch": 0.8246177081366811,
7650
+ "grad_norm": 0.31486350297927856,
7651
+ "learning_rate": 7.031976901916754e-06,
7652
+ "loss": 0.3838,
7653
+ "step": 1092
7654
+ },
7655
+ {
7656
+ "epoch": 0.8253728525580517,
7657
+ "grad_norm": 0.3386092782020569,
7658
+ "learning_rate": 6.9708296510379804e-06,
7659
+ "loss": 0.3715,
7660
+ "step": 1093
7661
+ },
7662
+ {
7663
+ "epoch": 0.8261279969794223,
7664
+ "grad_norm": 0.3289138376712799,
7665
+ "learning_rate": 6.909929491272799e-06,
7666
+ "loss": 0.3238,
7667
+ "step": 1094
7668
+ },
7669
+ {
7670
+ "epoch": 0.8268831414007929,
7671
+ "grad_norm": 0.3308430016040802,
7672
+ "learning_rate": 6.8492767723348396e-06,
7673
+ "loss": 0.3407,
7674
+ "step": 1095
7675
+ },
7676
+ {
7677
+ "epoch": 0.8276382858221635,
7678
+ "grad_norm": 0.32838174700737,
7679
+ "learning_rate": 6.788871842516864e-06,
7680
+ "loss": 0.3113,
7681
+ "step": 1096
7682
+ },
7683
+ {
7684
+ "epoch": 0.8283934302435341,
7685
+ "grad_norm": 0.37880030274391174,
7686
+ "learning_rate": 6.728715048688711e-06,
7687
+ "loss": 0.3602,
7688
+ "step": 1097
7689
+ },
7690
+ {
7691
+ "epoch": 0.8291485746649047,
7692
+ "grad_norm": 0.4009070098400116,
7693
+ "learning_rate": 6.668806736295307e-06,
7694
+ "loss": 0.42,
7695
+ "step": 1098
7696
+ },
7697
+ {
7698
+ "epoch": 0.8299037190862752,
7699
+ "grad_norm": 0.4191438853740692,
7700
+ "learning_rate": 6.6091472493547354e-06,
7701
+ "loss": 0.2983,
7702
+ "step": 1099
7703
+ },
7704
+ {
7705
+ "epoch": 0.8306588635076458,
7706
+ "grad_norm": 0.47517555952072144,
7707
+ "learning_rate": 6.549736930456163e-06,
7708
+ "loss": 0.3691,
7709
+ "step": 1100
7710
+ },
7711
+ {
7712
+ "epoch": 0.8314140079290164,
7713
+ "grad_norm": 0.1712975651025772,
7714
+ "learning_rate": 6.490576120757985e-06,
7715
+ "loss": 0.3235,
7716
+ "step": 1101
7717
+ },
7718
+ {
7719
+ "epoch": 0.832169152350387,
7720
+ "grad_norm": 0.16649426519870758,
7721
+ "learning_rate": 6.4316651599858e-06,
7722
+ "loss": 0.3349,
7723
+ "step": 1102
7724
+ },
7725
+ {
7726
+ "epoch": 0.8329242967717576,
7727
+ "grad_norm": 0.17389081418514252,
7728
+ "learning_rate": 6.373004386430442e-06,
7729
+ "loss": 0.3611,
7730
+ "step": 1103
7731
+ },
7732
+ {
7733
+ "epoch": 0.8336794411931282,
7734
+ "grad_norm": 0.16818854212760925,
7735
+ "learning_rate": 6.314594136946106e-06,
7736
+ "loss": 0.3444,
7737
+ "step": 1104
7738
+ },
7739
+ {
7740
+ "epoch": 0.8344345856144988,
7741
+ "grad_norm": 0.1820095032453537,
7742
+ "learning_rate": 6.25643474694837e-06,
7743
+ "loss": 0.3664,
7744
+ "step": 1105
7745
+ },
7746
+ {
7747
+ "epoch": 0.8351897300358694,
7748
+ "grad_norm": 0.18415705859661102,
7749
+ "learning_rate": 6.1985265504122314e-06,
7750
+ "loss": 0.3634,
7751
+ "step": 1106
7752
+ },
7753
+ {
7754
+ "epoch": 0.83594487445724,
7755
+ "grad_norm": 0.18334518373012543,
7756
+ "learning_rate": 6.140869879870287e-06,
7757
+ "loss": 0.3764,
7758
+ "step": 1107
7759
+ },
7760
+ {
7761
+ "epoch": 0.8367000188786106,
7762
+ "grad_norm": 0.19977064430713654,
7763
+ "learning_rate": 6.083465066410754e-06,
7764
+ "loss": 0.382,
7765
+ "step": 1108
7766
+ },
7767
+ {
7768
+ "epoch": 0.8374551632999812,
7769
+ "grad_norm": 0.20824985206127167,
7770
+ "learning_rate": 6.026312439675552e-06,
7771
+ "loss": 0.42,
7772
+ "step": 1109
7773
+ },
7774
+ {
7775
+ "epoch": 0.8382103077213517,
7776
+ "grad_norm": 0.20618076622486115,
7777
+ "learning_rate": 5.969412327858481e-06,
7778
+ "loss": 0.4066,
7779
+ "step": 1110
7780
+ },
7781
+ {
7782
+ "epoch": 0.8389654521427223,
7783
+ "grad_norm": 0.22045300900936127,
7784
+ "learning_rate": 5.912765057703262e-06,
7785
+ "loss": 0.4721,
7786
+ "step": 1111
7787
+ },
7788
+ {
7789
+ "epoch": 0.8397205965640929,
7790
+ "grad_norm": 0.20817910134792328,
7791
+ "learning_rate": 5.856370954501722e-06,
7792
+ "loss": 0.3477,
7793
+ "step": 1112
7794
+ },
7795
+ {
7796
+ "epoch": 0.8404757409854635,
7797
+ "grad_norm": 0.22744186222553253,
7798
+ "learning_rate": 5.8002303420919e-06,
7799
+ "loss": 0.409,
7800
+ "step": 1113
7801
+ },
7802
+ {
7803
+ "epoch": 0.8412308854068341,
7804
+ "grad_norm": 0.22021333873271942,
7805
+ "learning_rate": 5.744343542856162e-06,
7806
+ "loss": 0.422,
7807
+ "step": 1114
7808
+ },
7809
+ {
7810
+ "epoch": 0.8419860298282047,
7811
+ "grad_norm": 0.20742209255695343,
7812
+ "learning_rate": 5.688710877719416e-06,
7813
+ "loss": 0.4019,
7814
+ "step": 1115
7815
+ },
7816
+ {
7817
+ "epoch": 0.8427411742495753,
7818
+ "grad_norm": 0.21647979319095612,
7819
+ "learning_rate": 5.633332666147173e-06,
7820
+ "loss": 0.3796,
7821
+ "step": 1116
7822
+ },
7823
+ {
7824
+ "epoch": 0.8434963186709458,
7825
+ "grad_norm": 0.2143869549036026,
7826
+ "learning_rate": 5.5782092261438105e-06,
7827
+ "loss": 0.335,
7828
+ "step": 1117
7829
+ },
7830
+ {
7831
+ "epoch": 0.8442514630923164,
7832
+ "grad_norm": 0.2301177829504013,
7833
+ "learning_rate": 5.523340874250704e-06,
7834
+ "loss": 0.4501,
7835
+ "step": 1118
7836
+ },
7837
+ {
7838
+ "epoch": 0.845006607513687,
7839
+ "grad_norm": 0.23003332316875458,
7840
+ "learning_rate": 5.4687279255443705e-06,
7841
+ "loss": 0.4533,
7842
+ "step": 1119
7843
+ },
7844
+ {
7845
+ "epoch": 0.8457617519350575,
7846
+ "grad_norm": 0.22590281069278717,
7847
+ "learning_rate": 5.41437069363473e-06,
7848
+ "loss": 0.4036,
7849
+ "step": 1120
7850
+ },
7851
+ {
7852
+ "epoch": 0.8465168963564281,
7853
+ "grad_norm": 0.226993128657341,
7854
+ "learning_rate": 5.360269490663278e-06,
7855
+ "loss": 0.4468,
7856
+ "step": 1121
7857
+ },
7858
+ {
7859
+ "epoch": 0.8472720407777987,
7860
+ "grad_norm": 0.23445524275302887,
7861
+ "learning_rate": 5.306424627301248e-06,
7862
+ "loss": 0.384,
7863
+ "step": 1122
7864
+ },
7865
+ {
7866
+ "epoch": 0.8480271851991693,
7867
+ "grad_norm": 0.23912809789180756,
7868
+ "learning_rate": 5.252836412747919e-06,
7869
+ "loss": 0.4073,
7870
+ "step": 1123
7871
+ },
7872
+ {
7873
+ "epoch": 0.8487823296205399,
7874
+ "grad_norm": 0.24784360826015472,
7875
+ "learning_rate": 5.1995051547287285e-06,
7876
+ "loss": 0.407,
7877
+ "step": 1124
7878
+ },
7879
+ {
7880
+ "epoch": 0.8495374740419105,
7881
+ "grad_norm": 0.24575859308242798,
7882
+ "learning_rate": 5.14643115949362e-06,
7883
+ "loss": 0.3848,
7884
+ "step": 1125
7885
+ },
7886
+ {
7887
+ "epoch": 0.8502926184632811,
7888
+ "grad_norm": 0.25169506669044495,
7889
+ "learning_rate": 5.0936147318152e-06,
7890
+ "loss": 0.3523,
7891
+ "step": 1126
7892
+ },
7893
+ {
7894
+ "epoch": 0.8510477628846517,
7895
+ "grad_norm": 0.2474677860736847,
7896
+ "learning_rate": 5.041056174987008e-06,
7897
+ "loss": 0.4185,
7898
+ "step": 1127
7899
+ },
7900
+ {
7901
+ "epoch": 0.8518029073060223,
7902
+ "grad_norm": 0.2616688907146454,
7903
+ "learning_rate": 4.988755790821803e-06,
7904
+ "loss": 0.4394,
7905
+ "step": 1128
7906
+ },
7907
+ {
7908
+ "epoch": 0.8525580517273929,
7909
+ "grad_norm": 0.2649298310279846,
7910
+ "learning_rate": 4.936713879649818e-06,
7911
+ "loss": 0.4319,
7912
+ "step": 1129
7913
+ },
7914
+ {
7915
+ "epoch": 0.8533131961487634,
7916
+ "grad_norm": 0.2544507086277008,
7917
+ "learning_rate": 4.88493074031699e-06,
7918
+ "loss": 0.3631,
7919
+ "step": 1130
7920
+ },
7921
+ {
7922
+ "epoch": 0.854068340570134,
7923
+ "grad_norm": 0.24985194206237793,
7924
+ "learning_rate": 4.833406670183327e-06,
7925
+ "loss": 0.3581,
7926
+ "step": 1131
7927
+ },
7928
+ {
7929
+ "epoch": 0.8548234849915046,
7930
+ "grad_norm": 0.2733616828918457,
7931
+ "learning_rate": 4.782141965121128e-06,
7932
+ "loss": 0.4217,
7933
+ "step": 1132
7934
+ },
7935
+ {
7936
+ "epoch": 0.8555786294128752,
7937
+ "grad_norm": 0.2666637599468231,
7938
+ "learning_rate": 4.731136919513312e-06,
7939
+ "loss": 0.3794,
7940
+ "step": 1133
7941
+ },
7942
+ {
7943
+ "epoch": 0.8563337738342458,
7944
+ "grad_norm": 0.2879069149494171,
7945
+ "learning_rate": 4.680391826251751e-06,
7946
+ "loss": 0.35,
7947
+ "step": 1134
7948
+ },
7949
+ {
7950
+ "epoch": 0.8570889182556164,
7951
+ "grad_norm": 0.30357176065444946,
7952
+ "learning_rate": 4.629906976735526e-06,
7953
+ "loss": 0.4039,
7954
+ "step": 1135
7955
+ },
7956
+ {
7957
+ "epoch": 0.857844062676987,
7958
+ "grad_norm": 0.30282896757125854,
7959
+ "learning_rate": 4.5796826608693274e-06,
7960
+ "loss": 0.4026,
7961
+ "step": 1136
7962
+ },
7963
+ {
7964
+ "epoch": 0.8585992070983576,
7965
+ "grad_norm": 0.27673810720443726,
7966
+ "learning_rate": 4.529719167061741e-06,
7967
+ "loss": 0.3365,
7968
+ "step": 1137
7969
+ },
7970
+ {
7971
+ "epoch": 0.8593543515197282,
7972
+ "grad_norm": 0.28368133306503296,
7973
+ "learning_rate": 4.480016782223589e-06,
7974
+ "loss": 0.3572,
7975
+ "step": 1138
7976
+ },
7977
+ {
7978
+ "epoch": 0.8601094959410988,
7979
+ "grad_norm": 0.2899417281150818,
7980
+ "learning_rate": 4.430575791766328e-06,
7981
+ "loss": 0.3424,
7982
+ "step": 1139
7983
+ },
7984
+ {
7985
+ "epoch": 0.8608646403624693,
7986
+ "grad_norm": 0.328281432390213,
7987
+ "learning_rate": 4.381396479600375e-06,
7988
+ "loss": 0.3891,
7989
+ "step": 1140
7990
+ },
7991
+ {
7992
+ "epoch": 0.8616197847838399,
7993
+ "grad_norm": 0.3324677348136902,
7994
+ "learning_rate": 4.3324791281334595e-06,
7995
+ "loss": 0.4318,
7996
+ "step": 1141
7997
+ },
7998
+ {
7999
+ "epoch": 0.8623749292052105,
8000
+ "grad_norm": 0.30871015787124634,
8001
+ "learning_rate": 4.283824018269045e-06,
8002
+ "loss": 0.3513,
8003
+ "step": 1142
8004
+ },
8005
+ {
8006
+ "epoch": 0.8631300736265811,
8007
+ "grad_norm": 0.3389221131801605,
8008
+ "learning_rate": 4.235431429404707e-06,
8009
+ "loss": 0.4268,
8010
+ "step": 1143
8011
+ },
8012
+ {
8013
+ "epoch": 0.8638852180479517,
8014
+ "grad_norm": 0.30663684010505676,
8015
+ "learning_rate": 4.187301639430485e-06,
8016
+ "loss": 0.3358,
8017
+ "step": 1144
8018
+ },
8019
+ {
8020
+ "epoch": 0.8646403624693223,
8021
+ "grad_norm": 0.3269205093383789,
8022
+ "learning_rate": 4.139434924727359e-06,
8023
+ "loss": 0.3542,
8024
+ "step": 1145
8025
+ },
8026
+ {
8027
+ "epoch": 0.8653955068906929,
8028
+ "grad_norm": 0.3500070571899414,
8029
+ "learning_rate": 4.091831560165577e-06,
8030
+ "loss": 0.3445,
8031
+ "step": 1146
8032
+ },
8033
+ {
8034
+ "epoch": 0.8661506513120635,
8035
+ "grad_norm": 0.3916202783584595,
8036
+ "learning_rate": 4.044491819103169e-06,
8037
+ "loss": 0.4275,
8038
+ "step": 1147
8039
+ },
8040
+ {
8041
+ "epoch": 0.8669057957334341,
8042
+ "grad_norm": 0.41067856550216675,
8043
+ "learning_rate": 3.997415973384311e-06,
8044
+ "loss": 0.4219,
8045
+ "step": 1148
8046
+ },
8047
+ {
8048
+ "epoch": 0.8676609401548047,
8049
+ "grad_norm": 0.418266624212265,
8050
+ "learning_rate": 3.950604293337773e-06,
8051
+ "loss": 0.4184,
8052
+ "step": 1149
8053
+ },
8054
+ {
8055
+ "epoch": 0.8684160845761751,
8056
+ "grad_norm": 0.4629250168800354,
8057
+ "learning_rate": 3.904057047775389e-06,
8058
+ "loss": 0.3859,
8059
+ "step": 1150
8060
+ },
8061
+ {
8062
+ "epoch": 0.8691712289975457,
8063
+ "grad_norm": 0.1396147459745407,
8064
+ "learning_rate": 3.857774503990514e-06,
8065
+ "loss": 0.2758,
8066
+ "step": 1151
8067
+ },
8068
+ {
8069
+ "epoch": 0.8699263734189163,
8070
+ "grad_norm": 0.16692477464675903,
8071
+ "learning_rate": 3.8117569277564434e-06,
8072
+ "loss": 0.3403,
8073
+ "step": 1152
8074
+ },
8075
+ {
8076
+ "epoch": 0.8706815178402869,
8077
+ "grad_norm": 0.17089448869228363,
8078
+ "learning_rate": 3.766004583324956e-06,
8079
+ "loss": 0.3199,
8080
+ "step": 1153
8081
+ },
8082
+ {
8083
+ "epoch": 0.8714366622616575,
8084
+ "grad_norm": 0.1756073534488678,
8085
+ "learning_rate": 3.7205177334247443e-06,
8086
+ "loss": 0.349,
8087
+ "step": 1154
8088
+ },
8089
+ {
8090
+ "epoch": 0.8721918066830281,
8091
+ "grad_norm": 0.18730361759662628,
8092
+ "learning_rate": 3.675296639259912e-06,
8093
+ "loss": 0.3708,
8094
+ "step": 1155
8095
+ },
8096
+ {
8097
+ "epoch": 0.8729469511043987,
8098
+ "grad_norm": 0.1944558471441269,
8099
+ "learning_rate": 3.630341560508521e-06,
8100
+ "loss": 0.4133,
8101
+ "step": 1156
8102
+ },
8103
+ {
8104
+ "epoch": 0.8737020955257693,
8105
+ "grad_norm": 0.19459518790245056,
8106
+ "learning_rate": 3.5856527553210116e-06,
8107
+ "loss": 0.355,
8108
+ "step": 1157
8109
+ },
8110
+ {
8111
+ "epoch": 0.8744572399471399,
8112
+ "grad_norm": 0.1979731023311615,
8113
+ "learning_rate": 3.5412304803188136e-06,
8114
+ "loss": 0.3999,
8115
+ "step": 1158
8116
+ },
8117
+ {
8118
+ "epoch": 0.8752123843685105,
8119
+ "grad_norm": 0.1909814327955246,
8120
+ "learning_rate": 3.497074990592819e-06,
8121
+ "loss": 0.3762,
8122
+ "step": 1159
8123
+ },
8124
+ {
8125
+ "epoch": 0.875967528789881,
8126
+ "grad_norm": 0.20063309371471405,
8127
+ "learning_rate": 3.4531865397019246e-06,
8128
+ "loss": 0.4081,
8129
+ "step": 1160
8130
+ },
8131
+ {
8132
+ "epoch": 0.8767226732112516,
8133
+ "grad_norm": 0.19899629056453705,
8134
+ "learning_rate": 3.409565379671592e-06,
8135
+ "loss": 0.3843,
8136
+ "step": 1161
8137
+ },
8138
+ {
8139
+ "epoch": 0.8774778176326222,
8140
+ "grad_norm": 0.2057962417602539,
8141
+ "learning_rate": 3.3662117609923715e-06,
8142
+ "loss": 0.3534,
8143
+ "step": 1162
8144
+ },
8145
+ {
8146
+ "epoch": 0.8782329620539928,
8147
+ "grad_norm": 0.20951855182647705,
8148
+ "learning_rate": 3.3231259326184984e-06,
8149
+ "loss": 0.4041,
8150
+ "step": 1163
8151
+ },
8152
+ {
8153
+ "epoch": 0.8789881064753634,
8154
+ "grad_norm": 0.21981364488601685,
8155
+ "learning_rate": 3.2803081419664484e-06,
8156
+ "loss": 0.4235,
8157
+ "step": 1164
8158
+ },
8159
+ {
8160
+ "epoch": 0.879743250896734,
8161
+ "grad_norm": 0.22572548687458038,
8162
+ "learning_rate": 3.2377586349134846e-06,
8163
+ "loss": 0.4469,
8164
+ "step": 1165
8165
+ },
8166
+ {
8167
+ "epoch": 0.8804983953181046,
8168
+ "grad_norm": 0.22527821362018585,
8169
+ "learning_rate": 3.1954776557963085e-06,
8170
+ "loss": 0.3998,
8171
+ "step": 1166
8172
+ },
8173
+ {
8174
+ "epoch": 0.8812535397394752,
8175
+ "grad_norm": 0.2290899008512497,
8176
+ "learning_rate": 3.1534654474096206e-06,
8177
+ "loss": 0.4271,
8178
+ "step": 1167
8179
+ },
8180
+ {
8181
+ "epoch": 0.8820086841608458,
8182
+ "grad_norm": 0.23082055151462555,
8183
+ "learning_rate": 3.1117222510047118e-06,
8184
+ "loss": 0.4626,
8185
+ "step": 1168
8186
+ },
8187
+ {
8188
+ "epoch": 0.8827638285822164,
8189
+ "grad_norm": 0.2215840071439743,
8190
+ "learning_rate": 3.0702483062881203e-06,
8191
+ "loss": 0.366,
8192
+ "step": 1169
8193
+ },
8194
+ {
8195
+ "epoch": 0.883518973003587,
8196
+ "grad_norm": 0.2405186891555786,
8197
+ "learning_rate": 3.0290438514201936e-06,
8198
+ "loss": 0.4314,
8199
+ "step": 1170
8200
+ },
8201
+ {
8202
+ "epoch": 0.8842741174249575,
8203
+ "grad_norm": 0.23838458955287933,
8204
+ "learning_rate": 2.988109123013805e-06,
8205
+ "loss": 0.4155,
8206
+ "step": 1171
8207
+ },
8208
+ {
8209
+ "epoch": 0.8850292618463281,
8210
+ "grad_norm": 0.2328627109527588,
8211
+ "learning_rate": 2.9474443561329167e-06,
8212
+ "loss": 0.3708,
8213
+ "step": 1172
8214
+ },
8215
+ {
8216
+ "epoch": 0.8857844062676987,
8217
+ "grad_norm": 0.23276405036449432,
8218
+ "learning_rate": 2.907049784291266e-06,
8219
+ "loss": 0.3825,
8220
+ "step": 1173
8221
+ },
8222
+ {
8223
+ "epoch": 0.8865395506890693,
8224
+ "grad_norm": 0.22206051647663116,
8225
+ "learning_rate": 2.8669256394510234e-06,
8226
+ "loss": 0.3593,
8227
+ "step": 1174
8228
+ },
8229
+ {
8230
+ "epoch": 0.8872946951104399,
8231
+ "grad_norm": 0.24987028539180756,
8232
+ "learning_rate": 2.827072152021465e-06,
8233
+ "loss": 0.4427,
8234
+ "step": 1175
8235
+ },
8236
+ {
8237
+ "epoch": 0.8880498395318105,
8238
+ "grad_norm": 0.2531154155731201,
8239
+ "learning_rate": 2.787489550857619e-06,
8240
+ "loss": 0.3854,
8241
+ "step": 1176
8242
+ },
8243
+ {
8244
+ "epoch": 0.8888049839531811,
8245
+ "grad_norm": 0.24906668066978455,
8246
+ "learning_rate": 2.7481780632589993e-06,
8247
+ "loss": 0.3828,
8248
+ "step": 1177
8249
+ },
8250
+ {
8251
+ "epoch": 0.8895601283745517,
8252
+ "grad_norm": 0.26225507259368896,
8253
+ "learning_rate": 2.7091379149682685e-06,
8254
+ "loss": 0.3999,
8255
+ "step": 1178
8256
+ },
8257
+ {
8258
+ "epoch": 0.8903152727959223,
8259
+ "grad_norm": 0.2617410719394684,
8260
+ "learning_rate": 2.670369330169925e-06,
8261
+ "loss": 0.4004,
8262
+ "step": 1179
8263
+ },
8264
+ {
8265
+ "epoch": 0.8910704172172929,
8266
+ "grad_norm": 0.26333704590797424,
8267
+ "learning_rate": 2.6318725314890715e-06,
8268
+ "loss": 0.4155,
8269
+ "step": 1180
8270
+ },
8271
+ {
8272
+ "epoch": 0.8918255616386634,
8273
+ "grad_norm": 0.24778012931346893,
8274
+ "learning_rate": 2.593647739990068e-06,
8275
+ "loss": 0.3652,
8276
+ "step": 1181
8277
+ },
8278
+ {
8279
+ "epoch": 0.892580706060034,
8280
+ "grad_norm": 0.27770712971687317,
8281
+ "learning_rate": 2.555695175175338e-06,
8282
+ "loss": 0.435,
8283
+ "step": 1182
8284
+ },
8285
+ {
8286
+ "epoch": 0.8933358504814045,
8287
+ "grad_norm": 0.26981207728385925,
8288
+ "learning_rate": 2.518015054984041e-06,
8289
+ "loss": 0.3979,
8290
+ "step": 1183
8291
+ },
8292
+ {
8293
+ "epoch": 0.8940909949027751,
8294
+ "grad_norm": 0.28787314891815186,
8295
+ "learning_rate": 2.480607595790846e-06,
8296
+ "loss": 0.3894,
8297
+ "step": 1184
8298
+ },
8299
+ {
8300
+ "epoch": 0.8948461393241457,
8301
+ "grad_norm": 0.27000874280929565,
8302
+ "learning_rate": 2.4434730124047068e-06,
8303
+ "loss": 0.3587,
8304
+ "step": 1185
8305
+ },
8306
+ {
8307
+ "epoch": 0.8956012837455163,
8308
+ "grad_norm": 0.27463385462760925,
8309
+ "learning_rate": 2.406611518067614e-06,
8310
+ "loss": 0.3957,
8311
+ "step": 1186
8312
+ },
8313
+ {
8314
+ "epoch": 0.8963564281668869,
8315
+ "grad_norm": 0.28618261218070984,
8316
+ "learning_rate": 2.370023324453341e-06,
8317
+ "loss": 0.4097,
8318
+ "step": 1187
8319
+ },
8320
+ {
8321
+ "epoch": 0.8971115725882575,
8322
+ "grad_norm": 0.32782208919525146,
8323
+ "learning_rate": 2.333708641666299e-06,
8324
+ "loss": 0.4427,
8325
+ "step": 1188
8326
+ },
8327
+ {
8328
+ "epoch": 0.8978667170096281,
8329
+ "grad_norm": 0.30927029252052307,
8330
+ "learning_rate": 2.2976676782402396e-06,
8331
+ "loss": 0.3857,
8332
+ "step": 1189
8333
+ },
8334
+ {
8335
+ "epoch": 0.8986218614309986,
8336
+ "grad_norm": 0.2805861830711365,
8337
+ "learning_rate": 2.2619006411371435e-06,
8338
+ "loss": 0.3028,
8339
+ "step": 1190
8340
+ },
8341
+ {
8342
+ "epoch": 0.8993770058523692,
8343
+ "grad_norm": 0.3102644979953766,
8344
+ "learning_rate": 2.2264077357459944e-06,
8345
+ "loss": 0.4104,
8346
+ "step": 1191
8347
+ },
8348
+ {
8349
+ "epoch": 0.9001321502737398,
8350
+ "grad_norm": 0.3404208719730377,
8351
+ "learning_rate": 2.191189165881563e-06,
8352
+ "loss": 0.4215,
8353
+ "step": 1192
8354
+ },
8355
+ {
8356
+ "epoch": 0.9008872946951104,
8357
+ "grad_norm": 0.34622740745544434,
8358
+ "learning_rate": 2.156245133783308e-06,
8359
+ "loss": 0.3945,
8360
+ "step": 1193
8361
+ },
8362
+ {
8363
+ "epoch": 0.901642439116481,
8364
+ "grad_norm": 0.3446052670478821,
8365
+ "learning_rate": 2.121575840114176e-06,
8366
+ "loss": 0.3668,
8367
+ "step": 1194
8368
+ },
8369
+ {
8370
+ "epoch": 0.9023975835378516,
8371
+ "grad_norm": 0.3375178277492523,
8372
+ "learning_rate": 2.087181483959433e-06,
8373
+ "loss": 0.3543,
8374
+ "step": 1195
8375
+ },
8376
+ {
8377
+ "epoch": 0.9031527279592222,
8378
+ "grad_norm": 0.3674304187297821,
8379
+ "learning_rate": 2.0530622628255615e-06,
8380
+ "loss": 0.3769,
8381
+ "step": 1196
8382
+ },
8383
+ {
8384
+ "epoch": 0.9039078723805928,
8385
+ "grad_norm": 0.37681370973587036,
8386
+ "learning_rate": 2.019218372639098e-06,
8387
+ "loss": 0.4049,
8388
+ "step": 1197
8389
+ },
8390
+ {
8391
+ "epoch": 0.9046630168019634,
8392
+ "grad_norm": 0.3854749798774719,
8393
+ "learning_rate": 1.9856500077455155e-06,
8394
+ "loss": 0.4216,
8395
+ "step": 1198
8396
+ },
8397
+ {
8398
+ "epoch": 0.905418161223334,
8399
+ "grad_norm": 0.47074857354164124,
8400
+ "learning_rate": 1.952357360908114e-06,
8401
+ "loss": 0.4559,
8402
+ "step": 1199
8403
+ },
8404
+ {
8405
+ "epoch": 0.9061733056447046,
8406
+ "grad_norm": 0.6017633080482483,
8407
+ "learning_rate": 1.9193406233068924e-06,
8408
+ "loss": 0.4365,
8409
+ "step": 1200
8410
+ },
8411
+ {
8412
+ "epoch": 0.9069284500660751,
8413
+ "grad_norm": 0.14071007072925568,
8414
+ "learning_rate": 1.8865999845374793e-06,
8415
+ "loss": 0.2597,
8416
+ "step": 1201
8417
+ },
8418
+ {
8419
+ "epoch": 0.9076835944874457,
8420
+ "grad_norm": 0.15932346880435944,
8421
+ "learning_rate": 1.8541356326100433e-06,
8422
+ "loss": 0.3266,
8423
+ "step": 1202
8424
+ },
8425
+ {
8426
+ "epoch": 0.9084387389088163,
8427
+ "grad_norm": 0.1692121922969818,
8428
+ "learning_rate": 1.8219477539481555e-06,
8429
+ "loss": 0.3298,
8430
+ "step": 1203
8431
+ },
8432
+ {
8433
+ "epoch": 0.9091938833301869,
8434
+ "grad_norm": 0.16915957629680634,
8435
+ "learning_rate": 1.7900365333878177e-06,
8436
+ "loss": 0.3622,
8437
+ "step": 1204
8438
+ },
8439
+ {
8440
+ "epoch": 0.9099490277515575,
8441
+ "grad_norm": 0.18877923488616943,
8442
+ "learning_rate": 1.758402154176314e-06,
8443
+ "loss": 0.3674,
8444
+ "step": 1205
8445
+ },
8446
+ {
8447
+ "epoch": 0.9107041721729281,
8448
+ "grad_norm": 0.18287624418735504,
8449
+ "learning_rate": 1.7270447979712056e-06,
8450
+ "loss": 0.3427,
8451
+ "step": 1206
8452
+ },
8453
+ {
8454
+ "epoch": 0.9114593165942987,
8455
+ "grad_norm": 0.1901153177022934,
8456
+ "learning_rate": 1.6959646448392763e-06,
8457
+ "loss": 0.4145,
8458
+ "step": 1207
8459
+ },
8460
+ {
8461
+ "epoch": 0.9122144610156693,
8462
+ "grad_norm": 0.2029486745595932,
8463
+ "learning_rate": 1.6651618732554775e-06,
8464
+ "loss": 0.3926,
8465
+ "step": 1208
8466
+ },
8467
+ {
8468
+ "epoch": 0.9129696054370399,
8469
+ "grad_norm": 0.19846974313259125,
8470
+ "learning_rate": 1.6346366601019347e-06,
8471
+ "loss": 0.3617,
8472
+ "step": 1209
8473
+ },
8474
+ {
8475
+ "epoch": 0.9137247498584105,
8476
+ "grad_norm": 0.2179420292377472,
8477
+ "learning_rate": 1.6043891806669376e-06,
8478
+ "loss": 0.4296,
8479
+ "step": 1210
8480
+ },
8481
+ {
8482
+ "epoch": 0.914479894279781,
8483
+ "grad_norm": 0.20902778208255768,
8484
+ "learning_rate": 1.574419608643879e-06,
8485
+ "loss": 0.3957,
8486
+ "step": 1211
8487
+ },
8488
+ {
8489
+ "epoch": 0.9152350387011516,
8490
+ "grad_norm": 0.21325752139091492,
8491
+ "learning_rate": 1.544728116130323e-06,
8492
+ "loss": 0.3968,
8493
+ "step": 1212
8494
+ },
8495
+ {
8496
+ "epoch": 0.9159901831225222,
8497
+ "grad_norm": 0.22161689400672913,
8498
+ "learning_rate": 1.5153148736269719e-06,
8499
+ "loss": 0.3584,
8500
+ "step": 1213
8501
+ },
8502
+ {
8503
+ "epoch": 0.9167453275438928,
8504
+ "grad_norm": 0.22005094587802887,
8505
+ "learning_rate": 1.4861800500367008e-06,
8506
+ "loss": 0.4194,
8507
+ "step": 1214
8508
+ },
8509
+ {
8510
+ "epoch": 0.9175004719652634,
8511
+ "grad_norm": 0.2082773596048355,
8512
+ "learning_rate": 1.457323812663608e-06,
8513
+ "loss": 0.3759,
8514
+ "step": 1215
8515
+ },
8516
+ {
8517
+ "epoch": 0.9182556163866339,
8518
+ "grad_norm": 0.21454690396785736,
8519
+ "learning_rate": 1.4287463272120104e-06,
8520
+ "loss": 0.3494,
8521
+ "step": 1216
8522
+ },
8523
+ {
8524
+ "epoch": 0.9190107608080045,
8525
+ "grad_norm": 0.22656020522117615,
8526
+ "learning_rate": 1.400447757785539e-06,
8527
+ "loss": 0.4118,
8528
+ "step": 1217
8529
+ },
8530
+ {
8531
+ "epoch": 0.9197659052293751,
8532
+ "grad_norm": 0.2260131984949112,
8533
+ "learning_rate": 1.3724282668861665e-06,
8534
+ "loss": 0.4568,
8535
+ "step": 1218
8536
+ },
8537
+ {
8538
+ "epoch": 0.9205210496507457,
8539
+ "grad_norm": 0.2255602777004242,
8540
+ "learning_rate": 1.3446880154132757e-06,
8541
+ "loss": 0.4048,
8542
+ "step": 1219
8543
+ },
8544
+ {
8545
+ "epoch": 0.9212761940721163,
8546
+ "grad_norm": 0.23461206257343292,
8547
+ "learning_rate": 1.3172271626627486e-06,
8548
+ "loss": 0.4381,
8549
+ "step": 1220
8550
+ },
8551
+ {
8552
+ "epoch": 0.9220313384934868,
8553
+ "grad_norm": 0.239901602268219,
8554
+ "learning_rate": 1.2900458663260506e-06,
8555
+ "loss": 0.4144,
8556
+ "step": 1221
8557
+ },
8558
+ {
8559
+ "epoch": 0.9227864829148574,
8560
+ "grad_norm": 0.23655924201011658,
8561
+ "learning_rate": 1.2631442824893036e-06,
8562
+ "loss": 0.4315,
8563
+ "step": 1222
8564
+ },
8565
+ {
8566
+ "epoch": 0.923541627336228,
8567
+ "grad_norm": 0.22921998798847198,
8568
+ "learning_rate": 1.236522565632431e-06,
8569
+ "loss": 0.3893,
8570
+ "step": 1223
8571
+ },
8572
+ {
8573
+ "epoch": 0.9242967717575986,
8574
+ "grad_norm": 0.2575366795063019,
8575
+ "learning_rate": 1.210180868628219e-06,
8576
+ "loss": 0.4597,
8577
+ "step": 1224
8578
+ },
8579
+ {
8580
+ "epoch": 0.9250519161789692,
8581
+ "grad_norm": 0.2390882968902588,
8582
+ "learning_rate": 1.1841193427414798e-06,
8583
+ "loss": 0.3758,
8584
+ "step": 1225
8585
+ },
8586
+ {
8587
+ "epoch": 0.9258070606003398,
8588
+ "grad_norm": 0.2630118131637573,
8589
+ "learning_rate": 1.1583381376281731e-06,
8590
+ "loss": 0.4565,
8591
+ "step": 1226
8592
+ },
8593
+ {
8594
+ "epoch": 0.9265622050217104,
8595
+ "grad_norm": 0.27250075340270996,
8596
+ "learning_rate": 1.132837401334519e-06,
8597
+ "loss": 0.4368,
8598
+ "step": 1227
8599
+ },
8600
+ {
8601
+ "epoch": 0.927317349443081,
8602
+ "grad_norm": 0.2387106716632843,
8603
+ "learning_rate": 1.107617280296197e-06,
8604
+ "loss": 0.3618,
8605
+ "step": 1228
8606
+ },
8607
+ {
8608
+ "epoch": 0.9280724938644516,
8609
+ "grad_norm": 0.2761591374874115,
8610
+ "learning_rate": 1.0826779193374713e-06,
8611
+ "loss": 0.4607,
8612
+ "step": 1229
8613
+ },
8614
+ {
8615
+ "epoch": 0.9288276382858222,
8616
+ "grad_norm": 0.2529843747615814,
8617
+ "learning_rate": 1.0580194616703565e-06,
8618
+ "loss": 0.3403,
8619
+ "step": 1230
8620
+ },
8621
+ {
8622
+ "epoch": 0.9295827827071927,
8623
+ "grad_norm": 0.27074989676475525,
8624
+ "learning_rate": 1.033642048893807e-06,
8625
+ "loss": 0.4108,
8626
+ "step": 1231
8627
+ },
8628
+ {
8629
+ "epoch": 0.9303379271285633,
8630
+ "grad_norm": 0.28065839409828186,
8631
+ "learning_rate": 1.0095458209929242e-06,
8632
+ "loss": 0.4031,
8633
+ "step": 1232
8634
+ },
8635
+ {
8636
+ "epoch": 0.9310930715499339,
8637
+ "grad_norm": 0.28449884057044983,
8638
+ "learning_rate": 9.857309163380956e-07,
8639
+ "loss": 0.3624,
8640
+ "step": 1233
8641
+ },
8642
+ {
8643
+ "epoch": 0.9318482159713045,
8644
+ "grad_norm": 0.2827039361000061,
8645
+ "learning_rate": 9.621974716842674e-07,
8646
+ "loss": 0.3778,
8647
+ "step": 1234
8648
+ },
8649
+ {
8650
+ "epoch": 0.9326033603926751,
8651
+ "grad_norm": 0.2874571681022644,
8652
+ "learning_rate": 9.389456221701121e-07,
8653
+ "loss": 0.4096,
8654
+ "step": 1235
8655
+ },
8656
+ {
8657
+ "epoch": 0.9333585048140457,
8658
+ "grad_norm": 0.28555232286453247,
8659
+ "learning_rate": 9.159755013172622e-07,
8660
+ "loss": 0.3969,
8661
+ "step": 1236
8662
+ },
8663
+ {
8664
+ "epoch": 0.9341136492354163,
8665
+ "grad_norm": 0.29169705510139465,
8666
+ "learning_rate": 8.932872410295667e-07,
8667
+ "loss": 0.3701,
8668
+ "step": 1237
8669
+ },
8670
+ {
8671
+ "epoch": 0.9348687936567869,
8672
+ "grad_norm": 0.29561880230903625,
8673
+ "learning_rate": 8.708809715922972e-07,
8674
+ "loss": 0.3977,
8675
+ "step": 1238
8676
+ },
8677
+ {
8678
+ "epoch": 0.9356239380781575,
8679
+ "grad_norm": 0.30140790343284607,
8680
+ "learning_rate": 8.487568216714315e-07,
8681
+ "loss": 0.4149,
8682
+ "step": 1239
8683
+ },
8684
+ {
8685
+ "epoch": 0.9363790824995281,
8686
+ "grad_norm": 0.3187549114227295,
8687
+ "learning_rate": 8.269149183128988e-07,
8688
+ "loss": 0.3354,
8689
+ "step": 1240
8690
+ },
8691
+ {
8692
+ "epoch": 0.9371342269208986,
8693
+ "grad_norm": 0.33990204334259033,
8694
+ "learning_rate": 8.053553869418418e-07,
8695
+ "loss": 0.4578,
8696
+ "step": 1241
8697
+ },
8698
+ {
8699
+ "epoch": 0.9378893713422692,
8700
+ "grad_norm": 0.3531990051269531,
8701
+ "learning_rate": 7.840783513619221e-07,
8702
+ "loss": 0.4437,
8703
+ "step": 1242
8704
+ },
8705
+ {
8706
+ "epoch": 0.9386445157636398,
8707
+ "grad_norm": 0.34928497672080994,
8708
+ "learning_rate": 7.630839337545936e-07,
8709
+ "loss": 0.4052,
8710
+ "step": 1243
8711
+ },
8712
+ {
8713
+ "epoch": 0.9393996601850104,
8714
+ "grad_norm": 0.36756661534309387,
8715
+ "learning_rate": 7.423722546783918e-07,
8716
+ "loss": 0.3936,
8717
+ "step": 1244
8718
+ },
8719
+ {
8720
+ "epoch": 0.940154804606381,
8721
+ "grad_norm": 0.35124626755714417,
8722
+ "learning_rate": 7.219434330682618e-07,
8723
+ "loss": 0.3659,
8724
+ "step": 1245
8725
+ },
8726
+ {
8727
+ "epoch": 0.9409099490277516,
8728
+ "grad_norm": 0.3702350854873657,
8729
+ "learning_rate": 7.017975862348592e-07,
8730
+ "loss": 0.2996,
8731
+ "step": 1246
8732
+ },
8733
+ {
8734
+ "epoch": 0.9416650934491222,
8735
+ "grad_norm": 0.3857671320438385,
8736
+ "learning_rate": 6.819348298638839e-07,
8737
+ "loss": 0.4173,
8738
+ "step": 1247
8739
+ },
8740
+ {
8741
+ "epoch": 0.9424202378704928,
8742
+ "grad_norm": 0.35669073462486267,
8743
+ "learning_rate": 6.623552780154197e-07,
8744
+ "loss": 0.324,
8745
+ "step": 1248
8746
+ },
8747
+ {
8748
+ "epoch": 0.9431753822918634,
8749
+ "grad_norm": 0.47897228598594666,
8750
+ "learning_rate": 6.430590431232563e-07,
8751
+ "loss": 0.458,
8752
+ "step": 1249
8753
+ },
8754
+ {
8755
+ "epoch": 0.9439305267132339,
8756
+ "grad_norm": 0.5287113785743713,
8757
+ "learning_rate": 6.240462359942967e-07,
8758
+ "loss": 0.4152,
8759
+ "step": 1250
8760
+ },
8761
+ {
8762
+ "epoch": 0.9446856711346044,
8763
+ "grad_norm": 0.16385497152805328,
8764
+ "learning_rate": 6.053169658078506e-07,
8765
+ "loss": 0.316,
8766
+ "step": 1251
8767
+ },
8768
+ {
8769
+ "epoch": 0.945440815555975,
8770
+ "grad_norm": 0.16225773096084595,
8771
+ "learning_rate": 5.868713401150583e-07,
8772
+ "loss": 0.3335,
8773
+ "step": 1252
8774
+ },
8775
+ {
8776
+ "epoch": 0.9461959599773456,
8777
+ "grad_norm": 0.16285216808319092,
8778
+ "learning_rate": 5.687094648382518e-07,
8779
+ "loss": 0.3312,
8780
+ "step": 1253
8781
+ },
8782
+ {
8783
+ "epoch": 0.9469511043987162,
8784
+ "grad_norm": 0.17022986710071564,
8785
+ "learning_rate": 5.508314442703611e-07,
8786
+ "loss": 0.2996,
8787
+ "step": 1254
8788
+ },
8789
+ {
8790
+ "epoch": 0.9477062488200868,
8791
+ "grad_norm": 0.18027344346046448,
8792
+ "learning_rate": 5.332373810742919e-07,
8793
+ "loss": 0.3887,
8794
+ "step": 1255
8795
+ },
8796
+ {
8797
+ "epoch": 0.9484613932414574,
8798
+ "grad_norm": 0.1849389225244522,
8799
+ "learning_rate": 5.159273762823657e-07,
8800
+ "loss": 0.3787,
8801
+ "step": 1256
8802
+ },
8803
+ {
8804
+ "epoch": 0.949216537662828,
8805
+ "grad_norm": 0.20186136662960052,
8806
+ "learning_rate": 4.989015292957144e-07,
8807
+ "loss": 0.3687,
8808
+ "step": 1257
8809
+ },
8810
+ {
8811
+ "epoch": 0.9499716820841986,
8812
+ "grad_norm": 0.19465675950050354,
8813
+ "learning_rate": 4.821599378837249e-07,
8814
+ "loss": 0.3625,
8815
+ "step": 1258
8816
+ },
8817
+ {
8818
+ "epoch": 0.9507268265055692,
8819
+ "grad_norm": 0.19634687900543213,
8820
+ "learning_rate": 4.6570269818346224e-07,
8821
+ "loss": 0.4195,
8822
+ "step": 1259
8823
+ },
8824
+ {
8825
+ "epoch": 0.9514819709269398,
8826
+ "grad_norm": 0.204311341047287,
8827
+ "learning_rate": 4.495299046991419e-07,
8828
+ "loss": 0.3959,
8829
+ "step": 1260
8830
+ },
8831
+ {
8832
+ "epoch": 0.9522371153483103,
8833
+ "grad_norm": 0.19881460070610046,
8834
+ "learning_rate": 4.336416503015639e-07,
8835
+ "loss": 0.4098,
8836
+ "step": 1261
8837
+ },
8838
+ {
8839
+ "epoch": 0.9529922597696809,
8840
+ "grad_norm": 0.20822936296463013,
8841
+ "learning_rate": 4.180380262275907e-07,
8842
+ "loss": 0.3894,
8843
+ "step": 1262
8844
+ },
8845
+ {
8846
+ "epoch": 0.9537474041910515,
8847
+ "grad_norm": 0.2120690792798996,
8848
+ "learning_rate": 4.0271912207962e-07,
8849
+ "loss": 0.379,
8850
+ "step": 1263
8851
+ },
8852
+ {
8853
+ "epoch": 0.9545025486124221,
8854
+ "grad_norm": 0.19805222749710083,
8855
+ "learning_rate": 3.8768502582507415e-07,
8856
+ "loss": 0.3766,
8857
+ "step": 1264
8858
+ },
8859
+ {
8860
+ "epoch": 0.9552576930337927,
8861
+ "grad_norm": 0.19410884380340576,
8862
+ "learning_rate": 3.7293582379587797e-07,
8863
+ "loss": 0.3523,
8864
+ "step": 1265
8865
+ },
8866
+ {
8867
+ "epoch": 0.9560128374551633,
8868
+ "grad_norm": 0.21975958347320557,
8869
+ "learning_rate": 3.584716006879985e-07,
8870
+ "loss": 0.3801,
8871
+ "step": 1266
8872
+ },
8873
+ {
8874
+ "epoch": 0.9567679818765339,
8875
+ "grad_norm": 0.22401130199432373,
8876
+ "learning_rate": 3.4429243956092817e-07,
8877
+ "loss": 0.4142,
8878
+ "step": 1267
8879
+ },
8880
+ {
8881
+ "epoch": 0.9575231262979045,
8882
+ "grad_norm": 0.2196296602487564,
8883
+ "learning_rate": 3.303984218372136e-07,
8884
+ "loss": 0.4482,
8885
+ "step": 1268
8886
+ },
8887
+ {
8888
+ "epoch": 0.9582782707192751,
8889
+ "grad_norm": 0.21536298096179962,
8890
+ "learning_rate": 3.167896273019888e-07,
8891
+ "loss": 0.3774,
8892
+ "step": 1269
8893
+ },
8894
+ {
8895
+ "epoch": 0.9590334151406457,
8896
+ "grad_norm": 0.24629651010036469,
8897
+ "learning_rate": 3.034661341025258e-07,
8898
+ "loss": 0.3771,
8899
+ "step": 1270
8900
+ },
8901
+ {
8902
+ "epoch": 0.9597885595620163,
8903
+ "grad_norm": 0.23244929313659668,
8904
+ "learning_rate": 2.9042801874777927e-07,
8905
+ "loss": 0.4528,
8906
+ "step": 1271
8907
+ },
8908
+ {
8909
+ "epoch": 0.9605437039833868,
8910
+ "grad_norm": 0.2288171648979187,
8911
+ "learning_rate": 2.776753561079481e-07,
8912
+ "loss": 0.3626,
8913
+ "step": 1272
8914
+ },
8915
+ {
8916
+ "epoch": 0.9612988484047574,
8917
+ "grad_norm": 0.22338609397411346,
8918
+ "learning_rate": 2.6520821941403704e-07,
8919
+ "loss": 0.3966,
8920
+ "step": 1273
8921
+ },
8922
+ {
8923
+ "epoch": 0.962053992826128,
8924
+ "grad_norm": 0.23835286498069763,
8925
+ "learning_rate": 2.53026680257451e-07,
8926
+ "loss": 0.4144,
8927
+ "step": 1274
8928
+ },
8929
+ {
8930
+ "epoch": 0.9628091372474986,
8931
+ "grad_norm": 0.2332562953233719,
8932
+ "learning_rate": 2.4113080858957914e-07,
8933
+ "loss": 0.3221,
8934
+ "step": 1275
8935
+ },
8936
+ {
8937
+ "epoch": 0.9635642816688692,
8938
+ "grad_norm": 0.2693784534931183,
8939
+ "learning_rate": 2.2952067272137834e-07,
8940
+ "loss": 0.4761,
8941
+ "step": 1276
8942
+ },
8943
+ {
8944
+ "epoch": 0.9643194260902398,
8945
+ "grad_norm": 0.2431482970714569,
8946
+ "learning_rate": 2.1819633932301796e-07,
8947
+ "loss": 0.3944,
8948
+ "step": 1277
8949
+ },
8950
+ {
8951
+ "epoch": 0.9650745705116104,
8952
+ "grad_norm": 0.2623022794723511,
8953
+ "learning_rate": 2.0715787342343584e-07,
8954
+ "loss": 0.3733,
8955
+ "step": 1278
8956
+ },
8957
+ {
8958
+ "epoch": 0.965829714932981,
8959
+ "grad_norm": 0.24833761155605316,
8960
+ "learning_rate": 1.9640533841003838e-07,
8961
+ "loss": 0.3611,
8962
+ "step": 1279
8963
+ },
8964
+ {
8965
+ "epoch": 0.9665848593543516,
8966
+ "grad_norm": 0.2568053603172302,
8967
+ "learning_rate": 1.8593879602828435e-07,
8968
+ "loss": 0.4602,
8969
+ "step": 1280
8970
+ },
8971
+ {
8972
+ "epoch": 0.9673400037757222,
8973
+ "grad_norm": 0.25137168169021606,
8974
+ "learning_rate": 1.7575830638133506e-07,
8975
+ "loss": 0.3323,
8976
+ "step": 1281
8977
+ },
8978
+ {
8979
+ "epoch": 0.9680951481970927,
8980
+ "grad_norm": 0.26353737711906433,
8981
+ "learning_rate": 1.6586392792973805e-07,
8982
+ "loss": 0.3855,
8983
+ "step": 1282
8984
+ },
8985
+ {
8986
+ "epoch": 0.9688502926184632,
8987
+ "grad_norm": 0.27223828434944153,
8988
+ "learning_rate": 1.562557174910606e-07,
8989
+ "loss": 0.3631,
8990
+ "step": 1283
8991
+ },
8992
+ {
8993
+ "epoch": 0.9696054370398338,
8994
+ "grad_norm": 0.2705494165420532,
8995
+ "learning_rate": 1.4693373023958458e-07,
8996
+ "loss": 0.4229,
8997
+ "step": 1284
8998
+ },
8999
+ {
9000
+ "epoch": 0.9703605814612044,
9001
+ "grad_norm": 0.2955893278121948,
9002
+ "learning_rate": 1.3789801970597872e-07,
9003
+ "loss": 0.534,
9004
+ "step": 1285
9005
+ },
9006
+ {
9007
+ "epoch": 0.971115725882575,
9008
+ "grad_norm": 0.2767453193664551,
9009
+ "learning_rate": 1.2914863777698792e-07,
9010
+ "loss": 0.3949,
9011
+ "step": 1286
9012
+ },
9013
+ {
9014
+ "epoch": 0.9718708703039456,
9015
+ "grad_norm": 0.28201353549957275,
9016
+ "learning_rate": 1.2068563469515014e-07,
9017
+ "loss": 0.3584,
9018
+ "step": 1287
9019
+ },
9020
+ {
9021
+ "epoch": 0.9726260147253162,
9022
+ "grad_norm": 0.28768327832221985,
9023
+ "learning_rate": 1.1250905905849097e-07,
9024
+ "loss": 0.3976,
9025
+ "step": 1288
9026
+ },
9027
+ {
9028
+ "epoch": 0.9733811591466868,
9029
+ "grad_norm": 0.30336374044418335,
9030
+ "learning_rate": 1.0461895782025167e-07,
9031
+ "loss": 0.3949,
9032
+ "step": 1289
9033
+ },
9034
+ {
9035
+ "epoch": 0.9741363035680574,
9036
+ "grad_norm": 0.32189151644706726,
9037
+ "learning_rate": 9.701537628863389e-08,
9038
+ "loss": 0.4426,
9039
+ "step": 1290
9040
+ },
9041
+ {
9042
+ "epoch": 0.974891447989428,
9043
+ "grad_norm": 0.3040902316570282,
9044
+ "learning_rate": 8.96983581265054e-08,
9045
+ "loss": 0.4035,
9046
+ "step": 1291
9047
+ },
9048
+ {
9049
+ "epoch": 0.9756465924107985,
9050
+ "grad_norm": 0.3161725699901581,
9051
+ "learning_rate": 8.266794535118916e-08,
9052
+ "loss": 0.3984,
9053
+ "step": 1292
9054
+ },
9055
+ {
9056
+ "epoch": 0.9764017368321691,
9057
+ "grad_norm": 0.3418150842189789,
9058
+ "learning_rate": 7.59241783341913e-08,
9059
+ "loss": 0.4402,
9060
+ "step": 1293
9061
+ },
9062
+ {
9063
+ "epoch": 0.9771568812535397,
9064
+ "grad_norm": 0.3445986807346344,
9065
+ "learning_rate": 6.94670958009791e-08,
9066
+ "loss": 0.4631,
9067
+ "step": 1294
9068
+ },
9069
+ {
9070
+ "epoch": 0.9779120256749103,
9071
+ "grad_norm": 0.3366871774196625,
9072
+ "learning_rate": 6.329673483076448e-08,
9073
+ "loss": 0.3533,
9074
+ "step": 1295
9075
+ },
9076
+ {
9077
+ "epoch": 0.9786671700962809,
9078
+ "grad_norm": 0.3505009710788727,
9079
+ "learning_rate": 5.7413130856293076e-08,
9080
+ "loss": 0.368,
9081
+ "step": 1296
9082
+ },
9083
+ {
9084
+ "epoch": 0.9794223145176515,
9085
+ "grad_norm": 0.4207570254802704,
9086
+ "learning_rate": 5.181631766362216e-08,
9087
+ "loss": 0.4519,
9088
+ "step": 1297
9089
+ },
9090
+ {
9091
+ "epoch": 0.9801774589390221,
9092
+ "grad_norm": 0.36577296257019043,
9093
+ "learning_rate": 4.650632739194305e-08,
9094
+ "loss": 0.3788,
9095
+ "step": 1298
9096
+ },
9097
+ {
9098
+ "epoch": 0.9809326033603927,
9099
+ "grad_norm": 0.43589064478874207,
9100
+ "learning_rate": 4.148319053340344e-08,
9101
+ "loss": 0.4351,
9102
+ "step": 1299
9103
+ },
9104
+ {
9105
+ "epoch": 0.9816877477817633,
9106
+ "grad_norm": 0.5222182869911194,
9107
+ "learning_rate": 3.674693593290202e-08,
9108
+ "loss": 0.3479,
9109
+ "step": 1300
9110
+ },
9111
+ {
9112
+ "epoch": 0.9824428922031339,
9113
+ "grad_norm": 0.15054112672805786,
9114
+ "learning_rate": 3.229759078795524e-08,
9115
+ "loss": 0.3271,
9116
+ "step": 1301
9117
+ },
9118
+ {
9119
+ "epoch": 0.9831980366245044,
9120
+ "grad_norm": 0.16661597788333893,
9121
+ "learning_rate": 2.813518064852527e-08,
9122
+ "loss": 0.3463,
9123
+ "step": 1302
9124
+ },
9125
+ {
9126
+ "epoch": 0.983953181045875,
9127
+ "grad_norm": 0.18651586771011353,
9128
+ "learning_rate": 2.4259729416870047e-08,
9129
+ "loss": 0.4193,
9130
+ "step": 1303
9131
+ },
9132
+ {
9133
+ "epoch": 0.9847083254672456,
9134
+ "grad_norm": 0.18549008667469025,
9135
+ "learning_rate": 2.0671259347426753e-08,
9136
+ "loss": 0.3928,
9137
+ "step": 1304
9138
+ },
9139
+ {
9140
+ "epoch": 0.9854634698886162,
9141
+ "grad_norm": 0.20331433415412903,
9142
+ "learning_rate": 1.736979104665637e-08,
9143
+ "loss": 0.376,
9144
+ "step": 1305
9145
+ },
9146
+ {
9147
+ "epoch": 0.9862186143099868,
9148
+ "grad_norm": 0.21076466143131256,
9149
+ "learning_rate": 1.4355343472932659e-08,
9150
+ "loss": 0.4072,
9151
+ "step": 1306
9152
+ },
9153
+ {
9154
+ "epoch": 0.9869737587313574,
9155
+ "grad_norm": 0.22106704115867615,
9156
+ "learning_rate": 1.1627933936464441e-08,
9157
+ "loss": 0.4331,
9158
+ "step": 1307
9159
+ },
9160
+ {
9161
+ "epoch": 0.987728903152728,
9162
+ "grad_norm": 0.22276969254016876,
9163
+ "learning_rate": 9.187578099140171e-09,
9164
+ "loss": 0.4089,
9165
+ "step": 1308
9166
+ },
9167
+ {
9168
+ "epoch": 0.9884840475740986,
9169
+ "grad_norm": 0.2439909279346466,
9170
+ "learning_rate": 7.034289974483521e-09,
9171
+ "loss": 0.4358,
9172
+ "step": 1309
9173
+ },
9174
+ {
9175
+ "epoch": 0.9892391919954692,
9176
+ "grad_norm": 0.22721384465694427,
9177
+ "learning_rate": 5.168081927564572e-09,
9178
+ "loss": 0.3826,
9179
+ "step": 1310
9180
+ },
9181
+ {
9182
+ "epoch": 0.9899943364168398,
9183
+ "grad_norm": 0.2524462938308716,
9184
+ "learning_rate": 3.5889646749109886e-09,
9185
+ "loss": 0.4407,
9186
+ "step": 1311
9187
+ },
9188
+ {
9189
+ "epoch": 0.9907494808382104,
9190
+ "grad_norm": 0.25080129504203796,
9191
+ "learning_rate": 2.296947284452511e-09,
9192
+ "loss": 0.4524,
9193
+ "step": 1312
9194
+ },
9195
+ {
9196
+ "epoch": 0.9915046252595809,
9197
+ "grad_norm": 0.24871572852134705,
9198
+ "learning_rate": 1.2920371754931991e-09,
9199
+ "loss": 0.3901,
9200
+ "step": 1313
9201
+ },
9202
+ {
9203
+ "epoch": 0.9922597696809515,
9204
+ "grad_norm": 0.2635830342769623,
9205
+ "learning_rate": 5.742401186281665e-10,
9206
+ "loss": 0.4563,
9207
+ "step": 1314
9208
+ },
9209
+ {
9210
+ "epoch": 0.9930149141023221,
9211
+ "grad_norm": 0.2695348262786865,
9212
+ "learning_rate": 1.435602357546806e-10,
9213
+ "loss": 0.4125,
9214
+ "step": 1315
9215
+ },
9216
+ {
9217
+ "epoch": 0.9937700585236926,
9218
+ "grad_norm": 0.2821287214756012,
9219
+ "learning_rate": 0.0,
9220
+ "loss": 0.4672,
9221
+ "step": 1316
9222
  }
9223
  ],
9224
  "logging_steps": 1,
 
9233
  "should_evaluate": false,
9234
  "should_log": false,
9235
  "should_save": true,
9236
+ "should_training_stop": true
9237
  },
9238
  "attributes": {}
9239
  }
9240
  },
9241
+ "total_flos": 1.6951719820787712e+18,
9242
  "train_batch_size": 4,
9243
  "trial_name": null,
9244
  "trial_params": null