Alphatao commited on
Commit
3bccea8
·
verified ·
1 Parent(s): 8699a61

Training in progress, step 900, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:34d5f51b1fc8efc396118d7dbc2cf0408eee2351a92c5a4ec4bc3b30c41a6989
3
  size 73911112
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f045355f938f666786ad36d5a7bc9028d0be96a54b23bd9a02def905f8ac3f5f
3
  size 73911112
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:5ec4a47854db24d29136476a8daf26ea56e784d1056cf5209ee85bb047191d0a
3
  size 37965684
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9189f4679ea4da6f1b3935af0c0173ea9b0016a35be3117e47e4abc4073f0d74
3
  size 37965684
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:db7c2ff2f7a033f1671f18f77925cc4fffd3d1db56cbdc8b5ffb68ee38be4ea1
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7645d4bab96924146718c10368503cddfbaffa9b9752acf45c4c650d90ccb1e7
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7e7be1d8205568b132245b3133e11fb1272b81edf049bdd1683d95706e20bf3e
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f39bff186481b2691af54be9cda77b9297711925f7bc2907a12df9c78be5954c
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": 0.574374258518219,
3
  "best_model_checkpoint": "miner_id_24/checkpoint-700",
4
- "epoch": 1.0942041374593947,
5
  "eval_steps": 100,
6
- "global_step": 800,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -5679,6 +5679,714 @@
5679
  "eval_samples_per_second": 31.748,
5680
  "eval_steps_per_second": 7.937,
5681
  "step": 800
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5682
  }
5683
  ],
5684
  "logging_steps": 1,
@@ -5693,7 +6401,7 @@
5693
  "early_stopping_threshold": 0.0
5694
  },
5695
  "attributes": {
5696
- "early_stopping_patience_counter": 1
5697
  }
5698
  },
5699
  "TrainerControl": {
@@ -5702,12 +6410,12 @@
5702
  "should_evaluate": false,
5703
  "should_log": false,
5704
  "should_save": true,
5705
- "should_training_stop": false
5706
  },
5707
  "attributes": {}
5708
  }
5709
  },
5710
- "total_flos": 2.2854806136265114e+17,
5711
  "train_batch_size": 4,
5712
  "trial_name": null,
5713
  "trial_params": null
 
1
  {
2
  "best_metric": 0.574374258518219,
3
  "best_model_checkpoint": "miner_id_24/checkpoint-700",
4
+ "epoch": 1.230979654641819,
5
  "eval_steps": 100,
6
+ "global_step": 900,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
5679
  "eval_samples_per_second": 31.748,
5680
  "eval_steps_per_second": 7.937,
5681
  "step": 800
5682
+ },
5683
+ {
5684
+ "epoch": 1.095571892631219,
5685
+ "grad_norm": 0.28456875681877136,
5686
+ "learning_rate": 8.609934310386318e-05,
5687
+ "loss": 0.6427,
5688
+ "step": 801
5689
+ },
5690
+ {
5691
+ "epoch": 1.0969396478030433,
5692
+ "grad_norm": 0.29876023530960083,
5693
+ "learning_rate": 8.588526066457907e-05,
5694
+ "loss": 0.5213,
5695
+ "step": 802
5696
+ },
5697
+ {
5698
+ "epoch": 1.0983074029748674,
5699
+ "grad_norm": 0.2823258936405182,
5700
+ "learning_rate": 8.567124420968549e-05,
5701
+ "loss": 0.6555,
5702
+ "step": 803
5703
+ },
5704
+ {
5705
+ "epoch": 1.0996751581466917,
5706
+ "grad_norm": 0.28708407282829285,
5707
+ "learning_rate": 8.545729473967884e-05,
5708
+ "loss": 0.618,
5709
+ "step": 804
5710
+ },
5711
+ {
5712
+ "epoch": 1.101042913318516,
5713
+ "grad_norm": 0.2833726108074188,
5714
+ "learning_rate": 8.52434132547423e-05,
5715
+ "loss": 0.6349,
5716
+ "step": 805
5717
+ },
5718
+ {
5719
+ "epoch": 1.1024106684903403,
5720
+ "grad_norm": 0.33605238795280457,
5721
+ "learning_rate": 8.502960075474131e-05,
5722
+ "loss": 0.4921,
5723
+ "step": 806
5724
+ },
5725
+ {
5726
+ "epoch": 1.1037784236621644,
5727
+ "grad_norm": 0.3451543152332306,
5728
+ "learning_rate": 8.481585823921873e-05,
5729
+ "loss": 0.5024,
5730
+ "step": 807
5731
+ },
5732
+ {
5733
+ "epoch": 1.1051461788339887,
5734
+ "grad_norm": 0.23923547565937042,
5735
+ "learning_rate": 8.460218670739031e-05,
5736
+ "loss": 0.3788,
5737
+ "step": 808
5738
+ },
5739
+ {
5740
+ "epoch": 1.106513934005813,
5741
+ "grad_norm": 0.2655201852321625,
5742
+ "learning_rate": 8.438858715813996e-05,
5743
+ "loss": 0.5876,
5744
+ "step": 809
5745
+ },
5746
+ {
5747
+ "epoch": 1.1078816891776373,
5748
+ "grad_norm": 0.2713606357574463,
5749
+ "learning_rate": 8.417506059001505e-05,
5750
+ "loss": 0.397,
5751
+ "step": 810
5752
+ },
5753
+ {
5754
+ "epoch": 1.1092494443494614,
5755
+ "grad_norm": 0.24983306229114532,
5756
+ "learning_rate": 8.396160800122176e-05,
5757
+ "loss": 0.3463,
5758
+ "step": 811
5759
+ },
5760
+ {
5761
+ "epoch": 1.1106171995212857,
5762
+ "grad_norm": 0.28522688150405884,
5763
+ "learning_rate": 8.374823038962056e-05,
5764
+ "loss": 0.4376,
5765
+ "step": 812
5766
+ },
5767
+ {
5768
+ "epoch": 1.11198495469311,
5769
+ "grad_norm": 0.2977089583873749,
5770
+ "learning_rate": 8.353492875272118e-05,
5771
+ "loss": 0.4729,
5772
+ "step": 813
5773
+ },
5774
+ {
5775
+ "epoch": 1.1133527098649343,
5776
+ "grad_norm": 0.2716682553291321,
5777
+ "learning_rate": 8.33217040876784e-05,
5778
+ "loss": 0.5256,
5779
+ "step": 814
5780
+ },
5781
+ {
5782
+ "epoch": 1.1147204650367584,
5783
+ "grad_norm": 0.34533944725990295,
5784
+ "learning_rate": 8.310855739128703e-05,
5785
+ "loss": 0.5092,
5786
+ "step": 815
5787
+ },
5788
+ {
5789
+ "epoch": 1.1160882202085827,
5790
+ "grad_norm": 0.2501341998577118,
5791
+ "learning_rate": 8.289548965997748e-05,
5792
+ "loss": 0.4022,
5793
+ "step": 816
5794
+ },
5795
+ {
5796
+ "epoch": 1.117455975380407,
5797
+ "grad_norm": 0.2617763578891754,
5798
+ "learning_rate": 8.26825018898109e-05,
5799
+ "loss": 0.3671,
5800
+ "step": 817
5801
+ },
5802
+ {
5803
+ "epoch": 1.118823730552231,
5804
+ "grad_norm": 0.2673083543777466,
5805
+ "learning_rate": 8.246959507647478e-05,
5806
+ "loss": 0.4135,
5807
+ "step": 818
5808
+ },
5809
+ {
5810
+ "epoch": 1.1201914857240554,
5811
+ "grad_norm": 0.31147336959838867,
5812
+ "learning_rate": 8.225677021527798e-05,
5813
+ "loss": 0.6971,
5814
+ "step": 819
5815
+ },
5816
+ {
5817
+ "epoch": 1.1215592408958797,
5818
+ "grad_norm": 0.23961347341537476,
5819
+ "learning_rate": 8.20440283011464e-05,
5820
+ "loss": 0.3846,
5821
+ "step": 820
5822
+ },
5823
+ {
5824
+ "epoch": 1.122926996067704,
5825
+ "grad_norm": 0.2794473469257355,
5826
+ "learning_rate": 8.183137032861804e-05,
5827
+ "loss": 0.3729,
5828
+ "step": 821
5829
+ },
5830
+ {
5831
+ "epoch": 1.124294751239528,
5832
+ "grad_norm": 0.32503047585487366,
5833
+ "learning_rate": 8.16187972918386e-05,
5834
+ "loss": 0.6592,
5835
+ "step": 822
5836
+ },
5837
+ {
5838
+ "epoch": 1.1256625064113523,
5839
+ "grad_norm": 0.3039405643939972,
5840
+ "learning_rate": 8.140631018455664e-05,
5841
+ "loss": 0.4657,
5842
+ "step": 823
5843
+ },
5844
+ {
5845
+ "epoch": 1.1270302615831767,
5846
+ "grad_norm": 0.36968639492988586,
5847
+ "learning_rate": 8.11939100001191e-05,
5848
+ "loss": 0.5455,
5849
+ "step": 824
5850
+ },
5851
+ {
5852
+ "epoch": 1.1283980167550007,
5853
+ "grad_norm": 0.27475252747535706,
5854
+ "learning_rate": 8.098159773146639e-05,
5855
+ "loss": 0.4267,
5856
+ "step": 825
5857
+ },
5858
+ {
5859
+ "epoch": 1.129765771926825,
5860
+ "grad_norm": 0.29142552614212036,
5861
+ "learning_rate": 8.07693743711282e-05,
5862
+ "loss": 0.3276,
5863
+ "step": 826
5864
+ },
5865
+ {
5866
+ "epoch": 1.1311335270986493,
5867
+ "grad_norm": 0.282996267080307,
5868
+ "learning_rate": 8.055724091121826e-05,
5869
+ "loss": 0.4624,
5870
+ "step": 827
5871
+ },
5872
+ {
5873
+ "epoch": 1.1325012822704736,
5874
+ "grad_norm": 0.24529734253883362,
5875
+ "learning_rate": 8.034519834343033e-05,
5876
+ "loss": 0.5003,
5877
+ "step": 828
5878
+ },
5879
+ {
5880
+ "epoch": 1.133869037442298,
5881
+ "grad_norm": 0.2863565683364868,
5882
+ "learning_rate": 8.013324765903305e-05,
5883
+ "loss": 0.552,
5884
+ "step": 829
5885
+ },
5886
+ {
5887
+ "epoch": 1.135236792614122,
5888
+ "grad_norm": 0.2725461423397064,
5889
+ "learning_rate": 7.992138984886567e-05,
5890
+ "loss": 0.5248,
5891
+ "step": 830
5892
+ },
5893
+ {
5894
+ "epoch": 1.1366045477859463,
5895
+ "grad_norm": 0.33715713024139404,
5896
+ "learning_rate": 7.970962590333316e-05,
5897
+ "loss": 0.6072,
5898
+ "step": 831
5899
+ },
5900
+ {
5901
+ "epoch": 1.1379723029577706,
5902
+ "grad_norm": 0.26902320981025696,
5903
+ "learning_rate": 7.949795681240168e-05,
5904
+ "loss": 0.4953,
5905
+ "step": 832
5906
+ },
5907
+ {
5908
+ "epoch": 1.1393400581295947,
5909
+ "grad_norm": 0.2683982849121094,
5910
+ "learning_rate": 7.928638356559407e-05,
5911
+ "loss": 0.6736,
5912
+ "step": 833
5913
+ },
5914
+ {
5915
+ "epoch": 1.140707813301419,
5916
+ "grad_norm": 0.32076001167297363,
5917
+ "learning_rate": 7.9074907151985e-05,
5918
+ "loss": 0.5829,
5919
+ "step": 834
5920
+ },
5921
+ {
5922
+ "epoch": 1.1420755684732433,
5923
+ "grad_norm": 0.29337945580482483,
5924
+ "learning_rate": 7.886352856019653e-05,
5925
+ "loss": 0.4851,
5926
+ "step": 835
5927
+ },
5928
+ {
5929
+ "epoch": 1.1434433236450676,
5930
+ "grad_norm": 0.24045072495937347,
5931
+ "learning_rate": 7.865224877839333e-05,
5932
+ "loss": 0.3578,
5933
+ "step": 836
5934
+ },
5935
+ {
5936
+ "epoch": 1.1448110788168917,
5937
+ "grad_norm": 0.257567822933197,
5938
+ "learning_rate": 7.844106879427829e-05,
5939
+ "loss": 0.4057,
5940
+ "step": 837
5941
+ },
5942
+ {
5943
+ "epoch": 1.146178833988716,
5944
+ "grad_norm": 0.2878836989402771,
5945
+ "learning_rate": 7.82299895950876e-05,
5946
+ "loss": 0.4812,
5947
+ "step": 838
5948
+ },
5949
+ {
5950
+ "epoch": 1.1475465891605403,
5951
+ "grad_norm": 0.3263901174068451,
5952
+ "learning_rate": 7.801901216758642e-05,
5953
+ "loss": 0.6451,
5954
+ "step": 839
5955
+ },
5956
+ {
5957
+ "epoch": 1.1489143443323644,
5958
+ "grad_norm": 0.25824493169784546,
5959
+ "learning_rate": 7.780813749806407e-05,
5960
+ "loss": 0.4484,
5961
+ "step": 840
5962
+ },
5963
+ {
5964
+ "epoch": 1.1502820995041887,
5965
+ "grad_norm": 0.25362029671669006,
5966
+ "learning_rate": 7.759736657232951e-05,
5967
+ "loss": 0.4383,
5968
+ "step": 841
5969
+ },
5970
+ {
5971
+ "epoch": 1.151649854676013,
5972
+ "grad_norm": 0.3550529479980469,
5973
+ "learning_rate": 7.73867003757067e-05,
5974
+ "loss": 0.5098,
5975
+ "step": 842
5976
+ },
5977
+ {
5978
+ "epoch": 1.1530176098478373,
5979
+ "grad_norm": 0.3048471510410309,
5980
+ "learning_rate": 7.717613989303011e-05,
5981
+ "loss": 0.5214,
5982
+ "step": 843
5983
+ },
5984
+ {
5985
+ "epoch": 1.1543853650196616,
5986
+ "grad_norm": 0.29699233174324036,
5987
+ "learning_rate": 7.696568610863978e-05,
5988
+ "loss": 0.4679,
5989
+ "step": 844
5990
+ },
5991
+ {
5992
+ "epoch": 1.1557531201914857,
5993
+ "grad_norm": 0.29977262020111084,
5994
+ "learning_rate": 7.675534000637724e-05,
5995
+ "loss": 0.4834,
5996
+ "step": 845
5997
+ },
5998
+ {
5999
+ "epoch": 1.15712087536331,
6000
+ "grad_norm": 0.3024733066558838,
6001
+ "learning_rate": 7.654510256958039e-05,
6002
+ "loss": 0.5326,
6003
+ "step": 846
6004
+ },
6005
+ {
6006
+ "epoch": 1.1584886305351343,
6007
+ "grad_norm": 0.3622778058052063,
6008
+ "learning_rate": 7.633497478107925e-05,
6009
+ "loss": 0.6334,
6010
+ "step": 847
6011
+ },
6012
+ {
6013
+ "epoch": 1.1598563857069584,
6014
+ "grad_norm": 0.3505115509033203,
6015
+ "learning_rate": 7.612495762319121e-05,
6016
+ "loss": 0.4456,
6017
+ "step": 848
6018
+ },
6019
+ {
6020
+ "epoch": 1.1612241408787827,
6021
+ "grad_norm": 0.30360838770866394,
6022
+ "learning_rate": 7.59150520777165e-05,
6023
+ "loss": 0.4395,
6024
+ "step": 849
6025
+ },
6026
+ {
6027
+ "epoch": 1.162591896050607,
6028
+ "grad_norm": 0.2924692630767822,
6029
+ "learning_rate": 7.570525912593354e-05,
6030
+ "loss": 0.4935,
6031
+ "step": 850
6032
+ },
6033
+ {
6034
+ "epoch": 1.1639596512224313,
6035
+ "grad_norm": 0.30422306060791016,
6036
+ "learning_rate": 7.549557974859446e-05,
6037
+ "loss": 0.5371,
6038
+ "step": 851
6039
+ },
6040
+ {
6041
+ "epoch": 1.1653274063942554,
6042
+ "grad_norm": 0.3041650354862213,
6043
+ "learning_rate": 7.528601492592037e-05,
6044
+ "loss": 0.4409,
6045
+ "step": 852
6046
+ },
6047
+ {
6048
+ "epoch": 1.1666951615660797,
6049
+ "grad_norm": 0.29774245619773865,
6050
+ "learning_rate": 7.507656563759691e-05,
6051
+ "loss": 0.5018,
6052
+ "step": 853
6053
+ },
6054
+ {
6055
+ "epoch": 1.168062916737904,
6056
+ "grad_norm": 0.3011612892150879,
6057
+ "learning_rate": 7.486723286276953e-05,
6058
+ "loss": 0.4171,
6059
+ "step": 854
6060
+ },
6061
+ {
6062
+ "epoch": 1.169430671909728,
6063
+ "grad_norm": 0.2770425081253052,
6064
+ "learning_rate": 7.465801758003918e-05,
6065
+ "loss": 0.3773,
6066
+ "step": 855
6067
+ },
6068
+ {
6069
+ "epoch": 1.1707984270815524,
6070
+ "grad_norm": 0.2873842716217041,
6071
+ "learning_rate": 7.444892076745728e-05,
6072
+ "loss": 0.5557,
6073
+ "step": 856
6074
+ },
6075
+ {
6076
+ "epoch": 1.1721661822533767,
6077
+ "grad_norm": 0.2865909934043884,
6078
+ "learning_rate": 7.423994340252169e-05,
6079
+ "loss": 0.39,
6080
+ "step": 857
6081
+ },
6082
+ {
6083
+ "epoch": 1.173533937425201,
6084
+ "grad_norm": 0.2772740423679352,
6085
+ "learning_rate": 7.403108646217165e-05,
6086
+ "loss": 0.5739,
6087
+ "step": 858
6088
+ },
6089
+ {
6090
+ "epoch": 1.174901692597025,
6091
+ "grad_norm": 0.3060879409313202,
6092
+ "learning_rate": 7.382235092278359e-05,
6093
+ "loss": 0.5719,
6094
+ "step": 859
6095
+ },
6096
+ {
6097
+ "epoch": 1.1762694477688493,
6098
+ "grad_norm": 0.33835381269454956,
6099
+ "learning_rate": 7.361373776016631e-05,
6100
+ "loss": 0.536,
6101
+ "step": 860
6102
+ },
6103
+ {
6104
+ "epoch": 1.1776372029406736,
6105
+ "grad_norm": 0.28969088196754456,
6106
+ "learning_rate": 7.340524794955659e-05,
6107
+ "loss": 0.4098,
6108
+ "step": 861
6109
+ },
6110
+ {
6111
+ "epoch": 1.179004958112498,
6112
+ "grad_norm": 0.29033181071281433,
6113
+ "learning_rate": 7.319688246561447e-05,
6114
+ "loss": 0.5777,
6115
+ "step": 862
6116
+ },
6117
+ {
6118
+ "epoch": 1.180372713284322,
6119
+ "grad_norm": 0.3036806583404541,
6120
+ "learning_rate": 7.298864228241887e-05,
6121
+ "loss": 0.4617,
6122
+ "step": 863
6123
+ },
6124
+ {
6125
+ "epoch": 1.1817404684561463,
6126
+ "grad_norm": 0.313621461391449,
6127
+ "learning_rate": 7.278052837346288e-05,
6128
+ "loss": 0.6076,
6129
+ "step": 864
6130
+ },
6131
+ {
6132
+ "epoch": 1.1831082236279706,
6133
+ "grad_norm": 0.27229294180870056,
6134
+ "learning_rate": 7.257254171164932e-05,
6135
+ "loss": 0.4272,
6136
+ "step": 865
6137
+ },
6138
+ {
6139
+ "epoch": 1.184475978799795,
6140
+ "grad_norm": 0.308609277009964,
6141
+ "learning_rate": 7.236468326928612e-05,
6142
+ "loss": 0.5481,
6143
+ "step": 866
6144
+ },
6145
+ {
6146
+ "epoch": 1.185843733971619,
6147
+ "grad_norm": 0.29016566276550293,
6148
+ "learning_rate": 7.21569540180818e-05,
6149
+ "loss": 0.4163,
6150
+ "step": 867
6151
+ },
6152
+ {
6153
+ "epoch": 1.1872114891434433,
6154
+ "grad_norm": 0.33708828687667847,
6155
+ "learning_rate": 7.1949354929141e-05,
6156
+ "loss": 0.5613,
6157
+ "step": 868
6158
+ },
6159
+ {
6160
+ "epoch": 1.1885792443152676,
6161
+ "grad_norm": 0.32777532935142517,
6162
+ "learning_rate": 7.174188697295971e-05,
6163
+ "loss": 0.4931,
6164
+ "step": 869
6165
+ },
6166
+ {
6167
+ "epoch": 1.1899469994870917,
6168
+ "grad_norm": 0.2704114615917206,
6169
+ "learning_rate": 7.153455111942108e-05,
6170
+ "loss": 0.4251,
6171
+ "step": 870
6172
+ },
6173
+ {
6174
+ "epoch": 1.191314754658916,
6175
+ "grad_norm": 0.3016801178455353,
6176
+ "learning_rate": 7.132734833779054e-05,
6177
+ "loss": 0.4761,
6178
+ "step": 871
6179
+ },
6180
+ {
6181
+ "epoch": 1.1926825098307403,
6182
+ "grad_norm": 0.31739842891693115,
6183
+ "learning_rate": 7.112027959671162e-05,
6184
+ "loss": 0.5516,
6185
+ "step": 872
6186
+ },
6187
+ {
6188
+ "epoch": 1.1940502650025646,
6189
+ "grad_norm": 0.3556269705295563,
6190
+ "learning_rate": 7.091334586420097e-05,
6191
+ "loss": 0.5474,
6192
+ "step": 873
6193
+ },
6194
+ {
6195
+ "epoch": 1.1954180201743887,
6196
+ "grad_norm": 0.31290698051452637,
6197
+ "learning_rate": 7.070654810764438e-05,
6198
+ "loss": 0.5217,
6199
+ "step": 874
6200
+ },
6201
+ {
6202
+ "epoch": 1.196785775346213,
6203
+ "grad_norm": 0.2770576775074005,
6204
+ "learning_rate": 7.049988729379168e-05,
6205
+ "loss": 0.4103,
6206
+ "step": 875
6207
+ },
6208
+ {
6209
+ "epoch": 1.1981535305180373,
6210
+ "grad_norm": 0.2821738123893738,
6211
+ "learning_rate": 7.029336438875279e-05,
6212
+ "loss": 0.5438,
6213
+ "step": 876
6214
+ },
6215
+ {
6216
+ "epoch": 1.1995212856898616,
6217
+ "grad_norm": 0.3358316123485565,
6218
+ "learning_rate": 7.008698035799268e-05,
6219
+ "loss": 0.8765,
6220
+ "step": 877
6221
+ },
6222
+ {
6223
+ "epoch": 1.2008890408616857,
6224
+ "grad_norm": 0.31030896306037903,
6225
+ "learning_rate": 6.988073616632732e-05,
6226
+ "loss": 0.5541,
6227
+ "step": 878
6228
+ },
6229
+ {
6230
+ "epoch": 1.20225679603351,
6231
+ "grad_norm": 0.30155354738235474,
6232
+ "learning_rate": 6.967463277791879e-05,
6233
+ "loss": 0.4087,
6234
+ "step": 879
6235
+ },
6236
+ {
6237
+ "epoch": 1.2036245512053343,
6238
+ "grad_norm": 0.2397313416004181,
6239
+ "learning_rate": 6.946867115627103e-05,
6240
+ "loss": 0.4809,
6241
+ "step": 880
6242
+ },
6243
+ {
6244
+ "epoch": 1.2049923063771586,
6245
+ "grad_norm": 0.2920851707458496,
6246
+ "learning_rate": 6.926285226422515e-05,
6247
+ "loss": 0.5256,
6248
+ "step": 881
6249
+ },
6250
+ {
6251
+ "epoch": 1.2063600615489827,
6252
+ "grad_norm": 0.2639416754245758,
6253
+ "learning_rate": 6.905717706395516e-05,
6254
+ "loss": 0.4735,
6255
+ "step": 882
6256
+ },
6257
+ {
6258
+ "epoch": 1.207727816720807,
6259
+ "grad_norm": 0.32958149909973145,
6260
+ "learning_rate": 6.885164651696317e-05,
6261
+ "loss": 0.5341,
6262
+ "step": 883
6263
+ },
6264
+ {
6265
+ "epoch": 1.2090955718926313,
6266
+ "grad_norm": 0.2795344591140747,
6267
+ "learning_rate": 6.86462615840752e-05,
6268
+ "loss": 0.4619,
6269
+ "step": 884
6270
+ },
6271
+ {
6272
+ "epoch": 1.2104633270644554,
6273
+ "grad_norm": 0.2936275005340576,
6274
+ "learning_rate": 6.844102322543638e-05,
6275
+ "loss": 0.4208,
6276
+ "step": 885
6277
+ },
6278
+ {
6279
+ "epoch": 1.2118310822362797,
6280
+ "grad_norm": 0.4172208905220032,
6281
+ "learning_rate": 6.823593240050685e-05,
6282
+ "loss": 0.6143,
6283
+ "step": 886
6284
+ },
6285
+ {
6286
+ "epoch": 1.213198837408104,
6287
+ "grad_norm": 0.2924855351448059,
6288
+ "learning_rate": 6.80309900680568e-05,
6289
+ "loss": 0.403,
6290
+ "step": 887
6291
+ },
6292
+ {
6293
+ "epoch": 1.2145665925799283,
6294
+ "grad_norm": 0.30166590213775635,
6295
+ "learning_rate": 6.782619718616252e-05,
6296
+ "loss": 0.7077,
6297
+ "step": 888
6298
+ },
6299
+ {
6300
+ "epoch": 1.2159343477517524,
6301
+ "grad_norm": 0.26507216691970825,
6302
+ "learning_rate": 6.762155471220131e-05,
6303
+ "loss": 0.4196,
6304
+ "step": 889
6305
+ },
6306
+ {
6307
+ "epoch": 1.2173021029235767,
6308
+ "grad_norm": 0.2820349931716919,
6309
+ "learning_rate": 6.741706360284763e-05,
6310
+ "loss": 0.5192,
6311
+ "step": 890
6312
+ },
6313
+ {
6314
+ "epoch": 1.218669858095401,
6315
+ "grad_norm": 0.2856913208961487,
6316
+ "learning_rate": 6.721272481406817e-05,
6317
+ "loss": 0.5337,
6318
+ "step": 891
6319
+ },
6320
+ {
6321
+ "epoch": 1.2200376132672253,
6322
+ "grad_norm": 0.3205767273902893,
6323
+ "learning_rate": 6.70085393011176e-05,
6324
+ "loss": 0.3494,
6325
+ "step": 892
6326
+ },
6327
+ {
6328
+ "epoch": 1.2214053684390493,
6329
+ "grad_norm": 0.3018949031829834,
6330
+ "learning_rate": 6.6804508018534e-05,
6331
+ "loss": 0.35,
6332
+ "step": 893
6333
+ },
6334
+ {
6335
+ "epoch": 1.2227731236108736,
6336
+ "grad_norm": 0.3356417119503021,
6337
+ "learning_rate": 6.660063192013451e-05,
6338
+ "loss": 0.4085,
6339
+ "step": 894
6340
+ },
6341
+ {
6342
+ "epoch": 1.224140878782698,
6343
+ "grad_norm": 0.31260353326797485,
6344
+ "learning_rate": 6.639691195901076e-05,
6345
+ "loss": 0.3837,
6346
+ "step": 895
6347
+ },
6348
+ {
6349
+ "epoch": 1.2255086339545223,
6350
+ "grad_norm": 0.2612607181072235,
6351
+ "learning_rate": 6.619334908752447e-05,
6352
+ "loss": 0.4347,
6353
+ "step": 896
6354
+ },
6355
+ {
6356
+ "epoch": 1.2268763891263463,
6357
+ "grad_norm": 0.26736879348754883,
6358
+ "learning_rate": 6.598994425730299e-05,
6359
+ "loss": 0.537,
6360
+ "step": 897
6361
+ },
6362
+ {
6363
+ "epoch": 1.2282441442981706,
6364
+ "grad_norm": 0.2847106158733368,
6365
+ "learning_rate": 6.578669841923486e-05,
6366
+ "loss": 0.5361,
6367
+ "step": 898
6368
+ },
6369
+ {
6370
+ "epoch": 1.229611899469995,
6371
+ "grad_norm": 0.254794716835022,
6372
+ "learning_rate": 6.558361252346532e-05,
6373
+ "loss": 0.454,
6374
+ "step": 899
6375
+ },
6376
+ {
6377
+ "epoch": 1.230979654641819,
6378
+ "grad_norm": 0.27473878860473633,
6379
+ "learning_rate": 6.5380687519392e-05,
6380
+ "loss": 0.5392,
6381
+ "step": 900
6382
+ },
6383
+ {
6384
+ "epoch": 1.230979654641819,
6385
+ "eval_loss": 0.5753397941589355,
6386
+ "eval_runtime": 38.7964,
6387
+ "eval_samples_per_second": 31.756,
6388
+ "eval_steps_per_second": 7.939,
6389
+ "step": 900
6390
  }
6391
  ],
6392
  "logging_steps": 1,
 
6401
  "early_stopping_threshold": 0.0
6402
  },
6403
  "attributes": {
6404
+ "early_stopping_patience_counter": 2
6405
  }
6406
  },
6407
  "TrainerControl": {
 
6410
  "should_evaluate": false,
6411
  "should_log": false,
6412
  "should_save": true,
6413
+ "should_training_stop": true
6414
  },
6415
  "attributes": {}
6416
  }
6417
  },
6418
+ "total_flos": 2.57057378726314e+17,
6419
  "train_batch_size": 4,
6420
  "trial_name": null,
6421
  "trial_params": null