|
{
|
|
"best_metric": 0.5090746879577637,
|
|
"best_model_checkpoint": "vit-base-kidney-stone-5-Jonathan_El-Beze_-w256_1k_v1-_SUR\\checkpoint-300",
|
|
"epoch": 15.0,
|
|
"eval_steps": 100,
|
|
"global_step": 4500,
|
|
"is_hyper_param_search": false,
|
|
"is_local_process_zero": true,
|
|
"is_world_process_zero": true,
|
|
"log_history": [
|
|
{
|
|
"epoch": 0.016666666666666666,
|
|
"grad_norm": 2.208289623260498,
|
|
"learning_rate": 0.0001997777777777778,
|
|
"loss": 1.7209,
|
|
"step": 5
|
|
},
|
|
{
|
|
"epoch": 0.03333333333333333,
|
|
"grad_norm": 2.1859800815582275,
|
|
"learning_rate": 0.00019955555555555558,
|
|
"loss": 1.4042,
|
|
"step": 10
|
|
},
|
|
{
|
|
"epoch": 0.05,
|
|
"grad_norm": 3.6672606468200684,
|
|
"learning_rate": 0.00019933333333333334,
|
|
"loss": 1.3045,
|
|
"step": 15
|
|
},
|
|
{
|
|
"epoch": 0.06666666666666667,
|
|
"grad_norm": 2.0550994873046875,
|
|
"learning_rate": 0.00019911111111111111,
|
|
"loss": 1.018,
|
|
"step": 20
|
|
},
|
|
{
|
|
"epoch": 0.08333333333333333,
|
|
"grad_norm": 2.3794546127319336,
|
|
"learning_rate": 0.0001988888888888889,
|
|
"loss": 0.787,
|
|
"step": 25
|
|
},
|
|
{
|
|
"epoch": 0.1,
|
|
"grad_norm": 1.7275760173797607,
|
|
"learning_rate": 0.00019866666666666668,
|
|
"loss": 0.6651,
|
|
"step": 30
|
|
},
|
|
{
|
|
"epoch": 0.11666666666666667,
|
|
"grad_norm": 3.5090646743774414,
|
|
"learning_rate": 0.00019844444444444445,
|
|
"loss": 0.722,
|
|
"step": 35
|
|
},
|
|
{
|
|
"epoch": 0.13333333333333333,
|
|
"grad_norm": 5.817049980163574,
|
|
"learning_rate": 0.00019822222222222225,
|
|
"loss": 0.6728,
|
|
"step": 40
|
|
},
|
|
{
|
|
"epoch": 0.15,
|
|
"grad_norm": 3.381983518600464,
|
|
"learning_rate": 0.00019800000000000002,
|
|
"loss": 0.772,
|
|
"step": 45
|
|
},
|
|
{
|
|
"epoch": 0.16666666666666666,
|
|
"grad_norm": 2.2961716651916504,
|
|
"learning_rate": 0.00019777777777777778,
|
|
"loss": 0.5605,
|
|
"step": 50
|
|
},
|
|
{
|
|
"epoch": 0.18333333333333332,
|
|
"grad_norm": 3.2704546451568604,
|
|
"learning_rate": 0.00019755555555555555,
|
|
"loss": 0.4023,
|
|
"step": 55
|
|
},
|
|
{
|
|
"epoch": 0.2,
|
|
"grad_norm": 1.084259033203125,
|
|
"learning_rate": 0.00019733333333333335,
|
|
"loss": 0.4112,
|
|
"step": 60
|
|
},
|
|
{
|
|
"epoch": 0.21666666666666667,
|
|
"grad_norm": 1.0876542329788208,
|
|
"learning_rate": 0.00019711111111111112,
|
|
"loss": 0.5516,
|
|
"step": 65
|
|
},
|
|
{
|
|
"epoch": 0.23333333333333334,
|
|
"grad_norm": 2.11075496673584,
|
|
"learning_rate": 0.0001968888888888889,
|
|
"loss": 0.5288,
|
|
"step": 70
|
|
},
|
|
{
|
|
"epoch": 0.25,
|
|
"grad_norm": 4.502438068389893,
|
|
"learning_rate": 0.00019666666666666666,
|
|
"loss": 0.5109,
|
|
"step": 75
|
|
},
|
|
{
|
|
"epoch": 0.26666666666666666,
|
|
"grad_norm": 6.044731616973877,
|
|
"learning_rate": 0.00019644444444444445,
|
|
"loss": 0.2648,
|
|
"step": 80
|
|
},
|
|
{
|
|
"epoch": 0.2833333333333333,
|
|
"grad_norm": 5.056354999542236,
|
|
"learning_rate": 0.00019622222222222225,
|
|
"loss": 0.3038,
|
|
"step": 85
|
|
},
|
|
{
|
|
"epoch": 0.3,
|
|
"grad_norm": 0.47962576150894165,
|
|
"learning_rate": 0.000196,
|
|
"loss": 0.2568,
|
|
"step": 90
|
|
},
|
|
{
|
|
"epoch": 0.31666666666666665,
|
|
"grad_norm": 5.804176330566406,
|
|
"learning_rate": 0.0001957777777777778,
|
|
"loss": 0.3157,
|
|
"step": 95
|
|
},
|
|
{
|
|
"epoch": 0.3333333333333333,
|
|
"grad_norm": 1.163446307182312,
|
|
"learning_rate": 0.00019555555555555556,
|
|
"loss": 0.2613,
|
|
"step": 100
|
|
},
|
|
{
|
|
"epoch": 0.3333333333333333,
|
|
"eval_accuracy": 0.7883333333333333,
|
|
"eval_f1": 0.7915238697775755,
|
|
"eval_loss": 0.6234478950500488,
|
|
"eval_precision": 0.8363841678947798,
|
|
"eval_recall": 0.7883333333333333,
|
|
"eval_runtime": 8.5672,
|
|
"eval_samples_per_second": 140.07,
|
|
"eval_steps_per_second": 17.509,
|
|
"step": 100
|
|
},
|
|
{
|
|
"epoch": 0.35,
|
|
"grad_norm": 4.552916526794434,
|
|
"learning_rate": 0.00019533333333333336,
|
|
"loss": 0.2243,
|
|
"step": 105
|
|
},
|
|
{
|
|
"epoch": 0.36666666666666664,
|
|
"grad_norm": 1.738736867904663,
|
|
"learning_rate": 0.0001951111111111111,
|
|
"loss": 0.1824,
|
|
"step": 110
|
|
},
|
|
{
|
|
"epoch": 0.38333333333333336,
|
|
"grad_norm": 8.762458801269531,
|
|
"learning_rate": 0.0001948888888888889,
|
|
"loss": 0.3327,
|
|
"step": 115
|
|
},
|
|
{
|
|
"epoch": 0.4,
|
|
"grad_norm": 2.6049439907073975,
|
|
"learning_rate": 0.0001946666666666667,
|
|
"loss": 0.2434,
|
|
"step": 120
|
|
},
|
|
{
|
|
"epoch": 0.4166666666666667,
|
|
"grad_norm": 3.3248531818389893,
|
|
"learning_rate": 0.00019444444444444446,
|
|
"loss": 0.2267,
|
|
"step": 125
|
|
},
|
|
{
|
|
"epoch": 0.43333333333333335,
|
|
"grad_norm": 3.354048013687134,
|
|
"learning_rate": 0.00019422222222222223,
|
|
"loss": 0.4415,
|
|
"step": 130
|
|
},
|
|
{
|
|
"epoch": 0.45,
|
|
"grad_norm": 4.555789470672607,
|
|
"learning_rate": 0.000194,
|
|
"loss": 0.3899,
|
|
"step": 135
|
|
},
|
|
{
|
|
"epoch": 0.4666666666666667,
|
|
"grad_norm": 0.8254397511482239,
|
|
"learning_rate": 0.0001937777777777778,
|
|
"loss": 0.3747,
|
|
"step": 140
|
|
},
|
|
{
|
|
"epoch": 0.48333333333333334,
|
|
"grad_norm": 2.474085569381714,
|
|
"learning_rate": 0.00019355555555555557,
|
|
"loss": 0.268,
|
|
"step": 145
|
|
},
|
|
{
|
|
"epoch": 0.5,
|
|
"grad_norm": 1.2710399627685547,
|
|
"learning_rate": 0.00019333333333333333,
|
|
"loss": 0.1617,
|
|
"step": 150
|
|
},
|
|
{
|
|
"epoch": 0.5166666666666667,
|
|
"grad_norm": 1.4239128828048706,
|
|
"learning_rate": 0.0001931111111111111,
|
|
"loss": 0.1142,
|
|
"step": 155
|
|
},
|
|
{
|
|
"epoch": 0.5333333333333333,
|
|
"grad_norm": 0.8507234454154968,
|
|
"learning_rate": 0.0001928888888888889,
|
|
"loss": 0.1646,
|
|
"step": 160
|
|
},
|
|
{
|
|
"epoch": 0.55,
|
|
"grad_norm": 1.5107651948928833,
|
|
"learning_rate": 0.0001926666666666667,
|
|
"loss": 0.1634,
|
|
"step": 165
|
|
},
|
|
{
|
|
"epoch": 0.5666666666666667,
|
|
"grad_norm": 1.7994493246078491,
|
|
"learning_rate": 0.00019244444444444444,
|
|
"loss": 0.1622,
|
|
"step": 170
|
|
},
|
|
{
|
|
"epoch": 0.5833333333333334,
|
|
"grad_norm": 3.9629430770874023,
|
|
"learning_rate": 0.00019222222222222224,
|
|
"loss": 0.3373,
|
|
"step": 175
|
|
},
|
|
{
|
|
"epoch": 0.6,
|
|
"grad_norm": 0.22704611718654633,
|
|
"learning_rate": 0.000192,
|
|
"loss": 0.1699,
|
|
"step": 180
|
|
},
|
|
{
|
|
"epoch": 0.6166666666666667,
|
|
"grad_norm": 2.482250928878784,
|
|
"learning_rate": 0.0001917777777777778,
|
|
"loss": 0.2278,
|
|
"step": 185
|
|
},
|
|
{
|
|
"epoch": 0.6333333333333333,
|
|
"grad_norm": 2.1992948055267334,
|
|
"learning_rate": 0.00019155555555555554,
|
|
"loss": 0.2637,
|
|
"step": 190
|
|
},
|
|
{
|
|
"epoch": 0.65,
|
|
"grad_norm": 0.4465661346912384,
|
|
"learning_rate": 0.00019133333333333334,
|
|
"loss": 0.1562,
|
|
"step": 195
|
|
},
|
|
{
|
|
"epoch": 0.6666666666666666,
|
|
"grad_norm": 1.3790558576583862,
|
|
"learning_rate": 0.00019111111111111114,
|
|
"loss": 0.1745,
|
|
"step": 200
|
|
},
|
|
{
|
|
"epoch": 0.6666666666666666,
|
|
"eval_accuracy": 0.7341666666666666,
|
|
"eval_f1": 0.7087833072622064,
|
|
"eval_loss": 0.7693394422531128,
|
|
"eval_precision": 0.773865264943083,
|
|
"eval_recall": 0.7341666666666666,
|
|
"eval_runtime": 8.8932,
|
|
"eval_samples_per_second": 134.935,
|
|
"eval_steps_per_second": 16.867,
|
|
"step": 200
|
|
},
|
|
{
|
|
"epoch": 0.6833333333333333,
|
|
"grad_norm": 7.197749137878418,
|
|
"learning_rate": 0.0001908888888888889,
|
|
"loss": 0.3024,
|
|
"step": 205
|
|
},
|
|
{
|
|
"epoch": 0.7,
|
|
"grad_norm": 2.7111029624938965,
|
|
"learning_rate": 0.00019066666666666668,
|
|
"loss": 0.1861,
|
|
"step": 210
|
|
},
|
|
{
|
|
"epoch": 0.7166666666666667,
|
|
"grad_norm": 3.2437264919281006,
|
|
"learning_rate": 0.00019044444444444444,
|
|
"loss": 0.2536,
|
|
"step": 215
|
|
},
|
|
{
|
|
"epoch": 0.7333333333333333,
|
|
"grad_norm": 2.303571939468384,
|
|
"learning_rate": 0.00019022222222222224,
|
|
"loss": 0.1467,
|
|
"step": 220
|
|
},
|
|
{
|
|
"epoch": 0.75,
|
|
"grad_norm": 0.25484490394592285,
|
|
"learning_rate": 0.00019,
|
|
"loss": 0.1108,
|
|
"step": 225
|
|
},
|
|
{
|
|
"epoch": 0.7666666666666667,
|
|
"grad_norm": 0.5674318075180054,
|
|
"learning_rate": 0.00018977777777777778,
|
|
"loss": 0.1629,
|
|
"step": 230
|
|
},
|
|
{
|
|
"epoch": 0.7833333333333333,
|
|
"grad_norm": 4.876891136169434,
|
|
"learning_rate": 0.00018955555555555558,
|
|
"loss": 0.0795,
|
|
"step": 235
|
|
},
|
|
{
|
|
"epoch": 0.8,
|
|
"grad_norm": 0.25859981775283813,
|
|
"learning_rate": 0.00018933333333333335,
|
|
"loss": 0.2467,
|
|
"step": 240
|
|
},
|
|
{
|
|
"epoch": 0.8166666666666667,
|
|
"grad_norm": 0.5743807554244995,
|
|
"learning_rate": 0.00018911111111111112,
|
|
"loss": 0.1314,
|
|
"step": 245
|
|
},
|
|
{
|
|
"epoch": 0.8333333333333334,
|
|
"grad_norm": 6.680776596069336,
|
|
"learning_rate": 0.00018888888888888888,
|
|
"loss": 0.1592,
|
|
"step": 250
|
|
},
|
|
{
|
|
"epoch": 0.85,
|
|
"grad_norm": 4.162766456604004,
|
|
"learning_rate": 0.00018866666666666668,
|
|
"loss": 0.2424,
|
|
"step": 255
|
|
},
|
|
{
|
|
"epoch": 0.8666666666666667,
|
|
"grad_norm": 12.550395965576172,
|
|
"learning_rate": 0.00018844444444444445,
|
|
"loss": 0.3104,
|
|
"step": 260
|
|
},
|
|
{
|
|
"epoch": 0.8833333333333333,
|
|
"grad_norm": 1.7621504068374634,
|
|
"learning_rate": 0.00018822222222222222,
|
|
"loss": 0.1626,
|
|
"step": 265
|
|
},
|
|
{
|
|
"epoch": 0.9,
|
|
"grad_norm": 1.5526984930038452,
|
|
"learning_rate": 0.000188,
|
|
"loss": 0.1074,
|
|
"step": 270
|
|
},
|
|
{
|
|
"epoch": 0.9166666666666666,
|
|
"grad_norm": 17.203044891357422,
|
|
"learning_rate": 0.00018777777777777779,
|
|
"loss": 0.1801,
|
|
"step": 275
|
|
},
|
|
{
|
|
"epoch": 0.9333333333333333,
|
|
"grad_norm": 1.106997013092041,
|
|
"learning_rate": 0.00018755555555555558,
|
|
"loss": 0.1131,
|
|
"step": 280
|
|
},
|
|
{
|
|
"epoch": 0.95,
|
|
"grad_norm": 1.7709431648254395,
|
|
"learning_rate": 0.00018733333333333335,
|
|
"loss": 0.0556,
|
|
"step": 285
|
|
},
|
|
{
|
|
"epoch": 0.9666666666666667,
|
|
"grad_norm": 2.8498892784118652,
|
|
"learning_rate": 0.00018711111111111112,
|
|
"loss": 0.1977,
|
|
"step": 290
|
|
},
|
|
{
|
|
"epoch": 0.9833333333333333,
|
|
"grad_norm": 2.6095733642578125,
|
|
"learning_rate": 0.0001868888888888889,
|
|
"loss": 0.1221,
|
|
"step": 295
|
|
},
|
|
{
|
|
"epoch": 1.0,
|
|
"grad_norm": 2.336395025253296,
|
|
"learning_rate": 0.0001866666666666667,
|
|
"loss": 0.1303,
|
|
"step": 300
|
|
},
|
|
{
|
|
"epoch": 1.0,
|
|
"eval_accuracy": 0.8616666666666667,
|
|
"eval_f1": 0.8604478619877372,
|
|
"eval_loss": 0.5090746879577637,
|
|
"eval_precision": 0.8756807267844546,
|
|
"eval_recall": 0.8616666666666667,
|
|
"eval_runtime": 8.5876,
|
|
"eval_samples_per_second": 139.737,
|
|
"eval_steps_per_second": 17.467,
|
|
"step": 300
|
|
},
|
|
{
|
|
"epoch": 1.0166666666666666,
|
|
"grad_norm": 0.06966517865657806,
|
|
"learning_rate": 0.00018644444444444446,
|
|
"loss": 0.0286,
|
|
"step": 305
|
|
},
|
|
{
|
|
"epoch": 1.0333333333333334,
|
|
"grad_norm": 0.09925777465105057,
|
|
"learning_rate": 0.00018622222222222223,
|
|
"loss": 0.0269,
|
|
"step": 310
|
|
},
|
|
{
|
|
"epoch": 1.05,
|
|
"grad_norm": 1.217972755432129,
|
|
"learning_rate": 0.00018600000000000002,
|
|
"loss": 0.0856,
|
|
"step": 315
|
|
},
|
|
{
|
|
"epoch": 1.0666666666666667,
|
|
"grad_norm": 4.045693397521973,
|
|
"learning_rate": 0.0001857777777777778,
|
|
"loss": 0.0529,
|
|
"step": 320
|
|
},
|
|
{
|
|
"epoch": 1.0833333333333333,
|
|
"grad_norm": 0.08343147486448288,
|
|
"learning_rate": 0.00018555555555555556,
|
|
"loss": 0.0181,
|
|
"step": 325
|
|
},
|
|
{
|
|
"epoch": 1.1,
|
|
"grad_norm": 0.054219767451286316,
|
|
"learning_rate": 0.00018533333333333333,
|
|
"loss": 0.0143,
|
|
"step": 330
|
|
},
|
|
{
|
|
"epoch": 1.1166666666666667,
|
|
"grad_norm": 0.08753052353858948,
|
|
"learning_rate": 0.00018511111111111113,
|
|
"loss": 0.0554,
|
|
"step": 335
|
|
},
|
|
{
|
|
"epoch": 1.1333333333333333,
|
|
"grad_norm": 2.694857358932495,
|
|
"learning_rate": 0.0001848888888888889,
|
|
"loss": 0.0761,
|
|
"step": 340
|
|
},
|
|
{
|
|
"epoch": 1.15,
|
|
"grad_norm": 0.05108467489480972,
|
|
"learning_rate": 0.00018466666666666666,
|
|
"loss": 0.0197,
|
|
"step": 345
|
|
},
|
|
{
|
|
"epoch": 1.1666666666666667,
|
|
"grad_norm": 0.3109508752822876,
|
|
"learning_rate": 0.00018448888888888889,
|
|
"loss": 0.1338,
|
|
"step": 350
|
|
},
|
|
{
|
|
"epoch": 1.1833333333333333,
|
|
"grad_norm": 0.8587603569030762,
|
|
"learning_rate": 0.00018426666666666668,
|
|
"loss": 0.1605,
|
|
"step": 355
|
|
},
|
|
{
|
|
"epoch": 1.2,
|
|
"grad_norm": 1.0719205141067505,
|
|
"learning_rate": 0.00018404444444444445,
|
|
"loss": 0.1398,
|
|
"step": 360
|
|
},
|
|
{
|
|
"epoch": 1.2166666666666668,
|
|
"grad_norm": 5.571323871612549,
|
|
"learning_rate": 0.00018382222222222222,
|
|
"loss": 0.2198,
|
|
"step": 365
|
|
},
|
|
{
|
|
"epoch": 1.2333333333333334,
|
|
"grad_norm": 0.0623321570456028,
|
|
"learning_rate": 0.00018360000000000002,
|
|
"loss": 0.0193,
|
|
"step": 370
|
|
},
|
|
{
|
|
"epoch": 1.25,
|
|
"grad_norm": 0.7513957023620605,
|
|
"learning_rate": 0.0001833777777777778,
|
|
"loss": 0.0408,
|
|
"step": 375
|
|
},
|
|
{
|
|
"epoch": 1.2666666666666666,
|
|
"grad_norm": 2.5169761180877686,
|
|
"learning_rate": 0.00018315555555555556,
|
|
"loss": 0.1343,
|
|
"step": 380
|
|
},
|
|
{
|
|
"epoch": 1.2833333333333332,
|
|
"grad_norm": 5.885697841644287,
|
|
"learning_rate": 0.00018293333333333333,
|
|
"loss": 0.0913,
|
|
"step": 385
|
|
},
|
|
{
|
|
"epoch": 1.3,
|
|
"grad_norm": 0.1251125931739807,
|
|
"learning_rate": 0.00018271111111111112,
|
|
"loss": 0.0453,
|
|
"step": 390
|
|
},
|
|
{
|
|
"epoch": 1.3166666666666667,
|
|
"grad_norm": 3.2245686054229736,
|
|
"learning_rate": 0.0001824888888888889,
|
|
"loss": 0.0975,
|
|
"step": 395
|
|
},
|
|
{
|
|
"epoch": 1.3333333333333333,
|
|
"grad_norm": 0.050698306411504745,
|
|
"learning_rate": 0.0001822666666666667,
|
|
"loss": 0.0163,
|
|
"step": 400
|
|
},
|
|
{
|
|
"epoch": 1.3333333333333333,
|
|
"eval_accuracy": 0.8708333333333333,
|
|
"eval_f1": 0.8705551945861907,
|
|
"eval_loss": 0.5309242010116577,
|
|
"eval_precision": 0.8869096899547119,
|
|
"eval_recall": 0.8708333333333333,
|
|
"eval_runtime": 8.5095,
|
|
"eval_samples_per_second": 141.019,
|
|
"eval_steps_per_second": 17.627,
|
|
"step": 400
|
|
},
|
|
{
|
|
"epoch": 1.35,
|
|
"grad_norm": 4.094293117523193,
|
|
"learning_rate": 0.00018204444444444446,
|
|
"loss": 0.0233,
|
|
"step": 405
|
|
},
|
|
{
|
|
"epoch": 1.3666666666666667,
|
|
"grad_norm": 0.0671314224600792,
|
|
"learning_rate": 0.00018182222222222223,
|
|
"loss": 0.0854,
|
|
"step": 410
|
|
},
|
|
{
|
|
"epoch": 1.3833333333333333,
|
|
"grad_norm": 0.042328402400016785,
|
|
"learning_rate": 0.00018160000000000002,
|
|
"loss": 0.0101,
|
|
"step": 415
|
|
},
|
|
{
|
|
"epoch": 1.4,
|
|
"grad_norm": 0.09067436307668686,
|
|
"learning_rate": 0.0001813777777777778,
|
|
"loss": 0.022,
|
|
"step": 420
|
|
},
|
|
{
|
|
"epoch": 1.4166666666666667,
|
|
"grad_norm": 0.0499679297208786,
|
|
"learning_rate": 0.00018115555555555556,
|
|
"loss": 0.1306,
|
|
"step": 425
|
|
},
|
|
{
|
|
"epoch": 1.4333333333333333,
|
|
"grad_norm": 0.04644998162984848,
|
|
"learning_rate": 0.00018093333333333333,
|
|
"loss": 0.1098,
|
|
"step": 430
|
|
},
|
|
{
|
|
"epoch": 1.45,
|
|
"grad_norm": 1.732666254043579,
|
|
"learning_rate": 0.00018071111111111113,
|
|
"loss": 0.2266,
|
|
"step": 435
|
|
},
|
|
{
|
|
"epoch": 1.4666666666666668,
|
|
"grad_norm": 2.232651948928833,
|
|
"learning_rate": 0.0001804888888888889,
|
|
"loss": 0.1363,
|
|
"step": 440
|
|
},
|
|
{
|
|
"epoch": 1.4833333333333334,
|
|
"grad_norm": 7.544521808624268,
|
|
"learning_rate": 0.00018026666666666667,
|
|
"loss": 0.1555,
|
|
"step": 445
|
|
},
|
|
{
|
|
"epoch": 1.5,
|
|
"grad_norm": 0.05003746226429939,
|
|
"learning_rate": 0.00018004444444444446,
|
|
"loss": 0.0794,
|
|
"step": 450
|
|
},
|
|
{
|
|
"epoch": 1.5166666666666666,
|
|
"grad_norm": 0.1106652095913887,
|
|
"learning_rate": 0.00017982222222222223,
|
|
"loss": 0.0275,
|
|
"step": 455
|
|
},
|
|
{
|
|
"epoch": 1.5333333333333332,
|
|
"grad_norm": 0.6483151316642761,
|
|
"learning_rate": 0.0001796,
|
|
"loss": 0.0623,
|
|
"step": 460
|
|
},
|
|
{
|
|
"epoch": 1.55,
|
|
"grad_norm": 0.03340791165828705,
|
|
"learning_rate": 0.00017937777777777777,
|
|
"loss": 0.0186,
|
|
"step": 465
|
|
},
|
|
{
|
|
"epoch": 1.5666666666666667,
|
|
"grad_norm": 0.05372637137770653,
|
|
"learning_rate": 0.00017915555555555557,
|
|
"loss": 0.0577,
|
|
"step": 470
|
|
},
|
|
{
|
|
"epoch": 1.5833333333333335,
|
|
"grad_norm": 6.220208168029785,
|
|
"learning_rate": 0.00017893333333333336,
|
|
"loss": 0.078,
|
|
"step": 475
|
|
},
|
|
{
|
|
"epoch": 1.6,
|
|
"grad_norm": 2.3692970275878906,
|
|
"learning_rate": 0.0001787111111111111,
|
|
"loss": 0.0538,
|
|
"step": 480
|
|
},
|
|
{
|
|
"epoch": 1.6166666666666667,
|
|
"grad_norm": 2.149282217025757,
|
|
"learning_rate": 0.0001784888888888889,
|
|
"loss": 0.1104,
|
|
"step": 485
|
|
},
|
|
{
|
|
"epoch": 1.6333333333333333,
|
|
"grad_norm": 13.554374694824219,
|
|
"learning_rate": 0.00017826666666666667,
|
|
"loss": 0.0369,
|
|
"step": 490
|
|
},
|
|
{
|
|
"epoch": 1.65,
|
|
"grad_norm": 13.917972564697266,
|
|
"learning_rate": 0.00017804444444444447,
|
|
"loss": 0.2596,
|
|
"step": 495
|
|
},
|
|
{
|
|
"epoch": 1.6666666666666665,
|
|
"grad_norm": 0.07077931612730026,
|
|
"learning_rate": 0.0001778222222222222,
|
|
"loss": 0.009,
|
|
"step": 500
|
|
},
|
|
{
|
|
"epoch": 1.6666666666666665,
|
|
"eval_accuracy": 0.7725,
|
|
"eval_f1": 0.7705648543574429,
|
|
"eval_loss": 0.9663403034210205,
|
|
"eval_precision": 0.8344746036547038,
|
|
"eval_recall": 0.7725,
|
|
"eval_runtime": 8.8057,
|
|
"eval_samples_per_second": 136.276,
|
|
"eval_steps_per_second": 17.034,
|
|
"step": 500
|
|
},
|
|
{
|
|
"epoch": 1.6833333333333333,
|
|
"grad_norm": 3.8385181427001953,
|
|
"learning_rate": 0.0001776,
|
|
"loss": 0.1271,
|
|
"step": 505
|
|
},
|
|
{
|
|
"epoch": 1.7,
|
|
"grad_norm": 0.050812650471925735,
|
|
"learning_rate": 0.00017737777777777778,
|
|
"loss": 0.0703,
|
|
"step": 510
|
|
},
|
|
{
|
|
"epoch": 1.7166666666666668,
|
|
"grad_norm": 0.060619790107011795,
|
|
"learning_rate": 0.00017715555555555557,
|
|
"loss": 0.0573,
|
|
"step": 515
|
|
},
|
|
{
|
|
"epoch": 1.7333333333333334,
|
|
"grad_norm": 0.21368597447872162,
|
|
"learning_rate": 0.00017693333333333334,
|
|
"loss": 0.0986,
|
|
"step": 520
|
|
},
|
|
{
|
|
"epoch": 1.75,
|
|
"grad_norm": 0.27332666516304016,
|
|
"learning_rate": 0.0001767111111111111,
|
|
"loss": 0.0316,
|
|
"step": 525
|
|
},
|
|
{
|
|
"epoch": 1.7666666666666666,
|
|
"grad_norm": 0.07889816910028458,
|
|
"learning_rate": 0.0001764888888888889,
|
|
"loss": 0.1684,
|
|
"step": 530
|
|
},
|
|
{
|
|
"epoch": 1.7833333333333332,
|
|
"grad_norm": 4.718958854675293,
|
|
"learning_rate": 0.00017626666666666668,
|
|
"loss": 0.1448,
|
|
"step": 535
|
|
},
|
|
{
|
|
"epoch": 1.8,
|
|
"grad_norm": 0.11263217777013779,
|
|
"learning_rate": 0.00017604444444444445,
|
|
"loss": 0.1226,
|
|
"step": 540
|
|
},
|
|
{
|
|
"epoch": 1.8166666666666667,
|
|
"grad_norm": 5.056457042694092,
|
|
"learning_rate": 0.00017582222222222222,
|
|
"loss": 0.0652,
|
|
"step": 545
|
|
},
|
|
{
|
|
"epoch": 1.8333333333333335,
|
|
"grad_norm": 0.03880561888217926,
|
|
"learning_rate": 0.0001756,
|
|
"loss": 0.0493,
|
|
"step": 550
|
|
},
|
|
{
|
|
"epoch": 1.85,
|
|
"grad_norm": 0.1066993921995163,
|
|
"learning_rate": 0.0001753777777777778,
|
|
"loss": 0.1305,
|
|
"step": 555
|
|
},
|
|
{
|
|
"epoch": 1.8666666666666667,
|
|
"grad_norm": 0.03981771692633629,
|
|
"learning_rate": 0.00017515555555555555,
|
|
"loss": 0.0347,
|
|
"step": 560
|
|
},
|
|
{
|
|
"epoch": 1.8833333333333333,
|
|
"grad_norm": 0.031449705362319946,
|
|
"learning_rate": 0.00017493333333333335,
|
|
"loss": 0.1224,
|
|
"step": 565
|
|
},
|
|
{
|
|
"epoch": 1.9,
|
|
"grad_norm": 0.026092467829585075,
|
|
"learning_rate": 0.00017471111111111112,
|
|
"loss": 0.0135,
|
|
"step": 570
|
|
},
|
|
{
|
|
"epoch": 1.9166666666666665,
|
|
"grad_norm": 0.047221601009368896,
|
|
"learning_rate": 0.00017448888888888891,
|
|
"loss": 0.043,
|
|
"step": 575
|
|
},
|
|
{
|
|
"epoch": 1.9333333333333333,
|
|
"grad_norm": 0.03607597202062607,
|
|
"learning_rate": 0.00017426666666666666,
|
|
"loss": 0.01,
|
|
"step": 580
|
|
},
|
|
{
|
|
"epoch": 1.95,
|
|
"grad_norm": 0.04113628342747688,
|
|
"learning_rate": 0.00017404444444444445,
|
|
"loss": 0.0089,
|
|
"step": 585
|
|
},
|
|
{
|
|
"epoch": 1.9666666666666668,
|
|
"grad_norm": 0.08356430381536484,
|
|
"learning_rate": 0.00017382222222222222,
|
|
"loss": 0.0055,
|
|
"step": 590
|
|
},
|
|
{
|
|
"epoch": 1.9833333333333334,
|
|
"grad_norm": 0.03293712064623833,
|
|
"learning_rate": 0.00017360000000000002,
|
|
"loss": 0.0429,
|
|
"step": 595
|
|
},
|
|
{
|
|
"epoch": 2.0,
|
|
"grad_norm": 13.886670112609863,
|
|
"learning_rate": 0.0001733777777777778,
|
|
"loss": 0.0221,
|
|
"step": 600
|
|
},
|
|
{
|
|
"epoch": 2.0,
|
|
"eval_accuracy": 0.7225,
|
|
"eval_f1": 0.7218843579476422,
|
|
"eval_loss": 1.3265354633331299,
|
|
"eval_precision": 0.8132869714150721,
|
|
"eval_recall": 0.7225,
|
|
"eval_runtime": 8.5616,
|
|
"eval_samples_per_second": 140.161,
|
|
"eval_steps_per_second": 17.52,
|
|
"step": 600
|
|
},
|
|
{
|
|
"epoch": 2.0166666666666666,
|
|
"grad_norm": 0.03838833421468735,
|
|
"learning_rate": 0.00017315555555555556,
|
|
"loss": 0.1313,
|
|
"step": 605
|
|
},
|
|
{
|
|
"epoch": 2.033333333333333,
|
|
"grad_norm": 0.044966407120227814,
|
|
"learning_rate": 0.00017293333333333335,
|
|
"loss": 0.0065,
|
|
"step": 610
|
|
},
|
|
{
|
|
"epoch": 2.05,
|
|
"grad_norm": 4.306401252746582,
|
|
"learning_rate": 0.00017271111111111112,
|
|
"loss": 0.2553,
|
|
"step": 615
|
|
},
|
|
{
|
|
"epoch": 2.066666666666667,
|
|
"grad_norm": 0.309880793094635,
|
|
"learning_rate": 0.0001724888888888889,
|
|
"loss": 0.0536,
|
|
"step": 620
|
|
},
|
|
{
|
|
"epoch": 2.0833333333333335,
|
|
"grad_norm": 0.08983626216650009,
|
|
"learning_rate": 0.00017226666666666666,
|
|
"loss": 0.0166,
|
|
"step": 625
|
|
},
|
|
{
|
|
"epoch": 2.1,
|
|
"grad_norm": 0.08470829576253891,
|
|
"learning_rate": 0.00017204444444444446,
|
|
"loss": 0.0094,
|
|
"step": 630
|
|
},
|
|
{
|
|
"epoch": 2.1166666666666667,
|
|
"grad_norm": 5.469742298126221,
|
|
"learning_rate": 0.00017182222222222223,
|
|
"loss": 0.0705,
|
|
"step": 635
|
|
},
|
|
{
|
|
"epoch": 2.1333333333333333,
|
|
"grad_norm": 0.0532383918762207,
|
|
"learning_rate": 0.0001716,
|
|
"loss": 0.0936,
|
|
"step": 640
|
|
},
|
|
{
|
|
"epoch": 2.15,
|
|
"grad_norm": 0.03499307855963707,
|
|
"learning_rate": 0.0001713777777777778,
|
|
"loss": 0.0185,
|
|
"step": 645
|
|
},
|
|
{
|
|
"epoch": 2.1666666666666665,
|
|
"grad_norm": 3.0164413452148438,
|
|
"learning_rate": 0.00017115555555555556,
|
|
"loss": 0.0129,
|
|
"step": 650
|
|
},
|
|
{
|
|
"epoch": 2.183333333333333,
|
|
"grad_norm": 0.04029814526438713,
|
|
"learning_rate": 0.00017093333333333333,
|
|
"loss": 0.0331,
|
|
"step": 655
|
|
},
|
|
{
|
|
"epoch": 2.2,
|
|
"grad_norm": 4.0708794593811035,
|
|
"learning_rate": 0.0001707111111111111,
|
|
"loss": 0.0915,
|
|
"step": 660
|
|
},
|
|
{
|
|
"epoch": 2.216666666666667,
|
|
"grad_norm": 0.044113241136074066,
|
|
"learning_rate": 0.0001704888888888889,
|
|
"loss": 0.0491,
|
|
"step": 665
|
|
},
|
|
{
|
|
"epoch": 2.2333333333333334,
|
|
"grad_norm": 0.06674450635910034,
|
|
"learning_rate": 0.0001702666666666667,
|
|
"loss": 0.0061,
|
|
"step": 670
|
|
},
|
|
{
|
|
"epoch": 2.25,
|
|
"grad_norm": 0.024389464408159256,
|
|
"learning_rate": 0.00017004444444444446,
|
|
"loss": 0.0695,
|
|
"step": 675
|
|
},
|
|
{
|
|
"epoch": 2.2666666666666666,
|
|
"grad_norm": 0.01655452884733677,
|
|
"learning_rate": 0.00016982222222222223,
|
|
"loss": 0.0047,
|
|
"step": 680
|
|
},
|
|
{
|
|
"epoch": 2.283333333333333,
|
|
"grad_norm": 0.6704605221748352,
|
|
"learning_rate": 0.0001696,
|
|
"loss": 0.0068,
|
|
"step": 685
|
|
},
|
|
{
|
|
"epoch": 2.3,
|
|
"grad_norm": 0.01743842102587223,
|
|
"learning_rate": 0.0001693777777777778,
|
|
"loss": 0.0047,
|
|
"step": 690
|
|
},
|
|
{
|
|
"epoch": 2.3166666666666664,
|
|
"grad_norm": 0.012950308620929718,
|
|
"learning_rate": 0.00016915555555555557,
|
|
"loss": 0.106,
|
|
"step": 695
|
|
},
|
|
{
|
|
"epoch": 2.3333333333333335,
|
|
"grad_norm": 0.0696750059723854,
|
|
"learning_rate": 0.00016893333333333334,
|
|
"loss": 0.0053,
|
|
"step": 700
|
|
},
|
|
{
|
|
"epoch": 2.3333333333333335,
|
|
"eval_accuracy": 0.8408333333333333,
|
|
"eval_f1": 0.8365911985560789,
|
|
"eval_loss": 0.8728139996528625,
|
|
"eval_precision": 0.8727005735649215,
|
|
"eval_recall": 0.8408333333333333,
|
|
"eval_runtime": 8.6292,
|
|
"eval_samples_per_second": 139.063,
|
|
"eval_steps_per_second": 17.383,
|
|
"step": 700
|
|
},
|
|
{
|
|
"epoch": 2.35,
|
|
"grad_norm": 0.037234917283058167,
|
|
"learning_rate": 0.0001687111111111111,
|
|
"loss": 0.0046,
|
|
"step": 705
|
|
},
|
|
{
|
|
"epoch": 2.3666666666666667,
|
|
"grad_norm": 0.01593877375125885,
|
|
"learning_rate": 0.0001684888888888889,
|
|
"loss": 0.1065,
|
|
"step": 710
|
|
},
|
|
{
|
|
"epoch": 2.3833333333333333,
|
|
"grad_norm": 0.011334872804582119,
|
|
"learning_rate": 0.00016826666666666667,
|
|
"loss": 0.0037,
|
|
"step": 715
|
|
},
|
|
{
|
|
"epoch": 2.4,
|
|
"grad_norm": 0.02323583886027336,
|
|
"learning_rate": 0.00016804444444444444,
|
|
"loss": 0.0692,
|
|
"step": 720
|
|
},
|
|
{
|
|
"epoch": 2.4166666666666665,
|
|
"grad_norm": 0.01852521114051342,
|
|
"learning_rate": 0.00016782222222222224,
|
|
"loss": 0.004,
|
|
"step": 725
|
|
},
|
|
{
|
|
"epoch": 2.4333333333333336,
|
|
"grad_norm": 0.012805821374058723,
|
|
"learning_rate": 0.0001676,
|
|
"loss": 0.0036,
|
|
"step": 730
|
|
},
|
|
{
|
|
"epoch": 2.45,
|
|
"grad_norm": 0.034041836857795715,
|
|
"learning_rate": 0.00016737777777777778,
|
|
"loss": 0.004,
|
|
"step": 735
|
|
},
|
|
{
|
|
"epoch": 2.466666666666667,
|
|
"grad_norm": 0.024058189243078232,
|
|
"learning_rate": 0.00016715555555555555,
|
|
"loss": 0.004,
|
|
"step": 740
|
|
},
|
|
{
|
|
"epoch": 2.4833333333333334,
|
|
"grad_norm": 10.413853645324707,
|
|
"learning_rate": 0.00016693333333333334,
|
|
"loss": 0.0504,
|
|
"step": 745
|
|
},
|
|
{
|
|
"epoch": 2.5,
|
|
"grad_norm": 0.016012758016586304,
|
|
"learning_rate": 0.00016671111111111114,
|
|
"loss": 0.0072,
|
|
"step": 750
|
|
},
|
|
{
|
|
"epoch": 2.5166666666666666,
|
|
"grad_norm": 0.018229959532618523,
|
|
"learning_rate": 0.00016648888888888888,
|
|
"loss": 0.0838,
|
|
"step": 755
|
|
},
|
|
{
|
|
"epoch": 2.533333333333333,
|
|
"grad_norm": 0.02764282561838627,
|
|
"learning_rate": 0.00016626666666666668,
|
|
"loss": 0.0089,
|
|
"step": 760
|
|
},
|
|
{
|
|
"epoch": 2.55,
|
|
"grad_norm": 0.014806599356234074,
|
|
"learning_rate": 0.00016604444444444445,
|
|
"loss": 0.0909,
|
|
"step": 765
|
|
},
|
|
{
|
|
"epoch": 2.5666666666666664,
|
|
"grad_norm": 0.050159793347120285,
|
|
"learning_rate": 0.00016582222222222224,
|
|
"loss": 0.0427,
|
|
"step": 770
|
|
},
|
|
{
|
|
"epoch": 2.5833333333333335,
|
|
"grad_norm": 0.3267223536968231,
|
|
"learning_rate": 0.0001656,
|
|
"loss": 0.0384,
|
|
"step": 775
|
|
},
|
|
{
|
|
"epoch": 2.6,
|
|
"grad_norm": 0.027470499277114868,
|
|
"learning_rate": 0.00016537777777777778,
|
|
"loss": 0.0806,
|
|
"step": 780
|
|
},
|
|
{
|
|
"epoch": 2.6166666666666667,
|
|
"grad_norm": 0.026491738855838776,
|
|
"learning_rate": 0.00016515555555555558,
|
|
"loss": 0.051,
|
|
"step": 785
|
|
},
|
|
{
|
|
"epoch": 2.6333333333333333,
|
|
"grad_norm": 0.04537283629179001,
|
|
"learning_rate": 0.00016493333333333335,
|
|
"loss": 0.0294,
|
|
"step": 790
|
|
},
|
|
{
|
|
"epoch": 2.65,
|
|
"grad_norm": 0.12830990552902222,
|
|
"learning_rate": 0.00016471111111111112,
|
|
"loss": 0.0614,
|
|
"step": 795
|
|
},
|
|
{
|
|
"epoch": 2.6666666666666665,
|
|
"grad_norm": 0.014517356641590595,
|
|
"learning_rate": 0.0001644888888888889,
|
|
"loss": 0.0031,
|
|
"step": 800
|
|
},
|
|
{
|
|
"epoch": 2.6666666666666665,
|
|
"eval_accuracy": 0.8258333333333333,
|
|
"eval_f1": 0.8225132790041669,
|
|
"eval_loss": 0.9498867988586426,
|
|
"eval_precision": 0.8596047291997188,
|
|
"eval_recall": 0.8258333333333333,
|
|
"eval_runtime": 8.7292,
|
|
"eval_samples_per_second": 137.469,
|
|
"eval_steps_per_second": 17.184,
|
|
"step": 800
|
|
},
|
|
{
|
|
"epoch": 2.6833333333333336,
|
|
"grad_norm": 0.014020893722772598,
|
|
"learning_rate": 0.00016426666666666668,
|
|
"loss": 0.0106,
|
|
"step": 805
|
|
},
|
|
{
|
|
"epoch": 2.7,
|
|
"grad_norm": 0.018887478858232498,
|
|
"learning_rate": 0.00016404444444444445,
|
|
"loss": 0.008,
|
|
"step": 810
|
|
},
|
|
{
|
|
"epoch": 2.716666666666667,
|
|
"grad_norm": 0.048164647072553635,
|
|
"learning_rate": 0.00016382222222222222,
|
|
"loss": 0.0036,
|
|
"step": 815
|
|
},
|
|
{
|
|
"epoch": 2.7333333333333334,
|
|
"grad_norm": 1.3923968076705933,
|
|
"learning_rate": 0.0001636,
|
|
"loss": 0.0592,
|
|
"step": 820
|
|
},
|
|
{
|
|
"epoch": 2.75,
|
|
"grad_norm": 0.01867029443383217,
|
|
"learning_rate": 0.0001633777777777778,
|
|
"loss": 0.0036,
|
|
"step": 825
|
|
},
|
|
{
|
|
"epoch": 2.7666666666666666,
|
|
"grad_norm": 0.17151452600955963,
|
|
"learning_rate": 0.00016315555555555559,
|
|
"loss": 0.0033,
|
|
"step": 830
|
|
},
|
|
{
|
|
"epoch": 2.783333333333333,
|
|
"grad_norm": 0.11271153390407562,
|
|
"learning_rate": 0.00016293333333333333,
|
|
"loss": 0.0036,
|
|
"step": 835
|
|
},
|
|
{
|
|
"epoch": 2.8,
|
|
"grad_norm": 0.015081772580742836,
|
|
"learning_rate": 0.00016271111111111112,
|
|
"loss": 0.0045,
|
|
"step": 840
|
|
},
|
|
{
|
|
"epoch": 2.8166666666666664,
|
|
"grad_norm": 0.045304328203201294,
|
|
"learning_rate": 0.0001624888888888889,
|
|
"loss": 0.0744,
|
|
"step": 845
|
|
},
|
|
{
|
|
"epoch": 2.8333333333333335,
|
|
"grad_norm": 0.02582884579896927,
|
|
"learning_rate": 0.0001622666666666667,
|
|
"loss": 0.0028,
|
|
"step": 850
|
|
},
|
|
{
|
|
"epoch": 2.85,
|
|
"grad_norm": 0.009411230683326721,
|
|
"learning_rate": 0.00016204444444444443,
|
|
"loss": 0.0471,
|
|
"step": 855
|
|
},
|
|
{
|
|
"epoch": 2.8666666666666667,
|
|
"grad_norm": 11.964629173278809,
|
|
"learning_rate": 0.00016182222222222223,
|
|
"loss": 0.0395,
|
|
"step": 860
|
|
},
|
|
{
|
|
"epoch": 2.8833333333333333,
|
|
"grad_norm": 0.0107168760150671,
|
|
"learning_rate": 0.00016160000000000002,
|
|
"loss": 0.0026,
|
|
"step": 865
|
|
},
|
|
{
|
|
"epoch": 2.9,
|
|
"grad_norm": 1.2103270292282104,
|
|
"learning_rate": 0.0001613777777777778,
|
|
"loss": 0.1128,
|
|
"step": 870
|
|
},
|
|
{
|
|
"epoch": 2.9166666666666665,
|
|
"grad_norm": 0.33123689889907837,
|
|
"learning_rate": 0.00016115555555555556,
|
|
"loss": 0.0906,
|
|
"step": 875
|
|
},
|
|
{
|
|
"epoch": 2.9333333333333336,
|
|
"grad_norm": 0.013882935047149658,
|
|
"learning_rate": 0.00016093333333333333,
|
|
"loss": 0.041,
|
|
"step": 880
|
|
},
|
|
{
|
|
"epoch": 2.95,
|
|
"grad_norm": 1.6173515319824219,
|
|
"learning_rate": 0.00016071111111111113,
|
|
"loss": 0.0261,
|
|
"step": 885
|
|
},
|
|
{
|
|
"epoch": 2.966666666666667,
|
|
"grad_norm": 0.021518494933843613,
|
|
"learning_rate": 0.0001604888888888889,
|
|
"loss": 0.0053,
|
|
"step": 890
|
|
},
|
|
{
|
|
"epoch": 2.9833333333333334,
|
|
"grad_norm": 12.325495719909668,
|
|
"learning_rate": 0.00016026666666666667,
|
|
"loss": 0.0872,
|
|
"step": 895
|
|
},
|
|
{
|
|
"epoch": 3.0,
|
|
"grad_norm": 1.7106252908706665,
|
|
"learning_rate": 0.00016004444444444444,
|
|
"loss": 0.0733,
|
|
"step": 900
|
|
},
|
|
{
|
|
"epoch": 3.0,
|
|
"eval_accuracy": 0.8558333333333333,
|
|
"eval_f1": 0.8553526230405267,
|
|
"eval_loss": 0.8134686350822449,
|
|
"eval_precision": 0.8840441151302575,
|
|
"eval_recall": 0.8558333333333333,
|
|
"eval_runtime": 8.4056,
|
|
"eval_samples_per_second": 142.762,
|
|
"eval_steps_per_second": 17.845,
|
|
"step": 900
|
|
},
|
|
{
|
|
"epoch": 3.0166666666666666,
|
|
"grad_norm": 0.024461040273308754,
|
|
"learning_rate": 0.00015982222222222223,
|
|
"loss": 0.0034,
|
|
"step": 905
|
|
},
|
|
{
|
|
"epoch": 3.033333333333333,
|
|
"grad_norm": 0.024331258609890938,
|
|
"learning_rate": 0.0001596,
|
|
"loss": 0.1128,
|
|
"step": 910
|
|
},
|
|
{
|
|
"epoch": 3.05,
|
|
"grad_norm": 0.19232450425624847,
|
|
"learning_rate": 0.00015937777777777777,
|
|
"loss": 0.003,
|
|
"step": 915
|
|
},
|
|
{
|
|
"epoch": 3.066666666666667,
|
|
"grad_norm": 0.14441834390163422,
|
|
"learning_rate": 0.00015915555555555557,
|
|
"loss": 0.0763,
|
|
"step": 920
|
|
},
|
|
{
|
|
"epoch": 3.0833333333333335,
|
|
"grad_norm": 0.012051014229655266,
|
|
"learning_rate": 0.00015893333333333334,
|
|
"loss": 0.0026,
|
|
"step": 925
|
|
},
|
|
{
|
|
"epoch": 3.1,
|
|
"grad_norm": 0.014720206148922443,
|
|
"learning_rate": 0.00015871111111111114,
|
|
"loss": 0.003,
|
|
"step": 930
|
|
},
|
|
{
|
|
"epoch": 3.1166666666666667,
|
|
"grad_norm": 0.021598391234874725,
|
|
"learning_rate": 0.00015848888888888888,
|
|
"loss": 0.003,
|
|
"step": 935
|
|
},
|
|
{
|
|
"epoch": 3.1333333333333333,
|
|
"grad_norm": 0.0218663290143013,
|
|
"learning_rate": 0.00015826666666666667,
|
|
"loss": 0.0033,
|
|
"step": 940
|
|
},
|
|
{
|
|
"epoch": 3.15,
|
|
"grad_norm": 0.008952026255428791,
|
|
"learning_rate": 0.00015804444444444447,
|
|
"loss": 0.0027,
|
|
"step": 945
|
|
},
|
|
{
|
|
"epoch": 3.1666666666666665,
|
|
"grad_norm": 0.013226469978690147,
|
|
"learning_rate": 0.00015782222222222224,
|
|
"loss": 0.0028,
|
|
"step": 950
|
|
},
|
|
{
|
|
"epoch": 3.183333333333333,
|
|
"grad_norm": 0.01641731895506382,
|
|
"learning_rate": 0.0001576,
|
|
"loss": 0.003,
|
|
"step": 955
|
|
},
|
|
{
|
|
"epoch": 3.2,
|
|
"grad_norm": 0.04407569393515587,
|
|
"learning_rate": 0.00015737777777777778,
|
|
"loss": 0.0026,
|
|
"step": 960
|
|
},
|
|
{
|
|
"epoch": 3.216666666666667,
|
|
"grad_norm": 0.008022269234061241,
|
|
"learning_rate": 0.00015715555555555557,
|
|
"loss": 0.0023,
|
|
"step": 965
|
|
},
|
|
{
|
|
"epoch": 3.2333333333333334,
|
|
"grad_norm": 0.012135597877204418,
|
|
"learning_rate": 0.00015693333333333334,
|
|
"loss": 0.0025,
|
|
"step": 970
|
|
},
|
|
{
|
|
"epoch": 3.25,
|
|
"grad_norm": 0.010111128911376,
|
|
"learning_rate": 0.0001567111111111111,
|
|
"loss": 0.0024,
|
|
"step": 975
|
|
},
|
|
{
|
|
"epoch": 3.2666666666666666,
|
|
"grad_norm": 0.0079947579652071,
|
|
"learning_rate": 0.0001564888888888889,
|
|
"loss": 0.0022,
|
|
"step": 980
|
|
},
|
|
{
|
|
"epoch": 3.283333333333333,
|
|
"grad_norm": 0.008035738952457905,
|
|
"learning_rate": 0.00015626666666666668,
|
|
"loss": 0.002,
|
|
"step": 985
|
|
},
|
|
{
|
|
"epoch": 3.3,
|
|
"grad_norm": 0.012029600329697132,
|
|
"learning_rate": 0.00015604444444444445,
|
|
"loss": 0.0021,
|
|
"step": 990
|
|
},
|
|
{
|
|
"epoch": 3.3166666666666664,
|
|
"grad_norm": 0.04579595476388931,
|
|
"learning_rate": 0.00015582222222222222,
|
|
"loss": 0.0021,
|
|
"step": 995
|
|
},
|
|
{
|
|
"epoch": 3.3333333333333335,
|
|
"grad_norm": 0.009974322281777859,
|
|
"learning_rate": 0.00015560000000000001,
|
|
"loss": 0.0026,
|
|
"step": 1000
|
|
},
|
|
{
|
|
"epoch": 3.3333333333333335,
|
|
"eval_accuracy": 0.885,
|
|
"eval_f1": 0.8826408594783441,
|
|
"eval_loss": 0.6857856512069702,
|
|
"eval_precision": 0.8963183636311404,
|
|
"eval_recall": 0.885,
|
|
"eval_runtime": 8.6859,
|
|
"eval_samples_per_second": 138.155,
|
|
"eval_steps_per_second": 17.269,
|
|
"step": 1000
|
|
},
|
|
{
|
|
"epoch": 3.35,
|
|
"grad_norm": 0.007176090497523546,
|
|
"learning_rate": 0.00015537777777777778,
|
|
"loss": 0.0019,
|
|
"step": 1005
|
|
},
|
|
{
|
|
"epoch": 3.3666666666666667,
|
|
"grad_norm": 0.009716546162962914,
|
|
"learning_rate": 0.00015515555555555555,
|
|
"loss": 0.0019,
|
|
"step": 1010
|
|
},
|
|
{
|
|
"epoch": 3.3833333333333333,
|
|
"grad_norm": 0.006820878945291042,
|
|
"learning_rate": 0.00015493333333333332,
|
|
"loss": 0.0018,
|
|
"step": 1015
|
|
},
|
|
{
|
|
"epoch": 3.4,
|
|
"grad_norm": 0.009595015086233616,
|
|
"learning_rate": 0.00015471111111111112,
|
|
"loss": 0.0018,
|
|
"step": 1020
|
|
},
|
|
{
|
|
"epoch": 3.4166666666666665,
|
|
"grad_norm": 0.008633381687104702,
|
|
"learning_rate": 0.00015448888888888892,
|
|
"loss": 0.002,
|
|
"step": 1025
|
|
},
|
|
{
|
|
"epoch": 3.4333333333333336,
|
|
"grad_norm": 0.007367326412349939,
|
|
"learning_rate": 0.00015426666666666666,
|
|
"loss": 0.0017,
|
|
"step": 1030
|
|
},
|
|
{
|
|
"epoch": 3.45,
|
|
"grad_norm": 0.19101399183273315,
|
|
"learning_rate": 0.00015404444444444445,
|
|
"loss": 0.0021,
|
|
"step": 1035
|
|
},
|
|
{
|
|
"epoch": 3.466666666666667,
|
|
"grad_norm": 0.009430905804038048,
|
|
"learning_rate": 0.00015382222222222222,
|
|
"loss": 0.0018,
|
|
"step": 1040
|
|
},
|
|
{
|
|
"epoch": 3.4833333333333334,
|
|
"grad_norm": 0.007318128366023302,
|
|
"learning_rate": 0.00015360000000000002,
|
|
"loss": 0.0018,
|
|
"step": 1045
|
|
},
|
|
{
|
|
"epoch": 3.5,
|
|
"grad_norm": 0.008334868587553501,
|
|
"learning_rate": 0.00015337777777777776,
|
|
"loss": 0.0018,
|
|
"step": 1050
|
|
},
|
|
{
|
|
"epoch": 3.5166666666666666,
|
|
"grad_norm": 0.006544196978211403,
|
|
"learning_rate": 0.00015315555555555556,
|
|
"loss": 0.0018,
|
|
"step": 1055
|
|
},
|
|
{
|
|
"epoch": 3.533333333333333,
|
|
"grad_norm": 0.007956958375871181,
|
|
"learning_rate": 0.00015293333333333336,
|
|
"loss": 0.0018,
|
|
"step": 1060
|
|
},
|
|
{
|
|
"epoch": 3.55,
|
|
"grad_norm": 0.0071182046085596085,
|
|
"learning_rate": 0.00015271111111111112,
|
|
"loss": 0.0016,
|
|
"step": 1065
|
|
},
|
|
{
|
|
"epoch": 3.5666666666666664,
|
|
"grad_norm": 0.005583111196756363,
|
|
"learning_rate": 0.0001524888888888889,
|
|
"loss": 0.0016,
|
|
"step": 1070
|
|
},
|
|
{
|
|
"epoch": 3.5833333333333335,
|
|
"grad_norm": 0.005967405159026384,
|
|
"learning_rate": 0.00015226666666666666,
|
|
"loss": 0.0198,
|
|
"step": 1075
|
|
},
|
|
{
|
|
"epoch": 3.6,
|
|
"grad_norm": 0.009646731428802013,
|
|
"learning_rate": 0.00015204444444444446,
|
|
"loss": 0.0018,
|
|
"step": 1080
|
|
},
|
|
{
|
|
"epoch": 3.6166666666666667,
|
|
"grad_norm": 0.00736756157130003,
|
|
"learning_rate": 0.00015182222222222223,
|
|
"loss": 0.0018,
|
|
"step": 1085
|
|
},
|
|
{
|
|
"epoch": 3.6333333333333333,
|
|
"grad_norm": 0.01163206622004509,
|
|
"learning_rate": 0.0001516,
|
|
"loss": 0.0019,
|
|
"step": 1090
|
|
},
|
|
{
|
|
"epoch": 3.65,
|
|
"grad_norm": 0.31265562772750854,
|
|
"learning_rate": 0.0001513777777777778,
|
|
"loss": 0.0026,
|
|
"step": 1095
|
|
},
|
|
{
|
|
"epoch": 3.6666666666666665,
|
|
"grad_norm": 0.013057752512395382,
|
|
"learning_rate": 0.00015115555555555556,
|
|
"loss": 0.0028,
|
|
"step": 1100
|
|
},
|
|
{
|
|
"epoch": 3.6666666666666665,
|
|
"eval_accuracy": 0.8608333333333333,
|
|
"eval_f1": 0.8630583739468862,
|
|
"eval_loss": 0.8497281670570374,
|
|
"eval_precision": 0.9003658860868646,
|
|
"eval_recall": 0.8608333333333333,
|
|
"eval_runtime": 8.4648,
|
|
"eval_samples_per_second": 141.764,
|
|
"eval_steps_per_second": 17.721,
|
|
"step": 1100
|
|
},
|
|
{
|
|
"epoch": 3.6833333333333336,
|
|
"grad_norm": 5.218932628631592,
|
|
"learning_rate": 0.00015093333333333336,
|
|
"loss": 0.0806,
|
|
"step": 1105
|
|
},
|
|
{
|
|
"epoch": 3.7,
|
|
"grad_norm": 0.006139532197266817,
|
|
"learning_rate": 0.0001507111111111111,
|
|
"loss": 0.0176,
|
|
"step": 1110
|
|
},
|
|
{
|
|
"epoch": 3.716666666666667,
|
|
"grad_norm": 0.007575639523565769,
|
|
"learning_rate": 0.0001504888888888889,
|
|
"loss": 0.0016,
|
|
"step": 1115
|
|
},
|
|
{
|
|
"epoch": 3.7333333333333334,
|
|
"grad_norm": 0.009325952269136906,
|
|
"learning_rate": 0.00015026666666666667,
|
|
"loss": 0.0555,
|
|
"step": 1120
|
|
},
|
|
{
|
|
"epoch": 3.75,
|
|
"grad_norm": 0.6155376434326172,
|
|
"learning_rate": 0.00015004444444444447,
|
|
"loss": 0.0428,
|
|
"step": 1125
|
|
},
|
|
{
|
|
"epoch": 3.7666666666666666,
|
|
"grad_norm": 0.23569880425930023,
|
|
"learning_rate": 0.0001498222222222222,
|
|
"loss": 0.1205,
|
|
"step": 1130
|
|
},
|
|
{
|
|
"epoch": 3.783333333333333,
|
|
"grad_norm": 3.5778796672821045,
|
|
"learning_rate": 0.0001496,
|
|
"loss": 0.0055,
|
|
"step": 1135
|
|
},
|
|
{
|
|
"epoch": 3.8,
|
|
"grad_norm": 0.010719189420342445,
|
|
"learning_rate": 0.0001493777777777778,
|
|
"loss": 0.0386,
|
|
"step": 1140
|
|
},
|
|
{
|
|
"epoch": 3.8166666666666664,
|
|
"grad_norm": 2.208207130432129,
|
|
"learning_rate": 0.00014915555555555557,
|
|
"loss": 0.0984,
|
|
"step": 1145
|
|
},
|
|
{
|
|
"epoch": 3.8333333333333335,
|
|
"grad_norm": 0.10183501243591309,
|
|
"learning_rate": 0.00014893333333333334,
|
|
"loss": 0.0529,
|
|
"step": 1150
|
|
},
|
|
{
|
|
"epoch": 3.85,
|
|
"grad_norm": 0.023700004443526268,
|
|
"learning_rate": 0.0001487111111111111,
|
|
"loss": 0.0028,
|
|
"step": 1155
|
|
},
|
|
{
|
|
"epoch": 3.8666666666666667,
|
|
"grad_norm": 1.8450065851211548,
|
|
"learning_rate": 0.0001484888888888889,
|
|
"loss": 0.0091,
|
|
"step": 1160
|
|
},
|
|
{
|
|
"epoch": 3.8833333333333333,
|
|
"grad_norm": 0.025485007092356682,
|
|
"learning_rate": 0.00014826666666666667,
|
|
"loss": 0.0547,
|
|
"step": 1165
|
|
},
|
|
{
|
|
"epoch": 3.9,
|
|
"grad_norm": 0.013709242455661297,
|
|
"learning_rate": 0.00014804444444444444,
|
|
"loss": 0.0032,
|
|
"step": 1170
|
|
},
|
|
{
|
|
"epoch": 3.9166666666666665,
|
|
"grad_norm": 4.475658893585205,
|
|
"learning_rate": 0.00014782222222222224,
|
|
"loss": 0.0677,
|
|
"step": 1175
|
|
},
|
|
{
|
|
"epoch": 3.9333333333333336,
|
|
"grad_norm": 0.018618497997522354,
|
|
"learning_rate": 0.0001476,
|
|
"loss": 0.0242,
|
|
"step": 1180
|
|
},
|
|
{
|
|
"epoch": 3.95,
|
|
"grad_norm": 4.587765693664551,
|
|
"learning_rate": 0.00014737777777777778,
|
|
"loss": 0.0064,
|
|
"step": 1185
|
|
},
|
|
{
|
|
"epoch": 3.966666666666667,
|
|
"grad_norm": 11.108481407165527,
|
|
"learning_rate": 0.00014715555555555555,
|
|
"loss": 0.099,
|
|
"step": 1190
|
|
},
|
|
{
|
|
"epoch": 3.9833333333333334,
|
|
"grad_norm": 0.012734731659293175,
|
|
"learning_rate": 0.00014693333333333335,
|
|
"loss": 0.0892,
|
|
"step": 1195
|
|
},
|
|
{
|
|
"epoch": 4.0,
|
|
"grad_norm": 0.03672908619046211,
|
|
"learning_rate": 0.00014671111111111111,
|
|
"loss": 0.0021,
|
|
"step": 1200
|
|
},
|
|
{
|
|
"epoch": 4.0,
|
|
"eval_accuracy": 0.81,
|
|
"eval_f1": 0.8114018878426226,
|
|
"eval_loss": 1.0721813440322876,
|
|
"eval_precision": 0.8493419552493093,
|
|
"eval_recall": 0.81,
|
|
"eval_runtime": 8.684,
|
|
"eval_samples_per_second": 138.185,
|
|
"eval_steps_per_second": 17.273,
|
|
"step": 1200
|
|
},
|
|
{
|
|
"epoch": 4.016666666666667,
|
|
"grad_norm": 0.014342083595693111,
|
|
"learning_rate": 0.0001464888888888889,
|
|
"loss": 0.012,
|
|
"step": 1205
|
|
},
|
|
{
|
|
"epoch": 4.033333333333333,
|
|
"grad_norm": 0.004688834771513939,
|
|
"learning_rate": 0.00014626666666666665,
|
|
"loss": 0.0016,
|
|
"step": 1210
|
|
},
|
|
{
|
|
"epoch": 4.05,
|
|
"grad_norm": 0.010201087221503258,
|
|
"learning_rate": 0.00014604444444444445,
|
|
"loss": 0.0027,
|
|
"step": 1215
|
|
},
|
|
{
|
|
"epoch": 4.066666666666666,
|
|
"grad_norm": 0.009677249006927013,
|
|
"learning_rate": 0.00014582222222222225,
|
|
"loss": 0.0021,
|
|
"step": 1220
|
|
},
|
|
{
|
|
"epoch": 4.083333333333333,
|
|
"grad_norm": 0.004783807788044214,
|
|
"learning_rate": 0.00014560000000000002,
|
|
"loss": 0.0022,
|
|
"step": 1225
|
|
},
|
|
{
|
|
"epoch": 4.1,
|
|
"grad_norm": 0.012746911495923996,
|
|
"learning_rate": 0.00014537777777777778,
|
|
"loss": 0.0863,
|
|
"step": 1230
|
|
},
|
|
{
|
|
"epoch": 4.116666666666666,
|
|
"grad_norm": 4.99091911315918,
|
|
"learning_rate": 0.00014515555555555555,
|
|
"loss": 0.1888,
|
|
"step": 1235
|
|
},
|
|
{
|
|
"epoch": 4.133333333333334,
|
|
"grad_norm": 0.023342862725257874,
|
|
"learning_rate": 0.00014493333333333335,
|
|
"loss": 0.036,
|
|
"step": 1240
|
|
},
|
|
{
|
|
"epoch": 4.15,
|
|
"grad_norm": 0.040608469396829605,
|
|
"learning_rate": 0.00014471111111111112,
|
|
"loss": 0.0487,
|
|
"step": 1245
|
|
},
|
|
{
|
|
"epoch": 4.166666666666667,
|
|
"grad_norm": 1.9106533527374268,
|
|
"learning_rate": 0.0001444888888888889,
|
|
"loss": 0.0104,
|
|
"step": 1250
|
|
},
|
|
{
|
|
"epoch": 4.183333333333334,
|
|
"grad_norm": 0.04202974960207939,
|
|
"learning_rate": 0.00014426666666666669,
|
|
"loss": 0.013,
|
|
"step": 1255
|
|
},
|
|
{
|
|
"epoch": 4.2,
|
|
"grad_norm": 0.015945272520184517,
|
|
"learning_rate": 0.00014404444444444446,
|
|
"loss": 0.0327,
|
|
"step": 1260
|
|
},
|
|
{
|
|
"epoch": 4.216666666666667,
|
|
"grad_norm": 0.044023096561431885,
|
|
"learning_rate": 0.00014382222222222222,
|
|
"loss": 0.0025,
|
|
"step": 1265
|
|
},
|
|
{
|
|
"epoch": 4.233333333333333,
|
|
"grad_norm": 0.011237604543566704,
|
|
"learning_rate": 0.0001436,
|
|
"loss": 0.0039,
|
|
"step": 1270
|
|
},
|
|
{
|
|
"epoch": 4.25,
|
|
"grad_norm": 3.7533059120178223,
|
|
"learning_rate": 0.0001433777777777778,
|
|
"loss": 0.08,
|
|
"step": 1275
|
|
},
|
|
{
|
|
"epoch": 4.266666666666667,
|
|
"grad_norm": 0.014147402718663216,
|
|
"learning_rate": 0.00014315555555555556,
|
|
"loss": 0.0497,
|
|
"step": 1280
|
|
},
|
|
{
|
|
"epoch": 4.283333333333333,
|
|
"grad_norm": 15.499512672424316,
|
|
"learning_rate": 0.00014293333333333333,
|
|
"loss": 0.052,
|
|
"step": 1285
|
|
},
|
|
{
|
|
"epoch": 4.3,
|
|
"grad_norm": 0.00785121601074934,
|
|
"learning_rate": 0.00014271111111111113,
|
|
"loss": 0.0122,
|
|
"step": 1290
|
|
},
|
|
{
|
|
"epoch": 4.316666666666666,
|
|
"grad_norm": 0.01840803027153015,
|
|
"learning_rate": 0.0001424888888888889,
|
|
"loss": 0.0021,
|
|
"step": 1295
|
|
},
|
|
{
|
|
"epoch": 4.333333333333333,
|
|
"grad_norm": 0.005680915433913469,
|
|
"learning_rate": 0.0001422666666666667,
|
|
"loss": 0.0023,
|
|
"step": 1300
|
|
},
|
|
{
|
|
"epoch": 4.333333333333333,
|
|
"eval_accuracy": 0.8741666666666666,
|
|
"eval_f1": 0.8736696517282013,
|
|
"eval_loss": 0.7216801047325134,
|
|
"eval_precision": 0.874179575159524,
|
|
"eval_recall": 0.8741666666666666,
|
|
"eval_runtime": 8.5035,
|
|
"eval_samples_per_second": 141.119,
|
|
"eval_steps_per_second": 17.64,
|
|
"step": 1300
|
|
},
|
|
{
|
|
"epoch": 4.35,
|
|
"grad_norm": 6.644092559814453,
|
|
"learning_rate": 0.00014204444444444443,
|
|
"loss": 0.0419,
|
|
"step": 1305
|
|
},
|
|
{
|
|
"epoch": 4.366666666666666,
|
|
"grad_norm": 1.7790203094482422,
|
|
"learning_rate": 0.00014182222222222223,
|
|
"loss": 0.0735,
|
|
"step": 1310
|
|
},
|
|
{
|
|
"epoch": 4.383333333333334,
|
|
"grad_norm": 0.014206045307219028,
|
|
"learning_rate": 0.0001416,
|
|
"loss": 0.1253,
|
|
"step": 1315
|
|
},
|
|
{
|
|
"epoch": 4.4,
|
|
"grad_norm": 9.30543041229248,
|
|
"learning_rate": 0.0001413777777777778,
|
|
"loss": 0.2207,
|
|
"step": 1320
|
|
},
|
|
{
|
|
"epoch": 4.416666666666667,
|
|
"grad_norm": 0.01079009659588337,
|
|
"learning_rate": 0.00014115555555555557,
|
|
"loss": 0.0264,
|
|
"step": 1325
|
|
},
|
|
{
|
|
"epoch": 4.433333333333334,
|
|
"grad_norm": 0.017153671011328697,
|
|
"learning_rate": 0.00014093333333333333,
|
|
"loss": 0.0032,
|
|
"step": 1330
|
|
},
|
|
{
|
|
"epoch": 4.45,
|
|
"grad_norm": 0.05720142647624016,
|
|
"learning_rate": 0.00014071111111111113,
|
|
"loss": 0.1144,
|
|
"step": 1335
|
|
},
|
|
{
|
|
"epoch": 4.466666666666667,
|
|
"grad_norm": 0.03782143071293831,
|
|
"learning_rate": 0.0001404888888888889,
|
|
"loss": 0.0022,
|
|
"step": 1340
|
|
},
|
|
{
|
|
"epoch": 4.483333333333333,
|
|
"grad_norm": 0.43943724036216736,
|
|
"learning_rate": 0.00014026666666666667,
|
|
"loss": 0.2235,
|
|
"step": 1345
|
|
},
|
|
{
|
|
"epoch": 4.5,
|
|
"grad_norm": 0.01539943739771843,
|
|
"learning_rate": 0.00014004444444444444,
|
|
"loss": 0.0016,
|
|
"step": 1350
|
|
},
|
|
{
|
|
"epoch": 4.516666666666667,
|
|
"grad_norm": 0.007469181902706623,
|
|
"learning_rate": 0.00013982222222222224,
|
|
"loss": 0.2015,
|
|
"step": 1355
|
|
},
|
|
{
|
|
"epoch": 4.533333333333333,
|
|
"grad_norm": 1.5316814184188843,
|
|
"learning_rate": 0.0001396,
|
|
"loss": 0.0341,
|
|
"step": 1360
|
|
},
|
|
{
|
|
"epoch": 4.55,
|
|
"grad_norm": 0.011117405258119106,
|
|
"learning_rate": 0.00013937777777777777,
|
|
"loss": 0.0706,
|
|
"step": 1365
|
|
},
|
|
{
|
|
"epoch": 4.566666666666666,
|
|
"grad_norm": 0.009905427694320679,
|
|
"learning_rate": 0.00013915555555555557,
|
|
"loss": 0.0139,
|
|
"step": 1370
|
|
},
|
|
{
|
|
"epoch": 4.583333333333333,
|
|
"grad_norm": 0.011820288375020027,
|
|
"learning_rate": 0.00013893333333333334,
|
|
"loss": 0.0896,
|
|
"step": 1375
|
|
},
|
|
{
|
|
"epoch": 4.6,
|
|
"grad_norm": 0.005342086311429739,
|
|
"learning_rate": 0.00013871111111111114,
|
|
"loss": 0.1561,
|
|
"step": 1380
|
|
},
|
|
{
|
|
"epoch": 4.616666666666667,
|
|
"grad_norm": 2.0660650730133057,
|
|
"learning_rate": 0.00013848888888888888,
|
|
"loss": 0.0726,
|
|
"step": 1385
|
|
},
|
|
{
|
|
"epoch": 4.633333333333333,
|
|
"grad_norm": 0.00874674879014492,
|
|
"learning_rate": 0.00013826666666666668,
|
|
"loss": 0.0046,
|
|
"step": 1390
|
|
},
|
|
{
|
|
"epoch": 4.65,
|
|
"grad_norm": 0.06165945529937744,
|
|
"learning_rate": 0.00013804444444444444,
|
|
"loss": 0.0055,
|
|
"step": 1395
|
|
},
|
|
{
|
|
"epoch": 4.666666666666667,
|
|
"grad_norm": 0.009331022389233112,
|
|
"learning_rate": 0.00013782222222222224,
|
|
"loss": 0.0243,
|
|
"step": 1400
|
|
},
|
|
{
|
|
"epoch": 4.666666666666667,
|
|
"eval_accuracy": 0.8466666666666667,
|
|
"eval_f1": 0.8449391077113874,
|
|
"eval_loss": 0.8720933198928833,
|
|
"eval_precision": 0.8627023305693831,
|
|
"eval_recall": 0.8466666666666667,
|
|
"eval_runtime": 8.5714,
|
|
"eval_samples_per_second": 140.001,
|
|
"eval_steps_per_second": 17.5,
|
|
"step": 1400
|
|
},
|
|
{
|
|
"epoch": 4.683333333333334,
|
|
"grad_norm": 24.88484764099121,
|
|
"learning_rate": 0.00013759999999999998,
|
|
"loss": 0.0361,
|
|
"step": 1405
|
|
},
|
|
{
|
|
"epoch": 4.7,
|
|
"grad_norm": 0.007358456030488014,
|
|
"learning_rate": 0.00013737777777777778,
|
|
"loss": 0.0016,
|
|
"step": 1410
|
|
},
|
|
{
|
|
"epoch": 4.716666666666667,
|
|
"grad_norm": 4.731387615203857,
|
|
"learning_rate": 0.00013715555555555558,
|
|
"loss": 0.1339,
|
|
"step": 1415
|
|
},
|
|
{
|
|
"epoch": 4.733333333333333,
|
|
"grad_norm": 0.007948680780827999,
|
|
"learning_rate": 0.00013693333333333335,
|
|
"loss": 0.0028,
|
|
"step": 1420
|
|
},
|
|
{
|
|
"epoch": 4.75,
|
|
"grad_norm": 9.380406379699707,
|
|
"learning_rate": 0.00013671111111111112,
|
|
"loss": 0.1451,
|
|
"step": 1425
|
|
},
|
|
{
|
|
"epoch": 4.766666666666667,
|
|
"grad_norm": 0.008410623297095299,
|
|
"learning_rate": 0.00013648888888888888,
|
|
"loss": 0.0036,
|
|
"step": 1430
|
|
},
|
|
{
|
|
"epoch": 4.783333333333333,
|
|
"grad_norm": 0.05698215961456299,
|
|
"learning_rate": 0.00013626666666666668,
|
|
"loss": 0.0494,
|
|
"step": 1435
|
|
},
|
|
{
|
|
"epoch": 4.8,
|
|
"grad_norm": 0.0067721824161708355,
|
|
"learning_rate": 0.00013604444444444445,
|
|
"loss": 0.0081,
|
|
"step": 1440
|
|
},
|
|
{
|
|
"epoch": 4.816666666666666,
|
|
"grad_norm": 0.008014468476176262,
|
|
"learning_rate": 0.00013582222222222222,
|
|
"loss": 0.0128,
|
|
"step": 1445
|
|
},
|
|
{
|
|
"epoch": 4.833333333333333,
|
|
"grad_norm": 11.585015296936035,
|
|
"learning_rate": 0.00013560000000000002,
|
|
"loss": 0.0822,
|
|
"step": 1450
|
|
},
|
|
{
|
|
"epoch": 4.85,
|
|
"grad_norm": 6.453427791595459,
|
|
"learning_rate": 0.00013537777777777779,
|
|
"loss": 0.0697,
|
|
"step": 1455
|
|
},
|
|
{
|
|
"epoch": 4.866666666666667,
|
|
"grad_norm": 0.003919912036508322,
|
|
"learning_rate": 0.00013515555555555556,
|
|
"loss": 0.0023,
|
|
"step": 1460
|
|
},
|
|
{
|
|
"epoch": 4.883333333333333,
|
|
"grad_norm": 0.006454234942793846,
|
|
"learning_rate": 0.00013493333333333332,
|
|
"loss": 0.0224,
|
|
"step": 1465
|
|
},
|
|
{
|
|
"epoch": 4.9,
|
|
"grad_norm": 0.030097154900431633,
|
|
"learning_rate": 0.00013471111111111112,
|
|
"loss": 0.0016,
|
|
"step": 1470
|
|
},
|
|
{
|
|
"epoch": 4.916666666666667,
|
|
"grad_norm": 0.0048883953131735325,
|
|
"learning_rate": 0.0001344888888888889,
|
|
"loss": 0.0926,
|
|
"step": 1475
|
|
},
|
|
{
|
|
"epoch": 4.933333333333334,
|
|
"grad_norm": 0.0053365034982562065,
|
|
"learning_rate": 0.0001342666666666667,
|
|
"loss": 0.0014,
|
|
"step": 1480
|
|
},
|
|
{
|
|
"epoch": 4.95,
|
|
"grad_norm": 8.823843955993652,
|
|
"learning_rate": 0.00013404444444444446,
|
|
"loss": 0.047,
|
|
"step": 1485
|
|
},
|
|
{
|
|
"epoch": 4.966666666666667,
|
|
"grad_norm": 0.008398232981562614,
|
|
"learning_rate": 0.00013382222222222223,
|
|
"loss": 0.0285,
|
|
"step": 1490
|
|
},
|
|
{
|
|
"epoch": 4.983333333333333,
|
|
"grad_norm": 0.05128835514187813,
|
|
"learning_rate": 0.00013360000000000002,
|
|
"loss": 0.1177,
|
|
"step": 1495
|
|
},
|
|
{
|
|
"epoch": 5.0,
|
|
"grad_norm": 0.009355626069009304,
|
|
"learning_rate": 0.0001333777777777778,
|
|
"loss": 0.004,
|
|
"step": 1500
|
|
},
|
|
{
|
|
"epoch": 5.0,
|
|
"eval_accuracy": 0.8425,
|
|
"eval_f1": 0.8401643953373985,
|
|
"eval_loss": 0.8314429521560669,
|
|
"eval_precision": 0.8500199020639272,
|
|
"eval_recall": 0.8425,
|
|
"eval_runtime": 8.5816,
|
|
"eval_samples_per_second": 139.834,
|
|
"eval_steps_per_second": 17.479,
|
|
"step": 1500
|
|
},
|
|
{
|
|
"epoch": 5.016666666666667,
|
|
"grad_norm": 0.010551623068749905,
|
|
"learning_rate": 0.00013315555555555556,
|
|
"loss": 0.0017,
|
|
"step": 1505
|
|
},
|
|
{
|
|
"epoch": 5.033333333333333,
|
|
"grad_norm": 0.011250492185354233,
|
|
"learning_rate": 0.00013293333333333333,
|
|
"loss": 0.0237,
|
|
"step": 1510
|
|
},
|
|
{
|
|
"epoch": 5.05,
|
|
"grad_norm": 0.010826527141034603,
|
|
"learning_rate": 0.00013271111111111113,
|
|
"loss": 0.002,
|
|
"step": 1515
|
|
},
|
|
{
|
|
"epoch": 5.066666666666666,
|
|
"grad_norm": 1.4145227670669556,
|
|
"learning_rate": 0.0001324888888888889,
|
|
"loss": 0.0032,
|
|
"step": 1520
|
|
},
|
|
{
|
|
"epoch": 5.083333333333333,
|
|
"grad_norm": 0.018742254003882408,
|
|
"learning_rate": 0.00013226666666666667,
|
|
"loss": 0.0019,
|
|
"step": 1525
|
|
},
|
|
{
|
|
"epoch": 5.1,
|
|
"grad_norm": 0.005670695099979639,
|
|
"learning_rate": 0.00013204444444444446,
|
|
"loss": 0.0426,
|
|
"step": 1530
|
|
},
|
|
{
|
|
"epoch": 5.116666666666666,
|
|
"grad_norm": 7.956353187561035,
|
|
"learning_rate": 0.00013182222222222223,
|
|
"loss": 0.0866,
|
|
"step": 1535
|
|
},
|
|
{
|
|
"epoch": 5.133333333333334,
|
|
"grad_norm": 0.015181062743067741,
|
|
"learning_rate": 0.0001316,
|
|
"loss": 0.0065,
|
|
"step": 1540
|
|
},
|
|
{
|
|
"epoch": 5.15,
|
|
"grad_norm": 5.024839878082275,
|
|
"learning_rate": 0.00013137777777777777,
|
|
"loss": 0.0893,
|
|
"step": 1545
|
|
},
|
|
{
|
|
"epoch": 5.166666666666667,
|
|
"grad_norm": 0.16089694201946259,
|
|
"learning_rate": 0.00013115555555555557,
|
|
"loss": 0.0013,
|
|
"step": 1550
|
|
},
|
|
{
|
|
"epoch": 5.183333333333334,
|
|
"grad_norm": 0.008863291703164577,
|
|
"learning_rate": 0.00013093333333333334,
|
|
"loss": 0.0023,
|
|
"step": 1555
|
|
},
|
|
{
|
|
"epoch": 5.2,
|
|
"grad_norm": 0.005815539043396711,
|
|
"learning_rate": 0.0001307111111111111,
|
|
"loss": 0.0019,
|
|
"step": 1560
|
|
},
|
|
{
|
|
"epoch": 5.216666666666667,
|
|
"grad_norm": 0.031558211892843246,
|
|
"learning_rate": 0.0001304888888888889,
|
|
"loss": 0.0024,
|
|
"step": 1565
|
|
},
|
|
{
|
|
"epoch": 5.233333333333333,
|
|
"grad_norm": 0.049538612365722656,
|
|
"learning_rate": 0.00013026666666666667,
|
|
"loss": 0.0059,
|
|
"step": 1570
|
|
},
|
|
{
|
|
"epoch": 5.25,
|
|
"grad_norm": 0.006766201928257942,
|
|
"learning_rate": 0.00013004444444444447,
|
|
"loss": 0.005,
|
|
"step": 1575
|
|
},
|
|
{
|
|
"epoch": 5.266666666666667,
|
|
"grad_norm": 0.006935945246368647,
|
|
"learning_rate": 0.0001298222222222222,
|
|
"loss": 0.094,
|
|
"step": 1580
|
|
},
|
|
{
|
|
"epoch": 5.283333333333333,
|
|
"grad_norm": 0.007931070402264595,
|
|
"learning_rate": 0.0001296,
|
|
"loss": 0.0013,
|
|
"step": 1585
|
|
},
|
|
{
|
|
"epoch": 5.3,
|
|
"grad_norm": 0.019129278138279915,
|
|
"learning_rate": 0.00012937777777777778,
|
|
"loss": 0.0019,
|
|
"step": 1590
|
|
},
|
|
{
|
|
"epoch": 5.316666666666666,
|
|
"grad_norm": 0.009263014420866966,
|
|
"learning_rate": 0.00012915555555555557,
|
|
"loss": 0.0013,
|
|
"step": 1595
|
|
},
|
|
{
|
|
"epoch": 5.333333333333333,
|
|
"grad_norm": 0.010344603098928928,
|
|
"learning_rate": 0.00012893333333333334,
|
|
"loss": 0.0011,
|
|
"step": 1600
|
|
},
|
|
{
|
|
"epoch": 5.333333333333333,
|
|
"eval_accuracy": 0.8366666666666667,
|
|
"eval_f1": 0.8346536297050231,
|
|
"eval_loss": 0.9169537425041199,
|
|
"eval_precision": 0.836227312617498,
|
|
"eval_recall": 0.8366666666666667,
|
|
"eval_runtime": 8.5764,
|
|
"eval_samples_per_second": 139.92,
|
|
"eval_steps_per_second": 17.49,
|
|
"step": 1600
|
|
},
|
|
{
|
|
"epoch": 5.35,
|
|
"grad_norm": 0.004544167313724756,
|
|
"learning_rate": 0.0001287111111111111,
|
|
"loss": 0.0013,
|
|
"step": 1605
|
|
},
|
|
{
|
|
"epoch": 5.366666666666666,
|
|
"grad_norm": 0.01042899675667286,
|
|
"learning_rate": 0.0001284888888888889,
|
|
"loss": 0.0013,
|
|
"step": 1610
|
|
},
|
|
{
|
|
"epoch": 5.383333333333334,
|
|
"grad_norm": 0.004015676211565733,
|
|
"learning_rate": 0.00012826666666666668,
|
|
"loss": 0.0012,
|
|
"step": 1615
|
|
},
|
|
{
|
|
"epoch": 5.4,
|
|
"grad_norm": 0.0053498647175729275,
|
|
"learning_rate": 0.00012804444444444445,
|
|
"loss": 0.0013,
|
|
"step": 1620
|
|
},
|
|
{
|
|
"epoch": 5.416666666666667,
|
|
"grad_norm": 0.004431703593581915,
|
|
"learning_rate": 0.00012782222222222222,
|
|
"loss": 0.0011,
|
|
"step": 1625
|
|
},
|
|
{
|
|
"epoch": 5.433333333333334,
|
|
"grad_norm": 0.0038053698372095823,
|
|
"learning_rate": 0.0001276,
|
|
"loss": 0.0011,
|
|
"step": 1630
|
|
},
|
|
{
|
|
"epoch": 5.45,
|
|
"grad_norm": 0.00662876246497035,
|
|
"learning_rate": 0.00012737777777777778,
|
|
"loss": 0.0013,
|
|
"step": 1635
|
|
},
|
|
{
|
|
"epoch": 5.466666666666667,
|
|
"grad_norm": 0.005391869228333235,
|
|
"learning_rate": 0.00012715555555555555,
|
|
"loss": 0.0011,
|
|
"step": 1640
|
|
},
|
|
{
|
|
"epoch": 5.483333333333333,
|
|
"grad_norm": 0.004023087210953236,
|
|
"learning_rate": 0.00012693333333333335,
|
|
"loss": 0.001,
|
|
"step": 1645
|
|
},
|
|
{
|
|
"epoch": 5.5,
|
|
"grad_norm": 0.003374818479642272,
|
|
"learning_rate": 0.00012671111111111112,
|
|
"loss": 0.0009,
|
|
"step": 1650
|
|
},
|
|
{
|
|
"epoch": 5.516666666666667,
|
|
"grad_norm": 0.004078878089785576,
|
|
"learning_rate": 0.0001264888888888889,
|
|
"loss": 0.0009,
|
|
"step": 1655
|
|
},
|
|
{
|
|
"epoch": 5.533333333333333,
|
|
"grad_norm": 0.04155849292874336,
|
|
"learning_rate": 0.00012626666666666665,
|
|
"loss": 0.001,
|
|
"step": 1660
|
|
},
|
|
{
|
|
"epoch": 5.55,
|
|
"grad_norm": 0.006481468677520752,
|
|
"learning_rate": 0.00012604444444444445,
|
|
"loss": 0.0011,
|
|
"step": 1665
|
|
},
|
|
{
|
|
"epoch": 5.566666666666666,
|
|
"grad_norm": 0.00649288110435009,
|
|
"learning_rate": 0.00012582222222222222,
|
|
"loss": 0.001,
|
|
"step": 1670
|
|
},
|
|
{
|
|
"epoch": 5.583333333333333,
|
|
"grad_norm": 0.004181603901088238,
|
|
"learning_rate": 0.00012560000000000002,
|
|
"loss": 0.0012,
|
|
"step": 1675
|
|
},
|
|
{
|
|
"epoch": 5.6,
|
|
"grad_norm": 0.005301055498421192,
|
|
"learning_rate": 0.0001253777777777778,
|
|
"loss": 0.0009,
|
|
"step": 1680
|
|
},
|
|
{
|
|
"epoch": 5.616666666666667,
|
|
"grad_norm": 0.003939451649785042,
|
|
"learning_rate": 0.00012515555555555556,
|
|
"loss": 0.0009,
|
|
"step": 1685
|
|
},
|
|
{
|
|
"epoch": 5.633333333333333,
|
|
"grad_norm": 0.004135144874453545,
|
|
"learning_rate": 0.00012493333333333335,
|
|
"loss": 0.0009,
|
|
"step": 1690
|
|
},
|
|
{
|
|
"epoch": 5.65,
|
|
"grad_norm": 0.003453885903581977,
|
|
"learning_rate": 0.00012471111111111112,
|
|
"loss": 0.0009,
|
|
"step": 1695
|
|
},
|
|
{
|
|
"epoch": 5.666666666666667,
|
|
"grad_norm": 0.0031615181360393763,
|
|
"learning_rate": 0.0001244888888888889,
|
|
"loss": 0.0008,
|
|
"step": 1700
|
|
},
|
|
{
|
|
"epoch": 5.666666666666667,
|
|
"eval_accuracy": 0.8475,
|
|
"eval_f1": 0.8451988452667865,
|
|
"eval_loss": 0.9080225825309753,
|
|
"eval_precision": 0.8535819883945576,
|
|
"eval_recall": 0.8475,
|
|
"eval_runtime": 8.4501,
|
|
"eval_samples_per_second": 142.01,
|
|
"eval_steps_per_second": 17.751,
|
|
"step": 1700
|
|
},
|
|
{
|
|
"epoch": 5.683333333333334,
|
|
"grad_norm": 0.003467655973508954,
|
|
"learning_rate": 0.00012426666666666666,
|
|
"loss": 0.0009,
|
|
"step": 1705
|
|
},
|
|
{
|
|
"epoch": 5.7,
|
|
"grad_norm": 0.0032528925221413374,
|
|
"learning_rate": 0.00012404444444444446,
|
|
"loss": 0.0008,
|
|
"step": 1710
|
|
},
|
|
{
|
|
"epoch": 5.716666666666667,
|
|
"grad_norm": 0.00434854393824935,
|
|
"learning_rate": 0.00012382222222222223,
|
|
"loss": 0.0009,
|
|
"step": 1715
|
|
},
|
|
{
|
|
"epoch": 5.733333333333333,
|
|
"grad_norm": 0.0030469377525150776,
|
|
"learning_rate": 0.0001236,
|
|
"loss": 0.0009,
|
|
"step": 1720
|
|
},
|
|
{
|
|
"epoch": 5.75,
|
|
"grad_norm": 0.00402431096881628,
|
|
"learning_rate": 0.0001233777777777778,
|
|
"loss": 0.0008,
|
|
"step": 1725
|
|
},
|
|
{
|
|
"epoch": 5.766666666666667,
|
|
"grad_norm": 0.003106710035353899,
|
|
"learning_rate": 0.00012315555555555556,
|
|
"loss": 0.0008,
|
|
"step": 1730
|
|
},
|
|
{
|
|
"epoch": 5.783333333333333,
|
|
"grad_norm": 0.0028747424948960543,
|
|
"learning_rate": 0.00012293333333333336,
|
|
"loss": 0.0008,
|
|
"step": 1735
|
|
},
|
|
{
|
|
"epoch": 5.8,
|
|
"grad_norm": 0.0033329306170344353,
|
|
"learning_rate": 0.0001227111111111111,
|
|
"loss": 0.0008,
|
|
"step": 1740
|
|
},
|
|
{
|
|
"epoch": 5.816666666666666,
|
|
"grad_norm": 0.005045827012509108,
|
|
"learning_rate": 0.0001224888888888889,
|
|
"loss": 0.0009,
|
|
"step": 1745
|
|
},
|
|
{
|
|
"epoch": 5.833333333333333,
|
|
"grad_norm": 0.003215071512386203,
|
|
"learning_rate": 0.00012226666666666667,
|
|
"loss": 0.0008,
|
|
"step": 1750
|
|
},
|
|
{
|
|
"epoch": 5.85,
|
|
"grad_norm": 0.0056326016783714294,
|
|
"learning_rate": 0.00012204444444444445,
|
|
"loss": 0.0009,
|
|
"step": 1755
|
|
},
|
|
{
|
|
"epoch": 5.866666666666667,
|
|
"grad_norm": 0.004664156585931778,
|
|
"learning_rate": 0.00012182222222222223,
|
|
"loss": 0.0009,
|
|
"step": 1760
|
|
},
|
|
{
|
|
"epoch": 5.883333333333333,
|
|
"grad_norm": 0.0032766489312052727,
|
|
"learning_rate": 0.0001216,
|
|
"loss": 0.0008,
|
|
"step": 1765
|
|
},
|
|
{
|
|
"epoch": 5.9,
|
|
"grad_norm": 0.0045204912312328815,
|
|
"learning_rate": 0.00012137777777777778,
|
|
"loss": 0.0008,
|
|
"step": 1770
|
|
},
|
|
{
|
|
"epoch": 5.916666666666667,
|
|
"grad_norm": 0.004817618522793055,
|
|
"learning_rate": 0.00012115555555555555,
|
|
"loss": 0.0008,
|
|
"step": 1775
|
|
},
|
|
{
|
|
"epoch": 5.933333333333334,
|
|
"grad_norm": 0.003760852850973606,
|
|
"learning_rate": 0.00012093333333333334,
|
|
"loss": 0.0008,
|
|
"step": 1780
|
|
},
|
|
{
|
|
"epoch": 5.95,
|
|
"grad_norm": 0.003496952122077346,
|
|
"learning_rate": 0.0001207111111111111,
|
|
"loss": 0.0008,
|
|
"step": 1785
|
|
},
|
|
{
|
|
"epoch": 5.966666666666667,
|
|
"grad_norm": 0.0033429006580263376,
|
|
"learning_rate": 0.0001204888888888889,
|
|
"loss": 0.0007,
|
|
"step": 1790
|
|
},
|
|
{
|
|
"epoch": 5.983333333333333,
|
|
"grad_norm": 0.0037298351526260376,
|
|
"learning_rate": 0.00012026666666666669,
|
|
"loss": 0.0008,
|
|
"step": 1795
|
|
},
|
|
{
|
|
"epoch": 6.0,
|
|
"grad_norm": 1.0432941913604736,
|
|
"learning_rate": 0.00012004444444444445,
|
|
"loss": 0.0017,
|
|
"step": 1800
|
|
},
|
|
{
|
|
"epoch": 6.0,
|
|
"eval_accuracy": 0.855,
|
|
"eval_f1": 0.8527335341001453,
|
|
"eval_loss": 0.8709325194358826,
|
|
"eval_precision": 0.8642418810357194,
|
|
"eval_recall": 0.855,
|
|
"eval_runtime": 8.5378,
|
|
"eval_samples_per_second": 140.552,
|
|
"eval_steps_per_second": 17.569,
|
|
"step": 1800
|
|
},
|
|
{
|
|
"epoch": 6.016666666666667,
|
|
"grad_norm": 0.0039853742346167564,
|
|
"learning_rate": 0.00011982222222222224,
|
|
"loss": 0.0008,
|
|
"step": 1805
|
|
},
|
|
{
|
|
"epoch": 6.033333333333333,
|
|
"grad_norm": 0.0027199145406484604,
|
|
"learning_rate": 0.00011960000000000001,
|
|
"loss": 0.0007,
|
|
"step": 1810
|
|
},
|
|
{
|
|
"epoch": 6.05,
|
|
"grad_norm": 0.003306955797597766,
|
|
"learning_rate": 0.00011937777777777779,
|
|
"loss": 0.001,
|
|
"step": 1815
|
|
},
|
|
{
|
|
"epoch": 6.066666666666666,
|
|
"grad_norm": 0.0030319029465317726,
|
|
"learning_rate": 0.00011915555555555556,
|
|
"loss": 0.0008,
|
|
"step": 1820
|
|
},
|
|
{
|
|
"epoch": 6.083333333333333,
|
|
"grad_norm": 0.003830424277111888,
|
|
"learning_rate": 0.00011893333333333334,
|
|
"loss": 0.0007,
|
|
"step": 1825
|
|
},
|
|
{
|
|
"epoch": 6.1,
|
|
"grad_norm": 0.0035003770608454943,
|
|
"learning_rate": 0.00011871111111111111,
|
|
"loss": 0.0008,
|
|
"step": 1830
|
|
},
|
|
{
|
|
"epoch": 6.116666666666666,
|
|
"grad_norm": 0.0044647702015936375,
|
|
"learning_rate": 0.0001184888888888889,
|
|
"loss": 0.0008,
|
|
"step": 1835
|
|
},
|
|
{
|
|
"epoch": 6.133333333333334,
|
|
"grad_norm": 0.003081211354583502,
|
|
"learning_rate": 0.00011826666666666668,
|
|
"loss": 0.0007,
|
|
"step": 1840
|
|
},
|
|
{
|
|
"epoch": 6.15,
|
|
"grad_norm": 0.006125086452811956,
|
|
"learning_rate": 0.00011804444444444445,
|
|
"loss": 0.0007,
|
|
"step": 1845
|
|
},
|
|
{
|
|
"epoch": 6.166666666666667,
|
|
"grad_norm": 0.0029033198952674866,
|
|
"learning_rate": 0.00011782222222222223,
|
|
"loss": 0.0007,
|
|
"step": 1850
|
|
},
|
|
{
|
|
"epoch": 6.183333333333334,
|
|
"grad_norm": 0.0024676560424268246,
|
|
"learning_rate": 0.0001176,
|
|
"loss": 0.0007,
|
|
"step": 1855
|
|
},
|
|
{
|
|
"epoch": 6.2,
|
|
"grad_norm": 0.0032939203083515167,
|
|
"learning_rate": 0.00011737777777777778,
|
|
"loss": 0.0007,
|
|
"step": 1860
|
|
},
|
|
{
|
|
"epoch": 6.216666666666667,
|
|
"grad_norm": 0.005795349832624197,
|
|
"learning_rate": 0.00011715555555555555,
|
|
"loss": 0.0007,
|
|
"step": 1865
|
|
},
|
|
{
|
|
"epoch": 6.233333333333333,
|
|
"grad_norm": 0.0027761368546634912,
|
|
"learning_rate": 0.00011693333333333333,
|
|
"loss": 0.0006,
|
|
"step": 1870
|
|
},
|
|
{
|
|
"epoch": 6.25,
|
|
"grad_norm": 0.002433259505778551,
|
|
"learning_rate": 0.00011671111111111113,
|
|
"loss": 0.0007,
|
|
"step": 1875
|
|
},
|
|
{
|
|
"epoch": 6.266666666666667,
|
|
"grad_norm": 0.0021892499644309282,
|
|
"learning_rate": 0.00011648888888888889,
|
|
"loss": 0.0007,
|
|
"step": 1880
|
|
},
|
|
{
|
|
"epoch": 6.283333333333333,
|
|
"grad_norm": 0.0031156991608440876,
|
|
"learning_rate": 0.00011626666666666668,
|
|
"loss": 0.0007,
|
|
"step": 1885
|
|
},
|
|
{
|
|
"epoch": 6.3,
|
|
"grad_norm": 0.009440210647881031,
|
|
"learning_rate": 0.00011604444444444444,
|
|
"loss": 0.0006,
|
|
"step": 1890
|
|
},
|
|
{
|
|
"epoch": 6.316666666666666,
|
|
"grad_norm": 0.005798889324069023,
|
|
"learning_rate": 0.00011582222222222224,
|
|
"loss": 0.0008,
|
|
"step": 1895
|
|
},
|
|
{
|
|
"epoch": 6.333333333333333,
|
|
"grad_norm": 0.0020701689645648003,
|
|
"learning_rate": 0.00011559999999999999,
|
|
"loss": 0.0007,
|
|
"step": 1900
|
|
},
|
|
{
|
|
"epoch": 6.333333333333333,
|
|
"eval_accuracy": 0.8808333333333334,
|
|
"eval_f1": 0.8777287825307415,
|
|
"eval_loss": 0.7878209352493286,
|
|
"eval_precision": 0.8898920597981103,
|
|
"eval_recall": 0.8808333333333334,
|
|
"eval_runtime": 8.5055,
|
|
"eval_samples_per_second": 141.085,
|
|
"eval_steps_per_second": 17.636,
|
|
"step": 1900
|
|
},
|
|
{
|
|
"epoch": 6.35,
|
|
"grad_norm": 0.0031915383879095316,
|
|
"learning_rate": 0.00011537777777777779,
|
|
"loss": 0.0007,
|
|
"step": 1905
|
|
},
|
|
{
|
|
"epoch": 6.366666666666666,
|
|
"grad_norm": 0.002810791367664933,
|
|
"learning_rate": 0.00011515555555555557,
|
|
"loss": 0.0007,
|
|
"step": 1910
|
|
},
|
|
{
|
|
"epoch": 6.383333333333334,
|
|
"grad_norm": 0.0040374938398599625,
|
|
"learning_rate": 0.00011493333333333334,
|
|
"loss": 0.0006,
|
|
"step": 1915
|
|
},
|
|
{
|
|
"epoch": 6.4,
|
|
"grad_norm": 0.0020520961843430996,
|
|
"learning_rate": 0.00011471111111111112,
|
|
"loss": 0.0007,
|
|
"step": 1920
|
|
},
|
|
{
|
|
"epoch": 6.416666666666667,
|
|
"grad_norm": 0.002510226797312498,
|
|
"learning_rate": 0.00011448888888888889,
|
|
"loss": 0.0006,
|
|
"step": 1925
|
|
},
|
|
{
|
|
"epoch": 6.433333333333334,
|
|
"grad_norm": 0.003581676399335265,
|
|
"learning_rate": 0.00011426666666666667,
|
|
"loss": 0.0007,
|
|
"step": 1930
|
|
},
|
|
{
|
|
"epoch": 6.45,
|
|
"grad_norm": 0.0032677087001502514,
|
|
"learning_rate": 0.00011404444444444444,
|
|
"loss": 0.0006,
|
|
"step": 1935
|
|
},
|
|
{
|
|
"epoch": 6.466666666666667,
|
|
"grad_norm": 0.0030111183878034353,
|
|
"learning_rate": 0.00011382222222222223,
|
|
"loss": 0.0006,
|
|
"step": 1940
|
|
},
|
|
{
|
|
"epoch": 6.483333333333333,
|
|
"grad_norm": 0.0037052365951240063,
|
|
"learning_rate": 0.0001136,
|
|
"loss": 0.0007,
|
|
"step": 1945
|
|
},
|
|
{
|
|
"epoch": 6.5,
|
|
"grad_norm": 0.002169802552089095,
|
|
"learning_rate": 0.00011337777777777778,
|
|
"loss": 0.0006,
|
|
"step": 1950
|
|
},
|
|
{
|
|
"epoch": 6.516666666666667,
|
|
"grad_norm": 0.0028026788495481014,
|
|
"learning_rate": 0.00011315555555555558,
|
|
"loss": 0.0006,
|
|
"step": 1955
|
|
},
|
|
{
|
|
"epoch": 6.533333333333333,
|
|
"grad_norm": 0.002606199821457267,
|
|
"learning_rate": 0.00011293333333333333,
|
|
"loss": 0.0006,
|
|
"step": 1960
|
|
},
|
|
{
|
|
"epoch": 6.55,
|
|
"grad_norm": 0.0025322784204035997,
|
|
"learning_rate": 0.00011271111111111113,
|
|
"loss": 0.0006,
|
|
"step": 1965
|
|
},
|
|
{
|
|
"epoch": 6.566666666666666,
|
|
"grad_norm": 0.003398539964109659,
|
|
"learning_rate": 0.00011248888888888888,
|
|
"loss": 0.0007,
|
|
"step": 1970
|
|
},
|
|
{
|
|
"epoch": 6.583333333333333,
|
|
"grad_norm": 0.0024535132106393576,
|
|
"learning_rate": 0.00011226666666666668,
|
|
"loss": 0.0006,
|
|
"step": 1975
|
|
},
|
|
{
|
|
"epoch": 6.6,
|
|
"grad_norm": 0.003040070878341794,
|
|
"learning_rate": 0.00011204444444444444,
|
|
"loss": 0.0006,
|
|
"step": 1980
|
|
},
|
|
{
|
|
"epoch": 6.616666666666667,
|
|
"grad_norm": 0.0027420404367148876,
|
|
"learning_rate": 0.00011182222222222223,
|
|
"loss": 0.0006,
|
|
"step": 1985
|
|
},
|
|
{
|
|
"epoch": 6.633333333333333,
|
|
"grad_norm": 0.0032716391142457724,
|
|
"learning_rate": 0.00011160000000000002,
|
|
"loss": 0.0006,
|
|
"step": 1990
|
|
},
|
|
{
|
|
"epoch": 6.65,
|
|
"grad_norm": 0.002799520967528224,
|
|
"learning_rate": 0.00011137777777777779,
|
|
"loss": 0.0006,
|
|
"step": 1995
|
|
},
|
|
{
|
|
"epoch": 6.666666666666667,
|
|
"grad_norm": 0.0034133754670619965,
|
|
"learning_rate": 0.00011115555555555557,
|
|
"loss": 0.0006,
|
|
"step": 2000
|
|
},
|
|
{
|
|
"epoch": 6.666666666666667,
|
|
"eval_accuracy": 0.8825,
|
|
"eval_f1": 0.879514718200063,
|
|
"eval_loss": 0.7953646779060364,
|
|
"eval_precision": 0.8925542663457074,
|
|
"eval_recall": 0.8825,
|
|
"eval_runtime": 8.4819,
|
|
"eval_samples_per_second": 141.477,
|
|
"eval_steps_per_second": 17.685,
|
|
"step": 2000
|
|
},
|
|
{
|
|
"epoch": 6.683333333333334,
|
|
"grad_norm": 0.0026530215982347727,
|
|
"learning_rate": 0.00011093333333333334,
|
|
"loss": 0.0006,
|
|
"step": 2005
|
|
},
|
|
{
|
|
"epoch": 6.7,
|
|
"grad_norm": 0.0025650160387158394,
|
|
"learning_rate": 0.00011071111111111112,
|
|
"loss": 0.0006,
|
|
"step": 2010
|
|
},
|
|
{
|
|
"epoch": 6.716666666666667,
|
|
"grad_norm": 0.0035439005587249994,
|
|
"learning_rate": 0.00011048888888888889,
|
|
"loss": 0.0006,
|
|
"step": 2015
|
|
},
|
|
{
|
|
"epoch": 6.733333333333333,
|
|
"grad_norm": 0.0019511673599481583,
|
|
"learning_rate": 0.00011026666666666667,
|
|
"loss": 0.0005,
|
|
"step": 2020
|
|
},
|
|
{
|
|
"epoch": 6.75,
|
|
"grad_norm": 0.0025025131180882454,
|
|
"learning_rate": 0.00011004444444444444,
|
|
"loss": 0.0006,
|
|
"step": 2025
|
|
},
|
|
{
|
|
"epoch": 6.766666666666667,
|
|
"grad_norm": 0.002607636386528611,
|
|
"learning_rate": 0.00010982222222222222,
|
|
"loss": 0.0006,
|
|
"step": 2030
|
|
},
|
|
{
|
|
"epoch": 6.783333333333333,
|
|
"grad_norm": 0.00222940556704998,
|
|
"learning_rate": 0.00010960000000000001,
|
|
"loss": 0.0006,
|
|
"step": 2035
|
|
},
|
|
{
|
|
"epoch": 6.8,
|
|
"grad_norm": 0.0024641987401992083,
|
|
"learning_rate": 0.00010937777777777778,
|
|
"loss": 0.0016,
|
|
"step": 2040
|
|
},
|
|
{
|
|
"epoch": 6.816666666666666,
|
|
"grad_norm": 0.00301099824719131,
|
|
"learning_rate": 0.00010915555555555556,
|
|
"loss": 0.0006,
|
|
"step": 2045
|
|
},
|
|
{
|
|
"epoch": 6.833333333333333,
|
|
"grad_norm": 1.6235581636428833,
|
|
"learning_rate": 0.00010893333333333333,
|
|
"loss": 0.0939,
|
|
"step": 2050
|
|
},
|
|
{
|
|
"epoch": 6.85,
|
|
"grad_norm": 0.0036449162289500237,
|
|
"learning_rate": 0.00010871111111111113,
|
|
"loss": 0.0006,
|
|
"step": 2055
|
|
},
|
|
{
|
|
"epoch": 6.866666666666667,
|
|
"grad_norm": 0.01936226338148117,
|
|
"learning_rate": 0.00010848888888888888,
|
|
"loss": 0.001,
|
|
"step": 2060
|
|
},
|
|
{
|
|
"epoch": 6.883333333333333,
|
|
"grad_norm": 0.015576176345348358,
|
|
"learning_rate": 0.00010826666666666668,
|
|
"loss": 0.0015,
|
|
"step": 2065
|
|
},
|
|
{
|
|
"epoch": 6.9,
|
|
"grad_norm": 0.015317040495574474,
|
|
"learning_rate": 0.00010804444444444446,
|
|
"loss": 0.0013,
|
|
"step": 2070
|
|
},
|
|
{
|
|
"epoch": 6.916666666666667,
|
|
"grad_norm": 0.019998151808977127,
|
|
"learning_rate": 0.00010782222222222223,
|
|
"loss": 0.0013,
|
|
"step": 2075
|
|
},
|
|
{
|
|
"epoch": 6.933333333333334,
|
|
"grad_norm": 0.005999366287142038,
|
|
"learning_rate": 0.00010760000000000001,
|
|
"loss": 0.0015,
|
|
"step": 2080
|
|
},
|
|
{
|
|
"epoch": 6.95,
|
|
"grad_norm": 0.009385558776557446,
|
|
"learning_rate": 0.00010737777777777778,
|
|
"loss": 0.001,
|
|
"step": 2085
|
|
},
|
|
{
|
|
"epoch": 6.966666666666667,
|
|
"grad_norm": 0.0035112854093313217,
|
|
"learning_rate": 0.00010715555555555557,
|
|
"loss": 0.001,
|
|
"step": 2090
|
|
},
|
|
{
|
|
"epoch": 6.983333333333333,
|
|
"grad_norm": 0.0031134693417698145,
|
|
"learning_rate": 0.00010693333333333333,
|
|
"loss": 0.001,
|
|
"step": 2095
|
|
},
|
|
{
|
|
"epoch": 7.0,
|
|
"grad_norm": 0.00348948547616601,
|
|
"learning_rate": 0.00010671111111111112,
|
|
"loss": 0.0007,
|
|
"step": 2100
|
|
},
|
|
{
|
|
"epoch": 7.0,
|
|
"eval_accuracy": 0.8475,
|
|
"eval_f1": 0.84382887232843,
|
|
"eval_loss": 1.0196360349655151,
|
|
"eval_precision": 0.8639553007901826,
|
|
"eval_recall": 0.8475,
|
|
"eval_runtime": 8.6327,
|
|
"eval_samples_per_second": 139.007,
|
|
"eval_steps_per_second": 17.376,
|
|
"step": 2100
|
|
},
|
|
{
|
|
"epoch": 7.016666666666667,
|
|
"grad_norm": 0.002782625611871481,
|
|
"learning_rate": 0.0001064888888888889,
|
|
"loss": 0.0641,
|
|
"step": 2105
|
|
},
|
|
{
|
|
"epoch": 7.033333333333333,
|
|
"grad_norm": 0.0025441725738346577,
|
|
"learning_rate": 0.00010626666666666667,
|
|
"loss": 0.0007,
|
|
"step": 2110
|
|
},
|
|
{
|
|
"epoch": 7.05,
|
|
"grad_norm": 0.13979198038578033,
|
|
"learning_rate": 0.00010604444444444445,
|
|
"loss": 0.0188,
|
|
"step": 2115
|
|
},
|
|
{
|
|
"epoch": 7.066666666666666,
|
|
"grad_norm": 0.02321728505194187,
|
|
"learning_rate": 0.00010582222222222222,
|
|
"loss": 0.0006,
|
|
"step": 2120
|
|
},
|
|
{
|
|
"epoch": 7.083333333333333,
|
|
"grad_norm": 0.0030887930188328028,
|
|
"learning_rate": 0.0001056,
|
|
"loss": 0.07,
|
|
"step": 2125
|
|
},
|
|
{
|
|
"epoch": 7.1,
|
|
"grad_norm": 0.003165618749335408,
|
|
"learning_rate": 0.00010537777777777777,
|
|
"loss": 0.0006,
|
|
"step": 2130
|
|
},
|
|
{
|
|
"epoch": 7.116666666666666,
|
|
"grad_norm": 0.0027039654087275267,
|
|
"learning_rate": 0.00010515555555555556,
|
|
"loss": 0.0007,
|
|
"step": 2135
|
|
},
|
|
{
|
|
"epoch": 7.133333333333334,
|
|
"grad_norm": 0.0025635671336203814,
|
|
"learning_rate": 0.00010493333333333333,
|
|
"loss": 0.0006,
|
|
"step": 2140
|
|
},
|
|
{
|
|
"epoch": 7.15,
|
|
"grad_norm": 0.0027596934232860804,
|
|
"learning_rate": 0.00010471111111111111,
|
|
"loss": 0.0007,
|
|
"step": 2145
|
|
},
|
|
{
|
|
"epoch": 7.166666666666667,
|
|
"grad_norm": 0.0031290268525481224,
|
|
"learning_rate": 0.0001044888888888889,
|
|
"loss": 0.0006,
|
|
"step": 2150
|
|
},
|
|
{
|
|
"epoch": 7.183333333333334,
|
|
"grad_norm": 0.0026961718685925007,
|
|
"learning_rate": 0.00010426666666666666,
|
|
"loss": 0.0006,
|
|
"step": 2155
|
|
},
|
|
{
|
|
"epoch": 7.2,
|
|
"grad_norm": 0.0025459695607423782,
|
|
"learning_rate": 0.00010404444444444446,
|
|
"loss": 0.0006,
|
|
"step": 2160
|
|
},
|
|
{
|
|
"epoch": 7.216666666666667,
|
|
"grad_norm": 0.0036110514774918556,
|
|
"learning_rate": 0.00010382222222222221,
|
|
"loss": 0.0006,
|
|
"step": 2165
|
|
},
|
|
{
|
|
"epoch": 7.233333333333333,
|
|
"grad_norm": 0.003302538301795721,
|
|
"learning_rate": 0.00010360000000000001,
|
|
"loss": 0.0005,
|
|
"step": 2170
|
|
},
|
|
{
|
|
"epoch": 7.25,
|
|
"grad_norm": 0.0046531339175999165,
|
|
"learning_rate": 0.00010337777777777777,
|
|
"loss": 0.0006,
|
|
"step": 2175
|
|
},
|
|
{
|
|
"epoch": 7.266666666666667,
|
|
"grad_norm": 0.0023748010862618685,
|
|
"learning_rate": 0.00010315555555555556,
|
|
"loss": 0.0006,
|
|
"step": 2180
|
|
},
|
|
{
|
|
"epoch": 7.283333333333333,
|
|
"grad_norm": 0.004215647932142019,
|
|
"learning_rate": 0.00010293333333333335,
|
|
"loss": 0.0006,
|
|
"step": 2185
|
|
},
|
|
{
|
|
"epoch": 7.3,
|
|
"grad_norm": 0.0020745014771819115,
|
|
"learning_rate": 0.00010271111111111112,
|
|
"loss": 0.0009,
|
|
"step": 2190
|
|
},
|
|
{
|
|
"epoch": 7.316666666666666,
|
|
"grad_norm": 0.0031880170572549105,
|
|
"learning_rate": 0.0001024888888888889,
|
|
"loss": 0.0005,
|
|
"step": 2195
|
|
},
|
|
{
|
|
"epoch": 7.333333333333333,
|
|
"grad_norm": 0.0022652570623904467,
|
|
"learning_rate": 0.00010226666666666667,
|
|
"loss": 0.0005,
|
|
"step": 2200
|
|
},
|
|
{
|
|
"epoch": 7.333333333333333,
|
|
"eval_accuracy": 0.8508333333333333,
|
|
"eval_f1": 0.8463261909627133,
|
|
"eval_loss": 1.064659833908081,
|
|
"eval_precision": 0.8664573917988446,
|
|
"eval_recall": 0.8508333333333333,
|
|
"eval_runtime": 8.4203,
|
|
"eval_samples_per_second": 142.512,
|
|
"eval_steps_per_second": 17.814,
|
|
"step": 2200
|
|
},
|
|
{
|
|
"epoch": 7.35,
|
|
"grad_norm": 0.0027140197344124317,
|
|
"learning_rate": 0.00010204444444444445,
|
|
"loss": 0.0006,
|
|
"step": 2205
|
|
},
|
|
{
|
|
"epoch": 7.366666666666666,
|
|
"grad_norm": 0.004270640667527914,
|
|
"learning_rate": 0.00010182222222222222,
|
|
"loss": 0.0005,
|
|
"step": 2210
|
|
},
|
|
{
|
|
"epoch": 7.383333333333334,
|
|
"grad_norm": 0.001891718478873372,
|
|
"learning_rate": 0.0001016,
|
|
"loss": 0.0008,
|
|
"step": 2215
|
|
},
|
|
{
|
|
"epoch": 7.4,
|
|
"grad_norm": 0.0024542182218283415,
|
|
"learning_rate": 0.0001013777777777778,
|
|
"loss": 0.0005,
|
|
"step": 2220
|
|
},
|
|
{
|
|
"epoch": 7.416666666666667,
|
|
"grad_norm": 0.14781856536865234,
|
|
"learning_rate": 0.00010115555555555556,
|
|
"loss": 0.0007,
|
|
"step": 2225
|
|
},
|
|
{
|
|
"epoch": 7.433333333333334,
|
|
"grad_norm": 0.002086364198476076,
|
|
"learning_rate": 0.00010093333333333335,
|
|
"loss": 0.0005,
|
|
"step": 2230
|
|
},
|
|
{
|
|
"epoch": 7.45,
|
|
"grad_norm": 0.001884354860521853,
|
|
"learning_rate": 0.00010071111111111111,
|
|
"loss": 0.0005,
|
|
"step": 2235
|
|
},
|
|
{
|
|
"epoch": 7.466666666666667,
|
|
"grad_norm": 0.0029874600004404783,
|
|
"learning_rate": 0.0001004888888888889,
|
|
"loss": 0.0005,
|
|
"step": 2240
|
|
},
|
|
{
|
|
"epoch": 7.483333333333333,
|
|
"grad_norm": 0.0021988521330058575,
|
|
"learning_rate": 0.00010026666666666666,
|
|
"loss": 0.0005,
|
|
"step": 2245
|
|
},
|
|
{
|
|
"epoch": 7.5,
|
|
"grad_norm": 0.002084364416077733,
|
|
"learning_rate": 0.00010004444444444446,
|
|
"loss": 0.0005,
|
|
"step": 2250
|
|
},
|
|
{
|
|
"epoch": 7.516666666666667,
|
|
"grad_norm": 0.0024356828071177006,
|
|
"learning_rate": 9.982222222222223e-05,
|
|
"loss": 0.0006,
|
|
"step": 2255
|
|
},
|
|
{
|
|
"epoch": 7.533333333333333,
|
|
"grad_norm": 0.002192368498072028,
|
|
"learning_rate": 9.960000000000001e-05,
|
|
"loss": 0.0005,
|
|
"step": 2260
|
|
},
|
|
{
|
|
"epoch": 7.55,
|
|
"grad_norm": 0.0032441699877381325,
|
|
"learning_rate": 9.937777777777778e-05,
|
|
"loss": 0.0005,
|
|
"step": 2265
|
|
},
|
|
{
|
|
"epoch": 7.566666666666666,
|
|
"grad_norm": 0.0024502137675881386,
|
|
"learning_rate": 9.915555555555556e-05,
|
|
"loss": 0.0005,
|
|
"step": 2270
|
|
},
|
|
{
|
|
"epoch": 7.583333333333333,
|
|
"grad_norm": 0.002073746407404542,
|
|
"learning_rate": 9.893333333333333e-05,
|
|
"loss": 0.0005,
|
|
"step": 2275
|
|
},
|
|
{
|
|
"epoch": 7.6,
|
|
"grad_norm": 0.0021007428877055645,
|
|
"learning_rate": 9.871111111111113e-05,
|
|
"loss": 0.0005,
|
|
"step": 2280
|
|
},
|
|
{
|
|
"epoch": 7.616666666666667,
|
|
"grad_norm": 0.001993477111682296,
|
|
"learning_rate": 9.84888888888889e-05,
|
|
"loss": 0.0005,
|
|
"step": 2285
|
|
},
|
|
{
|
|
"epoch": 7.633333333333333,
|
|
"grad_norm": 0.0021192326676100492,
|
|
"learning_rate": 9.826666666666668e-05,
|
|
"loss": 0.0132,
|
|
"step": 2290
|
|
},
|
|
{
|
|
"epoch": 7.65,
|
|
"grad_norm": 0.002214607549831271,
|
|
"learning_rate": 9.804444444444445e-05,
|
|
"loss": 0.0005,
|
|
"step": 2295
|
|
},
|
|
{
|
|
"epoch": 7.666666666666667,
|
|
"grad_norm": 0.0019857583101838827,
|
|
"learning_rate": 9.782222222222223e-05,
|
|
"loss": 0.0005,
|
|
"step": 2300
|
|
},
|
|
{
|
|
"epoch": 7.666666666666667,
|
|
"eval_accuracy": 0.8125,
|
|
"eval_f1": 0.8110777221034449,
|
|
"eval_loss": 1.2970032691955566,
|
|
"eval_precision": 0.8430169670888199,
|
|
"eval_recall": 0.8125,
|
|
"eval_runtime": 8.2918,
|
|
"eval_samples_per_second": 144.72,
|
|
"eval_steps_per_second": 18.09,
|
|
"step": 2300
|
|
},
|
|
{
|
|
"epoch": 7.683333333333334,
|
|
"grad_norm": 0.002051049144938588,
|
|
"learning_rate": 9.76e-05,
|
|
"loss": 0.0005,
|
|
"step": 2305
|
|
},
|
|
{
|
|
"epoch": 7.7,
|
|
"grad_norm": 0.0017361313803121448,
|
|
"learning_rate": 9.737777777777778e-05,
|
|
"loss": 0.093,
|
|
"step": 2310
|
|
},
|
|
{
|
|
"epoch": 7.716666666666667,
|
|
"grad_norm": 0.0025037815794348717,
|
|
"learning_rate": 9.715555555555555e-05,
|
|
"loss": 0.0515,
|
|
"step": 2315
|
|
},
|
|
{
|
|
"epoch": 7.733333333333333,
|
|
"grad_norm": 0.003869944717735052,
|
|
"learning_rate": 9.693333333333335e-05,
|
|
"loss": 0.0006,
|
|
"step": 2320
|
|
},
|
|
{
|
|
"epoch": 7.75,
|
|
"grad_norm": 0.0023458856157958508,
|
|
"learning_rate": 9.671111111111112e-05,
|
|
"loss": 0.0542,
|
|
"step": 2325
|
|
},
|
|
{
|
|
"epoch": 7.766666666666667,
|
|
"grad_norm": 0.005104554817080498,
|
|
"learning_rate": 9.64888888888889e-05,
|
|
"loss": 0.0006,
|
|
"step": 2330
|
|
},
|
|
{
|
|
"epoch": 7.783333333333333,
|
|
"grad_norm": 0.0024311754386872053,
|
|
"learning_rate": 9.626666666666667e-05,
|
|
"loss": 0.0005,
|
|
"step": 2335
|
|
},
|
|
{
|
|
"epoch": 7.8,
|
|
"grad_norm": 0.005760380998253822,
|
|
"learning_rate": 9.604444444444445e-05,
|
|
"loss": 0.0005,
|
|
"step": 2340
|
|
},
|
|
{
|
|
"epoch": 7.816666666666666,
|
|
"grad_norm": 0.0031037896405905485,
|
|
"learning_rate": 9.582222222222222e-05,
|
|
"loss": 0.0006,
|
|
"step": 2345
|
|
},
|
|
{
|
|
"epoch": 7.833333333333333,
|
|
"grad_norm": 0.002071030205115676,
|
|
"learning_rate": 9.56e-05,
|
|
"loss": 0.0005,
|
|
"step": 2350
|
|
},
|
|
{
|
|
"epoch": 7.85,
|
|
"grad_norm": 0.0038880386855453253,
|
|
"learning_rate": 9.537777777777778e-05,
|
|
"loss": 0.0005,
|
|
"step": 2355
|
|
},
|
|
{
|
|
"epoch": 7.866666666666667,
|
|
"grad_norm": 0.0015718061476945877,
|
|
"learning_rate": 9.515555555555556e-05,
|
|
"loss": 0.0005,
|
|
"step": 2360
|
|
},
|
|
{
|
|
"epoch": 7.883333333333333,
|
|
"grad_norm": 0.0021492764353752136,
|
|
"learning_rate": 9.493333333333334e-05,
|
|
"loss": 0.0005,
|
|
"step": 2365
|
|
},
|
|
{
|
|
"epoch": 7.9,
|
|
"grad_norm": 0.001888036960735917,
|
|
"learning_rate": 9.471111111111111e-05,
|
|
"loss": 0.0004,
|
|
"step": 2370
|
|
},
|
|
{
|
|
"epoch": 7.916666666666667,
|
|
"grad_norm": 0.0022231729235500097,
|
|
"learning_rate": 9.44888888888889e-05,
|
|
"loss": 0.0005,
|
|
"step": 2375
|
|
},
|
|
{
|
|
"epoch": 7.933333333333334,
|
|
"grad_norm": 0.0030491272918879986,
|
|
"learning_rate": 9.426666666666666e-05,
|
|
"loss": 0.0005,
|
|
"step": 2380
|
|
},
|
|
{
|
|
"epoch": 7.95,
|
|
"grad_norm": 0.0020528859458863735,
|
|
"learning_rate": 9.404444444444445e-05,
|
|
"loss": 0.0005,
|
|
"step": 2385
|
|
},
|
|
{
|
|
"epoch": 7.966666666666667,
|
|
"grad_norm": 0.0019649346359074116,
|
|
"learning_rate": 9.382222222222223e-05,
|
|
"loss": 0.0004,
|
|
"step": 2390
|
|
},
|
|
{
|
|
"epoch": 7.983333333333333,
|
|
"grad_norm": 0.0034376399125903845,
|
|
"learning_rate": 9.360000000000001e-05,
|
|
"loss": 0.0011,
|
|
"step": 2395
|
|
},
|
|
{
|
|
"epoch": 8.0,
|
|
"grad_norm": 0.002521902322769165,
|
|
"learning_rate": 9.337777777777778e-05,
|
|
"loss": 0.0005,
|
|
"step": 2400
|
|
},
|
|
{
|
|
"epoch": 8.0,
|
|
"eval_accuracy": 0.8166666666666667,
|
|
"eval_f1": 0.8143439057990626,
|
|
"eval_loss": 1.2049200534820557,
|
|
"eval_precision": 0.8214041241299835,
|
|
"eval_recall": 0.8166666666666667,
|
|
"eval_runtime": 8.4688,
|
|
"eval_samples_per_second": 141.697,
|
|
"eval_steps_per_second": 17.712,
|
|
"step": 2400
|
|
},
|
|
{
|
|
"epoch": 8.016666666666667,
|
|
"grad_norm": 0.002076116157695651,
|
|
"learning_rate": 9.315555555555556e-05,
|
|
"loss": 0.0005,
|
|
"step": 2405
|
|
},
|
|
{
|
|
"epoch": 8.033333333333333,
|
|
"grad_norm": 0.0025723432190716267,
|
|
"learning_rate": 9.293333333333333e-05,
|
|
"loss": 0.0005,
|
|
"step": 2410
|
|
},
|
|
{
|
|
"epoch": 8.05,
|
|
"grad_norm": 0.0020202461164444685,
|
|
"learning_rate": 9.271111111111112e-05,
|
|
"loss": 0.0005,
|
|
"step": 2415
|
|
},
|
|
{
|
|
"epoch": 8.066666666666666,
|
|
"grad_norm": 0.001939392532221973,
|
|
"learning_rate": 9.248888888888889e-05,
|
|
"loss": 0.0005,
|
|
"step": 2420
|
|
},
|
|
{
|
|
"epoch": 8.083333333333334,
|
|
"grad_norm": 0.0018050920916721225,
|
|
"learning_rate": 9.226666666666667e-05,
|
|
"loss": 0.002,
|
|
"step": 2425
|
|
},
|
|
{
|
|
"epoch": 8.1,
|
|
"grad_norm": 0.003142706351354718,
|
|
"learning_rate": 9.204444444444444e-05,
|
|
"loss": 0.0005,
|
|
"step": 2430
|
|
},
|
|
{
|
|
"epoch": 8.116666666666667,
|
|
"grad_norm": 0.002595666330307722,
|
|
"learning_rate": 9.182222222222223e-05,
|
|
"loss": 0.0006,
|
|
"step": 2435
|
|
},
|
|
{
|
|
"epoch": 8.133333333333333,
|
|
"grad_norm": 1.7766621112823486,
|
|
"learning_rate": 9.16e-05,
|
|
"loss": 0.0063,
|
|
"step": 2440
|
|
},
|
|
{
|
|
"epoch": 8.15,
|
|
"grad_norm": 0.003581622615456581,
|
|
"learning_rate": 9.137777777777779e-05,
|
|
"loss": 0.0004,
|
|
"step": 2445
|
|
},
|
|
{
|
|
"epoch": 8.166666666666666,
|
|
"grad_norm": 0.0047254012897610664,
|
|
"learning_rate": 9.115555555555556e-05,
|
|
"loss": 0.0005,
|
|
"step": 2450
|
|
},
|
|
{
|
|
"epoch": 8.183333333333334,
|
|
"grad_norm": 0.0016325454926118255,
|
|
"learning_rate": 9.093333333333334e-05,
|
|
"loss": 0.0639,
|
|
"step": 2455
|
|
},
|
|
{
|
|
"epoch": 8.2,
|
|
"grad_norm": 0.006115608382970095,
|
|
"learning_rate": 9.071111111111111e-05,
|
|
"loss": 0.0034,
|
|
"step": 2460
|
|
},
|
|
{
|
|
"epoch": 8.216666666666667,
|
|
"grad_norm": 0.006886833347380161,
|
|
"learning_rate": 9.048888888888889e-05,
|
|
"loss": 0.0005,
|
|
"step": 2465
|
|
},
|
|
{
|
|
"epoch": 8.233333333333333,
|
|
"grad_norm": 0.003666622331365943,
|
|
"learning_rate": 9.026666666666666e-05,
|
|
"loss": 0.0794,
|
|
"step": 2470
|
|
},
|
|
{
|
|
"epoch": 8.25,
|
|
"grad_norm": 0.00164215883705765,
|
|
"learning_rate": 9.004444444444446e-05,
|
|
"loss": 0.0004,
|
|
"step": 2475
|
|
},
|
|
{
|
|
"epoch": 8.266666666666667,
|
|
"grad_norm": 0.002379081444814801,
|
|
"learning_rate": 8.982222222222223e-05,
|
|
"loss": 0.0005,
|
|
"step": 2480
|
|
},
|
|
{
|
|
"epoch": 8.283333333333333,
|
|
"grad_norm": 0.006122312042862177,
|
|
"learning_rate": 8.960000000000001e-05,
|
|
"loss": 0.0005,
|
|
"step": 2485
|
|
},
|
|
{
|
|
"epoch": 8.3,
|
|
"grad_norm": 0.0019356354605406523,
|
|
"learning_rate": 8.937777777777778e-05,
|
|
"loss": 0.0017,
|
|
"step": 2490
|
|
},
|
|
{
|
|
"epoch": 8.316666666666666,
|
|
"grad_norm": 0.0018204948864877224,
|
|
"learning_rate": 8.915555555555556e-05,
|
|
"loss": 0.0005,
|
|
"step": 2495
|
|
},
|
|
{
|
|
"epoch": 8.333333333333334,
|
|
"grad_norm": 0.0024176621809601784,
|
|
"learning_rate": 8.893333333333333e-05,
|
|
"loss": 0.0021,
|
|
"step": 2500
|
|
},
|
|
{
|
|
"epoch": 8.333333333333334,
|
|
"eval_accuracy": 0.8641666666666666,
|
|
"eval_f1": 0.8601825093650314,
|
|
"eval_loss": 0.9407299757003784,
|
|
"eval_precision": 0.8663328974467144,
|
|
"eval_recall": 0.8641666666666666,
|
|
"eval_runtime": 8.634,
|
|
"eval_samples_per_second": 138.986,
|
|
"eval_steps_per_second": 17.373,
|
|
"step": 2500
|
|
},
|
|
{
|
|
"epoch": 8.35,
|
|
"grad_norm": 0.002498525893315673,
|
|
"learning_rate": 8.871111111111111e-05,
|
|
"loss": 0.0004,
|
|
"step": 2505
|
|
},
|
|
{
|
|
"epoch": 8.366666666666667,
|
|
"grad_norm": 0.0384209118783474,
|
|
"learning_rate": 8.848888888888888e-05,
|
|
"loss": 0.0005,
|
|
"step": 2510
|
|
},
|
|
{
|
|
"epoch": 8.383333333333333,
|
|
"grad_norm": 0.003669807454571128,
|
|
"learning_rate": 8.826666666666668e-05,
|
|
"loss": 0.0005,
|
|
"step": 2515
|
|
},
|
|
{
|
|
"epoch": 8.4,
|
|
"grad_norm": 0.0021935757249593735,
|
|
"learning_rate": 8.804444444444445e-05,
|
|
"loss": 0.0005,
|
|
"step": 2520
|
|
},
|
|
{
|
|
"epoch": 8.416666666666666,
|
|
"grad_norm": 0.0066655161790549755,
|
|
"learning_rate": 8.782222222222223e-05,
|
|
"loss": 0.0006,
|
|
"step": 2525
|
|
},
|
|
{
|
|
"epoch": 8.433333333333334,
|
|
"grad_norm": 0.001873963512480259,
|
|
"learning_rate": 8.76e-05,
|
|
"loss": 0.0005,
|
|
"step": 2530
|
|
},
|
|
{
|
|
"epoch": 8.45,
|
|
"grad_norm": 0.002338885562494397,
|
|
"learning_rate": 8.737777777777778e-05,
|
|
"loss": 0.0572,
|
|
"step": 2535
|
|
},
|
|
{
|
|
"epoch": 8.466666666666667,
|
|
"grad_norm": 0.0019337664125487208,
|
|
"learning_rate": 8.715555555555555e-05,
|
|
"loss": 0.0298,
|
|
"step": 2540
|
|
},
|
|
{
|
|
"epoch": 8.483333333333333,
|
|
"grad_norm": 0.0015296690398827195,
|
|
"learning_rate": 8.693333333333334e-05,
|
|
"loss": 0.0004,
|
|
"step": 2545
|
|
},
|
|
{
|
|
"epoch": 8.5,
|
|
"grad_norm": 0.0027683323714882135,
|
|
"learning_rate": 8.671111111111112e-05,
|
|
"loss": 0.0005,
|
|
"step": 2550
|
|
},
|
|
{
|
|
"epoch": 8.516666666666667,
|
|
"grad_norm": 0.6706671714782715,
|
|
"learning_rate": 8.64888888888889e-05,
|
|
"loss": 0.0011,
|
|
"step": 2555
|
|
},
|
|
{
|
|
"epoch": 8.533333333333333,
|
|
"grad_norm": 0.001669232384301722,
|
|
"learning_rate": 8.626666666666667e-05,
|
|
"loss": 0.0078,
|
|
"step": 2560
|
|
},
|
|
{
|
|
"epoch": 8.55,
|
|
"grad_norm": 0.01035506371408701,
|
|
"learning_rate": 8.604444444444445e-05,
|
|
"loss": 0.0005,
|
|
"step": 2565
|
|
},
|
|
{
|
|
"epoch": 8.566666666666666,
|
|
"grad_norm": 0.002854671562090516,
|
|
"learning_rate": 8.582222222222222e-05,
|
|
"loss": 0.0004,
|
|
"step": 2570
|
|
},
|
|
{
|
|
"epoch": 8.583333333333334,
|
|
"grad_norm": 0.0019188800361007452,
|
|
"learning_rate": 8.560000000000001e-05,
|
|
"loss": 0.0005,
|
|
"step": 2575
|
|
},
|
|
{
|
|
"epoch": 8.6,
|
|
"grad_norm": 18.827878952026367,
|
|
"learning_rate": 8.537777777777778e-05,
|
|
"loss": 0.0169,
|
|
"step": 2580
|
|
},
|
|
{
|
|
"epoch": 8.616666666666667,
|
|
"grad_norm": 0.002589485375210643,
|
|
"learning_rate": 8.515555555555556e-05,
|
|
"loss": 0.0004,
|
|
"step": 2585
|
|
},
|
|
{
|
|
"epoch": 8.633333333333333,
|
|
"grad_norm": 0.0025287193711847067,
|
|
"learning_rate": 8.493333333333334e-05,
|
|
"loss": 0.0758,
|
|
"step": 2590
|
|
},
|
|
{
|
|
"epoch": 8.65,
|
|
"grad_norm": 0.005133676342666149,
|
|
"learning_rate": 8.471111111111113e-05,
|
|
"loss": 0.0005,
|
|
"step": 2595
|
|
},
|
|
{
|
|
"epoch": 8.666666666666666,
|
|
"grad_norm": 0.06638040393590927,
|
|
"learning_rate": 8.44888888888889e-05,
|
|
"loss": 0.0006,
|
|
"step": 2600
|
|
},
|
|
{
|
|
"epoch": 8.666666666666666,
|
|
"eval_accuracy": 0.7258333333333333,
|
|
"eval_f1": 0.7256120637421509,
|
|
"eval_loss": 1.842067837715149,
|
|
"eval_precision": 0.8273062634764762,
|
|
"eval_recall": 0.7258333333333333,
|
|
"eval_runtime": 8.4061,
|
|
"eval_samples_per_second": 142.753,
|
|
"eval_steps_per_second": 17.844,
|
|
"step": 2600
|
|
},
|
|
{
|
|
"epoch": 8.683333333333334,
|
|
"grad_norm": 0.015184612944722176,
|
|
"learning_rate": 8.426666666666668e-05,
|
|
"loss": 0.0032,
|
|
"step": 2605
|
|
},
|
|
{
|
|
"epoch": 8.7,
|
|
"grad_norm": 0.0024708874989300966,
|
|
"learning_rate": 8.404444444444445e-05,
|
|
"loss": 0.0005,
|
|
"step": 2610
|
|
},
|
|
{
|
|
"epoch": 8.716666666666667,
|
|
"grad_norm": 0.002203833544626832,
|
|
"learning_rate": 8.382222222222223e-05,
|
|
"loss": 0.0004,
|
|
"step": 2615
|
|
},
|
|
{
|
|
"epoch": 8.733333333333333,
|
|
"grad_norm": 0.001893380074761808,
|
|
"learning_rate": 8.36e-05,
|
|
"loss": 0.0005,
|
|
"step": 2620
|
|
},
|
|
{
|
|
"epoch": 8.75,
|
|
"grad_norm": 0.002038012258708477,
|
|
"learning_rate": 8.337777777777778e-05,
|
|
"loss": 0.0005,
|
|
"step": 2625
|
|
},
|
|
{
|
|
"epoch": 8.766666666666667,
|
|
"grad_norm": 0.001939457026310265,
|
|
"learning_rate": 8.315555555555557e-05,
|
|
"loss": 0.0004,
|
|
"step": 2630
|
|
},
|
|
{
|
|
"epoch": 8.783333333333333,
|
|
"grad_norm": 0.00247605936601758,
|
|
"learning_rate": 8.293333333333333e-05,
|
|
"loss": 0.0005,
|
|
"step": 2635
|
|
},
|
|
{
|
|
"epoch": 8.8,
|
|
"grad_norm": 0.0016201582038775086,
|
|
"learning_rate": 8.271111111111112e-05,
|
|
"loss": 0.0004,
|
|
"step": 2640
|
|
},
|
|
{
|
|
"epoch": 8.816666666666666,
|
|
"grad_norm": 0.0017054718919098377,
|
|
"learning_rate": 8.248888888888889e-05,
|
|
"loss": 0.0004,
|
|
"step": 2645
|
|
},
|
|
{
|
|
"epoch": 8.833333333333334,
|
|
"grad_norm": 0.003758511506021023,
|
|
"learning_rate": 8.226666666666667e-05,
|
|
"loss": 0.0004,
|
|
"step": 2650
|
|
},
|
|
{
|
|
"epoch": 8.85,
|
|
"grad_norm": 0.002900876337662339,
|
|
"learning_rate": 8.204444444444445e-05,
|
|
"loss": 0.0004,
|
|
"step": 2655
|
|
},
|
|
{
|
|
"epoch": 8.866666666666667,
|
|
"grad_norm": 0.0018155504949390888,
|
|
"learning_rate": 8.182222222222222e-05,
|
|
"loss": 0.0004,
|
|
"step": 2660
|
|
},
|
|
{
|
|
"epoch": 8.883333333333333,
|
|
"grad_norm": 0.003782250452786684,
|
|
"learning_rate": 8.16e-05,
|
|
"loss": 0.0004,
|
|
"step": 2665
|
|
},
|
|
{
|
|
"epoch": 8.9,
|
|
"grad_norm": 0.0020743105560541153,
|
|
"learning_rate": 8.137777777777779e-05,
|
|
"loss": 0.0004,
|
|
"step": 2670
|
|
},
|
|
{
|
|
"epoch": 8.916666666666666,
|
|
"grad_norm": 0.22320835292339325,
|
|
"learning_rate": 8.115555555555556e-05,
|
|
"loss": 0.0006,
|
|
"step": 2675
|
|
},
|
|
{
|
|
"epoch": 8.933333333333334,
|
|
"grad_norm": 0.001259553013369441,
|
|
"learning_rate": 8.093333333333334e-05,
|
|
"loss": 0.0019,
|
|
"step": 2680
|
|
},
|
|
{
|
|
"epoch": 8.95,
|
|
"grad_norm": 0.002095993608236313,
|
|
"learning_rate": 8.071111111111111e-05,
|
|
"loss": 0.0004,
|
|
"step": 2685
|
|
},
|
|
{
|
|
"epoch": 8.966666666666667,
|
|
"grad_norm": 0.962779700756073,
|
|
"learning_rate": 8.048888888888889e-05,
|
|
"loss": 0.0011,
|
|
"step": 2690
|
|
},
|
|
{
|
|
"epoch": 8.983333333333333,
|
|
"grad_norm": 0.018091807141900063,
|
|
"learning_rate": 8.026666666666666e-05,
|
|
"loss": 0.0004,
|
|
"step": 2695
|
|
},
|
|
{
|
|
"epoch": 9.0,
|
|
"grad_norm": 0.006867669057101011,
|
|
"learning_rate": 8.004444444444444e-05,
|
|
"loss": 0.0005,
|
|
"step": 2700
|
|
},
|
|
{
|
|
"epoch": 9.0,
|
|
"eval_accuracy": 0.76,
|
|
"eval_f1": 0.7554989532374303,
|
|
"eval_loss": 1.6229697465896606,
|
|
"eval_precision": 0.79206692437336,
|
|
"eval_recall": 0.76,
|
|
"eval_runtime": 8.4625,
|
|
"eval_samples_per_second": 141.801,
|
|
"eval_steps_per_second": 17.725,
|
|
"step": 2700
|
|
},
|
|
{
|
|
"epoch": 9.016666666666667,
|
|
"grad_norm": 0.0026171617209911346,
|
|
"learning_rate": 7.982222222222223e-05,
|
|
"loss": 0.0571,
|
|
"step": 2705
|
|
},
|
|
{
|
|
"epoch": 9.033333333333333,
|
|
"grad_norm": 0.0015404780860990286,
|
|
"learning_rate": 7.960000000000001e-05,
|
|
"loss": 0.0004,
|
|
"step": 2710
|
|
},
|
|
{
|
|
"epoch": 9.05,
|
|
"grad_norm": 0.0015620854683220387,
|
|
"learning_rate": 7.937777777777778e-05,
|
|
"loss": 0.0004,
|
|
"step": 2715
|
|
},
|
|
{
|
|
"epoch": 9.066666666666666,
|
|
"grad_norm": 0.0020621875301003456,
|
|
"learning_rate": 7.915555555555556e-05,
|
|
"loss": 0.0004,
|
|
"step": 2720
|
|
},
|
|
{
|
|
"epoch": 9.083333333333334,
|
|
"grad_norm": 0.0017004151595756412,
|
|
"learning_rate": 7.893333333333333e-05,
|
|
"loss": 0.0005,
|
|
"step": 2725
|
|
},
|
|
{
|
|
"epoch": 9.1,
|
|
"grad_norm": 0.0019510473357513547,
|
|
"learning_rate": 7.871111111111111e-05,
|
|
"loss": 0.0004,
|
|
"step": 2730
|
|
},
|
|
{
|
|
"epoch": 9.116666666666667,
|
|
"grad_norm": 0.0029418321792036295,
|
|
"learning_rate": 7.848888888888888e-05,
|
|
"loss": 0.0004,
|
|
"step": 2735
|
|
},
|
|
{
|
|
"epoch": 9.133333333333333,
|
|
"grad_norm": 0.0032149357721209526,
|
|
"learning_rate": 7.826666666666667e-05,
|
|
"loss": 0.0005,
|
|
"step": 2740
|
|
},
|
|
{
|
|
"epoch": 9.15,
|
|
"grad_norm": 0.001790427602827549,
|
|
"learning_rate": 7.804444444444445e-05,
|
|
"loss": 0.0004,
|
|
"step": 2745
|
|
},
|
|
{
|
|
"epoch": 9.166666666666666,
|
|
"grad_norm": 0.0013530703727155924,
|
|
"learning_rate": 7.782222222222223e-05,
|
|
"loss": 0.0004,
|
|
"step": 2750
|
|
},
|
|
{
|
|
"epoch": 9.183333333333334,
|
|
"grad_norm": 0.0035368818789720535,
|
|
"learning_rate": 7.76e-05,
|
|
"loss": 0.0004,
|
|
"step": 2755
|
|
},
|
|
{
|
|
"epoch": 9.2,
|
|
"grad_norm": 0.0021714430768042803,
|
|
"learning_rate": 7.737777777777779e-05,
|
|
"loss": 0.0004,
|
|
"step": 2760
|
|
},
|
|
{
|
|
"epoch": 9.216666666666667,
|
|
"grad_norm": 0.0014961960259824991,
|
|
"learning_rate": 7.715555555555555e-05,
|
|
"loss": 0.0004,
|
|
"step": 2765
|
|
},
|
|
{
|
|
"epoch": 9.233333333333333,
|
|
"grad_norm": 0.0022291429340839386,
|
|
"learning_rate": 7.693333333333334e-05,
|
|
"loss": 0.0004,
|
|
"step": 2770
|
|
},
|
|
{
|
|
"epoch": 9.25,
|
|
"grad_norm": 0.0016520776553079486,
|
|
"learning_rate": 7.671111111111111e-05,
|
|
"loss": 0.0853,
|
|
"step": 2775
|
|
},
|
|
{
|
|
"epoch": 9.266666666666667,
|
|
"grad_norm": 0.002062709303572774,
|
|
"learning_rate": 7.648888888888889e-05,
|
|
"loss": 0.0004,
|
|
"step": 2780
|
|
},
|
|
{
|
|
"epoch": 9.283333333333333,
|
|
"grad_norm": 0.0012347393203526735,
|
|
"learning_rate": 7.626666666666667e-05,
|
|
"loss": 0.0003,
|
|
"step": 2785
|
|
},
|
|
{
|
|
"epoch": 9.3,
|
|
"grad_norm": 0.01446629874408245,
|
|
"learning_rate": 7.604444444444446e-05,
|
|
"loss": 0.0009,
|
|
"step": 2790
|
|
},
|
|
{
|
|
"epoch": 9.316666666666666,
|
|
"grad_norm": 2.312814950942993,
|
|
"learning_rate": 7.582222222222223e-05,
|
|
"loss": 0.0283,
|
|
"step": 2795
|
|
},
|
|
{
|
|
"epoch": 9.333333333333334,
|
|
"grad_norm": 7.728909969329834,
|
|
"learning_rate": 7.560000000000001e-05,
|
|
"loss": 0.0116,
|
|
"step": 2800
|
|
},
|
|
{
|
|
"epoch": 9.333333333333334,
|
|
"eval_accuracy": 0.8258333333333333,
|
|
"eval_f1": 0.8182099172908559,
|
|
"eval_loss": 1.2095714807510376,
|
|
"eval_precision": 0.849523246877837,
|
|
"eval_recall": 0.8258333333333333,
|
|
"eval_runtime": 8.4844,
|
|
"eval_samples_per_second": 141.437,
|
|
"eval_steps_per_second": 17.68,
|
|
"step": 2800
|
|
},
|
|
{
|
|
"epoch": 9.35,
|
|
"grad_norm": 0.001890773419290781,
|
|
"learning_rate": 7.537777777777778e-05,
|
|
"loss": 0.0005,
|
|
"step": 2805
|
|
},
|
|
{
|
|
"epoch": 9.366666666666667,
|
|
"grad_norm": 0.001674674334935844,
|
|
"learning_rate": 7.515555555555556e-05,
|
|
"loss": 0.0172,
|
|
"step": 2810
|
|
},
|
|
{
|
|
"epoch": 9.383333333333333,
|
|
"grad_norm": 0.001995210535824299,
|
|
"learning_rate": 7.493333333333333e-05,
|
|
"loss": 0.0004,
|
|
"step": 2815
|
|
},
|
|
{
|
|
"epoch": 9.4,
|
|
"grad_norm": 0.0033503274898976088,
|
|
"learning_rate": 7.471111111111111e-05,
|
|
"loss": 0.0005,
|
|
"step": 2820
|
|
},
|
|
{
|
|
"epoch": 9.416666666666666,
|
|
"grad_norm": 0.0014060711255297065,
|
|
"learning_rate": 7.44888888888889e-05,
|
|
"loss": 0.0008,
|
|
"step": 2825
|
|
},
|
|
{
|
|
"epoch": 9.433333333333334,
|
|
"grad_norm": 0.0012448800262063742,
|
|
"learning_rate": 7.426666666666668e-05,
|
|
"loss": 0.0003,
|
|
"step": 2830
|
|
},
|
|
{
|
|
"epoch": 9.45,
|
|
"grad_norm": 0.0031002650503069162,
|
|
"learning_rate": 7.404444444444445e-05,
|
|
"loss": 0.0004,
|
|
"step": 2835
|
|
},
|
|
{
|
|
"epoch": 9.466666666666667,
|
|
"grad_norm": 0.0019295926904305816,
|
|
"learning_rate": 7.382222222222223e-05,
|
|
"loss": 0.0003,
|
|
"step": 2840
|
|
},
|
|
{
|
|
"epoch": 9.483333333333333,
|
|
"grad_norm": 0.0019863350316882133,
|
|
"learning_rate": 7.36e-05,
|
|
"loss": 0.0004,
|
|
"step": 2845
|
|
},
|
|
{
|
|
"epoch": 9.5,
|
|
"grad_norm": 0.0016343952156603336,
|
|
"learning_rate": 7.337777777777778e-05,
|
|
"loss": 0.0007,
|
|
"step": 2850
|
|
},
|
|
{
|
|
"epoch": 9.516666666666667,
|
|
"grad_norm": 4.179478645324707,
|
|
"learning_rate": 7.315555555555555e-05,
|
|
"loss": 0.0839,
|
|
"step": 2855
|
|
},
|
|
{
|
|
"epoch": 9.533333333333333,
|
|
"grad_norm": 0.0015245769172906876,
|
|
"learning_rate": 7.293333333333334e-05,
|
|
"loss": 0.0003,
|
|
"step": 2860
|
|
},
|
|
{
|
|
"epoch": 9.55,
|
|
"grad_norm": 0.0013775582192465663,
|
|
"learning_rate": 7.271111111111112e-05,
|
|
"loss": 0.0003,
|
|
"step": 2865
|
|
},
|
|
{
|
|
"epoch": 9.566666666666666,
|
|
"grad_norm": 0.0022263024002313614,
|
|
"learning_rate": 7.24888888888889e-05,
|
|
"loss": 0.0004,
|
|
"step": 2870
|
|
},
|
|
{
|
|
"epoch": 9.583333333333334,
|
|
"grad_norm": 0.0021121418103575706,
|
|
"learning_rate": 7.226666666666667e-05,
|
|
"loss": 0.0004,
|
|
"step": 2875
|
|
},
|
|
{
|
|
"epoch": 9.6,
|
|
"grad_norm": 0.0016616969369351864,
|
|
"learning_rate": 7.204444444444445e-05,
|
|
"loss": 0.0003,
|
|
"step": 2880
|
|
},
|
|
{
|
|
"epoch": 9.616666666666667,
|
|
"grad_norm": 0.001180942403152585,
|
|
"learning_rate": 7.182222222222222e-05,
|
|
"loss": 0.0003,
|
|
"step": 2885
|
|
},
|
|
{
|
|
"epoch": 9.633333333333333,
|
|
"grad_norm": 0.0012127147056162357,
|
|
"learning_rate": 7.16e-05,
|
|
"loss": 0.0003,
|
|
"step": 2890
|
|
},
|
|
{
|
|
"epoch": 9.65,
|
|
"grad_norm": 0.001301257754676044,
|
|
"learning_rate": 7.137777777777778e-05,
|
|
"loss": 0.095,
|
|
"step": 2895
|
|
},
|
|
{
|
|
"epoch": 9.666666666666666,
|
|
"grad_norm": 0.0017142429715022445,
|
|
"learning_rate": 7.115555555555556e-05,
|
|
"loss": 0.0004,
|
|
"step": 2900
|
|
},
|
|
{
|
|
"epoch": 9.666666666666666,
|
|
"eval_accuracy": 0.8158333333333333,
|
|
"eval_f1": 0.8111211347045437,
|
|
"eval_loss": 1.4233206510543823,
|
|
"eval_precision": 0.8257994446291146,
|
|
"eval_recall": 0.8158333333333333,
|
|
"eval_runtime": 8.5411,
|
|
"eval_samples_per_second": 140.497,
|
|
"eval_steps_per_second": 17.562,
|
|
"step": 2900
|
|
},
|
|
{
|
|
"epoch": 9.683333333333334,
|
|
"grad_norm": 0.032633695751428604,
|
|
"learning_rate": 7.093333333333334e-05,
|
|
"loss": 0.1047,
|
|
"step": 2905
|
|
},
|
|
{
|
|
"epoch": 9.7,
|
|
"grad_norm": 0.0038039605133235455,
|
|
"learning_rate": 7.071111111111111e-05,
|
|
"loss": 0.0889,
|
|
"step": 2910
|
|
},
|
|
{
|
|
"epoch": 9.716666666666667,
|
|
"grad_norm": 0.0014661472523584962,
|
|
"learning_rate": 7.048888888888889e-05,
|
|
"loss": 0.0005,
|
|
"step": 2915
|
|
},
|
|
{
|
|
"epoch": 9.733333333333333,
|
|
"grad_norm": 3.3111562728881836,
|
|
"learning_rate": 7.026666666666668e-05,
|
|
"loss": 0.1009,
|
|
"step": 2920
|
|
},
|
|
{
|
|
"epoch": 9.75,
|
|
"grad_norm": 0.002511600498110056,
|
|
"learning_rate": 7.004444444444445e-05,
|
|
"loss": 0.0004,
|
|
"step": 2925
|
|
},
|
|
{
|
|
"epoch": 9.766666666666667,
|
|
"grad_norm": 0.0035750367678701878,
|
|
"learning_rate": 6.982222222222223e-05,
|
|
"loss": 0.061,
|
|
"step": 2930
|
|
},
|
|
{
|
|
"epoch": 9.783333333333333,
|
|
"grad_norm": 0.0104001360014081,
|
|
"learning_rate": 6.96e-05,
|
|
"loss": 0.0007,
|
|
"step": 2935
|
|
},
|
|
{
|
|
"epoch": 9.8,
|
|
"grad_norm": 1.0012212991714478,
|
|
"learning_rate": 6.937777777777778e-05,
|
|
"loss": 0.0025,
|
|
"step": 2940
|
|
},
|
|
{
|
|
"epoch": 9.816666666666666,
|
|
"grad_norm": 0.002306971698999405,
|
|
"learning_rate": 6.915555555555556e-05,
|
|
"loss": 0.0008,
|
|
"step": 2945
|
|
},
|
|
{
|
|
"epoch": 9.833333333333334,
|
|
"grad_norm": 7.675650596618652,
|
|
"learning_rate": 6.893333333333333e-05,
|
|
"loss": 0.0042,
|
|
"step": 2950
|
|
},
|
|
{
|
|
"epoch": 9.85,
|
|
"grad_norm": 8.966618537902832,
|
|
"learning_rate": 6.871111111111112e-05,
|
|
"loss": 0.0204,
|
|
"step": 2955
|
|
},
|
|
{
|
|
"epoch": 9.866666666666667,
|
|
"grad_norm": 0.003678051522001624,
|
|
"learning_rate": 6.848888888888889e-05,
|
|
"loss": 0.0004,
|
|
"step": 2960
|
|
},
|
|
{
|
|
"epoch": 9.883333333333333,
|
|
"grad_norm": 0.00415858393535018,
|
|
"learning_rate": 6.826666666666667e-05,
|
|
"loss": 0.0005,
|
|
"step": 2965
|
|
},
|
|
{
|
|
"epoch": 9.9,
|
|
"grad_norm": 0.0024121918249875307,
|
|
"learning_rate": 6.804444444444444e-05,
|
|
"loss": 0.0782,
|
|
"step": 2970
|
|
},
|
|
{
|
|
"epoch": 9.916666666666666,
|
|
"grad_norm": 0.3736204206943512,
|
|
"learning_rate": 6.782222222222222e-05,
|
|
"loss": 0.001,
|
|
"step": 2975
|
|
},
|
|
{
|
|
"epoch": 9.933333333333334,
|
|
"grad_norm": 0.0027154474519193172,
|
|
"learning_rate": 6.76e-05,
|
|
"loss": 0.0999,
|
|
"step": 2980
|
|
},
|
|
{
|
|
"epoch": 9.95,
|
|
"grad_norm": 9.349282264709473,
|
|
"learning_rate": 6.737777777777779e-05,
|
|
"loss": 0.0827,
|
|
"step": 2985
|
|
},
|
|
{
|
|
"epoch": 9.966666666666667,
|
|
"grad_norm": 0.0027649779804050922,
|
|
"learning_rate": 6.715555555555556e-05,
|
|
"loss": 0.0007,
|
|
"step": 2990
|
|
},
|
|
{
|
|
"epoch": 9.983333333333333,
|
|
"grad_norm": 0.0020583111327141523,
|
|
"learning_rate": 6.693333333333334e-05,
|
|
"loss": 0.0004,
|
|
"step": 2995
|
|
},
|
|
{
|
|
"epoch": 10.0,
|
|
"grad_norm": 0.06373900175094604,
|
|
"learning_rate": 6.671111111111111e-05,
|
|
"loss": 0.0006,
|
|
"step": 3000
|
|
},
|
|
{
|
|
"epoch": 10.0,
|
|
"eval_accuracy": 0.7775,
|
|
"eval_f1": 0.77603559810928,
|
|
"eval_loss": 1.5142462253570557,
|
|
"eval_precision": 0.834018136841444,
|
|
"eval_recall": 0.7775,
|
|
"eval_runtime": 8.5445,
|
|
"eval_samples_per_second": 140.441,
|
|
"eval_steps_per_second": 17.555,
|
|
"step": 3000
|
|
},
|
|
{
|
|
"epoch": 10.016666666666667,
|
|
"grad_norm": 0.0028097876347601414,
|
|
"learning_rate": 6.648888888888889e-05,
|
|
"loss": 0.0005,
|
|
"step": 3005
|
|
},
|
|
{
|
|
"epoch": 10.033333333333333,
|
|
"grad_norm": 0.0024380080867558718,
|
|
"learning_rate": 6.626666666666666e-05,
|
|
"loss": 0.0005,
|
|
"step": 3010
|
|
},
|
|
{
|
|
"epoch": 10.05,
|
|
"grad_norm": 0.043221160769462585,
|
|
"learning_rate": 6.604444444444444e-05,
|
|
"loss": 0.0007,
|
|
"step": 3015
|
|
},
|
|
{
|
|
"epoch": 10.066666666666666,
|
|
"grad_norm": 0.0018608486279845238,
|
|
"learning_rate": 6.582222222222223e-05,
|
|
"loss": 0.0004,
|
|
"step": 3020
|
|
},
|
|
{
|
|
"epoch": 10.083333333333334,
|
|
"grad_norm": 0.00613190745934844,
|
|
"learning_rate": 6.560000000000001e-05,
|
|
"loss": 0.0487,
|
|
"step": 3025
|
|
},
|
|
{
|
|
"epoch": 10.1,
|
|
"grad_norm": 0.0024951656814664602,
|
|
"learning_rate": 6.537777777777778e-05,
|
|
"loss": 0.0004,
|
|
"step": 3030
|
|
},
|
|
{
|
|
"epoch": 10.116666666666667,
|
|
"grad_norm": 0.30267655849456787,
|
|
"learning_rate": 6.515555555555556e-05,
|
|
"loss": 0.0007,
|
|
"step": 3035
|
|
},
|
|
{
|
|
"epoch": 10.133333333333333,
|
|
"grad_norm": 0.0017727413214743137,
|
|
"learning_rate": 6.493333333333333e-05,
|
|
"loss": 0.0004,
|
|
"step": 3040
|
|
},
|
|
{
|
|
"epoch": 10.15,
|
|
"grad_norm": 0.0019227680750191212,
|
|
"learning_rate": 6.471111111111111e-05,
|
|
"loss": 0.0005,
|
|
"step": 3045
|
|
},
|
|
{
|
|
"epoch": 10.166666666666666,
|
|
"grad_norm": 0.001827712170779705,
|
|
"learning_rate": 6.448888888888888e-05,
|
|
"loss": 0.0004,
|
|
"step": 3050
|
|
},
|
|
{
|
|
"epoch": 10.183333333333334,
|
|
"grad_norm": 32.18736267089844,
|
|
"learning_rate": 6.426666666666668e-05,
|
|
"loss": 0.0205,
|
|
"step": 3055
|
|
},
|
|
{
|
|
"epoch": 10.2,
|
|
"grad_norm": 0.001532943919301033,
|
|
"learning_rate": 6.404444444444445e-05,
|
|
"loss": 0.0444,
|
|
"step": 3060
|
|
},
|
|
{
|
|
"epoch": 10.216666666666667,
|
|
"grad_norm": 0.0024186531081795692,
|
|
"learning_rate": 6.382222222222223e-05,
|
|
"loss": 0.0004,
|
|
"step": 3065
|
|
},
|
|
{
|
|
"epoch": 10.233333333333333,
|
|
"grad_norm": 0.002252971986308694,
|
|
"learning_rate": 6.36e-05,
|
|
"loss": 0.0004,
|
|
"step": 3070
|
|
},
|
|
{
|
|
"epoch": 10.25,
|
|
"grad_norm": 0.0031231562606990337,
|
|
"learning_rate": 6.337777777777778e-05,
|
|
"loss": 0.0006,
|
|
"step": 3075
|
|
},
|
|
{
|
|
"epoch": 10.266666666666667,
|
|
"grad_norm": 0.0037209708243608475,
|
|
"learning_rate": 6.315555555555555e-05,
|
|
"loss": 0.007,
|
|
"step": 3080
|
|
},
|
|
{
|
|
"epoch": 10.283333333333333,
|
|
"grad_norm": 0.0025607082061469555,
|
|
"learning_rate": 6.293333333333334e-05,
|
|
"loss": 0.0004,
|
|
"step": 3085
|
|
},
|
|
{
|
|
"epoch": 10.3,
|
|
"grad_norm": 0.0016200091922655702,
|
|
"learning_rate": 6.27111111111111e-05,
|
|
"loss": 0.0004,
|
|
"step": 3090
|
|
},
|
|
{
|
|
"epoch": 10.316666666666666,
|
|
"grad_norm": 0.0022511854767799377,
|
|
"learning_rate": 6.24888888888889e-05,
|
|
"loss": 0.0004,
|
|
"step": 3095
|
|
},
|
|
{
|
|
"epoch": 10.333333333333334,
|
|
"grad_norm": 0.001993870362639427,
|
|
"learning_rate": 6.226666666666667e-05,
|
|
"loss": 0.0004,
|
|
"step": 3100
|
|
},
|
|
{
|
|
"epoch": 10.333333333333334,
|
|
"eval_accuracy": 0.875,
|
|
"eval_f1": 0.8715006352630079,
|
|
"eval_loss": 0.8259854316711426,
|
|
"eval_precision": 0.883305168994579,
|
|
"eval_recall": 0.875,
|
|
"eval_runtime": 8.7148,
|
|
"eval_samples_per_second": 137.697,
|
|
"eval_steps_per_second": 17.212,
|
|
"step": 3100
|
|
},
|
|
{
|
|
"epoch": 10.35,
|
|
"grad_norm": 0.0020567800384014845,
|
|
"learning_rate": 6.204444444444445e-05,
|
|
"loss": 0.0004,
|
|
"step": 3105
|
|
},
|
|
{
|
|
"epoch": 10.366666666666667,
|
|
"grad_norm": 0.001245063729584217,
|
|
"learning_rate": 6.182222222222222e-05,
|
|
"loss": 0.0004,
|
|
"step": 3110
|
|
},
|
|
{
|
|
"epoch": 10.383333333333333,
|
|
"grad_norm": 0.0017343615181744099,
|
|
"learning_rate": 6.16e-05,
|
|
"loss": 0.0004,
|
|
"step": 3115
|
|
},
|
|
{
|
|
"epoch": 10.4,
|
|
"grad_norm": 0.001916777458973229,
|
|
"learning_rate": 6.137777777777778e-05,
|
|
"loss": 0.0622,
|
|
"step": 3120
|
|
},
|
|
{
|
|
"epoch": 10.416666666666666,
|
|
"grad_norm": 0.0012972489930689335,
|
|
"learning_rate": 6.115555555555556e-05,
|
|
"loss": 0.0003,
|
|
"step": 3125
|
|
},
|
|
{
|
|
"epoch": 10.433333333333334,
|
|
"grad_norm": 0.0014717732556164265,
|
|
"learning_rate": 6.093333333333333e-05,
|
|
"loss": 0.0004,
|
|
"step": 3130
|
|
},
|
|
{
|
|
"epoch": 10.45,
|
|
"grad_norm": 0.005142189562320709,
|
|
"learning_rate": 6.071111111111112e-05,
|
|
"loss": 0.0004,
|
|
"step": 3135
|
|
},
|
|
{
|
|
"epoch": 10.466666666666667,
|
|
"grad_norm": 0.005986502394080162,
|
|
"learning_rate": 6.0488888888888894e-05,
|
|
"loss": 0.0004,
|
|
"step": 3140
|
|
},
|
|
{
|
|
"epoch": 10.483333333333333,
|
|
"grad_norm": 13.118406295776367,
|
|
"learning_rate": 6.026666666666667e-05,
|
|
"loss": 0.0431,
|
|
"step": 3145
|
|
},
|
|
{
|
|
"epoch": 10.5,
|
|
"grad_norm": 0.0016926875105127692,
|
|
"learning_rate": 6.0044444444444446e-05,
|
|
"loss": 0.0004,
|
|
"step": 3150
|
|
},
|
|
{
|
|
"epoch": 10.516666666666667,
|
|
"grad_norm": 0.0021159437019377947,
|
|
"learning_rate": 5.982222222222222e-05,
|
|
"loss": 0.0004,
|
|
"step": 3155
|
|
},
|
|
{
|
|
"epoch": 10.533333333333333,
|
|
"grad_norm": 0.001531762070953846,
|
|
"learning_rate": 5.96e-05,
|
|
"loss": 0.0004,
|
|
"step": 3160
|
|
},
|
|
{
|
|
"epoch": 10.55,
|
|
"grad_norm": 0.0022365280892699957,
|
|
"learning_rate": 5.9377777777777775e-05,
|
|
"loss": 0.0003,
|
|
"step": 3165
|
|
},
|
|
{
|
|
"epoch": 10.566666666666666,
|
|
"grad_norm": 0.0015103392070159316,
|
|
"learning_rate": 5.915555555555555e-05,
|
|
"loss": 0.0003,
|
|
"step": 3170
|
|
},
|
|
{
|
|
"epoch": 10.583333333333334,
|
|
"grad_norm": 0.001387620810419321,
|
|
"learning_rate": 5.893333333333334e-05,
|
|
"loss": 0.0003,
|
|
"step": 3175
|
|
},
|
|
{
|
|
"epoch": 10.6,
|
|
"grad_norm": 0.00136385892983526,
|
|
"learning_rate": 5.871111111111112e-05,
|
|
"loss": 0.0004,
|
|
"step": 3180
|
|
},
|
|
{
|
|
"epoch": 10.616666666666667,
|
|
"grad_norm": 0.0013320622965693474,
|
|
"learning_rate": 5.848888888888889e-05,
|
|
"loss": 0.0003,
|
|
"step": 3185
|
|
},
|
|
{
|
|
"epoch": 10.633333333333333,
|
|
"grad_norm": 0.0016545933904126287,
|
|
"learning_rate": 5.826666666666667e-05,
|
|
"loss": 0.0003,
|
|
"step": 3190
|
|
},
|
|
{
|
|
"epoch": 10.65,
|
|
"grad_norm": 0.0013174484483897686,
|
|
"learning_rate": 5.8044444444444445e-05,
|
|
"loss": 0.0003,
|
|
"step": 3195
|
|
},
|
|
{
|
|
"epoch": 10.666666666666666,
|
|
"grad_norm": 0.00229137996211648,
|
|
"learning_rate": 5.782222222222222e-05,
|
|
"loss": 0.0004,
|
|
"step": 3200
|
|
},
|
|
{
|
|
"epoch": 10.666666666666666,
|
|
"eval_accuracy": 0.8641666666666666,
|
|
"eval_f1": 0.8631267774043103,
|
|
"eval_loss": 0.8945208787918091,
|
|
"eval_precision": 0.8754489213739517,
|
|
"eval_recall": 0.8641666666666666,
|
|
"eval_runtime": 8.5722,
|
|
"eval_samples_per_second": 139.987,
|
|
"eval_steps_per_second": 17.498,
|
|
"step": 3200
|
|
},
|
|
{
|
|
"epoch": 10.683333333333334,
|
|
"grad_norm": 0.002233444480225444,
|
|
"learning_rate": 5.76e-05,
|
|
"loss": 0.0004,
|
|
"step": 3205
|
|
},
|
|
{
|
|
"epoch": 10.7,
|
|
"grad_norm": 0.0011960604460909963,
|
|
"learning_rate": 5.737777777777779e-05,
|
|
"loss": 0.0159,
|
|
"step": 3210
|
|
},
|
|
{
|
|
"epoch": 10.716666666666667,
|
|
"grad_norm": 0.0013327156193554401,
|
|
"learning_rate": 5.715555555555556e-05,
|
|
"loss": 0.0003,
|
|
"step": 3215
|
|
},
|
|
{
|
|
"epoch": 10.733333333333333,
|
|
"grad_norm": 0.0015530382515862584,
|
|
"learning_rate": 5.693333333333334e-05,
|
|
"loss": 0.0004,
|
|
"step": 3220
|
|
},
|
|
{
|
|
"epoch": 10.75,
|
|
"grad_norm": 0.0014668426010757685,
|
|
"learning_rate": 5.6711111111111116e-05,
|
|
"loss": 0.0003,
|
|
"step": 3225
|
|
},
|
|
{
|
|
"epoch": 10.766666666666667,
|
|
"grad_norm": 0.0024464228190481663,
|
|
"learning_rate": 5.648888888888889e-05,
|
|
"loss": 0.0004,
|
|
"step": 3230
|
|
},
|
|
{
|
|
"epoch": 10.783333333333333,
|
|
"grad_norm": 0.002027082024142146,
|
|
"learning_rate": 5.626666666666667e-05,
|
|
"loss": 0.0003,
|
|
"step": 3235
|
|
},
|
|
{
|
|
"epoch": 10.8,
|
|
"grad_norm": 0.001432035001926124,
|
|
"learning_rate": 5.6044444444444444e-05,
|
|
"loss": 0.0085,
|
|
"step": 3240
|
|
},
|
|
{
|
|
"epoch": 10.816666666666666,
|
|
"grad_norm": 0.001499245292507112,
|
|
"learning_rate": 5.582222222222222e-05,
|
|
"loss": 0.0003,
|
|
"step": 3245
|
|
},
|
|
{
|
|
"epoch": 10.833333333333334,
|
|
"grad_norm": 0.001738474820740521,
|
|
"learning_rate": 5.560000000000001e-05,
|
|
"loss": 0.0003,
|
|
"step": 3250
|
|
},
|
|
{
|
|
"epoch": 10.85,
|
|
"grad_norm": 0.0023718324955552816,
|
|
"learning_rate": 5.5377777777777786e-05,
|
|
"loss": 0.0003,
|
|
"step": 3255
|
|
},
|
|
{
|
|
"epoch": 10.866666666666667,
|
|
"grad_norm": 0.0016343836905434728,
|
|
"learning_rate": 5.515555555555556e-05,
|
|
"loss": 0.0003,
|
|
"step": 3260
|
|
},
|
|
{
|
|
"epoch": 10.883333333333333,
|
|
"grad_norm": 0.0011803604429587722,
|
|
"learning_rate": 5.493333333333334e-05,
|
|
"loss": 0.0003,
|
|
"step": 3265
|
|
},
|
|
{
|
|
"epoch": 10.9,
|
|
"grad_norm": 0.001507938141003251,
|
|
"learning_rate": 5.4711111111111114e-05,
|
|
"loss": 0.0003,
|
|
"step": 3270
|
|
},
|
|
{
|
|
"epoch": 10.916666666666666,
|
|
"grad_norm": 0.002482309006154537,
|
|
"learning_rate": 5.448888888888889e-05,
|
|
"loss": 0.0004,
|
|
"step": 3275
|
|
},
|
|
{
|
|
"epoch": 10.933333333333334,
|
|
"grad_norm": 0.0017230326775461435,
|
|
"learning_rate": 5.4266666666666667e-05,
|
|
"loss": 0.0003,
|
|
"step": 3280
|
|
},
|
|
{
|
|
"epoch": 10.95,
|
|
"grad_norm": 0.0020383859518915415,
|
|
"learning_rate": 5.404444444444444e-05,
|
|
"loss": 0.0004,
|
|
"step": 3285
|
|
},
|
|
{
|
|
"epoch": 10.966666666666667,
|
|
"grad_norm": 0.0013365100603550673,
|
|
"learning_rate": 5.382222222222223e-05,
|
|
"loss": 0.0003,
|
|
"step": 3290
|
|
},
|
|
{
|
|
"epoch": 10.983333333333333,
|
|
"grad_norm": 0.0013743388699367642,
|
|
"learning_rate": 5.360000000000001e-05,
|
|
"loss": 0.0003,
|
|
"step": 3295
|
|
},
|
|
{
|
|
"epoch": 11.0,
|
|
"grad_norm": 0.0015713865868747234,
|
|
"learning_rate": 5.3377777777777785e-05,
|
|
"loss": 0.0003,
|
|
"step": 3300
|
|
},
|
|
{
|
|
"epoch": 11.0,
|
|
"eval_accuracy": 0.865,
|
|
"eval_f1": 0.8595955845084893,
|
|
"eval_loss": 0.9189497828483582,
|
|
"eval_precision": 0.8658297716051402,
|
|
"eval_recall": 0.865,
|
|
"eval_runtime": 8.636,
|
|
"eval_samples_per_second": 138.953,
|
|
"eval_steps_per_second": 17.369,
|
|
"step": 3300
|
|
},
|
|
{
|
|
"epoch": 11.016666666666667,
|
|
"grad_norm": 0.0012864682357758284,
|
|
"learning_rate": 5.315555555555556e-05,
|
|
"loss": 0.0003,
|
|
"step": 3305
|
|
},
|
|
{
|
|
"epoch": 11.033333333333333,
|
|
"grad_norm": 0.001335111097432673,
|
|
"learning_rate": 5.293333333333334e-05,
|
|
"loss": 0.0003,
|
|
"step": 3310
|
|
},
|
|
{
|
|
"epoch": 11.05,
|
|
"grad_norm": 0.0016735129756852984,
|
|
"learning_rate": 5.271111111111111e-05,
|
|
"loss": 0.0003,
|
|
"step": 3315
|
|
},
|
|
{
|
|
"epoch": 11.066666666666666,
|
|
"grad_norm": 0.0016134382458403707,
|
|
"learning_rate": 5.248888888888889e-05,
|
|
"loss": 0.0003,
|
|
"step": 3320
|
|
},
|
|
{
|
|
"epoch": 11.083333333333334,
|
|
"grad_norm": 0.0014015769120305777,
|
|
"learning_rate": 5.2266666666666665e-05,
|
|
"loss": 0.0003,
|
|
"step": 3325
|
|
},
|
|
{
|
|
"epoch": 11.1,
|
|
"grad_norm": 0.0014330127742141485,
|
|
"learning_rate": 5.204444444444445e-05,
|
|
"loss": 0.0003,
|
|
"step": 3330
|
|
},
|
|
{
|
|
"epoch": 11.116666666666667,
|
|
"grad_norm": 0.0014589036582037807,
|
|
"learning_rate": 5.1822222222222224e-05,
|
|
"loss": 0.0003,
|
|
"step": 3335
|
|
},
|
|
{
|
|
"epoch": 11.133333333333333,
|
|
"grad_norm": 0.0017383291851729155,
|
|
"learning_rate": 5.16e-05,
|
|
"loss": 0.0003,
|
|
"step": 3340
|
|
},
|
|
{
|
|
"epoch": 11.15,
|
|
"grad_norm": 0.0017747778911143541,
|
|
"learning_rate": 5.1377777777777784e-05,
|
|
"loss": 0.0003,
|
|
"step": 3345
|
|
},
|
|
{
|
|
"epoch": 11.166666666666666,
|
|
"grad_norm": 0.0011969446204602718,
|
|
"learning_rate": 5.115555555555556e-05,
|
|
"loss": 0.0003,
|
|
"step": 3350
|
|
},
|
|
{
|
|
"epoch": 11.183333333333334,
|
|
"grad_norm": 0.0011464952258393168,
|
|
"learning_rate": 5.0933333333333336e-05,
|
|
"loss": 0.0003,
|
|
"step": 3355
|
|
},
|
|
{
|
|
"epoch": 11.2,
|
|
"grad_norm": 0.0015173573046922684,
|
|
"learning_rate": 5.071111111111111e-05,
|
|
"loss": 0.0004,
|
|
"step": 3360
|
|
},
|
|
{
|
|
"epoch": 11.216666666666667,
|
|
"grad_norm": 0.0015298640355467796,
|
|
"learning_rate": 5.0488888888888895e-05,
|
|
"loss": 0.0003,
|
|
"step": 3365
|
|
},
|
|
{
|
|
"epoch": 11.233333333333333,
|
|
"grad_norm": 0.0010930441785603762,
|
|
"learning_rate": 5.026666666666667e-05,
|
|
"loss": 0.0003,
|
|
"step": 3370
|
|
},
|
|
{
|
|
"epoch": 11.25,
|
|
"grad_norm": 0.002055104123428464,
|
|
"learning_rate": 5.004444444444445e-05,
|
|
"loss": 0.0003,
|
|
"step": 3375
|
|
},
|
|
{
|
|
"epoch": 11.266666666666667,
|
|
"grad_norm": 0.0015300210798159242,
|
|
"learning_rate": 4.982222222222222e-05,
|
|
"loss": 0.0003,
|
|
"step": 3380
|
|
},
|
|
{
|
|
"epoch": 11.283333333333333,
|
|
"grad_norm": 0.001404647366143763,
|
|
"learning_rate": 4.96e-05,
|
|
"loss": 0.0003,
|
|
"step": 3385
|
|
},
|
|
{
|
|
"epoch": 11.3,
|
|
"grad_norm": 0.0017933609196916223,
|
|
"learning_rate": 4.9377777777777776e-05,
|
|
"loss": 0.0003,
|
|
"step": 3390
|
|
},
|
|
{
|
|
"epoch": 11.316666666666666,
|
|
"grad_norm": 0.0011732981074601412,
|
|
"learning_rate": 4.915555555555556e-05,
|
|
"loss": 0.0003,
|
|
"step": 3395
|
|
},
|
|
{
|
|
"epoch": 11.333333333333334,
|
|
"grad_norm": 0.0016474477015435696,
|
|
"learning_rate": 4.8933333333333335e-05,
|
|
"loss": 0.0003,
|
|
"step": 3400
|
|
},
|
|
{
|
|
"epoch": 11.333333333333334,
|
|
"eval_accuracy": 0.8916666666666667,
|
|
"eval_f1": 0.8882461345166729,
|
|
"eval_loss": 0.6928975582122803,
|
|
"eval_precision": 0.8926134596723359,
|
|
"eval_recall": 0.8916666666666667,
|
|
"eval_runtime": 8.7035,
|
|
"eval_samples_per_second": 137.876,
|
|
"eval_steps_per_second": 17.234,
|
|
"step": 3400
|
|
},
|
|
{
|
|
"epoch": 11.35,
|
|
"grad_norm": 0.0014090208569541574,
|
|
"learning_rate": 4.871111111111111e-05,
|
|
"loss": 0.0003,
|
|
"step": 3405
|
|
},
|
|
{
|
|
"epoch": 11.366666666666667,
|
|
"grad_norm": 0.0018424694426357746,
|
|
"learning_rate": 4.848888888888889e-05,
|
|
"loss": 0.0003,
|
|
"step": 3410
|
|
},
|
|
{
|
|
"epoch": 11.383333333333333,
|
|
"grad_norm": 0.0014224790502339602,
|
|
"learning_rate": 4.826666666666667e-05,
|
|
"loss": 0.0003,
|
|
"step": 3415
|
|
},
|
|
{
|
|
"epoch": 11.4,
|
|
"grad_norm": 0.0012458838755264878,
|
|
"learning_rate": 4.8044444444444446e-05,
|
|
"loss": 0.0003,
|
|
"step": 3420
|
|
},
|
|
{
|
|
"epoch": 11.416666666666666,
|
|
"grad_norm": 0.0013212627964094281,
|
|
"learning_rate": 4.782222222222222e-05,
|
|
"loss": 0.0003,
|
|
"step": 3425
|
|
},
|
|
{
|
|
"epoch": 11.433333333333334,
|
|
"grad_norm": 0.000943222374189645,
|
|
"learning_rate": 4.76e-05,
|
|
"loss": 0.0003,
|
|
"step": 3430
|
|
},
|
|
{
|
|
"epoch": 11.45,
|
|
"grad_norm": 0.0012452988885343075,
|
|
"learning_rate": 4.737777777777778e-05,
|
|
"loss": 0.0003,
|
|
"step": 3435
|
|
},
|
|
{
|
|
"epoch": 11.466666666666667,
|
|
"grad_norm": 0.001349261263385415,
|
|
"learning_rate": 4.715555555555556e-05,
|
|
"loss": 0.0003,
|
|
"step": 3440
|
|
},
|
|
{
|
|
"epoch": 11.483333333333333,
|
|
"grad_norm": 0.0013885938096791506,
|
|
"learning_rate": 4.6933333333333333e-05,
|
|
"loss": 0.0003,
|
|
"step": 3445
|
|
},
|
|
{
|
|
"epoch": 11.5,
|
|
"grad_norm": 0.0011886832071468234,
|
|
"learning_rate": 4.671111111111111e-05,
|
|
"loss": 0.0003,
|
|
"step": 3450
|
|
},
|
|
{
|
|
"epoch": 11.516666666666667,
|
|
"grad_norm": 0.0015486598713323474,
|
|
"learning_rate": 4.648888888888889e-05,
|
|
"loss": 0.0003,
|
|
"step": 3455
|
|
},
|
|
{
|
|
"epoch": 11.533333333333333,
|
|
"grad_norm": 0.0017922603292390704,
|
|
"learning_rate": 4.626666666666667e-05,
|
|
"loss": 0.0003,
|
|
"step": 3460
|
|
},
|
|
{
|
|
"epoch": 11.55,
|
|
"grad_norm": 0.0011062102857977152,
|
|
"learning_rate": 4.6044444444444445e-05,
|
|
"loss": 0.0002,
|
|
"step": 3465
|
|
},
|
|
{
|
|
"epoch": 11.566666666666666,
|
|
"grad_norm": 0.0012668754206970334,
|
|
"learning_rate": 4.582222222222222e-05,
|
|
"loss": 0.0003,
|
|
"step": 3470
|
|
},
|
|
{
|
|
"epoch": 11.583333333333334,
|
|
"grad_norm": 0.0010187900625169277,
|
|
"learning_rate": 4.5600000000000004e-05,
|
|
"loss": 0.0003,
|
|
"step": 3475
|
|
},
|
|
{
|
|
"epoch": 11.6,
|
|
"grad_norm": 0.0016676780069246888,
|
|
"learning_rate": 4.537777777777778e-05,
|
|
"loss": 0.0003,
|
|
"step": 3480
|
|
},
|
|
{
|
|
"epoch": 11.616666666666667,
|
|
"grad_norm": 0.0012592221610248089,
|
|
"learning_rate": 4.5155555555555556e-05,
|
|
"loss": 0.0003,
|
|
"step": 3485
|
|
},
|
|
{
|
|
"epoch": 11.633333333333333,
|
|
"grad_norm": 0.001086089643649757,
|
|
"learning_rate": 4.493333333333333e-05,
|
|
"loss": 0.0003,
|
|
"step": 3490
|
|
},
|
|
{
|
|
"epoch": 11.65,
|
|
"grad_norm": 0.0011737250024452806,
|
|
"learning_rate": 4.4711111111111115e-05,
|
|
"loss": 0.012,
|
|
"step": 3495
|
|
},
|
|
{
|
|
"epoch": 11.666666666666666,
|
|
"grad_norm": 0.0011277091689407825,
|
|
"learning_rate": 4.448888888888889e-05,
|
|
"loss": 0.0003,
|
|
"step": 3500
|
|
},
|
|
{
|
|
"epoch": 11.666666666666666,
|
|
"eval_accuracy": 0.8908333333333334,
|
|
"eval_f1": 0.8878502994277049,
|
|
"eval_loss": 0.7764349579811096,
|
|
"eval_precision": 0.9000046295363018,
|
|
"eval_recall": 0.8908333333333334,
|
|
"eval_runtime": 8.5499,
|
|
"eval_samples_per_second": 140.352,
|
|
"eval_steps_per_second": 17.544,
|
|
"step": 3500
|
|
},
|
|
{
|
|
"epoch": 11.683333333333334,
|
|
"grad_norm": 0.0026248686481267214,
|
|
"learning_rate": 4.426666666666667e-05,
|
|
"loss": 0.0003,
|
|
"step": 3505
|
|
},
|
|
{
|
|
"epoch": 11.7,
|
|
"grad_norm": 0.0015824720030650496,
|
|
"learning_rate": 4.404444444444445e-05,
|
|
"loss": 0.0004,
|
|
"step": 3510
|
|
},
|
|
{
|
|
"epoch": 11.716666666666667,
|
|
"grad_norm": 0.0033804471604526043,
|
|
"learning_rate": 4.3822222222222227e-05,
|
|
"loss": 0.0003,
|
|
"step": 3515
|
|
},
|
|
{
|
|
"epoch": 11.733333333333333,
|
|
"grad_norm": 0.0011950613697990775,
|
|
"learning_rate": 4.36e-05,
|
|
"loss": 0.0549,
|
|
"step": 3520
|
|
},
|
|
{
|
|
"epoch": 11.75,
|
|
"grad_norm": 0.0014861224917694926,
|
|
"learning_rate": 4.337777777777778e-05,
|
|
"loss": 0.0003,
|
|
"step": 3525
|
|
},
|
|
{
|
|
"epoch": 11.766666666666667,
|
|
"grad_norm": 0.0010819070739671588,
|
|
"learning_rate": 4.315555555555556e-05,
|
|
"loss": 0.0003,
|
|
"step": 3530
|
|
},
|
|
{
|
|
"epoch": 11.783333333333333,
|
|
"grad_norm": 0.002266546245664358,
|
|
"learning_rate": 4.293333333333334e-05,
|
|
"loss": 0.0003,
|
|
"step": 3535
|
|
},
|
|
{
|
|
"epoch": 11.8,
|
|
"grad_norm": 0.0015351728070527315,
|
|
"learning_rate": 4.2711111111111114e-05,
|
|
"loss": 0.0003,
|
|
"step": 3540
|
|
},
|
|
{
|
|
"epoch": 11.816666666666666,
|
|
"grad_norm": 0.0018479111604392529,
|
|
"learning_rate": 4.248888888888889e-05,
|
|
"loss": 0.0062,
|
|
"step": 3545
|
|
},
|
|
{
|
|
"epoch": 11.833333333333334,
|
|
"grad_norm": 0.001542224083095789,
|
|
"learning_rate": 4.226666666666667e-05,
|
|
"loss": 0.0003,
|
|
"step": 3550
|
|
},
|
|
{
|
|
"epoch": 11.85,
|
|
"grad_norm": 0.0012192220892757177,
|
|
"learning_rate": 4.204444444444445e-05,
|
|
"loss": 0.0003,
|
|
"step": 3555
|
|
},
|
|
{
|
|
"epoch": 11.866666666666667,
|
|
"grad_norm": 0.0016990448348224163,
|
|
"learning_rate": 4.1822222222222225e-05,
|
|
"loss": 0.0003,
|
|
"step": 3560
|
|
},
|
|
{
|
|
"epoch": 11.883333333333333,
|
|
"grad_norm": 0.0012768966844305396,
|
|
"learning_rate": 4.16e-05,
|
|
"loss": 0.0003,
|
|
"step": 3565
|
|
},
|
|
{
|
|
"epoch": 11.9,
|
|
"grad_norm": 0.0010636007646098733,
|
|
"learning_rate": 4.1377777777777784e-05,
|
|
"loss": 0.0003,
|
|
"step": 3570
|
|
},
|
|
{
|
|
"epoch": 11.916666666666666,
|
|
"grad_norm": 0.0009845581371337175,
|
|
"learning_rate": 4.115555555555556e-05,
|
|
"loss": 0.0003,
|
|
"step": 3575
|
|
},
|
|
{
|
|
"epoch": 11.933333333333334,
|
|
"grad_norm": 0.0011775285238400102,
|
|
"learning_rate": 4.093333333333334e-05,
|
|
"loss": 0.0003,
|
|
"step": 3580
|
|
},
|
|
{
|
|
"epoch": 11.95,
|
|
"grad_norm": 0.001384636969305575,
|
|
"learning_rate": 4.071111111111111e-05,
|
|
"loss": 0.0003,
|
|
"step": 3585
|
|
},
|
|
{
|
|
"epoch": 11.966666666666667,
|
|
"grad_norm": 0.0009220022475346923,
|
|
"learning_rate": 4.0488888888888896e-05,
|
|
"loss": 0.0002,
|
|
"step": 3590
|
|
},
|
|
{
|
|
"epoch": 11.983333333333333,
|
|
"grad_norm": 0.0010263891890645027,
|
|
"learning_rate": 4.026666666666667e-05,
|
|
"loss": 0.0002,
|
|
"step": 3595
|
|
},
|
|
{
|
|
"epoch": 12.0,
|
|
"grad_norm": 0.0014569932827726007,
|
|
"learning_rate": 4.004444444444445e-05,
|
|
"loss": 0.0003,
|
|
"step": 3600
|
|
},
|
|
{
|
|
"epoch": 12.0,
|
|
"eval_accuracy": 0.8616666666666667,
|
|
"eval_f1": 0.8597758310042694,
|
|
"eval_loss": 0.9250171184539795,
|
|
"eval_precision": 0.8748725308647297,
|
|
"eval_recall": 0.8616666666666667,
|
|
"eval_runtime": 8.7271,
|
|
"eval_samples_per_second": 137.503,
|
|
"eval_steps_per_second": 17.188,
|
|
"step": 3600
|
|
},
|
|
{
|
|
"epoch": 12.016666666666667,
|
|
"grad_norm": 0.0013052490539848804,
|
|
"learning_rate": 3.9822222222222224e-05,
|
|
"loss": 0.0003,
|
|
"step": 3605
|
|
},
|
|
{
|
|
"epoch": 12.033333333333333,
|
|
"grad_norm": 0.001073316321708262,
|
|
"learning_rate": 3.960000000000001e-05,
|
|
"loss": 0.0003,
|
|
"step": 3610
|
|
},
|
|
{
|
|
"epoch": 12.05,
|
|
"grad_norm": 0.0013709955383092165,
|
|
"learning_rate": 3.937777777777778e-05,
|
|
"loss": 0.0003,
|
|
"step": 3615
|
|
},
|
|
{
|
|
"epoch": 12.066666666666666,
|
|
"grad_norm": 0.0012627794640138745,
|
|
"learning_rate": 3.915555555555556e-05,
|
|
"loss": 0.0003,
|
|
"step": 3620
|
|
},
|
|
{
|
|
"epoch": 12.083333333333334,
|
|
"grad_norm": 0.0015063256723806262,
|
|
"learning_rate": 3.8933333333333336e-05,
|
|
"loss": 0.0003,
|
|
"step": 3625
|
|
},
|
|
{
|
|
"epoch": 12.1,
|
|
"grad_norm": 0.0015316841891035438,
|
|
"learning_rate": 3.871111111111111e-05,
|
|
"loss": 0.0003,
|
|
"step": 3630
|
|
},
|
|
{
|
|
"epoch": 12.116666666666667,
|
|
"grad_norm": 0.0011499280808493495,
|
|
"learning_rate": 3.848888888888889e-05,
|
|
"loss": 0.0003,
|
|
"step": 3635
|
|
},
|
|
{
|
|
"epoch": 12.133333333333333,
|
|
"grad_norm": 0.000982353463768959,
|
|
"learning_rate": 3.8266666666666664e-05,
|
|
"loss": 0.0003,
|
|
"step": 3640
|
|
},
|
|
{
|
|
"epoch": 12.15,
|
|
"grad_norm": 0.004948371089994907,
|
|
"learning_rate": 3.804444444444445e-05,
|
|
"loss": 0.0003,
|
|
"step": 3645
|
|
},
|
|
{
|
|
"epoch": 12.166666666666666,
|
|
"grad_norm": 0.00567929120734334,
|
|
"learning_rate": 3.782222222222222e-05,
|
|
"loss": 0.0003,
|
|
"step": 3650
|
|
},
|
|
{
|
|
"epoch": 12.183333333333334,
|
|
"grad_norm": 0.0011115901870653033,
|
|
"learning_rate": 3.76e-05,
|
|
"loss": 0.0003,
|
|
"step": 3655
|
|
},
|
|
{
|
|
"epoch": 12.2,
|
|
"grad_norm": 0.0009219167986884713,
|
|
"learning_rate": 3.7377777777777775e-05,
|
|
"loss": 0.0002,
|
|
"step": 3660
|
|
},
|
|
{
|
|
"epoch": 12.216666666666667,
|
|
"grad_norm": 0.0009637073380872607,
|
|
"learning_rate": 3.715555555555555e-05,
|
|
"loss": 0.0002,
|
|
"step": 3665
|
|
},
|
|
{
|
|
"epoch": 12.233333333333333,
|
|
"grad_norm": 0.0012105575297027826,
|
|
"learning_rate": 3.6933333333333334e-05,
|
|
"loss": 0.0002,
|
|
"step": 3670
|
|
},
|
|
{
|
|
"epoch": 12.25,
|
|
"grad_norm": 0.001330082886852324,
|
|
"learning_rate": 3.671111111111111e-05,
|
|
"loss": 0.0003,
|
|
"step": 3675
|
|
},
|
|
{
|
|
"epoch": 12.266666666666667,
|
|
"grad_norm": 0.001343924435786903,
|
|
"learning_rate": 3.648888888888889e-05,
|
|
"loss": 0.0002,
|
|
"step": 3680
|
|
},
|
|
{
|
|
"epoch": 12.283333333333333,
|
|
"grad_norm": 0.001238767639733851,
|
|
"learning_rate": 3.626666666666667e-05,
|
|
"loss": 0.0002,
|
|
"step": 3685
|
|
},
|
|
{
|
|
"epoch": 12.3,
|
|
"grad_norm": 0.001232936279848218,
|
|
"learning_rate": 3.6044444444444446e-05,
|
|
"loss": 0.0002,
|
|
"step": 3690
|
|
},
|
|
{
|
|
"epoch": 12.316666666666666,
|
|
"grad_norm": 0.0010732858208939433,
|
|
"learning_rate": 3.582222222222222e-05,
|
|
"loss": 0.0002,
|
|
"step": 3695
|
|
},
|
|
{
|
|
"epoch": 12.333333333333334,
|
|
"grad_norm": 0.001242554746568203,
|
|
"learning_rate": 3.56e-05,
|
|
"loss": 0.0002,
|
|
"step": 3700
|
|
},
|
|
{
|
|
"epoch": 12.333333333333334,
|
|
"eval_accuracy": 0.865,
|
|
"eval_f1": 0.8628488100422472,
|
|
"eval_loss": 0.9109199047088623,
|
|
"eval_precision": 0.8772019560478479,
|
|
"eval_recall": 0.865,
|
|
"eval_runtime": 8.5138,
|
|
"eval_samples_per_second": 140.948,
|
|
"eval_steps_per_second": 17.618,
|
|
"step": 3700
|
|
},
|
|
{
|
|
"epoch": 12.35,
|
|
"grad_norm": 0.0010867074597626925,
|
|
"learning_rate": 3.537777777777778e-05,
|
|
"loss": 0.0003,
|
|
"step": 3705
|
|
},
|
|
{
|
|
"epoch": 12.366666666666667,
|
|
"grad_norm": 0.0015041906153783202,
|
|
"learning_rate": 3.515555555555556e-05,
|
|
"loss": 0.0003,
|
|
"step": 3710
|
|
},
|
|
{
|
|
"epoch": 12.383333333333333,
|
|
"grad_norm": 0.0013329191133379936,
|
|
"learning_rate": 3.493333333333333e-05,
|
|
"loss": 0.0002,
|
|
"step": 3715
|
|
},
|
|
{
|
|
"epoch": 12.4,
|
|
"grad_norm": 0.001078193774446845,
|
|
"learning_rate": 3.471111111111111e-05,
|
|
"loss": 0.0002,
|
|
"step": 3720
|
|
},
|
|
{
|
|
"epoch": 12.416666666666666,
|
|
"grad_norm": 0.00125105120241642,
|
|
"learning_rate": 3.448888888888889e-05,
|
|
"loss": 0.0002,
|
|
"step": 3725
|
|
},
|
|
{
|
|
"epoch": 12.433333333333334,
|
|
"grad_norm": 0.0010558542562648654,
|
|
"learning_rate": 3.426666666666667e-05,
|
|
"loss": 0.0002,
|
|
"step": 3730
|
|
},
|
|
{
|
|
"epoch": 12.45,
|
|
"grad_norm": 0.0015771571779623628,
|
|
"learning_rate": 3.4044444444444445e-05,
|
|
"loss": 0.0002,
|
|
"step": 3735
|
|
},
|
|
{
|
|
"epoch": 12.466666666666667,
|
|
"grad_norm": 0.0012832481879740953,
|
|
"learning_rate": 3.382222222222222e-05,
|
|
"loss": 0.0002,
|
|
"step": 3740
|
|
},
|
|
{
|
|
"epoch": 12.483333333333333,
|
|
"grad_norm": 0.001506016356870532,
|
|
"learning_rate": 3.3600000000000004e-05,
|
|
"loss": 0.0003,
|
|
"step": 3745
|
|
},
|
|
{
|
|
"epoch": 12.5,
|
|
"grad_norm": 0.001088597346097231,
|
|
"learning_rate": 3.337777777777778e-05,
|
|
"loss": 0.0002,
|
|
"step": 3750
|
|
},
|
|
{
|
|
"epoch": 12.516666666666667,
|
|
"grad_norm": 0.0013224872527644038,
|
|
"learning_rate": 3.3155555555555556e-05,
|
|
"loss": 0.0002,
|
|
"step": 3755
|
|
},
|
|
{
|
|
"epoch": 12.533333333333333,
|
|
"grad_norm": 0.0013083405792713165,
|
|
"learning_rate": 3.293333333333333e-05,
|
|
"loss": 0.0002,
|
|
"step": 3760
|
|
},
|
|
{
|
|
"epoch": 12.55,
|
|
"grad_norm": 0.0012214956805109978,
|
|
"learning_rate": 3.2711111111111115e-05,
|
|
"loss": 0.0002,
|
|
"step": 3765
|
|
},
|
|
{
|
|
"epoch": 12.566666666666666,
|
|
"grad_norm": 0.0011000190861523151,
|
|
"learning_rate": 3.248888888888889e-05,
|
|
"loss": 0.0002,
|
|
"step": 3770
|
|
},
|
|
{
|
|
"epoch": 12.583333333333334,
|
|
"grad_norm": 0.007483938708901405,
|
|
"learning_rate": 3.226666666666667e-05,
|
|
"loss": 0.0003,
|
|
"step": 3775
|
|
},
|
|
{
|
|
"epoch": 12.6,
|
|
"grad_norm": 0.0010402854532003403,
|
|
"learning_rate": 3.204444444444444e-05,
|
|
"loss": 0.0002,
|
|
"step": 3780
|
|
},
|
|
{
|
|
"epoch": 12.616666666666667,
|
|
"grad_norm": 0.0012803610879927874,
|
|
"learning_rate": 3.1822222222222226e-05,
|
|
"loss": 0.0002,
|
|
"step": 3785
|
|
},
|
|
{
|
|
"epoch": 12.633333333333333,
|
|
"grad_norm": 0.0008567477925680578,
|
|
"learning_rate": 3.16e-05,
|
|
"loss": 0.0002,
|
|
"step": 3790
|
|
},
|
|
{
|
|
"epoch": 12.65,
|
|
"grad_norm": 0.0011515081860125065,
|
|
"learning_rate": 3.137777777777778e-05,
|
|
"loss": 0.0002,
|
|
"step": 3795
|
|
},
|
|
{
|
|
"epoch": 12.666666666666666,
|
|
"grad_norm": 0.001215915777720511,
|
|
"learning_rate": 3.1155555555555555e-05,
|
|
"loss": 0.0002,
|
|
"step": 3800
|
|
},
|
|
{
|
|
"epoch": 12.666666666666666,
|
|
"eval_accuracy": 0.865,
|
|
"eval_f1": 0.8628488100422472,
|
|
"eval_loss": 0.9101312160491943,
|
|
"eval_precision": 0.8772019560478479,
|
|
"eval_recall": 0.865,
|
|
"eval_runtime": 8.7375,
|
|
"eval_samples_per_second": 137.34,
|
|
"eval_steps_per_second": 17.167,
|
|
"step": 3800
|
|
},
|
|
{
|
|
"epoch": 12.683333333333334,
|
|
"grad_norm": 0.0012230200227349997,
|
|
"learning_rate": 3.093333333333334e-05,
|
|
"loss": 0.0002,
|
|
"step": 3805
|
|
},
|
|
{
|
|
"epoch": 12.7,
|
|
"grad_norm": 0.0009071430540643632,
|
|
"learning_rate": 3.0711111111111114e-05,
|
|
"loss": 0.0002,
|
|
"step": 3810
|
|
},
|
|
{
|
|
"epoch": 12.716666666666667,
|
|
"grad_norm": 0.0013346484629437327,
|
|
"learning_rate": 3.048888888888889e-05,
|
|
"loss": 0.0003,
|
|
"step": 3815
|
|
},
|
|
{
|
|
"epoch": 12.733333333333333,
|
|
"grad_norm": 0.0011986028403043747,
|
|
"learning_rate": 3.0266666666666666e-05,
|
|
"loss": 0.0002,
|
|
"step": 3820
|
|
},
|
|
{
|
|
"epoch": 12.75,
|
|
"grad_norm": 0.0014066204894334078,
|
|
"learning_rate": 3.004444444444445e-05,
|
|
"loss": 0.0002,
|
|
"step": 3825
|
|
},
|
|
{
|
|
"epoch": 12.766666666666667,
|
|
"grad_norm": 0.0010365727357566357,
|
|
"learning_rate": 2.9822222222222225e-05,
|
|
"loss": 0.0002,
|
|
"step": 3830
|
|
},
|
|
{
|
|
"epoch": 12.783333333333333,
|
|
"grad_norm": 0.0009767424780875444,
|
|
"learning_rate": 2.96e-05,
|
|
"loss": 0.0002,
|
|
"step": 3835
|
|
},
|
|
{
|
|
"epoch": 12.8,
|
|
"grad_norm": 0.0010243882425129414,
|
|
"learning_rate": 2.937777777777778e-05,
|
|
"loss": 0.0002,
|
|
"step": 3840
|
|
},
|
|
{
|
|
"epoch": 12.816666666666666,
|
|
"grad_norm": 0.0010041996138170362,
|
|
"learning_rate": 2.9155555555555557e-05,
|
|
"loss": 0.0002,
|
|
"step": 3845
|
|
},
|
|
{
|
|
"epoch": 12.833333333333334,
|
|
"grad_norm": 0.0010595896746963263,
|
|
"learning_rate": 2.8933333333333333e-05,
|
|
"loss": 0.0002,
|
|
"step": 3850
|
|
},
|
|
{
|
|
"epoch": 12.85,
|
|
"grad_norm": 0.0009683365351520479,
|
|
"learning_rate": 2.8711111111111113e-05,
|
|
"loss": 0.0002,
|
|
"step": 3855
|
|
},
|
|
{
|
|
"epoch": 12.866666666666667,
|
|
"grad_norm": 0.0010778330033645034,
|
|
"learning_rate": 2.8488888888888892e-05,
|
|
"loss": 0.0002,
|
|
"step": 3860
|
|
},
|
|
{
|
|
"epoch": 12.883333333333333,
|
|
"grad_norm": 0.0009641871438361704,
|
|
"learning_rate": 2.8266666666666668e-05,
|
|
"loss": 0.0002,
|
|
"step": 3865
|
|
},
|
|
{
|
|
"epoch": 12.9,
|
|
"grad_norm": 0.0010485869133844972,
|
|
"learning_rate": 2.8044444444444444e-05,
|
|
"loss": 0.0002,
|
|
"step": 3870
|
|
},
|
|
{
|
|
"epoch": 12.916666666666666,
|
|
"grad_norm": 0.0008772484725341201,
|
|
"learning_rate": 2.782222222222222e-05,
|
|
"loss": 0.0002,
|
|
"step": 3875
|
|
},
|
|
{
|
|
"epoch": 12.933333333333334,
|
|
"grad_norm": 0.0010452147107571363,
|
|
"learning_rate": 2.7600000000000003e-05,
|
|
"loss": 0.0002,
|
|
"step": 3880
|
|
},
|
|
{
|
|
"epoch": 12.95,
|
|
"grad_norm": 0.0010583980474621058,
|
|
"learning_rate": 2.737777777777778e-05,
|
|
"loss": 0.0002,
|
|
"step": 3885
|
|
},
|
|
{
|
|
"epoch": 12.966666666666667,
|
|
"grad_norm": 0.0008542913128621876,
|
|
"learning_rate": 2.7155555555555556e-05,
|
|
"loss": 0.0002,
|
|
"step": 3890
|
|
},
|
|
{
|
|
"epoch": 12.983333333333333,
|
|
"grad_norm": 0.0011009940644726157,
|
|
"learning_rate": 2.6933333333333332e-05,
|
|
"loss": 0.0002,
|
|
"step": 3895
|
|
},
|
|
{
|
|
"epoch": 13.0,
|
|
"grad_norm": 0.0011797796469181776,
|
|
"learning_rate": 2.6711111111111115e-05,
|
|
"loss": 0.0002,
|
|
"step": 3900
|
|
},
|
|
{
|
|
"epoch": 13.0,
|
|
"eval_accuracy": 0.8675,
|
|
"eval_f1": 0.8653489569306125,
|
|
"eval_loss": 0.9113307595252991,
|
|
"eval_precision": 0.8791725605635567,
|
|
"eval_recall": 0.8675,
|
|
"eval_runtime": 8.6393,
|
|
"eval_samples_per_second": 138.901,
|
|
"eval_steps_per_second": 17.363,
|
|
"step": 3900
|
|
},
|
|
{
|
|
"epoch": 13.016666666666667,
|
|
"grad_norm": 0.000974777271039784,
|
|
"learning_rate": 2.648888888888889e-05,
|
|
"loss": 0.0002,
|
|
"step": 3905
|
|
},
|
|
{
|
|
"epoch": 13.033333333333333,
|
|
"grad_norm": 0.0008126385509967804,
|
|
"learning_rate": 2.6266666666666667e-05,
|
|
"loss": 0.0002,
|
|
"step": 3910
|
|
},
|
|
{
|
|
"epoch": 13.05,
|
|
"grad_norm": 0.0009841653518378735,
|
|
"learning_rate": 2.6044444444444443e-05,
|
|
"loss": 0.0002,
|
|
"step": 3915
|
|
},
|
|
{
|
|
"epoch": 13.066666666666666,
|
|
"grad_norm": 0.001155352802015841,
|
|
"learning_rate": 2.5822222222222226e-05,
|
|
"loss": 0.0002,
|
|
"step": 3920
|
|
},
|
|
{
|
|
"epoch": 13.083333333333334,
|
|
"grad_norm": 0.0008333691512234509,
|
|
"learning_rate": 2.5600000000000002e-05,
|
|
"loss": 0.0002,
|
|
"step": 3925
|
|
},
|
|
{
|
|
"epoch": 13.1,
|
|
"grad_norm": 0.0008260849863290787,
|
|
"learning_rate": 2.537777777777778e-05,
|
|
"loss": 0.0002,
|
|
"step": 3930
|
|
},
|
|
{
|
|
"epoch": 13.116666666666667,
|
|
"grad_norm": 0.0011717848246917129,
|
|
"learning_rate": 2.5155555555555555e-05,
|
|
"loss": 0.0002,
|
|
"step": 3935
|
|
},
|
|
{
|
|
"epoch": 13.133333333333333,
|
|
"grad_norm": 0.0009493640973232687,
|
|
"learning_rate": 2.4933333333333334e-05,
|
|
"loss": 0.0002,
|
|
"step": 3940
|
|
},
|
|
{
|
|
"epoch": 13.15,
|
|
"grad_norm": 0.0010694536613300443,
|
|
"learning_rate": 2.4711111111111114e-05,
|
|
"loss": 0.0002,
|
|
"step": 3945
|
|
},
|
|
{
|
|
"epoch": 13.166666666666666,
|
|
"grad_norm": 0.0010569182923063636,
|
|
"learning_rate": 2.448888888888889e-05,
|
|
"loss": 0.0002,
|
|
"step": 3950
|
|
},
|
|
{
|
|
"epoch": 13.183333333333334,
|
|
"grad_norm": 0.0010735576506704092,
|
|
"learning_rate": 2.426666666666667e-05,
|
|
"loss": 0.0002,
|
|
"step": 3955
|
|
},
|
|
{
|
|
"epoch": 13.2,
|
|
"grad_norm": 0.0009017607080750167,
|
|
"learning_rate": 2.4044444444444445e-05,
|
|
"loss": 0.0002,
|
|
"step": 3960
|
|
},
|
|
{
|
|
"epoch": 13.216666666666667,
|
|
"grad_norm": 0.0010776235722005367,
|
|
"learning_rate": 2.3822222222222225e-05,
|
|
"loss": 0.0002,
|
|
"step": 3965
|
|
},
|
|
{
|
|
"epoch": 13.233333333333333,
|
|
"grad_norm": 0.0009979140013456345,
|
|
"learning_rate": 2.36e-05,
|
|
"loss": 0.0002,
|
|
"step": 3970
|
|
},
|
|
{
|
|
"epoch": 13.25,
|
|
"grad_norm": 0.0009763720445334911,
|
|
"learning_rate": 2.337777777777778e-05,
|
|
"loss": 0.0002,
|
|
"step": 3975
|
|
},
|
|
{
|
|
"epoch": 13.266666666666667,
|
|
"grad_norm": 0.00138624117244035,
|
|
"learning_rate": 2.3155555555555557e-05,
|
|
"loss": 0.0002,
|
|
"step": 3980
|
|
},
|
|
{
|
|
"epoch": 13.283333333333333,
|
|
"grad_norm": 0.0009859746787697077,
|
|
"learning_rate": 2.2933333333333333e-05,
|
|
"loss": 0.0002,
|
|
"step": 3985
|
|
},
|
|
{
|
|
"epoch": 13.3,
|
|
"grad_norm": 0.0024169215466827154,
|
|
"learning_rate": 2.2711111111111112e-05,
|
|
"loss": 0.0002,
|
|
"step": 3990
|
|
},
|
|
{
|
|
"epoch": 13.316666666666666,
|
|
"grad_norm": 0.0009063694160431623,
|
|
"learning_rate": 2.248888888888889e-05,
|
|
"loss": 0.0002,
|
|
"step": 3995
|
|
},
|
|
{
|
|
"epoch": 13.333333333333334,
|
|
"grad_norm": 0.0010980329243466258,
|
|
"learning_rate": 2.2266666666666668e-05,
|
|
"loss": 0.0002,
|
|
"step": 4000
|
|
},
|
|
{
|
|
"epoch": 13.333333333333334,
|
|
"eval_accuracy": 0.8683333333333333,
|
|
"eval_f1": 0.8662054494258439,
|
|
"eval_loss": 0.9124165773391724,
|
|
"eval_precision": 0.8799916621015984,
|
|
"eval_recall": 0.8683333333333333,
|
|
"eval_runtime": 8.5899,
|
|
"eval_samples_per_second": 139.699,
|
|
"eval_steps_per_second": 17.462,
|
|
"step": 4000
|
|
},
|
|
{
|
|
"epoch": 13.35,
|
|
"grad_norm": 0.001108839875087142,
|
|
"learning_rate": 2.2044444444444444e-05,
|
|
"loss": 0.0002,
|
|
"step": 4005
|
|
},
|
|
{
|
|
"epoch": 13.366666666666667,
|
|
"grad_norm": 0.0010376395657658577,
|
|
"learning_rate": 2.1822222222222224e-05,
|
|
"loss": 0.0002,
|
|
"step": 4010
|
|
},
|
|
{
|
|
"epoch": 13.383333333333333,
|
|
"grad_norm": 0.0009023257298395038,
|
|
"learning_rate": 2.16e-05,
|
|
"loss": 0.0002,
|
|
"step": 4015
|
|
},
|
|
{
|
|
"epoch": 13.4,
|
|
"grad_norm": 0.0012054431717842817,
|
|
"learning_rate": 2.137777777777778e-05,
|
|
"loss": 0.0002,
|
|
"step": 4020
|
|
},
|
|
{
|
|
"epoch": 13.416666666666666,
|
|
"grad_norm": 0.001209812588058412,
|
|
"learning_rate": 2.1155555555555556e-05,
|
|
"loss": 0.0002,
|
|
"step": 4025
|
|
},
|
|
{
|
|
"epoch": 13.433333333333334,
|
|
"grad_norm": 0.001066188095137477,
|
|
"learning_rate": 2.0933333333333335e-05,
|
|
"loss": 0.0002,
|
|
"step": 4030
|
|
},
|
|
{
|
|
"epoch": 13.45,
|
|
"grad_norm": 0.0011846404522657394,
|
|
"learning_rate": 2.071111111111111e-05,
|
|
"loss": 0.0002,
|
|
"step": 4035
|
|
},
|
|
{
|
|
"epoch": 13.466666666666667,
|
|
"grad_norm": 0.0012806459562852979,
|
|
"learning_rate": 2.048888888888889e-05,
|
|
"loss": 0.0002,
|
|
"step": 4040
|
|
},
|
|
{
|
|
"epoch": 13.483333333333333,
|
|
"grad_norm": 0.0009496557177044451,
|
|
"learning_rate": 2.0266666666666667e-05,
|
|
"loss": 0.0002,
|
|
"step": 4045
|
|
},
|
|
{
|
|
"epoch": 13.5,
|
|
"grad_norm": 0.0010594555642455816,
|
|
"learning_rate": 2.0044444444444446e-05,
|
|
"loss": 0.0002,
|
|
"step": 4050
|
|
},
|
|
{
|
|
"epoch": 13.516666666666667,
|
|
"grad_norm": 0.0011220441665500402,
|
|
"learning_rate": 1.9822222222222223e-05,
|
|
"loss": 0.0002,
|
|
"step": 4055
|
|
},
|
|
{
|
|
"epoch": 13.533333333333333,
|
|
"grad_norm": 0.0013798715081065893,
|
|
"learning_rate": 1.9600000000000002e-05,
|
|
"loss": 0.0002,
|
|
"step": 4060
|
|
},
|
|
{
|
|
"epoch": 13.55,
|
|
"grad_norm": 0.0010349206859245896,
|
|
"learning_rate": 1.9377777777777778e-05,
|
|
"loss": 0.0002,
|
|
"step": 4065
|
|
},
|
|
{
|
|
"epoch": 13.566666666666666,
|
|
"grad_norm": 0.0008303927024826407,
|
|
"learning_rate": 1.9155555555555558e-05,
|
|
"loss": 0.0002,
|
|
"step": 4070
|
|
},
|
|
{
|
|
"epoch": 13.583333333333334,
|
|
"grad_norm": 0.0009135144064202905,
|
|
"learning_rate": 1.8933333333333334e-05,
|
|
"loss": 0.0002,
|
|
"step": 4075
|
|
},
|
|
{
|
|
"epoch": 13.6,
|
|
"grad_norm": 0.0009139656904153526,
|
|
"learning_rate": 1.8711111111111113e-05,
|
|
"loss": 0.0002,
|
|
"step": 4080
|
|
},
|
|
{
|
|
"epoch": 13.616666666666667,
|
|
"grad_norm": 0.0015188547549769282,
|
|
"learning_rate": 1.848888888888889e-05,
|
|
"loss": 0.0002,
|
|
"step": 4085
|
|
},
|
|
{
|
|
"epoch": 13.633333333333333,
|
|
"grad_norm": 0.000991416280157864,
|
|
"learning_rate": 1.826666666666667e-05,
|
|
"loss": 0.0002,
|
|
"step": 4090
|
|
},
|
|
{
|
|
"epoch": 13.65,
|
|
"grad_norm": 0.0008409863221459091,
|
|
"learning_rate": 1.8044444444444445e-05,
|
|
"loss": 0.0002,
|
|
"step": 4095
|
|
},
|
|
{
|
|
"epoch": 13.666666666666666,
|
|
"grad_norm": 0.0010441892081871629,
|
|
"learning_rate": 1.7822222222222225e-05,
|
|
"loss": 0.0002,
|
|
"step": 4100
|
|
},
|
|
{
|
|
"epoch": 13.666666666666666,
|
|
"eval_accuracy": 0.8683333333333333,
|
|
"eval_f1": 0.8662054494258439,
|
|
"eval_loss": 0.9130155444145203,
|
|
"eval_precision": 0.8799916621015984,
|
|
"eval_recall": 0.8683333333333333,
|
|
"eval_runtime": 8.8186,
|
|
"eval_samples_per_second": 136.076,
|
|
"eval_steps_per_second": 17.01,
|
|
"step": 4100
|
|
},
|
|
{
|
|
"epoch": 13.683333333333334,
|
|
"grad_norm": 0.0010945101967081428,
|
|
"learning_rate": 1.76e-05,
|
|
"loss": 0.0002,
|
|
"step": 4105
|
|
},
|
|
{
|
|
"epoch": 13.7,
|
|
"grad_norm": 0.0009312895708717406,
|
|
"learning_rate": 1.737777777777778e-05,
|
|
"loss": 0.0002,
|
|
"step": 4110
|
|
},
|
|
{
|
|
"epoch": 13.716666666666667,
|
|
"grad_norm": 0.0010571458842605352,
|
|
"learning_rate": 1.7155555555555557e-05,
|
|
"loss": 0.0002,
|
|
"step": 4115
|
|
},
|
|
{
|
|
"epoch": 13.733333333333333,
|
|
"grad_norm": 0.0008640410960651934,
|
|
"learning_rate": 1.6933333333333333e-05,
|
|
"loss": 0.0002,
|
|
"step": 4120
|
|
},
|
|
{
|
|
"epoch": 13.75,
|
|
"grad_norm": 0.0011680213501676917,
|
|
"learning_rate": 1.6711111111111112e-05,
|
|
"loss": 0.0002,
|
|
"step": 4125
|
|
},
|
|
{
|
|
"epoch": 13.766666666666667,
|
|
"grad_norm": 0.0009616559254936874,
|
|
"learning_rate": 1.648888888888889e-05,
|
|
"loss": 0.0002,
|
|
"step": 4130
|
|
},
|
|
{
|
|
"epoch": 13.783333333333333,
|
|
"grad_norm": 0.000967467378359288,
|
|
"learning_rate": 1.6266666666666665e-05,
|
|
"loss": 0.0002,
|
|
"step": 4135
|
|
},
|
|
{
|
|
"epoch": 13.8,
|
|
"grad_norm": 0.0008415755582973361,
|
|
"learning_rate": 1.6044444444444444e-05,
|
|
"loss": 0.0002,
|
|
"step": 4140
|
|
},
|
|
{
|
|
"epoch": 13.816666666666666,
|
|
"grad_norm": 0.0007956422632560134,
|
|
"learning_rate": 1.582222222222222e-05,
|
|
"loss": 0.0002,
|
|
"step": 4145
|
|
},
|
|
{
|
|
"epoch": 13.833333333333334,
|
|
"grad_norm": 0.0006983898347243667,
|
|
"learning_rate": 1.56e-05,
|
|
"loss": 0.0002,
|
|
"step": 4150
|
|
},
|
|
{
|
|
"epoch": 13.85,
|
|
"grad_norm": 0.0010508123086765409,
|
|
"learning_rate": 1.537777777777778e-05,
|
|
"loss": 0.0002,
|
|
"step": 4155
|
|
},
|
|
{
|
|
"epoch": 13.866666666666667,
|
|
"grad_norm": 0.0009309173910878599,
|
|
"learning_rate": 1.5155555555555555e-05,
|
|
"loss": 0.0002,
|
|
"step": 4160
|
|
},
|
|
{
|
|
"epoch": 13.883333333333333,
|
|
"grad_norm": 0.0010053145233541727,
|
|
"learning_rate": 1.4933333333333335e-05,
|
|
"loss": 0.0002,
|
|
"step": 4165
|
|
},
|
|
{
|
|
"epoch": 13.9,
|
|
"grad_norm": 0.0009263809770345688,
|
|
"learning_rate": 1.4711111111111111e-05,
|
|
"loss": 0.0002,
|
|
"step": 4170
|
|
},
|
|
{
|
|
"epoch": 13.916666666666666,
|
|
"grad_norm": 0.0009699989459477365,
|
|
"learning_rate": 1.448888888888889e-05,
|
|
"loss": 0.0002,
|
|
"step": 4175
|
|
},
|
|
{
|
|
"epoch": 13.933333333333334,
|
|
"grad_norm": 0.001039581373333931,
|
|
"learning_rate": 1.4266666666666667e-05,
|
|
"loss": 0.0002,
|
|
"step": 4180
|
|
},
|
|
{
|
|
"epoch": 13.95,
|
|
"grad_norm": 0.0010692535433918238,
|
|
"learning_rate": 1.4044444444444446e-05,
|
|
"loss": 0.0002,
|
|
"step": 4185
|
|
},
|
|
{
|
|
"epoch": 13.966666666666667,
|
|
"grad_norm": 0.0009307617438025773,
|
|
"learning_rate": 1.3822222222222222e-05,
|
|
"loss": 0.0002,
|
|
"step": 4190
|
|
},
|
|
{
|
|
"epoch": 13.983333333333333,
|
|
"grad_norm": 0.00100109470076859,
|
|
"learning_rate": 1.3600000000000002e-05,
|
|
"loss": 0.0002,
|
|
"step": 4195
|
|
},
|
|
{
|
|
"epoch": 14.0,
|
|
"grad_norm": 0.0014318906469270587,
|
|
"learning_rate": 1.3377777777777778e-05,
|
|
"loss": 0.0002,
|
|
"step": 4200
|
|
},
|
|
{
|
|
"epoch": 14.0,
|
|
"eval_accuracy": 0.8683333333333333,
|
|
"eval_f1": 0.8662054494258439,
|
|
"eval_loss": 0.912448525428772,
|
|
"eval_precision": 0.8799916621015984,
|
|
"eval_recall": 0.8683333333333333,
|
|
"eval_runtime": 8.6327,
|
|
"eval_samples_per_second": 139.006,
|
|
"eval_steps_per_second": 17.376,
|
|
"step": 4200
|
|
},
|
|
{
|
|
"epoch": 14.016666666666667,
|
|
"grad_norm": 0.0009112833067774773,
|
|
"learning_rate": 1.3155555555555558e-05,
|
|
"loss": 0.0002,
|
|
"step": 4205
|
|
},
|
|
{
|
|
"epoch": 14.033333333333333,
|
|
"grad_norm": 0.0008922222768887877,
|
|
"learning_rate": 1.2933333333333334e-05,
|
|
"loss": 0.0002,
|
|
"step": 4210
|
|
},
|
|
{
|
|
"epoch": 14.05,
|
|
"grad_norm": 0.0010068031260743737,
|
|
"learning_rate": 1.2711111111111113e-05,
|
|
"loss": 0.0002,
|
|
"step": 4215
|
|
},
|
|
{
|
|
"epoch": 14.066666666666666,
|
|
"grad_norm": 0.0011091630440205336,
|
|
"learning_rate": 1.248888888888889e-05,
|
|
"loss": 0.0002,
|
|
"step": 4220
|
|
},
|
|
{
|
|
"epoch": 14.083333333333334,
|
|
"grad_norm": 0.0010797716677188873,
|
|
"learning_rate": 1.2266666666666667e-05,
|
|
"loss": 0.0002,
|
|
"step": 4225
|
|
},
|
|
{
|
|
"epoch": 14.1,
|
|
"grad_norm": 0.0008676221477799118,
|
|
"learning_rate": 1.2044444444444445e-05,
|
|
"loss": 0.0002,
|
|
"step": 4230
|
|
},
|
|
{
|
|
"epoch": 14.116666666666667,
|
|
"grad_norm": 0.0008416885393671691,
|
|
"learning_rate": 1.1822222222222223e-05,
|
|
"loss": 0.0002,
|
|
"step": 4235
|
|
},
|
|
{
|
|
"epoch": 14.133333333333333,
|
|
"grad_norm": 0.0006986764492467046,
|
|
"learning_rate": 1.16e-05,
|
|
"loss": 0.0002,
|
|
"step": 4240
|
|
},
|
|
{
|
|
"epoch": 14.15,
|
|
"grad_norm": 0.0012195877498015761,
|
|
"learning_rate": 1.1377777777777779e-05,
|
|
"loss": 0.0002,
|
|
"step": 4245
|
|
},
|
|
{
|
|
"epoch": 14.166666666666666,
|
|
"grad_norm": 0.0008148361230269074,
|
|
"learning_rate": 1.1155555555555556e-05,
|
|
"loss": 0.0002,
|
|
"step": 4250
|
|
},
|
|
{
|
|
"epoch": 14.183333333333334,
|
|
"grad_norm": 0.000903773121535778,
|
|
"learning_rate": 1.0933333333333334e-05,
|
|
"loss": 0.0002,
|
|
"step": 4255
|
|
},
|
|
{
|
|
"epoch": 14.2,
|
|
"grad_norm": 0.0007951482548378408,
|
|
"learning_rate": 1.0711111111111112e-05,
|
|
"loss": 0.0002,
|
|
"step": 4260
|
|
},
|
|
{
|
|
"epoch": 14.216666666666667,
|
|
"grad_norm": 0.0010219771647825837,
|
|
"learning_rate": 1.048888888888889e-05,
|
|
"loss": 0.0002,
|
|
"step": 4265
|
|
},
|
|
{
|
|
"epoch": 14.233333333333333,
|
|
"grad_norm": 0.0008164571481756866,
|
|
"learning_rate": 1.0266666666666668e-05,
|
|
"loss": 0.0002,
|
|
"step": 4270
|
|
},
|
|
{
|
|
"epoch": 14.25,
|
|
"grad_norm": 0.0009997694287449121,
|
|
"learning_rate": 1.0044444444444446e-05,
|
|
"loss": 0.0002,
|
|
"step": 4275
|
|
},
|
|
{
|
|
"epoch": 14.266666666666667,
|
|
"grad_norm": 0.0008948759641498327,
|
|
"learning_rate": 9.822222222222223e-06,
|
|
"loss": 0.0002,
|
|
"step": 4280
|
|
},
|
|
{
|
|
"epoch": 14.283333333333333,
|
|
"grad_norm": 0.0010801523458212614,
|
|
"learning_rate": 9.600000000000001e-06,
|
|
"loss": 0.0002,
|
|
"step": 4285
|
|
},
|
|
{
|
|
"epoch": 14.3,
|
|
"grad_norm": 0.0009272038587369025,
|
|
"learning_rate": 9.377777777777779e-06,
|
|
"loss": 0.0002,
|
|
"step": 4290
|
|
},
|
|
{
|
|
"epoch": 14.316666666666666,
|
|
"grad_norm": 0.0010733893141150475,
|
|
"learning_rate": 9.155555555555557e-06,
|
|
"loss": 0.0002,
|
|
"step": 4295
|
|
},
|
|
{
|
|
"epoch": 14.333333333333334,
|
|
"grad_norm": 0.0010622100671753287,
|
|
"learning_rate": 8.933333333333333e-06,
|
|
"loss": 0.0002,
|
|
"step": 4300
|
|
},
|
|
{
|
|
"epoch": 14.333333333333334,
|
|
"eval_accuracy": 0.8683333333333333,
|
|
"eval_f1": 0.8662054494258439,
|
|
"eval_loss": 0.9125186204910278,
|
|
"eval_precision": 0.8799916621015984,
|
|
"eval_recall": 0.8683333333333333,
|
|
"eval_runtime": 9.6276,
|
|
"eval_samples_per_second": 124.641,
|
|
"eval_steps_per_second": 15.58,
|
|
"step": 4300
|
|
},
|
|
{
|
|
"epoch": 14.35,
|
|
"grad_norm": 0.0007723625167272985,
|
|
"learning_rate": 8.711111111111111e-06,
|
|
"loss": 0.0002,
|
|
"step": 4305
|
|
},
|
|
{
|
|
"epoch": 14.366666666666667,
|
|
"grad_norm": 0.0009308660519309342,
|
|
"learning_rate": 8.488888888888889e-06,
|
|
"loss": 0.0002,
|
|
"step": 4310
|
|
},
|
|
{
|
|
"epoch": 14.383333333333333,
|
|
"grad_norm": 0.0009453694219700992,
|
|
"learning_rate": 8.266666666666667e-06,
|
|
"loss": 0.0002,
|
|
"step": 4315
|
|
},
|
|
{
|
|
"epoch": 14.4,
|
|
"grad_norm": 0.0008883333648554981,
|
|
"learning_rate": 8.044444444444444e-06,
|
|
"loss": 0.0002,
|
|
"step": 4320
|
|
},
|
|
{
|
|
"epoch": 14.416666666666666,
|
|
"grad_norm": 0.0024156623985618353,
|
|
"learning_rate": 7.822222222222222e-06,
|
|
"loss": 0.0002,
|
|
"step": 4325
|
|
},
|
|
{
|
|
"epoch": 14.433333333333334,
|
|
"grad_norm": 0.0009812297066673636,
|
|
"learning_rate": 7.6e-06,
|
|
"loss": 0.0002,
|
|
"step": 4330
|
|
},
|
|
{
|
|
"epoch": 14.45,
|
|
"grad_norm": 0.0008855509804561734,
|
|
"learning_rate": 7.377777777777778e-06,
|
|
"loss": 0.0002,
|
|
"step": 4335
|
|
},
|
|
{
|
|
"epoch": 14.466666666666667,
|
|
"grad_norm": 0.0008073800709098577,
|
|
"learning_rate": 7.155555555555556e-06,
|
|
"loss": 0.0002,
|
|
"step": 4340
|
|
},
|
|
{
|
|
"epoch": 14.483333333333333,
|
|
"grad_norm": 0.0009413220686838031,
|
|
"learning_rate": 6.933333333333334e-06,
|
|
"loss": 0.0002,
|
|
"step": 4345
|
|
},
|
|
{
|
|
"epoch": 14.5,
|
|
"grad_norm": 0.0010885632364079356,
|
|
"learning_rate": 6.711111111111111e-06,
|
|
"loss": 0.0002,
|
|
"step": 4350
|
|
},
|
|
{
|
|
"epoch": 14.516666666666667,
|
|
"grad_norm": 0.0011338436743244529,
|
|
"learning_rate": 6.488888888888888e-06,
|
|
"loss": 0.0002,
|
|
"step": 4355
|
|
},
|
|
{
|
|
"epoch": 14.533333333333333,
|
|
"grad_norm": 0.000994774978607893,
|
|
"learning_rate": 6.266666666666666e-06,
|
|
"loss": 0.0002,
|
|
"step": 4360
|
|
},
|
|
{
|
|
"epoch": 14.55,
|
|
"grad_norm": 0.0009399533737450838,
|
|
"learning_rate": 6.044444444444445e-06,
|
|
"loss": 0.0002,
|
|
"step": 4365
|
|
},
|
|
{
|
|
"epoch": 14.566666666666666,
|
|
"grad_norm": 0.0008130625355988741,
|
|
"learning_rate": 5.822222222222223e-06,
|
|
"loss": 0.0002,
|
|
"step": 4370
|
|
},
|
|
{
|
|
"epoch": 14.583333333333334,
|
|
"grad_norm": 0.0007989128935150802,
|
|
"learning_rate": 5.600000000000001e-06,
|
|
"loss": 0.0002,
|
|
"step": 4375
|
|
},
|
|
{
|
|
"epoch": 14.6,
|
|
"grad_norm": 0.0009085009805858135,
|
|
"learning_rate": 5.3777777777777784e-06,
|
|
"loss": 0.0002,
|
|
"step": 4380
|
|
},
|
|
{
|
|
"epoch": 14.616666666666667,
|
|
"grad_norm": 0.0009112312109209597,
|
|
"learning_rate": 5.155555555555555e-06,
|
|
"loss": 0.0002,
|
|
"step": 4385
|
|
},
|
|
{
|
|
"epoch": 14.633333333333333,
|
|
"grad_norm": 0.0013780698645859957,
|
|
"learning_rate": 4.933333333333333e-06,
|
|
"loss": 0.0002,
|
|
"step": 4390
|
|
},
|
|
{
|
|
"epoch": 14.65,
|
|
"grad_norm": 0.0009466470219194889,
|
|
"learning_rate": 4.711111111111111e-06,
|
|
"loss": 0.0002,
|
|
"step": 4395
|
|
},
|
|
{
|
|
"epoch": 14.666666666666666,
|
|
"grad_norm": 0.0008939657127484679,
|
|
"learning_rate": 4.488888888888889e-06,
|
|
"loss": 0.0002,
|
|
"step": 4400
|
|
},
|
|
{
|
|
"epoch": 14.666666666666666,
|
|
"eval_accuracy": 0.8683333333333333,
|
|
"eval_f1": 0.8662054494258439,
|
|
"eval_loss": 0.9129561185836792,
|
|
"eval_precision": 0.8799916621015984,
|
|
"eval_recall": 0.8683333333333333,
|
|
"eval_runtime": 8.7443,
|
|
"eval_samples_per_second": 137.232,
|
|
"eval_steps_per_second": 17.154,
|
|
"step": 4400
|
|
},
|
|
{
|
|
"epoch": 14.683333333333334,
|
|
"grad_norm": 0.0014176799450069666,
|
|
"learning_rate": 4.266666666666667e-06,
|
|
"loss": 0.0002,
|
|
"step": 4405
|
|
},
|
|
{
|
|
"epoch": 14.7,
|
|
"grad_norm": 0.0007848498644307256,
|
|
"learning_rate": 4.044444444444445e-06,
|
|
"loss": 0.0002,
|
|
"step": 4410
|
|
},
|
|
{
|
|
"epoch": 14.716666666666667,
|
|
"grad_norm": 0.0008102475549094379,
|
|
"learning_rate": 3.8222222222222224e-06,
|
|
"loss": 0.0002,
|
|
"step": 4415
|
|
},
|
|
{
|
|
"epoch": 14.733333333333333,
|
|
"grad_norm": 0.0008677626610733569,
|
|
"learning_rate": 3.6e-06,
|
|
"loss": 0.0002,
|
|
"step": 4420
|
|
},
|
|
{
|
|
"epoch": 14.75,
|
|
"grad_norm": 0.0009485006448812783,
|
|
"learning_rate": 3.3777777777777777e-06,
|
|
"loss": 0.0002,
|
|
"step": 4425
|
|
},
|
|
{
|
|
"epoch": 14.766666666666667,
|
|
"grad_norm": 0.0008669234230183065,
|
|
"learning_rate": 3.155555555555556e-06,
|
|
"loss": 0.0002,
|
|
"step": 4430
|
|
},
|
|
{
|
|
"epoch": 14.783333333333333,
|
|
"grad_norm": 0.0008200660231523216,
|
|
"learning_rate": 2.9333333333333333e-06,
|
|
"loss": 0.0002,
|
|
"step": 4435
|
|
},
|
|
{
|
|
"epoch": 14.8,
|
|
"grad_norm": 0.0009207354742102325,
|
|
"learning_rate": 2.711111111111111e-06,
|
|
"loss": 0.0002,
|
|
"step": 4440
|
|
},
|
|
{
|
|
"epoch": 14.816666666666666,
|
|
"grad_norm": 0.0008159075514413416,
|
|
"learning_rate": 2.488888888888889e-06,
|
|
"loss": 0.0002,
|
|
"step": 4445
|
|
},
|
|
{
|
|
"epoch": 14.833333333333334,
|
|
"grad_norm": 0.0012124241329729557,
|
|
"learning_rate": 2.266666666666667e-06,
|
|
"loss": 0.0002,
|
|
"step": 4450
|
|
},
|
|
{
|
|
"epoch": 14.85,
|
|
"grad_norm": 0.0010082798544317484,
|
|
"learning_rate": 2.0444444444444447e-06,
|
|
"loss": 0.0002,
|
|
"step": 4455
|
|
},
|
|
{
|
|
"epoch": 14.866666666666667,
|
|
"grad_norm": 0.0010259953560307622,
|
|
"learning_rate": 1.8222222222222223e-06,
|
|
"loss": 0.0002,
|
|
"step": 4460
|
|
},
|
|
{
|
|
"epoch": 14.883333333333333,
|
|
"grad_norm": 0.0008410926093347371,
|
|
"learning_rate": 1.6000000000000001e-06,
|
|
"loss": 0.0002,
|
|
"step": 4465
|
|
},
|
|
{
|
|
"epoch": 14.9,
|
|
"grad_norm": 0.001311168889515102,
|
|
"learning_rate": 1.3777777777777778e-06,
|
|
"loss": 0.0002,
|
|
"step": 4470
|
|
},
|
|
{
|
|
"epoch": 14.916666666666666,
|
|
"grad_norm": 0.0011399708455428481,
|
|
"learning_rate": 1.1555555555555556e-06,
|
|
"loss": 0.0002,
|
|
"step": 4475
|
|
},
|
|
{
|
|
"epoch": 14.933333333333334,
|
|
"grad_norm": 0.0007954046595841646,
|
|
"learning_rate": 9.333333333333334e-07,
|
|
"loss": 0.0002,
|
|
"step": 4480
|
|
},
|
|
{
|
|
"epoch": 14.95,
|
|
"grad_norm": 0.0008534889202564955,
|
|
"learning_rate": 7.111111111111112e-07,
|
|
"loss": 0.0002,
|
|
"step": 4485
|
|
},
|
|
{
|
|
"epoch": 14.966666666666667,
|
|
"grad_norm": 0.0009493738180026412,
|
|
"learning_rate": 4.888888888888889e-07,
|
|
"loss": 0.0002,
|
|
"step": 4490
|
|
},
|
|
{
|
|
"epoch": 14.983333333333333,
|
|
"grad_norm": 0.0010394933633506298,
|
|
"learning_rate": 2.6666666666666667e-07,
|
|
"loss": 0.0002,
|
|
"step": 4495
|
|
},
|
|
{
|
|
"epoch": 15.0,
|
|
"grad_norm": 0.0009004945168271661,
|
|
"learning_rate": 4.444444444444445e-08,
|
|
"loss": 0.0002,
|
|
"step": 4500
|
|
},
|
|
{
|
|
"epoch": 15.0,
|
|
"eval_accuracy": 0.8683333333333333,
|
|
"eval_f1": 0.8662054494258439,
|
|
"eval_loss": 0.9130643606185913,
|
|
"eval_precision": 0.8799916621015984,
|
|
"eval_recall": 0.8683333333333333,
|
|
"eval_runtime": 8.9426,
|
|
"eval_samples_per_second": 134.189,
|
|
"eval_steps_per_second": 16.774,
|
|
"step": 4500
|
|
},
|
|
{
|
|
"epoch": 15.0,
|
|
"step": 4500,
|
|
"total_flos": 5.57962327867392e+18,
|
|
"train_loss": 0.03953544595837593,
|
|
"train_runtime": 1130.6287,
|
|
"train_samples_per_second": 63.681,
|
|
"train_steps_per_second": 3.98
|
|
}
|
|
],
|
|
"logging_steps": 5,
|
|
"max_steps": 4500,
|
|
"num_input_tokens_seen": 0,
|
|
"num_train_epochs": 15,
|
|
"save_steps": 100,
|
|
"stateful_callbacks": {
|
|
"TrainerControl": {
|
|
"args": {
|
|
"should_epoch_stop": false,
|
|
"should_evaluate": false,
|
|
"should_log": false,
|
|
"should_save": true,
|
|
"should_training_stop": true
|
|
},
|
|
"attributes": {}
|
|
}
|
|
},
|
|
"total_flos": 5.57962327867392e+18,
|
|
"train_batch_size": 16,
|
|
"trial_name": null,
|
|
"trial_params": null
|
|
}
|
|
|