ErrorAI commited on
Commit
0aa5907
·
verified ·
1 Parent(s): 45ddee0

Training in progress, step 1417, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:ac9688844d33ea55cb715bd7ff7838e81015e06e42519fb13f0a6f45439ac190
3
  size 125248064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6e2899bb851d328f8adadfe28b64c90197cdc9df4b928bb70bd0e66cba8ca687
3
  size 125248064
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:558810add0e564556c9f0aba1b3756490b7064d15445e554f6e687831a77b5f2
3
  size 64220436
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c8d32cc82193045cb6b5f11899152c8381df0be76e908991130af4d2b118f6b2
3
  size 64220436
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a0582ae30c13b95d8b32ba0ec60a5d0c9bfc3219b3a9f690bef82c39fe40d68b
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ac894c64cbcf4aad35d02cddc8ead9ae4ce5c3d53a4f512a7bf525555fbded5b
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8a8713e77c01e224488d38e81e4075ffc0b7ffd8068f86e17c7f5bd452e55bb5
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:938af08430819ad570ba94ba21d2a6e8af7d460eebba19f4f25f8727d34c0a08
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.18217584673280876,
5
  "eval_steps": 500,
6
- "global_step": 1065,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -7462,6 +7462,2470 @@
7462
  "learning_rate": 1.4566085573529874e-05,
7463
  "loss": 1.3304,
7464
  "step": 1065
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7465
  }
7466
  ],
7467
  "logging_steps": 1,
@@ -7476,12 +9940,12 @@
7476
  "should_evaluate": false,
7477
  "should_log": false,
7478
  "should_save": true,
7479
- "should_training_stop": false
7480
  },
7481
  "attributes": {}
7482
  }
7483
  },
7484
- "total_flos": 1.3521392391684096e+18,
7485
  "train_batch_size": 4,
7486
  "trial_name": null,
7487
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.242387957577831,
5
  "eval_steps": 500,
6
+ "global_step": 1417,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
7462
  "learning_rate": 1.4566085573529874e-05,
7463
  "loss": 1.3304,
7464
  "step": 1065
7465
+ },
7466
+ {
7467
+ "epoch": 0.1823469038658912,
7468
+ "grad_norm": 0.6401252746582031,
7469
+ "learning_rate": 1.4487685614349999e-05,
7470
+ "loss": 1.4265,
7471
+ "step": 1066
7472
+ },
7473
+ {
7474
+ "epoch": 0.18251796099897366,
7475
+ "grad_norm": 0.6446531414985657,
7476
+ "learning_rate": 1.4409461451235068e-05,
7477
+ "loss": 1.3344,
7478
+ "step": 1067
7479
+ },
7480
+ {
7481
+ "epoch": 0.1826890181320561,
7482
+ "grad_norm": 0.5877986550331116,
7483
+ "learning_rate": 1.4331413471416999e-05,
7484
+ "loss": 1.1895,
7485
+ "step": 1068
7486
+ },
7487
+ {
7488
+ "epoch": 0.18286007526513856,
7489
+ "grad_norm": 0.6732580065727234,
7490
+ "learning_rate": 1.4253542061255515e-05,
7491
+ "loss": 1.2624,
7492
+ "step": 1069
7493
+ },
7494
+ {
7495
+ "epoch": 0.183031132398221,
7496
+ "grad_norm": 0.639057993888855,
7497
+ "learning_rate": 1.4175847606236225e-05,
7498
+ "loss": 1.2844,
7499
+ "step": 1070
7500
+ },
7501
+ {
7502
+ "epoch": 0.18320218953130346,
7503
+ "grad_norm": 0.6967434287071228,
7504
+ "learning_rate": 1.409833049096882e-05,
7505
+ "loss": 1.3516,
7506
+ "step": 1071
7507
+ },
7508
+ {
7509
+ "epoch": 0.1833732466643859,
7510
+ "grad_norm": 0.6904391646385193,
7511
+ "learning_rate": 1.4020991099185077e-05,
7512
+ "loss": 1.3984,
7513
+ "step": 1072
7514
+ },
7515
+ {
7516
+ "epoch": 0.18354430379746836,
7517
+ "grad_norm": 0.6713119745254517,
7518
+ "learning_rate": 1.3943829813737008e-05,
7519
+ "loss": 1.1528,
7520
+ "step": 1073
7521
+ },
7522
+ {
7523
+ "epoch": 0.1837153609305508,
7524
+ "grad_norm": 0.7345438599586487,
7525
+ "learning_rate": 1.3866847016594952e-05,
7526
+ "loss": 1.234,
7527
+ "step": 1074
7528
+ },
7529
+ {
7530
+ "epoch": 0.18388641806363326,
7531
+ "grad_norm": 0.716822624206543,
7532
+ "learning_rate": 1.3790043088845644e-05,
7533
+ "loss": 1.0562,
7534
+ "step": 1075
7535
+ },
7536
+ {
7537
+ "epoch": 0.1840574751967157,
7538
+ "grad_norm": 0.7419716119766235,
7539
+ "learning_rate": 1.3713418410690398e-05,
7540
+ "loss": 1.0896,
7541
+ "step": 1076
7542
+ },
7543
+ {
7544
+ "epoch": 0.18422853232979816,
7545
+ "grad_norm": 0.7504467964172363,
7546
+ "learning_rate": 1.3636973361443183e-05,
7547
+ "loss": 1.0736,
7548
+ "step": 1077
7549
+ },
7550
+ {
7551
+ "epoch": 0.1843995894628806,
7552
+ "grad_norm": 0.7508487701416016,
7553
+ "learning_rate": 1.3560708319528753e-05,
7554
+ "loss": 1.1895,
7555
+ "step": 1078
7556
+ },
7557
+ {
7558
+ "epoch": 0.18457064659596306,
7559
+ "grad_norm": 0.7630247473716736,
7560
+ "learning_rate": 1.3484623662480778e-05,
7561
+ "loss": 1.0333,
7562
+ "step": 1079
7563
+ },
7564
+ {
7565
+ "epoch": 0.1847417037290455,
7566
+ "grad_norm": 0.8874102830886841,
7567
+ "learning_rate": 1.3408719766939981e-05,
7568
+ "loss": 1.2025,
7569
+ "step": 1080
7570
+ },
7571
+ {
7572
+ "epoch": 0.18491276086212796,
7573
+ "grad_norm": 0.8376559615135193,
7574
+ "learning_rate": 1.3332997008652204e-05,
7575
+ "loss": 1.2985,
7576
+ "step": 1081
7577
+ },
7578
+ {
7579
+ "epoch": 0.1850838179952104,
7580
+ "grad_norm": 0.9795891046524048,
7581
+ "learning_rate": 1.325745576246672e-05,
7582
+ "loss": 1.2767,
7583
+ "step": 1082
7584
+ },
7585
+ {
7586
+ "epoch": 0.18525487512829286,
7587
+ "grad_norm": 0.9145246744155884,
7588
+ "learning_rate": 1.3182096402334154e-05,
7589
+ "loss": 0.9915,
7590
+ "step": 1083
7591
+ },
7592
+ {
7593
+ "epoch": 0.1854259322613753,
7594
+ "grad_norm": 0.921216607093811,
7595
+ "learning_rate": 1.3106919301304803e-05,
7596
+ "loss": 1.2161,
7597
+ "step": 1084
7598
+ },
7599
+ {
7600
+ "epoch": 0.18559698939445776,
7601
+ "grad_norm": 1.0113946199417114,
7602
+ "learning_rate": 1.3031924831526737e-05,
7603
+ "loss": 1.2265,
7604
+ "step": 1085
7605
+ },
7606
+ {
7607
+ "epoch": 0.1857680465275402,
7608
+ "grad_norm": 0.9975959062576294,
7609
+ "learning_rate": 1.2957113364243883e-05,
7610
+ "loss": 0.9407,
7611
+ "step": 1086
7612
+ },
7613
+ {
7614
+ "epoch": 0.18593910366062263,
7615
+ "grad_norm": 1.016904592514038,
7616
+ "learning_rate": 1.2882485269794337e-05,
7617
+ "loss": 1.0962,
7618
+ "step": 1087
7619
+ },
7620
+ {
7621
+ "epoch": 0.1861101607937051,
7622
+ "grad_norm": 1.4570573568344116,
7623
+ "learning_rate": 1.2808040917608416e-05,
7624
+ "loss": 1.2726,
7625
+ "step": 1088
7626
+ },
7627
+ {
7628
+ "epoch": 0.18628121792678753,
7629
+ "grad_norm": 1.337405800819397,
7630
+ "learning_rate": 1.2733780676206824e-05,
7631
+ "loss": 1.4358,
7632
+ "step": 1089
7633
+ },
7634
+ {
7635
+ "epoch": 0.18645227505987,
7636
+ "grad_norm": 1.4514150619506836,
7637
+ "learning_rate": 1.2659704913198912e-05,
7638
+ "loss": 1.3006,
7639
+ "step": 1090
7640
+ },
7641
+ {
7642
+ "epoch": 0.18662333219295243,
7643
+ "grad_norm": 1.6620286703109741,
7644
+ "learning_rate": 1.2585813995280782e-05,
7645
+ "loss": 1.3035,
7646
+ "step": 1091
7647
+ },
7648
+ {
7649
+ "epoch": 0.1867943893260349,
7650
+ "grad_norm": 1.6806087493896484,
7651
+ "learning_rate": 1.2512108288233527e-05,
7652
+ "loss": 1.2647,
7653
+ "step": 1092
7654
+ },
7655
+ {
7656
+ "epoch": 0.18696544645911733,
7657
+ "grad_norm": 1.809899926185608,
7658
+ "learning_rate": 1.2438588156921377e-05,
7659
+ "loss": 1.2139,
7660
+ "step": 1093
7661
+ },
7662
+ {
7663
+ "epoch": 0.1871365035921998,
7664
+ "grad_norm": 1.948121428489685,
7665
+ "learning_rate": 1.2365253965289892e-05,
7666
+ "loss": 1.2671,
7667
+ "step": 1094
7668
+ },
7669
+ {
7670
+ "epoch": 0.18730756072528223,
7671
+ "grad_norm": 2.194424629211426,
7672
+ "learning_rate": 1.2292106076364201e-05,
7673
+ "loss": 1.6186,
7674
+ "step": 1095
7675
+ },
7676
+ {
7677
+ "epoch": 0.1874786178583647,
7678
+ "grad_norm": 2.3575432300567627,
7679
+ "learning_rate": 1.2219144852247189e-05,
7680
+ "loss": 1.352,
7681
+ "step": 1096
7682
+ },
7683
+ {
7684
+ "epoch": 0.18764967499144714,
7685
+ "grad_norm": 2.576568841934204,
7686
+ "learning_rate": 1.2146370654117672e-05,
7687
+ "loss": 1.444,
7688
+ "step": 1097
7689
+ },
7690
+ {
7691
+ "epoch": 0.1878207321245296,
7692
+ "grad_norm": 3.0673329830169678,
7693
+ "learning_rate": 1.2073783842228647e-05,
7694
+ "loss": 1.6478,
7695
+ "step": 1098
7696
+ },
7697
+ {
7698
+ "epoch": 0.18799178925761204,
7699
+ "grad_norm": 3.8215575218200684,
7700
+ "learning_rate": 1.2001384775905517e-05,
7701
+ "loss": 1.9244,
7702
+ "step": 1099
7703
+ },
7704
+ {
7705
+ "epoch": 0.1881628463906945,
7706
+ "grad_norm": 3.5268056392669678,
7707
+ "learning_rate": 1.192917381354422e-05,
7708
+ "loss": 1.1216,
7709
+ "step": 1100
7710
+ },
7711
+ {
7712
+ "epoch": 0.18833390352377694,
7713
+ "grad_norm": 0.4581390619277954,
7714
+ "learning_rate": 1.1857151312609622e-05,
7715
+ "loss": 1.1206,
7716
+ "step": 1101
7717
+ },
7718
+ {
7719
+ "epoch": 0.1885049606568594,
7720
+ "grad_norm": 0.5717481374740601,
7721
+ "learning_rate": 1.1785317629633602e-05,
7722
+ "loss": 1.1875,
7723
+ "step": 1102
7724
+ },
7725
+ {
7726
+ "epoch": 0.18867601778994184,
7727
+ "grad_norm": 0.5163336992263794,
7728
+ "learning_rate": 1.1713673120213308e-05,
7729
+ "loss": 1.1397,
7730
+ "step": 1103
7731
+ },
7732
+ {
7733
+ "epoch": 0.1888470749230243,
7734
+ "grad_norm": 0.52544105052948,
7735
+ "learning_rate": 1.1642218139009487e-05,
7736
+ "loss": 1.1623,
7737
+ "step": 1104
7738
+ },
7739
+ {
7740
+ "epoch": 0.18901813205610674,
7741
+ "grad_norm": 0.520453155040741,
7742
+ "learning_rate": 1.1570953039744591e-05,
7743
+ "loss": 1.1673,
7744
+ "step": 1105
7745
+ },
7746
+ {
7747
+ "epoch": 0.1891891891891892,
7748
+ "grad_norm": 0.5462867021560669,
7749
+ "learning_rate": 1.1499878175201189e-05,
7750
+ "loss": 1.083,
7751
+ "step": 1106
7752
+ },
7753
+ {
7754
+ "epoch": 0.18936024632227164,
7755
+ "grad_norm": 0.5481846928596497,
7756
+ "learning_rate": 1.1428993897220103e-05,
7757
+ "loss": 1.1401,
7758
+ "step": 1107
7759
+ },
7760
+ {
7761
+ "epoch": 0.1895313034553541,
7762
+ "grad_norm": 0.5269501805305481,
7763
+ "learning_rate": 1.1358300556698643e-05,
7764
+ "loss": 1.2787,
7765
+ "step": 1108
7766
+ },
7767
+ {
7768
+ "epoch": 0.18970236058843654,
7769
+ "grad_norm": 0.5522426962852478,
7770
+ "learning_rate": 1.1287798503588992e-05,
7771
+ "loss": 1.2732,
7772
+ "step": 1109
7773
+ },
7774
+ {
7775
+ "epoch": 0.189873417721519,
7776
+ "grad_norm": 0.5485796332359314,
7777
+ "learning_rate": 1.1217488086896378e-05,
7778
+ "loss": 1.3491,
7779
+ "step": 1110
7780
+ },
7781
+ {
7782
+ "epoch": 0.19004447485460144,
7783
+ "grad_norm": 0.5756316184997559,
7784
+ "learning_rate": 1.1147369654677375e-05,
7785
+ "loss": 1.3665,
7786
+ "step": 1111
7787
+ },
7788
+ {
7789
+ "epoch": 0.1902155319876839,
7790
+ "grad_norm": 0.5507016777992249,
7791
+ "learning_rate": 1.1077443554038192e-05,
7792
+ "loss": 1.4174,
7793
+ "step": 1112
7794
+ },
7795
+ {
7796
+ "epoch": 0.19038658912076634,
7797
+ "grad_norm": 0.5559039115905762,
7798
+ "learning_rate": 1.1007710131132932e-05,
7799
+ "loss": 1.3666,
7800
+ "step": 1113
7801
+ },
7802
+ {
7803
+ "epoch": 0.19055764625384877,
7804
+ "grad_norm": 0.5902049541473389,
7805
+ "learning_rate": 1.0938169731161874e-05,
7806
+ "loss": 1.2883,
7807
+ "step": 1114
7808
+ },
7809
+ {
7810
+ "epoch": 0.19072870338693124,
7811
+ "grad_norm": 0.6311355233192444,
7812
+ "learning_rate": 1.0868822698369785e-05,
7813
+ "loss": 1.4242,
7814
+ "step": 1115
7815
+ },
7816
+ {
7817
+ "epoch": 0.19089976052001367,
7818
+ "grad_norm": 0.5926405787467957,
7819
+ "learning_rate": 1.0799669376044257e-05,
7820
+ "loss": 1.2911,
7821
+ "step": 1116
7822
+ },
7823
+ {
7824
+ "epoch": 0.19107081765309614,
7825
+ "grad_norm": 0.6782661080360413,
7826
+ "learning_rate": 1.0730710106513886e-05,
7827
+ "loss": 1.3423,
7828
+ "step": 1117
7829
+ },
7830
+ {
7831
+ "epoch": 0.19124187478617857,
7832
+ "grad_norm": 0.6430454850196838,
7833
+ "learning_rate": 1.0661945231146714e-05,
7834
+ "loss": 1.2164,
7835
+ "step": 1118
7836
+ },
7837
+ {
7838
+ "epoch": 0.19141293191926104,
7839
+ "grad_norm": 0.6636273264884949,
7840
+ "learning_rate": 1.0593375090348396e-05,
7841
+ "loss": 1.2754,
7842
+ "step": 1119
7843
+ },
7844
+ {
7845
+ "epoch": 0.19158398905234347,
7846
+ "grad_norm": 0.6418951153755188,
7847
+ "learning_rate": 1.05250000235607e-05,
7848
+ "loss": 1.1653,
7849
+ "step": 1120
7850
+ },
7851
+ {
7852
+ "epoch": 0.19175504618542594,
7853
+ "grad_norm": 0.7251722812652588,
7854
+ "learning_rate": 1.0456820369259667e-05,
7855
+ "loss": 1.1221,
7856
+ "step": 1121
7857
+ },
7858
+ {
7859
+ "epoch": 0.19192610331850837,
7860
+ "grad_norm": 0.6972784996032715,
7861
+ "learning_rate": 1.038883646495396e-05,
7862
+ "loss": 1.126,
7863
+ "step": 1122
7864
+ },
7865
+ {
7866
+ "epoch": 0.19209716045159084,
7867
+ "grad_norm": 0.7468768954277039,
7868
+ "learning_rate": 1.0321048647183278e-05,
7869
+ "loss": 1.1605,
7870
+ "step": 1123
7871
+ },
7872
+ {
7873
+ "epoch": 0.19226821758467327,
7874
+ "grad_norm": 0.7913068532943726,
7875
+ "learning_rate": 1.0253457251516618e-05,
7876
+ "loss": 1.1912,
7877
+ "step": 1124
7878
+ },
7879
+ {
7880
+ "epoch": 0.19243927471775574,
7881
+ "grad_norm": 0.7409959435462952,
7882
+ "learning_rate": 1.0186062612550617e-05,
7883
+ "loss": 1.2058,
7884
+ "step": 1125
7885
+ },
7886
+ {
7887
+ "epoch": 0.19261033185083817,
7888
+ "grad_norm": 0.7198361754417419,
7889
+ "learning_rate": 1.0118865063907934e-05,
7890
+ "loss": 1.0854,
7891
+ "step": 1126
7892
+ },
7893
+ {
7894
+ "epoch": 0.19278138898392064,
7895
+ "grad_norm": 0.7689154148101807,
7896
+ "learning_rate": 1.0051864938235572e-05,
7897
+ "loss": 1.0835,
7898
+ "step": 1127
7899
+ },
7900
+ {
7901
+ "epoch": 0.19295244611700307,
7902
+ "grad_norm": 0.8822424411773682,
7903
+ "learning_rate": 9.985062567203195e-06,
7904
+ "loss": 1.2179,
7905
+ "step": 1128
7906
+ },
7907
+ {
7908
+ "epoch": 0.19312350325008554,
7909
+ "grad_norm": 0.9055442810058594,
7910
+ "learning_rate": 9.91845828150157e-06,
7911
+ "loss": 1.2174,
7912
+ "step": 1129
7913
+ },
7914
+ {
7915
+ "epoch": 0.19329456038316797,
7916
+ "grad_norm": 0.8545695543289185,
7917
+ "learning_rate": 9.852052410840873e-06,
7918
+ "loss": 1.0819,
7919
+ "step": 1130
7920
+ },
7921
+ {
7922
+ "epoch": 0.19346561751625044,
7923
+ "grad_norm": 0.9511587619781494,
7924
+ "learning_rate": 9.78584528394907e-06,
7925
+ "loss": 1.1901,
7926
+ "step": 1131
7927
+ },
7928
+ {
7929
+ "epoch": 0.19363667464933287,
7930
+ "grad_norm": 1.0662909746170044,
7931
+ "learning_rate": 9.719837228570288e-06,
7932
+ "loss": 1.159,
7933
+ "step": 1132
7934
+ },
7935
+ {
7936
+ "epoch": 0.19380773178241534,
7937
+ "grad_norm": 1.1093270778656006,
7938
+ "learning_rate": 9.65402857146317e-06,
7939
+ "loss": 1.3553,
7940
+ "step": 1133
7941
+ },
7942
+ {
7943
+ "epoch": 0.19397878891549777,
7944
+ "grad_norm": 1.0241601467132568,
7945
+ "learning_rate": 9.588419638399305e-06,
7946
+ "loss": 1.1343,
7947
+ "step": 1134
7948
+ },
7949
+ {
7950
+ "epoch": 0.19414984604858024,
7951
+ "grad_norm": 1.1049851179122925,
7952
+ "learning_rate": 9.523010754161621e-06,
7953
+ "loss": 1.231,
7954
+ "step": 1135
7955
+ },
7956
+ {
7957
+ "epoch": 0.19432090318166267,
7958
+ "grad_norm": 1.1771842241287231,
7959
+ "learning_rate": 9.457802242542679e-06,
7960
+ "loss": 1.0904,
7961
+ "step": 1136
7962
+ },
7963
+ {
7964
+ "epoch": 0.19449196031474514,
7965
+ "grad_norm": 1.3713312149047852,
7966
+ "learning_rate": 9.392794426343188e-06,
7967
+ "loss": 1.3375,
7968
+ "step": 1137
7969
+ },
7970
+ {
7971
+ "epoch": 0.19466301744782757,
7972
+ "grad_norm": 1.395498514175415,
7973
+ "learning_rate": 9.327987627370333e-06,
7974
+ "loss": 1.2486,
7975
+ "step": 1138
7976
+ },
7977
+ {
7978
+ "epoch": 0.19483407458091,
7979
+ "grad_norm": 1.2937313318252563,
7980
+ "learning_rate": 9.263382166436224e-06,
7981
+ "loss": 1.3116,
7982
+ "step": 1139
7983
+ },
7984
+ {
7985
+ "epoch": 0.19500513171399247,
7986
+ "grad_norm": 1.4684338569641113,
7987
+ "learning_rate": 9.198978363356298e-06,
7988
+ "loss": 1.3451,
7989
+ "step": 1140
7990
+ },
7991
+ {
7992
+ "epoch": 0.1951761888470749,
7993
+ "grad_norm": 1.8545329570770264,
7994
+ "learning_rate": 9.134776536947687e-06,
7995
+ "loss": 1.3249,
7996
+ "step": 1141
7997
+ },
7998
+ {
7999
+ "epoch": 0.19534724598015737,
8000
+ "grad_norm": 2.3291664123535156,
8001
+ "learning_rate": 9.070777005027708e-06,
8002
+ "loss": 1.5226,
8003
+ "step": 1142
8004
+ },
8005
+ {
8006
+ "epoch": 0.1955183031132398,
8007
+ "grad_norm": 2.192391872406006,
8008
+ "learning_rate": 9.00698008441228e-06,
8009
+ "loss": 1.6328,
8010
+ "step": 1143
8011
+ },
8012
+ {
8013
+ "epoch": 0.19568936024632227,
8014
+ "grad_norm": 1.8201500177383423,
8015
+ "learning_rate": 8.943386090914308e-06,
8016
+ "loss": 1.1462,
8017
+ "step": 1144
8018
+ },
8019
+ {
8020
+ "epoch": 0.1958604173794047,
8021
+ "grad_norm": 2.1104891300201416,
8022
+ "learning_rate": 8.879995339342167e-06,
8023
+ "loss": 1.1711,
8024
+ "step": 1145
8025
+ },
8026
+ {
8027
+ "epoch": 0.19603147451248717,
8028
+ "grad_norm": 2.287696123123169,
8029
+ "learning_rate": 8.816808143498134e-06,
8030
+ "loss": 1.1776,
8031
+ "step": 1146
8032
+ },
8033
+ {
8034
+ "epoch": 0.1962025316455696,
8035
+ "grad_norm": 2.593168020248413,
8036
+ "learning_rate": 8.753824816176787e-06,
8037
+ "loss": 1.4058,
8038
+ "step": 1147
8039
+ },
8040
+ {
8041
+ "epoch": 0.19637358877865208,
8042
+ "grad_norm": 2.805091142654419,
8043
+ "learning_rate": 8.691045669163523e-06,
8044
+ "loss": 1.4726,
8045
+ "step": 1148
8046
+ },
8047
+ {
8048
+ "epoch": 0.1965446459117345,
8049
+ "grad_norm": 2.7710683345794678,
8050
+ "learning_rate": 8.628471013233036e-06,
8051
+ "loss": 1.4785,
8052
+ "step": 1149
8053
+ },
8054
+ {
8055
+ "epoch": 0.19671570304481698,
8056
+ "grad_norm": 4.310181617736816,
8057
+ "learning_rate": 8.566101158147643e-06,
8058
+ "loss": 2.0281,
8059
+ "step": 1150
8060
+ },
8061
+ {
8062
+ "epoch": 0.1968867601778994,
8063
+ "grad_norm": 0.5353257656097412,
8064
+ "learning_rate": 8.5039364126559e-06,
8065
+ "loss": 1.3306,
8066
+ "step": 1151
8067
+ },
8068
+ {
8069
+ "epoch": 0.19705781731098188,
8070
+ "grad_norm": 0.5203657746315002,
8071
+ "learning_rate": 8.441977084490976e-06,
8072
+ "loss": 1.2153,
8073
+ "step": 1152
8074
+ },
8075
+ {
8076
+ "epoch": 0.1972288744440643,
8077
+ "grad_norm": 0.5467506051063538,
8078
+ "learning_rate": 8.380223480369182e-06,
8079
+ "loss": 1.2193,
8080
+ "step": 1153
8081
+ },
8082
+ {
8083
+ "epoch": 0.19739993157714678,
8084
+ "grad_norm": 0.5195339918136597,
8085
+ "learning_rate": 8.31867590598847e-06,
8086
+ "loss": 1.2195,
8087
+ "step": 1154
8088
+ },
8089
+ {
8090
+ "epoch": 0.1975709887102292,
8091
+ "grad_norm": 0.5019032955169678,
8092
+ "learning_rate": 8.257334666026817e-06,
8093
+ "loss": 1.1177,
8094
+ "step": 1155
8095
+ },
8096
+ {
8097
+ "epoch": 0.19774204584331168,
8098
+ "grad_norm": 0.5388235449790955,
8099
+ "learning_rate": 8.196200064140836e-06,
8100
+ "loss": 1.2386,
8101
+ "step": 1156
8102
+ },
8103
+ {
8104
+ "epoch": 0.1979131029763941,
8105
+ "grad_norm": 0.5507181882858276,
8106
+ "learning_rate": 8.135272402964212e-06,
8107
+ "loss": 1.3414,
8108
+ "step": 1157
8109
+ },
8110
+ {
8111
+ "epoch": 0.19808416010947658,
8112
+ "grad_norm": 0.5381900668144226,
8113
+ "learning_rate": 8.074551984106198e-06,
8114
+ "loss": 1.2364,
8115
+ "step": 1158
8116
+ },
8117
+ {
8118
+ "epoch": 0.198255217242559,
8119
+ "grad_norm": 0.5386906266212463,
8120
+ "learning_rate": 8.014039108150168e-06,
8121
+ "loss": 1.1367,
8122
+ "step": 1159
8123
+ },
8124
+ {
8125
+ "epoch": 0.19842627437564148,
8126
+ "grad_norm": 0.5798367261886597,
8127
+ "learning_rate": 7.953734074652081e-06,
8128
+ "loss": 1.3284,
8129
+ "step": 1160
8130
+ },
8131
+ {
8132
+ "epoch": 0.1985973315087239,
8133
+ "grad_norm": 0.5907285213470459,
8134
+ "learning_rate": 7.893637182139002e-06,
8135
+ "loss": 1.3656,
8136
+ "step": 1161
8137
+ },
8138
+ {
8139
+ "epoch": 0.19876838864180638,
8140
+ "grad_norm": 0.576878011226654,
8141
+ "learning_rate": 7.83374872810767e-06,
8142
+ "loss": 1.3606,
8143
+ "step": 1162
8144
+ },
8145
+ {
8146
+ "epoch": 0.1989394457748888,
8147
+ "grad_norm": 0.6249831318855286,
8148
+ "learning_rate": 7.774069009022982e-06,
8149
+ "loss": 1.3086,
8150
+ "step": 1163
8151
+ },
8152
+ {
8153
+ "epoch": 0.19911050290797128,
8154
+ "grad_norm": 0.5776302814483643,
8155
+ "learning_rate": 7.714598320316524e-06,
8156
+ "loss": 1.4029,
8157
+ "step": 1164
8158
+ },
8159
+ {
8160
+ "epoch": 0.1992815600410537,
8161
+ "grad_norm": 0.6269991993904114,
8162
+ "learning_rate": 7.655336956385156e-06,
8163
+ "loss": 1.4726,
8164
+ "step": 1165
8165
+ },
8166
+ {
8167
+ "epoch": 0.19945261717413615,
8168
+ "grad_norm": 0.6286412477493286,
8169
+ "learning_rate": 7.596285210589471e-06,
8170
+ "loss": 1.3788,
8171
+ "step": 1166
8172
+ },
8173
+ {
8174
+ "epoch": 0.1996236743072186,
8175
+ "grad_norm": 0.6275160908699036,
8176
+ "learning_rate": 7.537443375252423e-06,
8177
+ "loss": 1.3076,
8178
+ "step": 1167
8179
+ },
8180
+ {
8181
+ "epoch": 0.19979473144030105,
8182
+ "grad_norm": 0.6251853704452515,
8183
+ "learning_rate": 7.4788117416578765e-06,
8184
+ "loss": 1.2833,
8185
+ "step": 1168
8186
+ },
8187
+ {
8188
+ "epoch": 0.1999657885733835,
8189
+ "grad_norm": 0.6521373987197876,
8190
+ "learning_rate": 7.420390600049076e-06,
8191
+ "loss": 1.1192,
8192
+ "step": 1169
8193
+ },
8194
+ {
8195
+ "epoch": 0.20013684570646595,
8196
+ "grad_norm": 0.6653075814247131,
8197
+ "learning_rate": 7.362180239627314e-06,
8198
+ "loss": 1.3508,
8199
+ "step": 1170
8200
+ },
8201
+ {
8202
+ "epoch": 0.2003079028395484,
8203
+ "grad_norm": 0.691904604434967,
8204
+ "learning_rate": 7.304180948550454e-06,
8205
+ "loss": 1.1852,
8206
+ "step": 1171
8207
+ },
8208
+ {
8209
+ "epoch": 0.20047895997263085,
8210
+ "grad_norm": 0.6476536989212036,
8211
+ "learning_rate": 7.246393013931463e-06,
8212
+ "loss": 1.2014,
8213
+ "step": 1172
8214
+ },
8215
+ {
8216
+ "epoch": 0.2006500171057133,
8217
+ "grad_norm": 0.7105785608291626,
8218
+ "learning_rate": 7.188816721837116e-06,
8219
+ "loss": 1.2,
8220
+ "step": 1173
8221
+ },
8222
+ {
8223
+ "epoch": 0.20082107423879575,
8224
+ "grad_norm": 0.701448380947113,
8225
+ "learning_rate": 7.131452357286411e-06,
8226
+ "loss": 1.1777,
8227
+ "step": 1174
8228
+ },
8229
+ {
8230
+ "epoch": 0.2009921313718782,
8231
+ "grad_norm": 0.7755523324012756,
8232
+ "learning_rate": 7.074300204249296e-06,
8233
+ "loss": 1.1084,
8234
+ "step": 1175
8235
+ },
8236
+ {
8237
+ "epoch": 0.20116318850496065,
8238
+ "grad_norm": 0.7777191400527954,
8239
+ "learning_rate": 7.01736054564519e-06,
8240
+ "loss": 1.1224,
8241
+ "step": 1176
8242
+ },
8243
+ {
8244
+ "epoch": 0.2013342456380431,
8245
+ "grad_norm": 0.8104934692382812,
8246
+ "learning_rate": 6.960633663341615e-06,
8247
+ "loss": 1.146,
8248
+ "step": 1177
8249
+ },
8250
+ {
8251
+ "epoch": 0.20150530277112555,
8252
+ "grad_norm": 0.8348276615142822,
8253
+ "learning_rate": 6.904119838152789e-06,
8254
+ "loss": 1.0867,
8255
+ "step": 1178
8256
+ },
8257
+ {
8258
+ "epoch": 0.201676359904208,
8259
+ "grad_norm": 0.8821502327919006,
8260
+ "learning_rate": 6.847819349838247e-06,
8261
+ "loss": 1.1303,
8262
+ "step": 1179
8263
+ },
8264
+ {
8265
+ "epoch": 0.20184741703729045,
8266
+ "grad_norm": 0.930512011051178,
8267
+ "learning_rate": 6.791732477101398e-06,
8268
+ "loss": 1.1057,
8269
+ "step": 1180
8270
+ },
8271
+ {
8272
+ "epoch": 0.2020184741703729,
8273
+ "grad_norm": 0.9049108624458313,
8274
+ "learning_rate": 6.7358594975882535e-06,
8275
+ "loss": 1.204,
8276
+ "step": 1181
8277
+ },
8278
+ {
8279
+ "epoch": 0.20218953130345535,
8280
+ "grad_norm": 0.9623181223869324,
8281
+ "learning_rate": 6.680200687885957e-06,
8282
+ "loss": 1.3074,
8283
+ "step": 1182
8284
+ },
8285
+ {
8286
+ "epoch": 0.2023605884365378,
8287
+ "grad_norm": 1.026506781578064,
8288
+ "learning_rate": 6.624756323521459e-06,
8289
+ "loss": 1.445,
8290
+ "step": 1183
8291
+ },
8292
+ {
8293
+ "epoch": 0.20253164556962025,
8294
+ "grad_norm": 0.9811666011810303,
8295
+ "learning_rate": 6.569526678960164e-06,
8296
+ "loss": 1.1632,
8297
+ "step": 1184
8298
+ },
8299
+ {
8300
+ "epoch": 0.20270270270270271,
8301
+ "grad_norm": 1.0132756233215332,
8302
+ "learning_rate": 6.514512027604508e-06,
8303
+ "loss": 1.1912,
8304
+ "step": 1185
8305
+ },
8306
+ {
8307
+ "epoch": 0.20287375983578515,
8308
+ "grad_norm": 1.1950069665908813,
8309
+ "learning_rate": 6.459712641792676e-06,
8310
+ "loss": 1.3509,
8311
+ "step": 1186
8312
+ },
8313
+ {
8314
+ "epoch": 0.20304481696886761,
8315
+ "grad_norm": 1.2882367372512817,
8316
+ "learning_rate": 6.405128792797255e-06,
8317
+ "loss": 1.1653,
8318
+ "step": 1187
8319
+ },
8320
+ {
8321
+ "epoch": 0.20321587410195005,
8322
+ "grad_norm": 1.1003586053848267,
8323
+ "learning_rate": 6.3507607508238085e-06,
8324
+ "loss": 1.0812,
8325
+ "step": 1188
8326
+ },
8327
+ {
8328
+ "epoch": 0.20338693123503251,
8329
+ "grad_norm": 1.3947727680206299,
8330
+ "learning_rate": 6.296608785009633e-06,
8331
+ "loss": 1.1218,
8332
+ "step": 1189
8333
+ },
8334
+ {
8335
+ "epoch": 0.20355798836811495,
8336
+ "grad_norm": 1.2513878345489502,
8337
+ "learning_rate": 6.242673163422374e-06,
8338
+ "loss": 1.1447,
8339
+ "step": 1190
8340
+ },
8341
+ {
8342
+ "epoch": 0.2037290455011974,
8343
+ "grad_norm": 1.4557979106903076,
8344
+ "learning_rate": 6.1889541530586955e-06,
8345
+ "loss": 1.395,
8346
+ "step": 1191
8347
+ },
8348
+ {
8349
+ "epoch": 0.20390010263427985,
8350
+ "grad_norm": 1.6186139583587646,
8351
+ "learning_rate": 6.1354520198430075e-06,
8352
+ "loss": 1.3386,
8353
+ "step": 1192
8354
+ },
8355
+ {
8356
+ "epoch": 0.2040711597673623,
8357
+ "grad_norm": 1.6991312503814697,
8358
+ "learning_rate": 6.0821670286261016e-06,
8359
+ "loss": 1.4036,
8360
+ "step": 1193
8361
+ },
8362
+ {
8363
+ "epoch": 0.20424221690044475,
8364
+ "grad_norm": 1.7909969091415405,
8365
+ "learning_rate": 6.0290994431838385e-06,
8366
+ "loss": 1.4398,
8367
+ "step": 1194
8368
+ },
8369
+ {
8370
+ "epoch": 0.2044132740335272,
8371
+ "grad_norm": 2.124344825744629,
8372
+ "learning_rate": 5.9762495262158764e-06,
8373
+ "loss": 1.1204,
8374
+ "step": 1195
8375
+ },
8376
+ {
8377
+ "epoch": 0.20458433116660965,
8378
+ "grad_norm": 2.179216146469116,
8379
+ "learning_rate": 5.923617539344351e-06,
8380
+ "loss": 1.2495,
8381
+ "step": 1196
8382
+ },
8383
+ {
8384
+ "epoch": 0.2047553882996921,
8385
+ "grad_norm": 2.3889334201812744,
8386
+ "learning_rate": 5.87120374311258e-06,
8387
+ "loss": 1.4048,
8388
+ "step": 1197
8389
+ },
8390
+ {
8391
+ "epoch": 0.20492644543277455,
8392
+ "grad_norm": 2.6185591220855713,
8393
+ "learning_rate": 5.819008396983783e-06,
8394
+ "loss": 1.4209,
8395
+ "step": 1198
8396
+ },
8397
+ {
8398
+ "epoch": 0.205097502565857,
8399
+ "grad_norm": 2.963503360748291,
8400
+ "learning_rate": 5.767031759339758e-06,
8401
+ "loss": 1.4406,
8402
+ "step": 1199
8403
+ },
8404
+ {
8405
+ "epoch": 0.20526855969893945,
8406
+ "grad_norm": 3.8163952827453613,
8407
+ "learning_rate": 5.715274087479672e-06,
8408
+ "loss": 1.4222,
8409
+ "step": 1200
8410
+ },
8411
+ {
8412
+ "epoch": 0.2054396168320219,
8413
+ "grad_norm": 0.49252671003341675,
8414
+ "learning_rate": 5.663735637618728e-06,
8415
+ "loss": 1.1811,
8416
+ "step": 1201
8417
+ },
8418
+ {
8419
+ "epoch": 0.20561067396510435,
8420
+ "grad_norm": 0.5381333827972412,
8421
+ "learning_rate": 5.6124166648869326e-06,
8422
+ "loss": 1.1084,
8423
+ "step": 1202
8424
+ },
8425
+ {
8426
+ "epoch": 0.2057817310981868,
8427
+ "grad_norm": 0.4863746166229248,
8428
+ "learning_rate": 5.5613174233278e-06,
8429
+ "loss": 1.2013,
8430
+ "step": 1203
8431
+ },
8432
+ {
8433
+ "epoch": 0.20595278823126925,
8434
+ "grad_norm": 0.5375758409500122,
8435
+ "learning_rate": 5.510438165897131e-06,
8436
+ "loss": 1.178,
8437
+ "step": 1204
8438
+ },
8439
+ {
8440
+ "epoch": 0.2061238453643517,
8441
+ "grad_norm": 0.5861601829528809,
8442
+ "learning_rate": 5.459779144461713e-06,
8443
+ "loss": 1.2813,
8444
+ "step": 1205
8445
+ },
8446
+ {
8447
+ "epoch": 0.20629490249743415,
8448
+ "grad_norm": 0.5158637166023254,
8449
+ "learning_rate": 5.409340609798147e-06,
8450
+ "loss": 1.276,
8451
+ "step": 1206
8452
+ },
8453
+ {
8454
+ "epoch": 0.2064659596305166,
8455
+ "grad_norm": 0.5211811065673828,
8456
+ "learning_rate": 5.359122811591533e-06,
8457
+ "loss": 1.2581,
8458
+ "step": 1207
8459
+ },
8460
+ {
8461
+ "epoch": 0.20663701676359905,
8462
+ "grad_norm": 0.5310105681419373,
8463
+ "learning_rate": 5.30912599843425e-06,
8464
+ "loss": 1.1793,
8465
+ "step": 1208
8466
+ },
8467
+ {
8468
+ "epoch": 0.2068080738966815,
8469
+ "grad_norm": 0.5542389154434204,
8470
+ "learning_rate": 5.259350417824776e-06,
8471
+ "loss": 1.2673,
8472
+ "step": 1209
8473
+ },
8474
+ {
8475
+ "epoch": 0.20697913102976395,
8476
+ "grad_norm": 0.5369300842285156,
8477
+ "learning_rate": 5.209796316166376e-06,
8478
+ "loss": 1.2781,
8479
+ "step": 1210
8480
+ },
8481
+ {
8482
+ "epoch": 0.2071501881628464,
8483
+ "grad_norm": 0.5323848128318787,
8484
+ "learning_rate": 5.160463938765986e-06,
8485
+ "loss": 1.3192,
8486
+ "step": 1211
8487
+ },
8488
+ {
8489
+ "epoch": 0.20732124529592885,
8490
+ "grad_norm": 0.5648958086967468,
8491
+ "learning_rate": 5.111353529832913e-06,
8492
+ "loss": 1.3,
8493
+ "step": 1212
8494
+ },
8495
+ {
8496
+ "epoch": 0.2074923024290113,
8497
+ "grad_norm": 0.5956771373748779,
8498
+ "learning_rate": 5.062465332477651e-06,
8499
+ "loss": 1.2465,
8500
+ "step": 1213
8501
+ },
8502
+ {
8503
+ "epoch": 0.20766335956209375,
8504
+ "grad_norm": 0.5839723348617554,
8505
+ "learning_rate": 5.013799588710694e-06,
8506
+ "loss": 1.316,
8507
+ "step": 1214
8508
+ },
8509
+ {
8510
+ "epoch": 0.2078344166951762,
8511
+ "grad_norm": 0.5952252149581909,
8512
+ "learning_rate": 4.9653565394413295e-06,
8513
+ "loss": 1.3178,
8514
+ "step": 1215
8515
+ },
8516
+ {
8517
+ "epoch": 0.20800547382825862,
8518
+ "grad_norm": 0.6331438422203064,
8519
+ "learning_rate": 4.917136424476437e-06,
8520
+ "loss": 1.4325,
8521
+ "step": 1216
8522
+ },
8523
+ {
8524
+ "epoch": 0.2081765309613411,
8525
+ "grad_norm": 0.6285284161567688,
8526
+ "learning_rate": 4.869139482519325e-06,
8527
+ "loss": 1.2226,
8528
+ "step": 1217
8529
+ },
8530
+ {
8531
+ "epoch": 0.20834758809442352,
8532
+ "grad_norm": 0.6116199493408203,
8533
+ "learning_rate": 4.821365951168516e-06,
8534
+ "loss": 1.1924,
8535
+ "step": 1218
8536
+ },
8537
+ {
8538
+ "epoch": 0.208518645227506,
8539
+ "grad_norm": 0.5923437476158142,
8540
+ "learning_rate": 4.77381606691657e-06,
8541
+ "loss": 1.2561,
8542
+ "step": 1219
8543
+ },
8544
+ {
8545
+ "epoch": 0.20868970236058842,
8546
+ "grad_norm": 0.6754952073097229,
8547
+ "learning_rate": 4.726490065148964e-06,
8548
+ "loss": 1.3237,
8549
+ "step": 1220
8550
+ },
8551
+ {
8552
+ "epoch": 0.2088607594936709,
8553
+ "grad_norm": 0.6788840293884277,
8554
+ "learning_rate": 4.6793881801428796e-06,
8555
+ "loss": 1.3166,
8556
+ "step": 1221
8557
+ },
8558
+ {
8559
+ "epoch": 0.20903181662675333,
8560
+ "grad_norm": 0.7086222767829895,
8561
+ "learning_rate": 4.632510645066046e-06,
8562
+ "loss": 1.2834,
8563
+ "step": 1222
8564
+ },
8565
+ {
8566
+ "epoch": 0.2092028737598358,
8567
+ "grad_norm": 0.7086116671562195,
8568
+ "learning_rate": 4.585857691975626e-06,
8569
+ "loss": 1.1047,
8570
+ "step": 1223
8571
+ },
8572
+ {
8573
+ "epoch": 0.20937393089291823,
8574
+ "grad_norm": 0.7346565127372742,
8575
+ "learning_rate": 4.539429551816981e-06,
8576
+ "loss": 1.2146,
8577
+ "step": 1224
8578
+ },
8579
+ {
8580
+ "epoch": 0.2095449880260007,
8581
+ "grad_norm": 0.7705104351043701,
8582
+ "learning_rate": 4.493226454422661e-06,
8583
+ "loss": 1.2224,
8584
+ "step": 1225
8585
+ },
8586
+ {
8587
+ "epoch": 0.20971604515908313,
8588
+ "grad_norm": 0.6990749835968018,
8589
+ "learning_rate": 4.447248628511136e-06,
8590
+ "loss": 1.0229,
8591
+ "step": 1226
8592
+ },
8593
+ {
8594
+ "epoch": 0.2098871022921656,
8595
+ "grad_norm": 0.7617723345756531,
8596
+ "learning_rate": 4.40149630168572e-06,
8597
+ "loss": 1.0909,
8598
+ "step": 1227
8599
+ },
8600
+ {
8601
+ "epoch": 0.21005815942524803,
8602
+ "grad_norm": 0.7978994846343994,
8603
+ "learning_rate": 4.35596970043346e-06,
8604
+ "loss": 1.1296,
8605
+ "step": 1228
8606
+ },
8607
+ {
8608
+ "epoch": 0.2102292165583305,
8609
+ "grad_norm": 0.8365187644958496,
8610
+ "learning_rate": 4.310669050123994e-06,
8611
+ "loss": 1.1557,
8612
+ "step": 1229
8613
+ },
8614
+ {
8615
+ "epoch": 0.21040027369141293,
8616
+ "grad_norm": 0.9419746994972229,
8617
+ "learning_rate": 4.265594575008441e-06,
8618
+ "loss": 1.292,
8619
+ "step": 1230
8620
+ },
8621
+ {
8622
+ "epoch": 0.2105713308244954,
8623
+ "grad_norm": 0.9970366358757019,
8624
+ "learning_rate": 4.220746498218286e-06,
8625
+ "loss": 1.2974,
8626
+ "step": 1231
8627
+ },
8628
+ {
8629
+ "epoch": 0.21074238795757783,
8630
+ "grad_norm": 0.9173380136489868,
8631
+ "learning_rate": 4.176125041764262e-06,
8632
+ "loss": 1.0588,
8633
+ "step": 1232
8634
+ },
8635
+ {
8636
+ "epoch": 0.2109134450906603,
8637
+ "grad_norm": 0.9308356046676636,
8638
+ "learning_rate": 4.131730426535285e-06,
8639
+ "loss": 1.1292,
8640
+ "step": 1233
8641
+ },
8642
+ {
8643
+ "epoch": 0.21108450222374273,
8644
+ "grad_norm": 1.0378395318984985,
8645
+ "learning_rate": 4.08756287229734e-06,
8646
+ "loss": 1.0853,
8647
+ "step": 1234
8648
+ },
8649
+ {
8650
+ "epoch": 0.2112555593568252,
8651
+ "grad_norm": 1.171376347541809,
8652
+ "learning_rate": 4.043622597692387e-06,
8653
+ "loss": 1.222,
8654
+ "step": 1235
8655
+ },
8656
+ {
8657
+ "epoch": 0.21142661648990763,
8658
+ "grad_norm": 1.2011628150939941,
8659
+ "learning_rate": 3.999909820237302e-06,
8660
+ "loss": 1.2648,
8661
+ "step": 1236
8662
+ },
8663
+ {
8664
+ "epoch": 0.2115976736229901,
8665
+ "grad_norm": 1.2246147394180298,
8666
+ "learning_rate": 3.956424756322785e-06,
8667
+ "loss": 1.4853,
8668
+ "step": 1237
8669
+ },
8670
+ {
8671
+ "epoch": 0.21176873075607253,
8672
+ "grad_norm": 1.2781755924224854,
8673
+ "learning_rate": 3.913167621212255e-06,
8674
+ "loss": 1.2316,
8675
+ "step": 1238
8676
+ },
8677
+ {
8678
+ "epoch": 0.211939787889155,
8679
+ "grad_norm": 1.4460945129394531,
8680
+ "learning_rate": 3.870138629040848e-06,
8681
+ "loss": 1.0442,
8682
+ "step": 1239
8683
+ },
8684
+ {
8685
+ "epoch": 0.21211084502223743,
8686
+ "grad_norm": 1.3829147815704346,
8687
+ "learning_rate": 3.827337992814356e-06,
8688
+ "loss": 1.3402,
8689
+ "step": 1240
8690
+ },
8691
+ {
8692
+ "epoch": 0.2122819021553199,
8693
+ "grad_norm": 1.6668599843978882,
8694
+ "learning_rate": 3.7847659244080736e-06,
8695
+ "loss": 1.277,
8696
+ "step": 1241
8697
+ },
8698
+ {
8699
+ "epoch": 0.21245295928840233,
8700
+ "grad_norm": 1.8887028694152832,
8701
+ "learning_rate": 3.742422634565884e-06,
8702
+ "loss": 1.3339,
8703
+ "step": 1242
8704
+ },
8705
+ {
8706
+ "epoch": 0.21262401642148476,
8707
+ "grad_norm": 1.7078804969787598,
8708
+ "learning_rate": 3.7003083328990993e-06,
8709
+ "loss": 1.2418,
8710
+ "step": 1243
8711
+ },
8712
+ {
8713
+ "epoch": 0.21279507355456723,
8714
+ "grad_norm": 1.9773505926132202,
8715
+ "learning_rate": 3.658423227885527e-06,
8716
+ "loss": 1.2476,
8717
+ "step": 1244
8718
+ },
8719
+ {
8720
+ "epoch": 0.21296613068764966,
8721
+ "grad_norm": 1.880808711051941,
8722
+ "learning_rate": 3.616767526868353e-06,
8723
+ "loss": 1.0132,
8724
+ "step": 1245
8725
+ },
8726
+ {
8727
+ "epoch": 0.21313718782073213,
8728
+ "grad_norm": 3.0526063442230225,
8729
+ "learning_rate": 3.575341436055141e-06,
8730
+ "loss": 1.6674,
8731
+ "step": 1246
8732
+ },
8733
+ {
8734
+ "epoch": 0.21330824495381456,
8735
+ "grad_norm": 2.4462673664093018,
8736
+ "learning_rate": 3.534145160516844e-06,
8737
+ "loss": 1.5029,
8738
+ "step": 1247
8739
+ },
8740
+ {
8741
+ "epoch": 0.21347930208689703,
8742
+ "grad_norm": 2.669107437133789,
8743
+ "learning_rate": 3.49317890418675e-06,
8744
+ "loss": 1.3254,
8745
+ "step": 1248
8746
+ },
8747
+ {
8748
+ "epoch": 0.21365035921997946,
8749
+ "grad_norm": 3.09505558013916,
8750
+ "learning_rate": 3.45244286985949e-06,
8751
+ "loss": 1.5135,
8752
+ "step": 1249
8753
+ },
8754
+ {
8755
+ "epoch": 0.21382141635306193,
8756
+ "grad_norm": 4.035844326019287,
8757
+ "learning_rate": 3.411937259190029e-06,
8758
+ "loss": 1.7973,
8759
+ "step": 1250
8760
+ },
8761
+ {
8762
+ "epoch": 0.21399247348614436,
8763
+ "grad_norm": 0.505690336227417,
8764
+ "learning_rate": 3.371662272692677e-06,
8765
+ "loss": 1.1879,
8766
+ "step": 1251
8767
+ },
8768
+ {
8769
+ "epoch": 0.21416353061922683,
8770
+ "grad_norm": 0.5308461785316467,
8771
+ "learning_rate": 3.33161810974007e-06,
8772
+ "loss": 1.2725,
8773
+ "step": 1252
8774
+ },
8775
+ {
8776
+ "epoch": 0.21433458775230926,
8777
+ "grad_norm": 0.5629502534866333,
8778
+ "learning_rate": 3.2918049685622175e-06,
8779
+ "loss": 1.1357,
8780
+ "step": 1253
8781
+ },
8782
+ {
8783
+ "epoch": 0.21450564488539173,
8784
+ "grad_norm": 0.547167181968689,
8785
+ "learning_rate": 3.2522230462455006e-06,
8786
+ "loss": 1.1892,
8787
+ "step": 1254
8788
+ },
8789
+ {
8790
+ "epoch": 0.21467670201847416,
8791
+ "grad_norm": 0.5315078496932983,
8792
+ "learning_rate": 3.212872538731704e-06,
8793
+ "loss": 1.2391,
8794
+ "step": 1255
8795
+ },
8796
+ {
8797
+ "epoch": 0.21484775915155663,
8798
+ "grad_norm": 0.5446400046348572,
8799
+ "learning_rate": 3.173753640817051e-06,
8800
+ "loss": 1.2884,
8801
+ "step": 1256
8802
+ },
8803
+ {
8804
+ "epoch": 0.21501881628463906,
8805
+ "grad_norm": 0.5265285968780518,
8806
+ "learning_rate": 3.1348665461511994e-06,
8807
+ "loss": 1.2992,
8808
+ "step": 1257
8809
+ },
8810
+ {
8811
+ "epoch": 0.21518987341772153,
8812
+ "grad_norm": 0.5416175723075867,
8813
+ "learning_rate": 3.096211447236347e-06,
8814
+ "loss": 1.1872,
8815
+ "step": 1258
8816
+ },
8817
+ {
8818
+ "epoch": 0.21536093055080396,
8819
+ "grad_norm": 0.5405793190002441,
8820
+ "learning_rate": 3.0577885354262534e-06,
8821
+ "loss": 1.2496,
8822
+ "step": 1259
8823
+ },
8824
+ {
8825
+ "epoch": 0.21553198768388643,
8826
+ "grad_norm": 0.5459663271903992,
8827
+ "learning_rate": 3.0195980009252444e-06,
8828
+ "loss": 1.2037,
8829
+ "step": 1260
8830
+ },
8831
+ {
8832
+ "epoch": 0.21570304481696886,
8833
+ "grad_norm": 0.5698009133338928,
8834
+ "learning_rate": 2.981640032787347e-06,
8835
+ "loss": 1.2923,
8836
+ "step": 1261
8837
+ },
8838
+ {
8839
+ "epoch": 0.21587410195005133,
8840
+ "grad_norm": 0.5835180878639221,
8841
+ "learning_rate": 2.9439148189153166e-06,
8842
+ "loss": 1.3814,
8843
+ "step": 1262
8844
+ },
8845
+ {
8846
+ "epoch": 0.21604515908313376,
8847
+ "grad_norm": 0.6166893839836121,
8848
+ "learning_rate": 2.9064225460596837e-06,
8849
+ "loss": 1.3029,
8850
+ "step": 1263
8851
+ },
8852
+ {
8853
+ "epoch": 0.21621621621621623,
8854
+ "grad_norm": 0.5921556353569031,
8855
+ "learning_rate": 2.8691633998178924e-06,
8856
+ "loss": 1.3265,
8857
+ "step": 1264
8858
+ },
8859
+ {
8860
+ "epoch": 0.21638727334929866,
8861
+ "grad_norm": 0.61456298828125,
8862
+ "learning_rate": 2.8321375646333027e-06,
8863
+ "loss": 1.2458,
8864
+ "step": 1265
8865
+ },
8866
+ {
8867
+ "epoch": 0.21655833048238113,
8868
+ "grad_norm": 0.603403627872467,
8869
+ "learning_rate": 2.7953452237943488e-06,
8870
+ "loss": 1.4179,
8871
+ "step": 1266
8872
+ },
8873
+ {
8874
+ "epoch": 0.21672938761546356,
8875
+ "grad_norm": 0.6556985378265381,
8876
+ "learning_rate": 2.758786559433585e-06,
8877
+ "loss": 1.4252,
8878
+ "step": 1267
8879
+ },
8880
+ {
8881
+ "epoch": 0.216900444748546,
8882
+ "grad_norm": 0.6773498058319092,
8883
+ "learning_rate": 2.7224617525268117e-06,
8884
+ "loss": 1.3483,
8885
+ "step": 1268
8886
+ },
8887
+ {
8888
+ "epoch": 0.21707150188162846,
8889
+ "grad_norm": 0.6843062043190002,
8890
+ "learning_rate": 2.6863709828921614e-06,
8891
+ "loss": 1.4204,
8892
+ "step": 1269
8893
+ },
8894
+ {
8895
+ "epoch": 0.2172425590147109,
8896
+ "grad_norm": 0.6551604270935059,
8897
+ "learning_rate": 2.650514429189227e-06,
8898
+ "loss": 1.2844,
8899
+ "step": 1270
8900
+ },
8901
+ {
8902
+ "epoch": 0.21741361614779336,
8903
+ "grad_norm": 0.6590097546577454,
8904
+ "learning_rate": 2.6148922689181397e-06,
8905
+ "loss": 0.9632,
8906
+ "step": 1271
8907
+ },
8908
+ {
8909
+ "epoch": 0.2175846732808758,
8910
+ "grad_norm": 0.693517804145813,
8911
+ "learning_rate": 2.579504678418726e-06,
8912
+ "loss": 1.2156,
8913
+ "step": 1272
8914
+ },
8915
+ {
8916
+ "epoch": 0.21775573041395827,
8917
+ "grad_norm": 0.7429909706115723,
8918
+ "learning_rate": 2.544351832869668e-06,
8919
+ "loss": 1.1741,
8920
+ "step": 1273
8921
+ },
8922
+ {
8923
+ "epoch": 0.2179267875470407,
8924
+ "grad_norm": 0.7458788156509399,
8925
+ "learning_rate": 2.509433906287523e-06,
8926
+ "loss": 1.1041,
8927
+ "step": 1274
8928
+ },
8929
+ {
8930
+ "epoch": 0.21809784468012317,
8931
+ "grad_norm": 0.7648807168006897,
8932
+ "learning_rate": 2.474751071525988e-06,
8933
+ "loss": 1.2219,
8934
+ "step": 1275
8935
+ },
8936
+ {
8937
+ "epoch": 0.2182689018132056,
8938
+ "grad_norm": 0.806402862071991,
8939
+ "learning_rate": 2.4403035002749543e-06,
8940
+ "loss": 1.2273,
8941
+ "step": 1276
8942
+ },
8943
+ {
8944
+ "epoch": 0.21843995894628807,
8945
+ "grad_norm": 0.8961294889450073,
8946
+ "learning_rate": 2.4060913630596983e-06,
8947
+ "loss": 1.2363,
8948
+ "step": 1277
8949
+ },
8950
+ {
8951
+ "epoch": 0.2186110160793705,
8952
+ "grad_norm": 0.8457828760147095,
8953
+ "learning_rate": 2.3721148292400686e-06,
8954
+ "loss": 1.0838,
8955
+ "step": 1278
8956
+ },
8957
+ {
8958
+ "epoch": 0.21878207321245297,
8959
+ "grad_norm": 0.8772481679916382,
8960
+ "learning_rate": 2.3383740670095524e-06,
8961
+ "loss": 1.1298,
8962
+ "step": 1279
8963
+ },
8964
+ {
8965
+ "epoch": 0.2189531303455354,
8966
+ "grad_norm": 0.8471772074699402,
8967
+ "learning_rate": 2.3048692433945307e-06,
8968
+ "loss": 1.0732,
8969
+ "step": 1280
8970
+ },
8971
+ {
8972
+ "epoch": 0.21912418747861787,
8973
+ "grad_norm": 0.900969386100769,
8974
+ "learning_rate": 2.2716005242534257e-06,
8975
+ "loss": 1.0379,
8976
+ "step": 1281
8977
+ },
8978
+ {
8979
+ "epoch": 0.2192952446117003,
8980
+ "grad_norm": 0.9625850915908813,
8981
+ "learning_rate": 2.238568074275865e-06,
8982
+ "loss": 0.9685,
8983
+ "step": 1282
8984
+ },
8985
+ {
8986
+ "epoch": 0.21946630174478277,
8987
+ "grad_norm": 0.9194417595863342,
8988
+ "learning_rate": 2.205772056981875e-06,
8989
+ "loss": 1.119,
8990
+ "step": 1283
8991
+ },
8992
+ {
8993
+ "epoch": 0.2196373588778652,
8994
+ "grad_norm": 1.0923161506652832,
8995
+ "learning_rate": 2.173212634721089e-06,
8996
+ "loss": 1.2946,
8997
+ "step": 1284
8998
+ },
8999
+ {
9000
+ "epoch": 0.21980841601094767,
9001
+ "grad_norm": 1.2934038639068604,
9002
+ "learning_rate": 2.1408899686718997e-06,
9003
+ "loss": 1.1849,
9004
+ "step": 1285
9005
+ },
9006
+ {
9007
+ "epoch": 0.2199794731440301,
9008
+ "grad_norm": 1.11680269241333,
9009
+ "learning_rate": 2.1088042188407097e-06,
9010
+ "loss": 1.3148,
9011
+ "step": 1286
9012
+ },
9013
+ {
9014
+ "epoch": 0.22015053027711257,
9015
+ "grad_norm": 1.1829283237457275,
9016
+ "learning_rate": 2.0769555440611154e-06,
9017
+ "loss": 1.2888,
9018
+ "step": 1287
9019
+ },
9020
+ {
9021
+ "epoch": 0.220321587410195,
9022
+ "grad_norm": 1.3382573127746582,
9023
+ "learning_rate": 2.045344101993124e-06,
9024
+ "loss": 1.4106,
9025
+ "step": 1288
9026
+ },
9027
+ {
9028
+ "epoch": 0.22049264454327747,
9029
+ "grad_norm": 1.2632192373275757,
9030
+ "learning_rate": 2.0139700491223766e-06,
9031
+ "loss": 1.0973,
9032
+ "step": 1289
9033
+ },
9034
+ {
9035
+ "epoch": 0.2206637016763599,
9036
+ "grad_norm": 1.4644615650177002,
9037
+ "learning_rate": 1.982833540759349e-06,
9038
+ "loss": 1.2564,
9039
+ "step": 1290
9040
+ },
9041
+ {
9042
+ "epoch": 0.22083475880944237,
9043
+ "grad_norm": 1.6283206939697266,
9044
+ "learning_rate": 1.951934731038635e-06,
9045
+ "loss": 1.2009,
9046
+ "step": 1291
9047
+ },
9048
+ {
9049
+ "epoch": 0.2210058159425248,
9050
+ "grad_norm": 1.6942142248153687,
9051
+ "learning_rate": 1.9212737729181417e-06,
9052
+ "loss": 1.148,
9053
+ "step": 1292
9054
+ },
9055
+ {
9056
+ "epoch": 0.22117687307560727,
9057
+ "grad_norm": 1.6936148405075073,
9058
+ "learning_rate": 1.8908508181783247e-06,
9059
+ "loss": 1.2038,
9060
+ "step": 1293
9061
+ },
9062
+ {
9063
+ "epoch": 0.2213479302086897,
9064
+ "grad_norm": 2.2340569496154785,
9065
+ "learning_rate": 1.8606660174214807e-06,
9066
+ "loss": 1.4037,
9067
+ "step": 1294
9068
+ },
9069
+ {
9070
+ "epoch": 0.22151898734177214,
9071
+ "grad_norm": 2.1160356998443604,
9072
+ "learning_rate": 1.8307195200709727e-06,
9073
+ "loss": 1.2712,
9074
+ "step": 1295
9075
+ },
9076
+ {
9077
+ "epoch": 0.2216900444748546,
9078
+ "grad_norm": 2.3536376953125,
9079
+ "learning_rate": 1.801011474370462e-06,
9080
+ "loss": 1.4199,
9081
+ "step": 1296
9082
+ },
9083
+ {
9084
+ "epoch": 0.22186110160793704,
9085
+ "grad_norm": 2.409590482711792,
9086
+ "learning_rate": 1.771542027383255e-06,
9087
+ "loss": 1.0671,
9088
+ "step": 1297
9089
+ },
9090
+ {
9091
+ "epoch": 0.2220321587410195,
9092
+ "grad_norm": 2.8295600414276123,
9093
+ "learning_rate": 1.7423113249914968e-06,
9094
+ "loss": 1.6143,
9095
+ "step": 1298
9096
+ },
9097
+ {
9098
+ "epoch": 0.22220321587410194,
9099
+ "grad_norm": 3.7062695026397705,
9100
+ "learning_rate": 1.7133195118954838e-06,
9101
+ "loss": 1.6594,
9102
+ "step": 1299
9103
+ },
9104
+ {
9105
+ "epoch": 0.2223742730071844,
9106
+ "grad_norm": 4.451565742492676,
9107
+ "learning_rate": 1.6845667316129353e-06,
9108
+ "loss": 1.6766,
9109
+ "step": 1300
9110
+ },
9111
+ {
9112
+ "epoch": 0.22254533014026684,
9113
+ "grad_norm": 0.4803614318370819,
9114
+ "learning_rate": 1.656053126478313e-06,
9115
+ "loss": 1.0114,
9116
+ "step": 1301
9117
+ },
9118
+ {
9119
+ "epoch": 0.2227163872733493,
9120
+ "grad_norm": 0.5046311020851135,
9121
+ "learning_rate": 1.6277788376420634e-06,
9122
+ "loss": 1.1565,
9123
+ "step": 1302
9124
+ },
9125
+ {
9126
+ "epoch": 0.22288744440643174,
9127
+ "grad_norm": 0.507754385471344,
9128
+ "learning_rate": 1.5997440050699863e-06,
9129
+ "loss": 1.1134,
9130
+ "step": 1303
9131
+ },
9132
+ {
9133
+ "epoch": 0.2230585015395142,
9134
+ "grad_norm": 0.5594250559806824,
9135
+ "learning_rate": 1.5719487675424582e-06,
9136
+ "loss": 1.2747,
9137
+ "step": 1304
9138
+ },
9139
+ {
9140
+ "epoch": 0.22322955867259664,
9141
+ "grad_norm": 0.5371953248977661,
9142
+ "learning_rate": 1.5443932626538316e-06,
9143
+ "loss": 1.2004,
9144
+ "step": 1305
9145
+ },
9146
+ {
9147
+ "epoch": 0.2234006158056791,
9148
+ "grad_norm": 0.5366808772087097,
9149
+ "learning_rate": 1.517077626811697e-06,
9150
+ "loss": 1.2323,
9151
+ "step": 1306
9152
+ },
9153
+ {
9154
+ "epoch": 0.22357167293876154,
9155
+ "grad_norm": 0.5580090880393982,
9156
+ "learning_rate": 1.4900019952362232e-06,
9157
+ "loss": 1.2679,
9158
+ "step": 1307
9159
+ },
9160
+ {
9161
+ "epoch": 0.223742730071844,
9162
+ "grad_norm": 0.5684660077095032,
9163
+ "learning_rate": 1.4631665019595009e-06,
9164
+ "loss": 1.303,
9165
+ "step": 1308
9166
+ },
9167
+ {
9168
+ "epoch": 0.22391378720492644,
9169
+ "grad_norm": 0.5655079483985901,
9170
+ "learning_rate": 1.436571279824861e-06,
9171
+ "loss": 1.3581,
9172
+ "step": 1309
9173
+ },
9174
+ {
9175
+ "epoch": 0.2240848443380089,
9176
+ "grad_norm": 0.582984447479248,
9177
+ "learning_rate": 1.4102164604862078e-06,
9178
+ "loss": 1.3664,
9179
+ "step": 1310
9180
+ },
9181
+ {
9182
+ "epoch": 0.22425590147109134,
9183
+ "grad_norm": 0.5544376969337463,
9184
+ "learning_rate": 1.3841021744074257e-06,
9185
+ "loss": 1.2845,
9186
+ "step": 1311
9187
+ },
9188
+ {
9189
+ "epoch": 0.2244269586041738,
9190
+ "grad_norm": 0.565316379070282,
9191
+ "learning_rate": 1.35822855086164e-06,
9192
+ "loss": 1.2483,
9193
+ "step": 1312
9194
+ },
9195
+ {
9196
+ "epoch": 0.22459801573725624,
9197
+ "grad_norm": 0.5738152861595154,
9198
+ "learning_rate": 1.3325957179306626e-06,
9199
+ "loss": 1.2566,
9200
+ "step": 1313
9201
+ },
9202
+ {
9203
+ "epoch": 0.2247690728703387,
9204
+ "grad_norm": 0.6058394908905029,
9205
+ "learning_rate": 1.3072038025043198e-06,
9206
+ "loss": 1.3314,
9207
+ "step": 1314
9208
+ },
9209
+ {
9210
+ "epoch": 0.22494013000342114,
9211
+ "grad_norm": 0.618689775466919,
9212
+ "learning_rate": 1.2820529302798035e-06,
9213
+ "loss": 1.3883,
9214
+ "step": 1315
9215
+ },
9216
+ {
9217
+ "epoch": 0.2251111871365036,
9218
+ "grad_norm": 0.621052622795105,
9219
+ "learning_rate": 1.2571432257610983e-06,
9220
+ "loss": 1.2904,
9221
+ "step": 1316
9222
+ },
9223
+ {
9224
+ "epoch": 0.22528224426958604,
9225
+ "grad_norm": 0.6590416431427002,
9226
+ "learning_rate": 1.232474812258344e-06,
9227
+ "loss": 1.4642,
9228
+ "step": 1317
9229
+ },
9230
+ {
9231
+ "epoch": 0.2254533014026685,
9232
+ "grad_norm": 0.6238689422607422,
9233
+ "learning_rate": 1.2080478118871974e-06,
9234
+ "loss": 1.2775,
9235
+ "step": 1318
9236
+ },
9237
+ {
9238
+ "epoch": 0.22562435853575094,
9239
+ "grad_norm": 0.6821351647377014,
9240
+ "learning_rate": 1.1838623455682652e-06,
9241
+ "loss": 1.2017,
9242
+ "step": 1319
9243
+ },
9244
+ {
9245
+ "epoch": 0.22579541566883338,
9246
+ "grad_norm": 0.6280372738838196,
9247
+ "learning_rate": 1.1599185330264883e-06,
9248
+ "loss": 1.0048,
9249
+ "step": 1320
9250
+ },
9251
+ {
9252
+ "epoch": 0.22596647280191584,
9253
+ "grad_norm": 0.6800519227981567,
9254
+ "learning_rate": 1.1362164927905595e-06,
9255
+ "loss": 1.4072,
9256
+ "step": 1321
9257
+ },
9258
+ {
9259
+ "epoch": 0.22613752993499828,
9260
+ "grad_norm": 0.7017683386802673,
9261
+ "learning_rate": 1.1127563421923226e-06,
9262
+ "loss": 1.0213,
9263
+ "step": 1322
9264
+ },
9265
+ {
9266
+ "epoch": 0.22630858706808074,
9267
+ "grad_norm": 0.7159509062767029,
9268
+ "learning_rate": 1.0895381973662023e-06,
9269
+ "loss": 1.1265,
9270
+ "step": 1323
9271
+ },
9272
+ {
9273
+ "epoch": 0.22647964420116318,
9274
+ "grad_norm": 0.7772588729858398,
9275
+ "learning_rate": 1.0665621732486198e-06,
9276
+ "loss": 1.293,
9277
+ "step": 1324
9278
+ },
9279
+ {
9280
+ "epoch": 0.22665070133424564,
9281
+ "grad_norm": 0.7362921237945557,
9282
+ "learning_rate": 1.0438283835774387e-06,
9283
+ "loss": 1.0704,
9284
+ "step": 1325
9285
+ },
9286
+ {
9287
+ "epoch": 0.22682175846732808,
9288
+ "grad_norm": 0.7900636792182922,
9289
+ "learning_rate": 1.0213369408913932e-06,
9290
+ "loss": 1.0694,
9291
+ "step": 1326
9292
+ },
9293
+ {
9294
+ "epoch": 0.22699281560041054,
9295
+ "grad_norm": 0.810276448726654,
9296
+ "learning_rate": 9.990879565295153e-07,
9297
+ "loss": 1.2045,
9298
+ "step": 1327
9299
+ },
9300
+ {
9301
+ "epoch": 0.22716387273349298,
9302
+ "grad_norm": 0.8556481003761292,
9303
+ "learning_rate": 9.770815406306312e-07,
9304
+ "loss": 1.2036,
9305
+ "step": 1328
9306
+ },
9307
+ {
9308
+ "epoch": 0.22733492986657544,
9309
+ "grad_norm": 0.9373174905776978,
9310
+ "learning_rate": 9.553178021327326e-07,
9311
+ "loss": 1.4073,
9312
+ "step": 1329
9313
+ },
9314
+ {
9315
+ "epoch": 0.22750598699965788,
9316
+ "grad_norm": 0.8940708637237549,
9317
+ "learning_rate": 9.337968487725501e-07,
9318
+ "loss": 1.2526,
9319
+ "step": 1330
9320
+ },
9321
+ {
9322
+ "epoch": 0.22767704413274034,
9323
+ "grad_norm": 0.9707661867141724,
9324
+ "learning_rate": 9.12518787084915e-07,
9325
+ "loss": 1.2184,
9326
+ "step": 1331
9327
+ },
9328
+ {
9329
+ "epoch": 0.22784810126582278,
9330
+ "grad_norm": 0.844813346862793,
9331
+ "learning_rate": 8.91483722402292e-07,
9332
+ "loss": 1.0718,
9333
+ "step": 1332
9334
+ },
9335
+ {
9336
+ "epoch": 0.22801915839890524,
9337
+ "grad_norm": 1.115906834602356,
9338
+ "learning_rate": 8.706917588542418e-07,
9339
+ "loss": 1.3152,
9340
+ "step": 1333
9341
+ },
9342
+ {
9343
+ "epoch": 0.22819021553198768,
9344
+ "grad_norm": 0.9982916116714478,
9345
+ "learning_rate": 8.50142999366893e-07,
9346
+ "loss": 1.1193,
9347
+ "step": 1334
9348
+ },
9349
+ {
9350
+ "epoch": 0.22836127266507014,
9351
+ "grad_norm": 1.2234420776367188,
9352
+ "learning_rate": 8.298375456624652e-07,
9353
+ "loss": 1.2037,
9354
+ "step": 1335
9355
+ },
9356
+ {
9357
+ "epoch": 0.22853232979815258,
9358
+ "grad_norm": 1.1149396896362305,
9359
+ "learning_rate": 8.097754982587303e-07,
9360
+ "loss": 1.0903,
9361
+ "step": 1336
9362
+ },
9363
+ {
9364
+ "epoch": 0.22870338693123504,
9365
+ "grad_norm": 1.2126588821411133,
9366
+ "learning_rate": 7.899569564685294e-07,
9367
+ "loss": 1.2339,
9368
+ "step": 1337
9369
+ },
9370
+ {
9371
+ "epoch": 0.22887444406431748,
9372
+ "grad_norm": 1.2695289850234985,
9373
+ "learning_rate": 7.70382018399296e-07,
9374
+ "loss": 1.1751,
9375
+ "step": 1338
9376
+ },
9377
+ {
9378
+ "epoch": 0.22904550119739994,
9379
+ "grad_norm": 1.532913327217102,
9380
+ "learning_rate": 7.510507809525335e-07,
9381
+ "loss": 1.4258,
9382
+ "step": 1339
9383
+ },
9384
+ {
9385
+ "epoch": 0.22921655833048238,
9386
+ "grad_norm": 1.5996785163879395,
9387
+ "learning_rate": 7.319633398233772e-07,
9388
+ "loss": 1.2917,
9389
+ "step": 1340
9390
+ },
9391
+ {
9392
+ "epoch": 0.22938761546356484,
9393
+ "grad_norm": 1.3822323083877563,
9394
+ "learning_rate": 7.131197895000941e-07,
9395
+ "loss": 1.1636,
9396
+ "step": 1341
9397
+ },
9398
+ {
9399
+ "epoch": 0.22955867259664728,
9400
+ "grad_norm": 1.7828960418701172,
9401
+ "learning_rate": 6.945202232636228e-07,
9402
+ "loss": 1.3946,
9403
+ "step": 1342
9404
+ },
9405
+ {
9406
+ "epoch": 0.22972972972972974,
9407
+ "grad_norm": 1.8755525350570679,
9408
+ "learning_rate": 6.761647331871013e-07,
9409
+ "loss": 1.3885,
9410
+ "step": 1343
9411
+ },
9412
+ {
9413
+ "epoch": 0.22990078686281218,
9414
+ "grad_norm": 2.543682098388672,
9415
+ "learning_rate": 6.580534101354452e-07,
9416
+ "loss": 1.7416,
9417
+ "step": 1344
9418
+ },
9419
+ {
9420
+ "epoch": 0.23007184399589464,
9421
+ "grad_norm": 1.908764362335205,
9422
+ "learning_rate": 6.401863437648481e-07,
9423
+ "loss": 1.1909,
9424
+ "step": 1345
9425
+ },
9426
+ {
9427
+ "epoch": 0.23024290112897708,
9428
+ "grad_norm": 2.3398802280426025,
9429
+ "learning_rate": 6.225636225223763e-07,
9430
+ "loss": 1.4931,
9431
+ "step": 1346
9432
+ },
9433
+ {
9434
+ "epoch": 0.23041395826205952,
9435
+ "grad_norm": 2.357182264328003,
9436
+ "learning_rate": 6.051853336455249e-07,
9437
+ "loss": 1.4752,
9438
+ "step": 1347
9439
+ },
9440
+ {
9441
+ "epoch": 0.23058501539514198,
9442
+ "grad_norm": 2.3424172401428223,
9443
+ "learning_rate": 5.880515631617567e-07,
9444
+ "loss": 1.0249,
9445
+ "step": 1348
9446
+ },
9447
+ {
9448
+ "epoch": 0.23075607252822442,
9449
+ "grad_norm": 2.934676170349121,
9450
+ "learning_rate": 5.711623958881195e-07,
9451
+ "loss": 1.5519,
9452
+ "step": 1349
9453
+ },
9454
+ {
9455
+ "epoch": 0.23092712966130688,
9456
+ "grad_norm": 4.101928234100342,
9457
+ "learning_rate": 5.545179154308078e-07,
9458
+ "loss": 1.8836,
9459
+ "step": 1350
9460
+ },
9461
+ {
9462
+ "epoch": 0.23109818679438932,
9463
+ "grad_norm": 0.532934844493866,
9464
+ "learning_rate": 5.381182041847232e-07,
9465
+ "loss": 1.1214,
9466
+ "step": 1351
9467
+ },
9468
+ {
9469
+ "epoch": 0.23126924392747178,
9470
+ "grad_norm": 0.47591790556907654,
9471
+ "learning_rate": 5.21963343333115e-07,
9472
+ "loss": 1.1511,
9473
+ "step": 1352
9474
+ },
9475
+ {
9476
+ "epoch": 0.23144030106055422,
9477
+ "grad_norm": 0.4995153546333313,
9478
+ "learning_rate": 5.06053412847135e-07,
9479
+ "loss": 1.1037,
9480
+ "step": 1353
9481
+ },
9482
+ {
9483
+ "epoch": 0.23161135819363668,
9484
+ "grad_norm": 0.5946906805038452,
9485
+ "learning_rate": 4.903884914854717e-07,
9486
+ "loss": 1.1168,
9487
+ "step": 1354
9488
+ },
9489
+ {
9490
+ "epoch": 0.23178241532671912,
9491
+ "grad_norm": 0.4970369338989258,
9492
+ "learning_rate": 4.749686567939504e-07,
9493
+ "loss": 1.0871,
9494
+ "step": 1355
9495
+ },
9496
+ {
9497
+ "epoch": 0.23195347245980158,
9498
+ "grad_norm": 0.5578677654266357,
9499
+ "learning_rate": 4.597939851051336e-07,
9500
+ "loss": 1.3034,
9501
+ "step": 1356
9502
+ },
9503
+ {
9504
+ "epoch": 0.23212452959288402,
9505
+ "grad_norm": 0.5544520616531372,
9506
+ "learning_rate": 4.448645515379657e-07,
9507
+ "loss": 1.2657,
9508
+ "step": 1357
9509
+ },
9510
+ {
9511
+ "epoch": 0.23229558672596648,
9512
+ "grad_norm": 0.529667317867279,
9513
+ "learning_rate": 4.301804299973955e-07,
9514
+ "loss": 1.2368,
9515
+ "step": 1358
9516
+ },
9517
+ {
9518
+ "epoch": 0.23246664385904892,
9519
+ "grad_norm": 0.5463925004005432,
9520
+ "learning_rate": 4.157416931740099e-07,
9521
+ "loss": 1.2884,
9522
+ "step": 1359
9523
+ },
9524
+ {
9525
+ "epoch": 0.23263770099213138,
9526
+ "grad_norm": 0.5573237538337708,
9527
+ "learning_rate": 4.015484125436564e-07,
9528
+ "loss": 1.2477,
9529
+ "step": 1360
9530
+ },
9531
+ {
9532
+ "epoch": 0.23280875812521382,
9533
+ "grad_norm": 0.5883082151412964,
9534
+ "learning_rate": 3.8760065836712653e-07,
9535
+ "loss": 1.1823,
9536
+ "step": 1361
9537
+ },
9538
+ {
9539
+ "epoch": 0.23297981525829628,
9540
+ "grad_norm": 0.5314277410507202,
9541
+ "learning_rate": 3.738984996897621e-07,
9542
+ "loss": 1.1647,
9543
+ "step": 1362
9544
+ },
9545
+ {
9546
+ "epoch": 0.23315087239137872,
9547
+ "grad_norm": 0.6144003868103027,
9548
+ "learning_rate": 3.604420043411494e-07,
9549
+ "loss": 1.4237,
9550
+ "step": 1363
9551
+ },
9552
+ {
9553
+ "epoch": 0.23332192952446118,
9554
+ "grad_norm": 0.5864267349243164,
9555
+ "learning_rate": 3.472312389347809e-07,
9556
+ "loss": 1.4627,
9557
+ "step": 1364
9558
+ },
9559
+ {
9560
+ "epoch": 0.23349298665754362,
9561
+ "grad_norm": 0.5905508995056152,
9562
+ "learning_rate": 3.342662688676945e-07,
9563
+ "loss": 1.2693,
9564
+ "step": 1365
9565
+ },
9566
+ {
9567
+ "epoch": 0.23366404379062608,
9568
+ "grad_norm": 0.6206147074699402,
9569
+ "learning_rate": 3.2154715832019013e-07,
9570
+ "loss": 1.33,
9571
+ "step": 1366
9572
+ },
9573
+ {
9574
+ "epoch": 0.23383510092370852,
9575
+ "grad_norm": 0.594439685344696,
9576
+ "learning_rate": 3.090739702554801e-07,
9577
+ "loss": 1.3374,
9578
+ "step": 1367
9579
+ },
9580
+ {
9581
+ "epoch": 0.23400615805679098,
9582
+ "grad_norm": 0.5832518935203552,
9583
+ "learning_rate": 2.968467664194008e-07,
9584
+ "loss": 1.2305,
9585
+ "step": 1368
9586
+ },
9587
+ {
9588
+ "epoch": 0.23417721518987342,
9589
+ "grad_norm": 0.6082518696784973,
9590
+ "learning_rate": 2.8486560734009573e-07,
9591
+ "loss": 1.1496,
9592
+ "step": 1369
9593
+ },
9594
+ {
9595
+ "epoch": 0.23434827232295588,
9596
+ "grad_norm": 0.6523653864860535,
9597
+ "learning_rate": 2.7313055232769947e-07,
9598
+ "loss": 1.3162,
9599
+ "step": 1370
9600
+ },
9601
+ {
9602
+ "epoch": 0.23451932945603832,
9603
+ "grad_norm": 0.7001534700393677,
9604
+ "learning_rate": 2.6164165947408226e-07,
9605
+ "loss": 1.2608,
9606
+ "step": 1371
9607
+ },
9608
+ {
9609
+ "epoch": 0.23469038658912075,
9610
+ "grad_norm": 0.6603479385375977,
9611
+ "learning_rate": 2.5039898565253903e-07,
9612
+ "loss": 1.054,
9613
+ "step": 1372
9614
+ },
9615
+ {
9616
+ "epoch": 0.23486144372220322,
9617
+ "grad_norm": 0.7289173007011414,
9618
+ "learning_rate": 2.3940258651749536e-07,
9619
+ "loss": 0.9877,
9620
+ "step": 1373
9621
+ },
9622
+ {
9623
+ "epoch": 0.23503250085528565,
9624
+ "grad_norm": 0.7646000385284424,
9625
+ "learning_rate": 2.2865251650426857e-07,
9626
+ "loss": 1.262,
9627
+ "step": 1374
9628
+ },
9629
+ {
9630
+ "epoch": 0.23520355798836812,
9631
+ "grad_norm": 0.6895982027053833,
9632
+ "learning_rate": 2.1814882882875698e-07,
9633
+ "loss": 1.0696,
9634
+ "step": 1375
9635
+ },
9636
+ {
9637
+ "epoch": 0.23537461512145055,
9638
+ "grad_norm": 0.7753621339797974,
9639
+ "learning_rate": 2.078915754872013e-07,
9640
+ "loss": 1.1467,
9641
+ "step": 1376
9642
+ },
9643
+ {
9644
+ "epoch": 0.23554567225453302,
9645
+ "grad_norm": 0.7920718193054199,
9646
+ "learning_rate": 1.9788080725593462e-07,
9647
+ "loss": 1.1686,
9648
+ "step": 1377
9649
+ },
9650
+ {
9651
+ "epoch": 0.23571672938761545,
9652
+ "grad_norm": 0.93338543176651,
9653
+ "learning_rate": 1.8811657369110504e-07,
9654
+ "loss": 1.2003,
9655
+ "step": 1378
9656
+ },
9657
+ {
9658
+ "epoch": 0.23588778652069792,
9659
+ "grad_norm": 0.8253167867660522,
9660
+ "learning_rate": 1.7859892312844795e-07,
9661
+ "loss": 1.1813,
9662
+ "step": 1379
9663
+ },
9664
+ {
9665
+ "epoch": 0.23605884365378035,
9666
+ "grad_norm": 0.9050092697143555,
9667
+ "learning_rate": 1.6932790268304743e-07,
9668
+ "loss": 1.0717,
9669
+ "step": 1380
9670
+ },
9671
+ {
9672
+ "epoch": 0.23622990078686282,
9673
+ "grad_norm": 0.9545491933822632,
9674
+ "learning_rate": 1.6030355824908639e-07,
9675
+ "loss": 1.1853,
9676
+ "step": 1381
9677
+ },
9678
+ {
9679
+ "epoch": 0.23640095791994525,
9680
+ "grad_norm": 0.9502745866775513,
9681
+ "learning_rate": 1.5152593449964115e-07,
9682
+ "loss": 1.1989,
9683
+ "step": 1382
9684
+ },
9685
+ {
9686
+ "epoch": 0.23657201505302772,
9687
+ "grad_norm": 1.1270335912704468,
9688
+ "learning_rate": 1.4299507488644838e-07,
9689
+ "loss": 1.4991,
9690
+ "step": 1383
9691
+ },
9692
+ {
9693
+ "epoch": 0.23674307218611015,
9694
+ "grad_norm": 1.0703458786010742,
9695
+ "learning_rate": 1.3471102163969407e-07,
9696
+ "loss": 1.0992,
9697
+ "step": 1384
9698
+ },
9699
+ {
9700
+ "epoch": 0.23691412931919262,
9701
+ "grad_norm": 1.2064449787139893,
9702
+ "learning_rate": 1.2667381576779712e-07,
9703
+ "loss": 1.2553,
9704
+ "step": 1385
9705
+ },
9706
+ {
9707
+ "epoch": 0.23708518645227505,
9708
+ "grad_norm": 1.2369565963745117,
9709
+ "learning_rate": 1.1888349705721502e-07,
9710
+ "loss": 1.1318,
9711
+ "step": 1386
9712
+ },
9713
+ {
9714
+ "epoch": 0.23725624358535752,
9715
+ "grad_norm": 1.4282811880111694,
9716
+ "learning_rate": 1.1134010407223838e-07,
9717
+ "loss": 1.4422,
9718
+ "step": 1387
9719
+ },
9720
+ {
9721
+ "epoch": 0.23742730071843995,
9722
+ "grad_norm": 1.3976672887802124,
9723
+ "learning_rate": 1.0404367415481897e-07,
9724
+ "loss": 1.4074,
9725
+ "step": 1388
9726
+ },
9727
+ {
9728
+ "epoch": 0.23759835785152242,
9729
+ "grad_norm": 1.4005348682403564,
9730
+ "learning_rate": 9.69942434243587e-08,
9731
+ "loss": 1.2234,
9732
+ "step": 1389
9733
+ },
9734
+ {
9735
+ "epoch": 0.23776941498460485,
9736
+ "grad_norm": 2.1577513217926025,
9737
+ "learning_rate": 9.019184677753756e-08,
9738
+ "loss": 1.6203,
9739
+ "step": 1390
9740
+ },
9741
+ {
9742
+ "epoch": 0.23794047211768732,
9743
+ "grad_norm": 1.7010389566421509,
9744
+ "learning_rate": 8.363651788816929e-08,
9745
+ "loss": 1.4602,
9746
+ "step": 1391
9747
+ },
9748
+ {
9749
+ "epoch": 0.23811152925076975,
9750
+ "grad_norm": 1.6112992763519287,
9751
+ "learning_rate": 7.732828920698487e-08,
9752
+ "loss": 1.2554,
9753
+ "step": 1392
9754
+ },
9755
+ {
9756
+ "epoch": 0.23828258638385222,
9757
+ "grad_norm": 1.6530187129974365,
9758
+ "learning_rate": 7.126719196152154e-08,
9759
+ "loss": 0.9881,
9760
+ "step": 1393
9761
+ },
9762
+ {
9763
+ "epoch": 0.23845364351693465,
9764
+ "grad_norm": 2.1780290603637695,
9765
+ "learning_rate": 6.5453256155934e-08,
9766
+ "loss": 1.6389,
9767
+ "step": 1394
9768
+ },
9769
+ {
9770
+ "epoch": 0.23862470065001712,
9771
+ "grad_norm": 1.7187129259109497,
9772
+ "learning_rate": 5.98865105708557e-08,
9773
+ "loss": 1.0483,
9774
+ "step": 1395
9775
+ },
9776
+ {
9777
+ "epoch": 0.23879575778309955,
9778
+ "grad_norm": 2.0782599449157715,
9779
+ "learning_rate": 5.4566982763265554e-08,
9780
+ "loss": 1.4907,
9781
+ "step": 1396
9782
+ },
9783
+ {
9784
+ "epoch": 0.238966814916182,
9785
+ "grad_norm": 2.34914231300354,
9786
+ "learning_rate": 4.949469906633808e-08,
9787
+ "loss": 1.3049,
9788
+ "step": 1397
9789
+ },
9790
+ {
9791
+ "epoch": 0.23913787204926445,
9792
+ "grad_norm": 2.8132481575012207,
9793
+ "learning_rate": 4.466968458932685e-08,
9794
+ "loss": 1.291,
9795
+ "step": 1398
9796
+ },
9797
+ {
9798
+ "epoch": 0.2393089291823469,
9799
+ "grad_norm": 2.93622088432312,
9800
+ "learning_rate": 4.0091963217420147e-08,
9801
+ "loss": 1.335,
9802
+ "step": 1399
9803
+ },
9804
+ {
9805
+ "epoch": 0.23947998631542936,
9806
+ "grad_norm": 4.360016345977783,
9807
+ "learning_rate": 3.5761557611641016e-08,
9808
+ "loss": 1.7978,
9809
+ "step": 1400
9810
+ },
9811
+ {
9812
+ "epoch": 0.2396510434485118,
9813
+ "grad_norm": 0.5031181573867798,
9814
+ "learning_rate": 3.167848920873628e-08,
9815
+ "loss": 1.1583,
9816
+ "step": 1401
9817
+ },
9818
+ {
9819
+ "epoch": 0.23982210058159426,
9820
+ "grad_norm": 0.5267295241355896,
9821
+ "learning_rate": 2.784277822104886e-08,
9822
+ "loss": 1.0758,
9823
+ "step": 1402
9824
+ },
9825
+ {
9826
+ "epoch": 0.2399931577146767,
9827
+ "grad_norm": 0.5213353633880615,
9828
+ "learning_rate": 2.425444363645113e-08,
9829
+ "loss": 1.1879,
9830
+ "step": 1403
9831
+ },
9832
+ {
9833
+ "epoch": 0.24016421484775916,
9834
+ "grad_norm": 0.5531721115112305,
9835
+ "learning_rate": 2.0913503218211726e-08,
9836
+ "loss": 1.2648,
9837
+ "step": 1404
9838
+ },
9839
+ {
9840
+ "epoch": 0.2403352719808416,
9841
+ "grad_norm": 0.5778745412826538,
9842
+ "learning_rate": 1.7819973504940025e-08,
9843
+ "loss": 1.1453,
9844
+ "step": 1405
9845
+ },
9846
+ {
9847
+ "epoch": 0.24050632911392406,
9848
+ "grad_norm": 0.5460866689682007,
9849
+ "learning_rate": 1.497386981048621e-08,
9850
+ "loss": 1.2523,
9851
+ "step": 1406
9852
+ },
9853
+ {
9854
+ "epoch": 0.2406773862470065,
9855
+ "grad_norm": 0.5462162494659424,
9856
+ "learning_rate": 1.2375206223874669e-08,
9857
+ "loss": 1.2443,
9858
+ "step": 1407
9859
+ },
9860
+ {
9861
+ "epoch": 0.24084844338008896,
9862
+ "grad_norm": 0.5448779463768005,
9863
+ "learning_rate": 1.002399560923184e-08,
9864
+ "loss": 1.1947,
9865
+ "step": 1408
9866
+ },
9867
+ {
9868
+ "epoch": 0.2410195005131714,
9869
+ "grad_norm": 0.5699012875556946,
9870
+ "learning_rate": 7.920249605719576e-09,
9871
+ "loss": 1.362,
9872
+ "step": 1409
9873
+ },
9874
+ {
9875
+ "epoch": 0.24119055764625386,
9876
+ "grad_norm": 0.563005268573761,
9877
+ "learning_rate": 6.063978627479649e-09,
9878
+ "loss": 1.2649,
9879
+ "step": 1410
9880
+ },
9881
+ {
9882
+ "epoch": 0.2413616147793363,
9883
+ "grad_norm": 0.5439906120300293,
9884
+ "learning_rate": 4.455191863578234e-09,
9885
+ "loss": 1.2617,
9886
+ "step": 1411
9887
+ },
9888
+ {
9889
+ "epoch": 0.24153267191241876,
9890
+ "grad_norm": 0.6309058666229248,
9891
+ "learning_rate": 3.0938972779726015e-09,
9892
+ "loss": 1.483,
9893
+ "step": 1412
9894
+ },
9895
+ {
9896
+ "epoch": 0.2417037290455012,
9897
+ "grad_norm": 0.5740118622779846,
9898
+ "learning_rate": 1.980101609455609e-09,
9899
+ "loss": 1.324,
9900
+ "step": 1413
9901
+ },
9902
+ {
9903
+ "epoch": 0.24187478617858366,
9904
+ "grad_norm": 0.598046064376831,
9905
+ "learning_rate": 1.1138103716279435e-09,
9906
+ "loss": 1.3101,
9907
+ "step": 1414
9908
+ },
9909
+ {
9910
+ "epoch": 0.2420458433116661,
9911
+ "grad_norm": 0.6388869881629944,
9912
+ "learning_rate": 4.9502785288702e-10,
9913
+ "loss": 1.3599,
9914
+ "step": 1415
9915
+ },
9916
+ {
9917
+ "epoch": 0.24221690044474856,
9918
+ "grad_norm": 0.5941327214241028,
9919
+ "learning_rate": 1.2375711638257236e-10,
9920
+ "loss": 1.1234,
9921
+ "step": 1416
9922
+ },
9923
+ {
9924
+ "epoch": 0.242387957577831,
9925
+ "grad_norm": 0.5998250246047974,
9926
+ "learning_rate": 0.0,
9927
+ "loss": 1.2886,
9928
+ "step": 1417
9929
  }
9930
  ],
9931
  "logging_steps": 1,
 
9940
  "should_evaluate": false,
9941
  "should_log": false,
9942
  "should_save": true,
9943
+ "should_training_stop": true
9944
  },
9945
  "attributes": {}
9946
  }
9947
  },
9948
+ "total_flos": 1.7989385934864384e+18,
9949
  "train_batch_size": 4,
9950
  "trial_name": null,
9951
  "trial_params": null