ErrorAI commited on
Commit
1551799
·
verified ·
1 Parent(s): d893ebb

Training in progress, step 1197, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:844ba7b0142c2d7338fa130846de0ade1b8f952d2d0a8b03e3394a043b4b0060
3
  size 125248064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:668a0889c090e215207d74b332e056b7ca4f6b162bd86ee71bd67cc47290b8bd
3
  size 125248064
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f6ad0b3f7d6e221a2f93f3b86288993ccb38b368b499424defa49a31b42410e4
3
  size 64220436
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f6fc8ccd5ba1739971410ba99e9a9f580c06ccddc135d2ee3d386e83d30f3b77
3
  size 64220436
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:44396ae60c2a9b0310698554172e8da5ead32edf113415fcab66e18322e6969f
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:731ce61144e7f56e88aacf2b872738f4fe3d94e583f7cc379e0a681bdfdee45e
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:084bcacb695a6bc2b953f635bd927da3cbcb4f5cdd4ec42b3da2d9dc3fc73878
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:810af60324f4f8b9381e2cfbd8f738b2d5b90fe5950a608079a90f9cdf320a0e
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.13650359219979474,
5
  "eval_steps": 500,
6
- "global_step": 798,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -5593,6 +5593,2799 @@
5593
  "learning_rate": 5.0246824315994423e-05,
5594
  "loss": 1.5175,
5595
  "step": 798
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5596
  }
5597
  ],
5598
  "logging_steps": 1,
@@ -5612,7 +8405,7 @@
5612
  "attributes": {}
5613
  }
5614
  },
5615
- "total_flos": 1.0132317743874048e+18,
5616
  "train_batch_size": 4,
5617
  "trial_name": null,
5618
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.2047553882996921,
5
  "eval_steps": 500,
6
+ "global_step": 1197,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
5593
  "learning_rate": 5.0246824315994423e-05,
5594
  "loss": 1.5175,
5595
  "step": 798
5596
+ },
5597
+ {
5598
+ "epoch": 0.13667464933287718,
5599
+ "grad_norm": 3.0145645141601562,
5600
+ "learning_rate": 5.014809497455023e-05,
5601
+ "loss": 1.7339,
5602
+ "step": 799
5603
+ },
5604
+ {
5605
+ "epoch": 0.13684570646595964,
5606
+ "grad_norm": 3.4925601482391357,
5607
+ "learning_rate": 5.004936505567575e-05,
5608
+ "loss": 1.3301,
5609
+ "step": 800
5610
+ },
5611
+ {
5612
+ "epoch": 0.13701676359904208,
5613
+ "grad_norm": 0.493186891078949,
5614
+ "learning_rate": 4.995063494432426e-05,
5615
+ "loss": 1.1961,
5616
+ "step": 801
5617
+ },
5618
+ {
5619
+ "epoch": 0.13718782073212452,
5620
+ "grad_norm": 0.46137088537216187,
5621
+ "learning_rate": 4.9851905025449765e-05,
5622
+ "loss": 1.0953,
5623
+ "step": 802
5624
+ },
5625
+ {
5626
+ "epoch": 0.13735887786520698,
5627
+ "grad_norm": 0.4970177114009857,
5628
+ "learning_rate": 4.975317568400559e-05,
5629
+ "loss": 1.1871,
5630
+ "step": 803
5631
+ },
5632
+ {
5633
+ "epoch": 0.13752993499828942,
5634
+ "grad_norm": 0.5300405621528625,
5635
+ "learning_rate": 4.965444730494272e-05,
5636
+ "loss": 1.209,
5637
+ "step": 804
5638
+ },
5639
+ {
5640
+ "epoch": 0.13770099213137188,
5641
+ "grad_norm": 0.5243121981620789,
5642
+ "learning_rate": 4.955572027320847e-05,
5643
+ "loss": 1.2081,
5644
+ "step": 805
5645
+ },
5646
+ {
5647
+ "epoch": 0.13787204926445432,
5648
+ "grad_norm": 0.5058876276016235,
5649
+ "learning_rate": 4.945699497374483e-05,
5650
+ "loss": 1.1047,
5651
+ "step": 806
5652
+ },
5653
+ {
5654
+ "epoch": 0.13804310639753678,
5655
+ "grad_norm": 0.5102903246879578,
5656
+ "learning_rate": 4.9358271791487093e-05,
5657
+ "loss": 1.1757,
5658
+ "step": 807
5659
+ },
5660
+ {
5661
+ "epoch": 0.13821416353061922,
5662
+ "grad_norm": 0.5319022536277771,
5663
+ "learning_rate": 4.925955111136226e-05,
5664
+ "loss": 1.3227,
5665
+ "step": 808
5666
+ },
5667
+ {
5668
+ "epoch": 0.13838522066370168,
5669
+ "grad_norm": 0.5021986961364746,
5670
+ "learning_rate": 4.916083331828761e-05,
5671
+ "loss": 1.2571,
5672
+ "step": 809
5673
+ },
5674
+ {
5675
+ "epoch": 0.13855627779678412,
5676
+ "grad_norm": 0.5275747776031494,
5677
+ "learning_rate": 4.90621187971691e-05,
5678
+ "loss": 1.2374,
5679
+ "step": 810
5680
+ },
5681
+ {
5682
+ "epoch": 0.13872733492986658,
5683
+ "grad_norm": 0.5663225054740906,
5684
+ "learning_rate": 4.8963407932900044e-05,
5685
+ "loss": 1.3147,
5686
+ "step": 811
5687
+ },
5688
+ {
5689
+ "epoch": 0.13889839206294902,
5690
+ "grad_norm": 0.5300834774971008,
5691
+ "learning_rate": 4.886470111035936e-05,
5692
+ "loss": 1.2838,
5693
+ "step": 812
5694
+ },
5695
+ {
5696
+ "epoch": 0.13906944919603148,
5697
+ "grad_norm": 0.5162017941474915,
5698
+ "learning_rate": 4.8765998714410297e-05,
5699
+ "loss": 1.3455,
5700
+ "step": 813
5701
+ },
5702
+ {
5703
+ "epoch": 0.13924050632911392,
5704
+ "grad_norm": 0.5711933374404907,
5705
+ "learning_rate": 4.866730112989885e-05,
5706
+ "loss": 1.4489,
5707
+ "step": 814
5708
+ },
5709
+ {
5710
+ "epoch": 0.13941156346219638,
5711
+ "grad_norm": 0.5531579256057739,
5712
+ "learning_rate": 4.856860874165218e-05,
5713
+ "loss": 1.2977,
5714
+ "step": 815
5715
+ },
5716
+ {
5717
+ "epoch": 0.13958262059527882,
5718
+ "grad_norm": 0.5703489780426025,
5719
+ "learning_rate": 4.846992193447728e-05,
5720
+ "loss": 1.3127,
5721
+ "step": 816
5722
+ },
5723
+ {
5724
+ "epoch": 0.13975367772836128,
5725
+ "grad_norm": 0.6078313589096069,
5726
+ "learning_rate": 4.8371241093159286e-05,
5727
+ "loss": 1.2557,
5728
+ "step": 817
5729
+ },
5730
+ {
5731
+ "epoch": 0.13992473486144372,
5732
+ "grad_norm": 0.5923083424568176,
5733
+ "learning_rate": 4.827256660246017e-05,
5734
+ "loss": 1.3205,
5735
+ "step": 818
5736
+ },
5737
+ {
5738
+ "epoch": 0.14009579199452618,
5739
+ "grad_norm": 0.5954465866088867,
5740
+ "learning_rate": 4.817389884711705e-05,
5741
+ "loss": 1.1735,
5742
+ "step": 819
5743
+ },
5744
+ {
5745
+ "epoch": 0.14026684912760862,
5746
+ "grad_norm": 0.5864128470420837,
5747
+ "learning_rate": 4.807523821184089e-05,
5748
+ "loss": 1.2,
5749
+ "step": 820
5750
+ },
5751
+ {
5752
+ "epoch": 0.14043790626069108,
5753
+ "grad_norm": 0.5825478434562683,
5754
+ "learning_rate": 4.797658508131476e-05,
5755
+ "loss": 1.2568,
5756
+ "step": 821
5757
+ },
5758
+ {
5759
+ "epoch": 0.14060896339377352,
5760
+ "grad_norm": 0.5934092998504639,
5761
+ "learning_rate": 4.78779398401926e-05,
5762
+ "loss": 1.3924,
5763
+ "step": 822
5764
+ },
5765
+ {
5766
+ "epoch": 0.14078002052685598,
5767
+ "grad_norm": 0.5498810410499573,
5768
+ "learning_rate": 4.777930287309747e-05,
5769
+ "loss": 1.0919,
5770
+ "step": 823
5771
+ },
5772
+ {
5773
+ "epoch": 0.14095107765993842,
5774
+ "grad_norm": 0.6112752556800842,
5775
+ "learning_rate": 4.768067456462028e-05,
5776
+ "loss": 1.1125,
5777
+ "step": 824
5778
+ },
5779
+ {
5780
+ "epoch": 0.14112213479302088,
5781
+ "grad_norm": 0.6238945722579956,
5782
+ "learning_rate": 4.758205529931808e-05,
5783
+ "loss": 1.0413,
5784
+ "step": 825
5785
+ },
5786
+ {
5787
+ "epoch": 0.14129319192610332,
5788
+ "grad_norm": 0.6571114659309387,
5789
+ "learning_rate": 4.7483445461712736e-05,
5790
+ "loss": 1.1468,
5791
+ "step": 826
5792
+ },
5793
+ {
5794
+ "epoch": 0.14146424905918578,
5795
+ "grad_norm": 0.7267754077911377,
5796
+ "learning_rate": 4.7384845436289314e-05,
5797
+ "loss": 1.1779,
5798
+ "step": 827
5799
+ },
5800
+ {
5801
+ "epoch": 0.14163530619226822,
5802
+ "grad_norm": 0.6937477588653564,
5803
+ "learning_rate": 4.728625560749466e-05,
5804
+ "loss": 1.1945,
5805
+ "step": 828
5806
+ },
5807
+ {
5808
+ "epoch": 0.14180636332535065,
5809
+ "grad_norm": 0.722042977809906,
5810
+ "learning_rate": 4.718767635973578e-05,
5811
+ "loss": 1.0714,
5812
+ "step": 829
5813
+ },
5814
+ {
5815
+ "epoch": 0.14197742045843312,
5816
+ "grad_norm": 0.7702199220657349,
5817
+ "learning_rate": 4.708910807737854e-05,
5818
+ "loss": 1.2561,
5819
+ "step": 830
5820
+ },
5821
+ {
5822
+ "epoch": 0.14214847759151555,
5823
+ "grad_norm": 0.8672346472740173,
5824
+ "learning_rate": 4.699055114474594e-05,
5825
+ "loss": 1.154,
5826
+ "step": 831
5827
+ },
5828
+ {
5829
+ "epoch": 0.14231953472459802,
5830
+ "grad_norm": 0.9063764214515686,
5831
+ "learning_rate": 4.689200594611681e-05,
5832
+ "loss": 1.2949,
5833
+ "step": 832
5834
+ },
5835
+ {
5836
+ "epoch": 0.14249059185768045,
5837
+ "grad_norm": 0.8779078125953674,
5838
+ "learning_rate": 4.67934728657242e-05,
5839
+ "loss": 1.2612,
5840
+ "step": 833
5841
+ },
5842
+ {
5843
+ "epoch": 0.14266164899076292,
5844
+ "grad_norm": 0.910697877407074,
5845
+ "learning_rate": 4.669495228775388e-05,
5846
+ "loss": 1.1209,
5847
+ "step": 834
5848
+ },
5849
+ {
5850
+ "epoch": 0.14283270612384535,
5851
+ "grad_norm": 0.8607608079910278,
5852
+ "learning_rate": 4.659644459634293e-05,
5853
+ "loss": 0.8503,
5854
+ "step": 835
5855
+ },
5856
+ {
5857
+ "epoch": 0.14300376325692782,
5858
+ "grad_norm": 0.9338657259941101,
5859
+ "learning_rate": 4.6497950175578116e-05,
5860
+ "loss": 1.1526,
5861
+ "step": 836
5862
+ },
5863
+ {
5864
+ "epoch": 0.14317482039001025,
5865
+ "grad_norm": 1.069631814956665,
5866
+ "learning_rate": 4.639946940949453e-05,
5867
+ "loss": 1.272,
5868
+ "step": 837
5869
+ },
5870
+ {
5871
+ "epoch": 0.14334587752309272,
5872
+ "grad_norm": 1.040444016456604,
5873
+ "learning_rate": 4.6301002682073973e-05,
5874
+ "loss": 0.973,
5875
+ "step": 838
5876
+ },
5877
+ {
5878
+ "epoch": 0.14351693465617515,
5879
+ "grad_norm": 1.1585819721221924,
5880
+ "learning_rate": 4.620255037724356e-05,
5881
+ "loss": 1.1979,
5882
+ "step": 839
5883
+ },
5884
+ {
5885
+ "epoch": 0.14368799178925762,
5886
+ "grad_norm": 1.2856534719467163,
5887
+ "learning_rate": 4.610411287887409e-05,
5888
+ "loss": 1.3253,
5889
+ "step": 840
5890
+ },
5891
+ {
5892
+ "epoch": 0.14385904892234005,
5893
+ "grad_norm": 1.4903264045715332,
5894
+ "learning_rate": 4.600569057077874e-05,
5895
+ "loss": 1.0979,
5896
+ "step": 841
5897
+ },
5898
+ {
5899
+ "epoch": 0.14403010605542252,
5900
+ "grad_norm": 1.4957740306854248,
5901
+ "learning_rate": 4.590728383671134e-05,
5902
+ "loss": 1.2658,
5903
+ "step": 842
5904
+ },
5905
+ {
5906
+ "epoch": 0.14420116318850495,
5907
+ "grad_norm": 1.8818494081497192,
5908
+ "learning_rate": 4.58088930603651e-05,
5909
+ "loss": 1.7231,
5910
+ "step": 843
5911
+ },
5912
+ {
5913
+ "epoch": 0.14437222032158742,
5914
+ "grad_norm": 1.8076220750808716,
5915
+ "learning_rate": 4.5710518625370935e-05,
5916
+ "loss": 1.1955,
5917
+ "step": 844
5918
+ },
5919
+ {
5920
+ "epoch": 0.14454327745466986,
5921
+ "grad_norm": 1.798600196838379,
5922
+ "learning_rate": 4.5612160915296106e-05,
5923
+ "loss": 1.3661,
5924
+ "step": 845
5925
+ },
5926
+ {
5927
+ "epoch": 0.14471433458775232,
5928
+ "grad_norm": 2.155062198638916,
5929
+ "learning_rate": 4.55138203136426e-05,
5930
+ "loss": 1.508,
5931
+ "step": 846
5932
+ },
5933
+ {
5934
+ "epoch": 0.14488539172083476,
5935
+ "grad_norm": 2.1003410816192627,
5936
+ "learning_rate": 4.5415497203845754e-05,
5937
+ "loss": 1.526,
5938
+ "step": 847
5939
+ },
5940
+ {
5941
+ "epoch": 0.14505644885391722,
5942
+ "grad_norm": 2.4393603801727295,
5943
+ "learning_rate": 4.531719196927265e-05,
5944
+ "loss": 1.6606,
5945
+ "step": 848
5946
+ },
5947
+ {
5948
+ "epoch": 0.14522750598699966,
5949
+ "grad_norm": 2.322680950164795,
5950
+ "learning_rate": 4.5218904993220737e-05,
5951
+ "loss": 1.2985,
5952
+ "step": 849
5953
+ },
5954
+ {
5955
+ "epoch": 0.14539856312008212,
5956
+ "grad_norm": 4.077210426330566,
5957
+ "learning_rate": 4.51206366589162e-05,
5958
+ "loss": 1.7742,
5959
+ "step": 850
5960
+ },
5961
+ {
5962
+ "epoch": 0.14556962025316456,
5963
+ "grad_norm": 0.48009493947029114,
5964
+ "learning_rate": 4.502238734951262e-05,
5965
+ "loss": 1.1631,
5966
+ "step": 851
5967
+ },
5968
+ {
5969
+ "epoch": 0.14574067738624702,
5970
+ "grad_norm": 0.5012683868408203,
5971
+ "learning_rate": 4.492415744808931e-05,
5972
+ "loss": 1.0785,
5973
+ "step": 852
5974
+ },
5975
+ {
5976
+ "epoch": 0.14591173451932946,
5977
+ "grad_norm": 0.4767197072505951,
5978
+ "learning_rate": 4.4825947337649995e-05,
5979
+ "loss": 1.1628,
5980
+ "step": 853
5981
+ },
5982
+ {
5983
+ "epoch": 0.1460827916524119,
5984
+ "grad_norm": 0.5286329984664917,
5985
+ "learning_rate": 4.4727757401121164e-05,
5986
+ "loss": 1.2211,
5987
+ "step": 854
5988
+ },
5989
+ {
5990
+ "epoch": 0.14625384878549436,
5991
+ "grad_norm": 0.5109902024269104,
5992
+ "learning_rate": 4.462958802135069e-05,
5993
+ "loss": 1.2054,
5994
+ "step": 855
5995
+ },
5996
+ {
5997
+ "epoch": 0.1464249059185768,
5998
+ "grad_norm": 0.5533120632171631,
5999
+ "learning_rate": 4.4531439581106295e-05,
6000
+ "loss": 1.3572,
6001
+ "step": 856
6002
+ },
6003
+ {
6004
+ "epoch": 0.14659596305165926,
6005
+ "grad_norm": 0.5145012736320496,
6006
+ "learning_rate": 4.4433312463074e-05,
6007
+ "loss": 1.2788,
6008
+ "step": 857
6009
+ },
6010
+ {
6011
+ "epoch": 0.1467670201847417,
6012
+ "grad_norm": 0.5198351740837097,
6013
+ "learning_rate": 4.4335207049856794e-05,
6014
+ "loss": 1.2127,
6015
+ "step": 858
6016
+ },
6017
+ {
6018
+ "epoch": 0.14693807731782416,
6019
+ "grad_norm": 0.5251686573028564,
6020
+ "learning_rate": 4.423712372397293e-05,
6021
+ "loss": 1.2763,
6022
+ "step": 859
6023
+ },
6024
+ {
6025
+ "epoch": 0.1471091344509066,
6026
+ "grad_norm": 0.5199826955795288,
6027
+ "learning_rate": 4.4139062867854604e-05,
6028
+ "loss": 1.3722,
6029
+ "step": 860
6030
+ },
6031
+ {
6032
+ "epoch": 0.14728019158398906,
6033
+ "grad_norm": 0.5486602783203125,
6034
+ "learning_rate": 4.404102486384637e-05,
6035
+ "loss": 1.3776,
6036
+ "step": 861
6037
+ },
6038
+ {
6039
+ "epoch": 0.1474512487170715,
6040
+ "grad_norm": 0.5736585259437561,
6041
+ "learning_rate": 4.3943010094203735e-05,
6042
+ "loss": 1.4151,
6043
+ "step": 862
6044
+ },
6045
+ {
6046
+ "epoch": 0.14762230585015396,
6047
+ "grad_norm": 0.5580637454986572,
6048
+ "learning_rate": 4.384501894109152e-05,
6049
+ "loss": 1.3646,
6050
+ "step": 863
6051
+ },
6052
+ {
6053
+ "epoch": 0.1477933629832364,
6054
+ "grad_norm": 0.5629317760467529,
6055
+ "learning_rate": 4.374705178658257e-05,
6056
+ "loss": 1.4959,
6057
+ "step": 864
6058
+ },
6059
+ {
6060
+ "epoch": 0.14796442011631886,
6061
+ "grad_norm": 0.5788300037384033,
6062
+ "learning_rate": 4.364910901265606e-05,
6063
+ "loss": 1.504,
6064
+ "step": 865
6065
+ },
6066
+ {
6067
+ "epoch": 0.1481354772494013,
6068
+ "grad_norm": 0.555449366569519,
6069
+ "learning_rate": 4.35511910011962e-05,
6070
+ "loss": 1.5292,
6071
+ "step": 866
6072
+ },
6073
+ {
6074
+ "epoch": 0.14830653438248376,
6075
+ "grad_norm": 0.5640177130699158,
6076
+ "learning_rate": 4.3453298133990543e-05,
6077
+ "loss": 1.2963,
6078
+ "step": 867
6079
+ },
6080
+ {
6081
+ "epoch": 0.1484775915155662,
6082
+ "grad_norm": 0.612964928150177,
6083
+ "learning_rate": 4.33554307927287e-05,
6084
+ "loss": 1.2783,
6085
+ "step": 868
6086
+ },
6087
+ {
6088
+ "epoch": 0.14864864864864866,
6089
+ "grad_norm": 0.5650842785835266,
6090
+ "learning_rate": 4.325758935900069e-05,
6091
+ "loss": 1.3257,
6092
+ "step": 869
6093
+ },
6094
+ {
6095
+ "epoch": 0.1488197057817311,
6096
+ "grad_norm": 0.58852618932724,
6097
+ "learning_rate": 4.315977421429559e-05,
6098
+ "loss": 1.3433,
6099
+ "step": 870
6100
+ },
6101
+ {
6102
+ "epoch": 0.14899076291481356,
6103
+ "grad_norm": 0.5934543609619141,
6104
+ "learning_rate": 4.3061985739999866e-05,
6105
+ "loss": 1.1679,
6106
+ "step": 871
6107
+ },
6108
+ {
6109
+ "epoch": 0.149161820047896,
6110
+ "grad_norm": 0.6740942001342773,
6111
+ "learning_rate": 4.2964224317396097e-05,
6112
+ "loss": 1.1713,
6113
+ "step": 872
6114
+ },
6115
+ {
6116
+ "epoch": 0.14933287718097846,
6117
+ "grad_norm": 0.638868510723114,
6118
+ "learning_rate": 4.286649032766131e-05,
6119
+ "loss": 1.2192,
6120
+ "step": 873
6121
+ },
6122
+ {
6123
+ "epoch": 0.1495039343140609,
6124
+ "grad_norm": 0.6754473447799683,
6125
+ "learning_rate": 4.276878415186564e-05,
6126
+ "loss": 1.1301,
6127
+ "step": 874
6128
+ },
6129
+ {
6130
+ "epoch": 0.14967499144714336,
6131
+ "grad_norm": 0.6947224140167236,
6132
+ "learning_rate": 4.267110617097073e-05,
6133
+ "loss": 1.1836,
6134
+ "step": 875
6135
+ },
6136
+ {
6137
+ "epoch": 0.1498460485802258,
6138
+ "grad_norm": 0.6807590126991272,
6139
+ "learning_rate": 4.2573456765828266e-05,
6140
+ "loss": 1.0204,
6141
+ "step": 876
6142
+ },
6143
+ {
6144
+ "epoch": 0.15001710571330826,
6145
+ "grad_norm": 0.7608630657196045,
6146
+ "learning_rate": 4.24758363171786e-05,
6147
+ "loss": 0.9777,
6148
+ "step": 877
6149
+ },
6150
+ {
6151
+ "epoch": 0.1501881628463907,
6152
+ "grad_norm": 0.7378666996955872,
6153
+ "learning_rate": 4.237824520564907e-05,
6154
+ "loss": 1.2896,
6155
+ "step": 878
6156
+ },
6157
+ {
6158
+ "epoch": 0.15035921997947316,
6159
+ "grad_norm": 0.8934102058410645,
6160
+ "learning_rate": 4.228068381175273e-05,
6161
+ "loss": 1.172,
6162
+ "step": 879
6163
+ },
6164
+ {
6165
+ "epoch": 0.1505302771125556,
6166
+ "grad_norm": 0.8139393329620361,
6167
+ "learning_rate": 4.218315251588669e-05,
6168
+ "loss": 1.1671,
6169
+ "step": 880
6170
+ },
6171
+ {
6172
+ "epoch": 0.15070133424563803,
6173
+ "grad_norm": 0.877079427242279,
6174
+ "learning_rate": 4.208565169833077e-05,
6175
+ "loss": 1.2129,
6176
+ "step": 881
6177
+ },
6178
+ {
6179
+ "epoch": 0.1508723913787205,
6180
+ "grad_norm": 0.8891003727912903,
6181
+ "learning_rate": 4.198818173924588e-05,
6182
+ "loss": 1.1182,
6183
+ "step": 882
6184
+ },
6185
+ {
6186
+ "epoch": 0.15104344851180293,
6187
+ "grad_norm": 1.0355708599090576,
6188
+ "learning_rate": 4.1890743018672685e-05,
6189
+ "loss": 1.1476,
6190
+ "step": 883
6191
+ },
6192
+ {
6193
+ "epoch": 0.1512145056448854,
6194
+ "grad_norm": 1.0708569288253784,
6195
+ "learning_rate": 4.179333591652997e-05,
6196
+ "loss": 1.2621,
6197
+ "step": 884
6198
+ },
6199
+ {
6200
+ "epoch": 0.15138556277796783,
6201
+ "grad_norm": 1.0150701999664307,
6202
+ "learning_rate": 4.169596081261332e-05,
6203
+ "loss": 1.2615,
6204
+ "step": 885
6205
+ },
6206
+ {
6207
+ "epoch": 0.1515566199110503,
6208
+ "grad_norm": 0.9939287900924683,
6209
+ "learning_rate": 4.15986180865935e-05,
6210
+ "loss": 1.22,
6211
+ "step": 886
6212
+ },
6213
+ {
6214
+ "epoch": 0.15172767704413273,
6215
+ "grad_norm": 1.0266711711883545,
6216
+ "learning_rate": 4.150130811801507e-05,
6217
+ "loss": 1.4713,
6218
+ "step": 887
6219
+ },
6220
+ {
6221
+ "epoch": 0.1518987341772152,
6222
+ "grad_norm": 1.098502516746521,
6223
+ "learning_rate": 4.140403128629482e-05,
6224
+ "loss": 1.213,
6225
+ "step": 888
6226
+ },
6227
+ {
6228
+ "epoch": 0.15206979131029763,
6229
+ "grad_norm": 1.242407202720642,
6230
+ "learning_rate": 4.13067879707204e-05,
6231
+ "loss": 1.0548,
6232
+ "step": 889
6233
+ },
6234
+ {
6235
+ "epoch": 0.1522408484433801,
6236
+ "grad_norm": 1.4239497184753418,
6237
+ "learning_rate": 4.1209578550448703e-05,
6238
+ "loss": 1.3371,
6239
+ "step": 890
6240
+ },
6241
+ {
6242
+ "epoch": 0.15241190557646253,
6243
+ "grad_norm": 1.5052733421325684,
6244
+ "learning_rate": 4.111240340450453e-05,
6245
+ "loss": 1.5574,
6246
+ "step": 891
6247
+ },
6248
+ {
6249
+ "epoch": 0.152582962709545,
6250
+ "grad_norm": 1.519946575164795,
6251
+ "learning_rate": 4.1015262911779003e-05,
6252
+ "loss": 1.2863,
6253
+ "step": 892
6254
+ },
6255
+ {
6256
+ "epoch": 0.15275401984262743,
6257
+ "grad_norm": 1.4786194562911987,
6258
+ "learning_rate": 4.0918157451028185e-05,
6259
+ "loss": 1.3222,
6260
+ "step": 893
6261
+ },
6262
+ {
6263
+ "epoch": 0.1529250769757099,
6264
+ "grad_norm": 1.6151409149169922,
6265
+ "learning_rate": 4.0821087400871447e-05,
6266
+ "loss": 1.2022,
6267
+ "step": 894
6268
+ },
6269
+ {
6270
+ "epoch": 0.15309613410879233,
6271
+ "grad_norm": 1.8268282413482666,
6272
+ "learning_rate": 4.072405313979021e-05,
6273
+ "loss": 1.4788,
6274
+ "step": 895
6275
+ },
6276
+ {
6277
+ "epoch": 0.1532671912418748,
6278
+ "grad_norm": 1.672358512878418,
6279
+ "learning_rate": 4.062705504612624e-05,
6280
+ "loss": 1.3023,
6281
+ "step": 896
6282
+ },
6283
+ {
6284
+ "epoch": 0.15343824837495723,
6285
+ "grad_norm": 2.530867338180542,
6286
+ "learning_rate": 4.0530093498080365e-05,
6287
+ "loss": 1.4235,
6288
+ "step": 897
6289
+ },
6290
+ {
6291
+ "epoch": 0.1536093055080397,
6292
+ "grad_norm": 2.0230932235717773,
6293
+ "learning_rate": 4.043316887371091e-05,
6294
+ "loss": 1.3824,
6295
+ "step": 898
6296
+ },
6297
+ {
6298
+ "epoch": 0.15378036264112213,
6299
+ "grad_norm": 1.991603136062622,
6300
+ "learning_rate": 4.033628155093217e-05,
6301
+ "loss": 1.0061,
6302
+ "step": 899
6303
+ },
6304
+ {
6305
+ "epoch": 0.1539514197742046,
6306
+ "grad_norm": 2.928663969039917,
6307
+ "learning_rate": 4.023943190751309e-05,
6308
+ "loss": 1.2392,
6309
+ "step": 900
6310
+ },
6311
+ {
6312
+ "epoch": 0.15412247690728703,
6313
+ "grad_norm": 0.6104402542114258,
6314
+ "learning_rate": 4.014262032107561e-05,
6315
+ "loss": 1.137,
6316
+ "step": 901
6317
+ },
6318
+ {
6319
+ "epoch": 0.1542935340403695,
6320
+ "grad_norm": 0.6759240627288818,
6321
+ "learning_rate": 4.004584716909337e-05,
6322
+ "loss": 1.2021,
6323
+ "step": 902
6324
+ },
6325
+ {
6326
+ "epoch": 0.15446459117345193,
6327
+ "grad_norm": 0.6067174077033997,
6328
+ "learning_rate": 3.994911282889008e-05,
6329
+ "loss": 1.2497,
6330
+ "step": 903
6331
+ },
6332
+ {
6333
+ "epoch": 0.1546356483065344,
6334
+ "grad_norm": 0.5458953380584717,
6335
+ "learning_rate": 3.985241767763818e-05,
6336
+ "loss": 1.1707,
6337
+ "step": 904
6338
+ },
6339
+ {
6340
+ "epoch": 0.15480670543961683,
6341
+ "grad_norm": 0.5344793796539307,
6342
+ "learning_rate": 3.975576209235726e-05,
6343
+ "loss": 1.2682,
6344
+ "step": 905
6345
+ },
6346
+ {
6347
+ "epoch": 0.15497776257269927,
6348
+ "grad_norm": 0.5440839529037476,
6349
+ "learning_rate": 3.965914644991268e-05,
6350
+ "loss": 1.2877,
6351
+ "step": 906
6352
+ },
6353
+ {
6354
+ "epoch": 0.15514881970578173,
6355
+ "grad_norm": 0.5137394070625305,
6356
+ "learning_rate": 3.9562571127014014e-05,
6357
+ "loss": 1.1467,
6358
+ "step": 907
6359
+ },
6360
+ {
6361
+ "epoch": 0.15531987683886417,
6362
+ "grad_norm": 0.5427122116088867,
6363
+ "learning_rate": 3.94660365002137e-05,
6364
+ "loss": 1.3611,
6365
+ "step": 908
6366
+ },
6367
+ {
6368
+ "epoch": 0.15549093397194663,
6369
+ "grad_norm": 0.5587217807769775,
6370
+ "learning_rate": 3.936954294590541e-05,
6371
+ "loss": 1.3282,
6372
+ "step": 909
6373
+ },
6374
+ {
6375
+ "epoch": 0.15566199110502907,
6376
+ "grad_norm": 0.623623788356781,
6377
+ "learning_rate": 3.9273090840322747e-05,
6378
+ "loss": 1.3397,
6379
+ "step": 910
6380
+ },
6381
+ {
6382
+ "epoch": 0.15583304823811153,
6383
+ "grad_norm": 0.5721731781959534,
6384
+ "learning_rate": 3.917668055953766e-05,
6385
+ "loss": 1.3586,
6386
+ "step": 911
6387
+ },
6388
+ {
6389
+ "epoch": 0.15600410537119397,
6390
+ "grad_norm": 0.5948416590690613,
6391
+ "learning_rate": 3.9080312479459055e-05,
6392
+ "loss": 1.3822,
6393
+ "step": 912
6394
+ },
6395
+ {
6396
+ "epoch": 0.15617516250427643,
6397
+ "grad_norm": 0.5462729334831238,
6398
+ "learning_rate": 3.898398697583125e-05,
6399
+ "loss": 1.3299,
6400
+ "step": 913
6401
+ },
6402
+ {
6403
+ "epoch": 0.15634621963735887,
6404
+ "grad_norm": 0.6059056520462036,
6405
+ "learning_rate": 3.8887704424232624e-05,
6406
+ "loss": 1.4446,
6407
+ "step": 914
6408
+ },
6409
+ {
6410
+ "epoch": 0.15651727677044133,
6411
+ "grad_norm": 0.5938013195991516,
6412
+ "learning_rate": 3.879146520007399e-05,
6413
+ "loss": 1.3418,
6414
+ "step": 915
6415
+ },
6416
+ {
6417
+ "epoch": 0.15668833390352377,
6418
+ "grad_norm": 0.5638803839683533,
6419
+ "learning_rate": 3.86952696785973e-05,
6420
+ "loss": 1.2861,
6421
+ "step": 916
6422
+ },
6423
+ {
6424
+ "epoch": 0.15685939103660623,
6425
+ "grad_norm": 0.6107637286186218,
6426
+ "learning_rate": 3.859911823487407e-05,
6427
+ "loss": 1.3343,
6428
+ "step": 917
6429
+ },
6430
+ {
6431
+ "epoch": 0.15703044816968867,
6432
+ "grad_norm": 0.5767939686775208,
6433
+ "learning_rate": 3.8503011243804e-05,
6434
+ "loss": 1.3328,
6435
+ "step": 918
6436
+ },
6437
+ {
6438
+ "epoch": 0.15720150530277113,
6439
+ "grad_norm": 0.6362277269363403,
6440
+ "learning_rate": 3.840694908011341e-05,
6441
+ "loss": 1.4285,
6442
+ "step": 919
6443
+ },
6444
+ {
6445
+ "epoch": 0.15737256243585357,
6446
+ "grad_norm": 0.6359758377075195,
6447
+ "learning_rate": 3.831093211835384e-05,
6448
+ "loss": 1.2114,
6449
+ "step": 920
6450
+ },
6451
+ {
6452
+ "epoch": 0.15754361956893603,
6453
+ "grad_norm": 0.6466010212898254,
6454
+ "learning_rate": 3.821496073290063e-05,
6455
+ "loss": 1.2787,
6456
+ "step": 921
6457
+ },
6458
+ {
6459
+ "epoch": 0.15771467670201847,
6460
+ "grad_norm": 0.7036415338516235,
6461
+ "learning_rate": 3.8119035297951376e-05,
6462
+ "loss": 1.2148,
6463
+ "step": 922
6464
+ },
6465
+ {
6466
+ "epoch": 0.15788573383510093,
6467
+ "grad_norm": 0.6389268636703491,
6468
+ "learning_rate": 3.8023156187524555e-05,
6469
+ "loss": 1.0703,
6470
+ "step": 923
6471
+ },
6472
+ {
6473
+ "epoch": 0.15805679096818337,
6474
+ "grad_norm": 0.7053115963935852,
6475
+ "learning_rate": 3.7927323775457946e-05,
6476
+ "loss": 1.302,
6477
+ "step": 924
6478
+ },
6479
+ {
6480
+ "epoch": 0.15822784810126583,
6481
+ "grad_norm": 0.7031298279762268,
6482
+ "learning_rate": 3.783153843540734e-05,
6483
+ "loss": 1.0863,
6484
+ "step": 925
6485
+ },
6486
+ {
6487
+ "epoch": 0.15839890523434827,
6488
+ "grad_norm": 0.8524893522262573,
6489
+ "learning_rate": 3.77358005408449e-05,
6490
+ "loss": 1.255,
6491
+ "step": 926
6492
+ },
6493
+ {
6494
+ "epoch": 0.15856996236743073,
6495
+ "grad_norm": 0.7578400373458862,
6496
+ "learning_rate": 3.764011046505788e-05,
6497
+ "loss": 1.114,
6498
+ "step": 927
6499
+ },
6500
+ {
6501
+ "epoch": 0.15874101950051317,
6502
+ "grad_norm": 0.7838466763496399,
6503
+ "learning_rate": 3.754446858114703e-05,
6504
+ "loss": 1.1101,
6505
+ "step": 928
6506
+ },
6507
+ {
6508
+ "epoch": 0.15891207663359563,
6509
+ "grad_norm": 0.8556280732154846,
6510
+ "learning_rate": 3.744887526202523e-05,
6511
+ "loss": 1.1158,
6512
+ "step": 929
6513
+ },
6514
+ {
6515
+ "epoch": 0.15908313376667807,
6516
+ "grad_norm": 0.8539929986000061,
6517
+ "learning_rate": 3.735333088041596e-05,
6518
+ "loss": 1.1193,
6519
+ "step": 930
6520
+ },
6521
+ {
6522
+ "epoch": 0.15925419089976053,
6523
+ "grad_norm": 0.8921190500259399,
6524
+ "learning_rate": 3.7257835808851965e-05,
6525
+ "loss": 0.8338,
6526
+ "step": 931
6527
+ },
6528
+ {
6529
+ "epoch": 0.15942524803284297,
6530
+ "grad_norm": 0.9892418384552002,
6531
+ "learning_rate": 3.716239041967363e-05,
6532
+ "loss": 1.2079,
6533
+ "step": 932
6534
+ },
6535
+ {
6536
+ "epoch": 0.1595963051659254,
6537
+ "grad_norm": 0.9015114903450012,
6538
+ "learning_rate": 3.706699508502771e-05,
6539
+ "loss": 1.1499,
6540
+ "step": 933
6541
+ },
6542
+ {
6543
+ "epoch": 0.15976736229900787,
6544
+ "grad_norm": 1.1171592473983765,
6545
+ "learning_rate": 3.6971650176865745e-05,
6546
+ "loss": 1.4387,
6547
+ "step": 934
6548
+ },
6549
+ {
6550
+ "epoch": 0.1599384194320903,
6551
+ "grad_norm": 1.0954560041427612,
6552
+ "learning_rate": 3.6876356066942706e-05,
6553
+ "loss": 1.2449,
6554
+ "step": 935
6555
+ },
6556
+ {
6557
+ "epoch": 0.16010947656517277,
6558
+ "grad_norm": 1.084873080253601,
6559
+ "learning_rate": 3.678111312681543e-05,
6560
+ "loss": 1.2496,
6561
+ "step": 936
6562
+ },
6563
+ {
6564
+ "epoch": 0.1602805336982552,
6565
+ "grad_norm": 1.2658636569976807,
6566
+ "learning_rate": 3.668592172784132e-05,
6567
+ "loss": 1.3727,
6568
+ "step": 937
6569
+ },
6570
+ {
6571
+ "epoch": 0.16045159083133767,
6572
+ "grad_norm": 1.3302921056747437,
6573
+ "learning_rate": 3.659078224117673e-05,
6574
+ "loss": 1.2088,
6575
+ "step": 938
6576
+ },
6577
+ {
6578
+ "epoch": 0.1606226479644201,
6579
+ "grad_norm": 1.3747141361236572,
6580
+ "learning_rate": 3.649569503777569e-05,
6581
+ "loss": 1.1221,
6582
+ "step": 939
6583
+ },
6584
+ {
6585
+ "epoch": 0.16079370509750257,
6586
+ "grad_norm": 1.4150470495224,
6587
+ "learning_rate": 3.6400660488388324e-05,
6588
+ "loss": 1.2708,
6589
+ "step": 940
6590
+ },
6591
+ {
6592
+ "epoch": 0.160964762230585,
6593
+ "grad_norm": 1.542067050933838,
6594
+ "learning_rate": 3.6305678963559446e-05,
6595
+ "loss": 1.5618,
6596
+ "step": 941
6597
+ },
6598
+ {
6599
+ "epoch": 0.16113581936366747,
6600
+ "grad_norm": 2.0603606700897217,
6601
+ "learning_rate": 3.621075083362719e-05,
6602
+ "loss": 1.1855,
6603
+ "step": 942
6604
+ },
6605
+ {
6606
+ "epoch": 0.1613068764967499,
6607
+ "grad_norm": 1.7317147254943848,
6608
+ "learning_rate": 3.6115876468721414e-05,
6609
+ "loss": 1.571,
6610
+ "step": 943
6611
+ },
6612
+ {
6613
+ "epoch": 0.16147793362983237,
6614
+ "grad_norm": 1.9348877668380737,
6615
+ "learning_rate": 3.602105623876242e-05,
6616
+ "loss": 1.5018,
6617
+ "step": 944
6618
+ },
6619
+ {
6620
+ "epoch": 0.1616489907629148,
6621
+ "grad_norm": 1.688513159751892,
6622
+ "learning_rate": 3.592629051345936e-05,
6623
+ "loss": 0.9605,
6624
+ "step": 945
6625
+ },
6626
+ {
6627
+ "epoch": 0.16182004789599727,
6628
+ "grad_norm": 2.312366247177124,
6629
+ "learning_rate": 3.5831579662308967e-05,
6630
+ "loss": 1.244,
6631
+ "step": 946
6632
+ },
6633
+ {
6634
+ "epoch": 0.1619911050290797,
6635
+ "grad_norm": 2.249746322631836,
6636
+ "learning_rate": 3.57369240545939e-05,
6637
+ "loss": 1.2131,
6638
+ "step": 947
6639
+ },
6640
+ {
6641
+ "epoch": 0.16216216216216217,
6642
+ "grad_norm": 2.077162265777588,
6643
+ "learning_rate": 3.564232405938153e-05,
6644
+ "loss": 1.2328,
6645
+ "step": 948
6646
+ },
6647
+ {
6648
+ "epoch": 0.1623332192952446,
6649
+ "grad_norm": 2.7018041610717773,
6650
+ "learning_rate": 3.5547780045522306e-05,
6651
+ "loss": 1.7778,
6652
+ "step": 949
6653
+ },
6654
+ {
6655
+ "epoch": 0.16250427642832707,
6656
+ "grad_norm": 3.0157792568206787,
6657
+ "learning_rate": 3.5453292381648475e-05,
6658
+ "loss": 1.3563,
6659
+ "step": 950
6660
+ },
6661
+ {
6662
+ "epoch": 0.1626753335614095,
6663
+ "grad_norm": 0.47604596614837646,
6664
+ "learning_rate": 3.5358861436172485e-05,
6665
+ "loss": 1.1677,
6666
+ "step": 951
6667
+ },
6668
+ {
6669
+ "epoch": 0.16284639069449197,
6670
+ "grad_norm": 0.5650733113288879,
6671
+ "learning_rate": 3.526448757728573e-05,
6672
+ "loss": 1.1382,
6673
+ "step": 952
6674
+ },
6675
+ {
6676
+ "epoch": 0.1630174478275744,
6677
+ "grad_norm": 0.49029967188835144,
6678
+ "learning_rate": 3.517017117295697e-05,
6679
+ "loss": 1.1003,
6680
+ "step": 953
6681
+ },
6682
+ {
6683
+ "epoch": 0.16318850496065687,
6684
+ "grad_norm": 0.502017617225647,
6685
+ "learning_rate": 3.507591259093096e-05,
6686
+ "loss": 1.1292,
6687
+ "step": 954
6688
+ },
6689
+ {
6690
+ "epoch": 0.1633595620937393,
6691
+ "grad_norm": 0.5313692092895508,
6692
+ "learning_rate": 3.498171219872696e-05,
6693
+ "loss": 1.226,
6694
+ "step": 955
6695
+ },
6696
+ {
6697
+ "epoch": 0.16353061922682177,
6698
+ "grad_norm": 0.5255832672119141,
6699
+ "learning_rate": 3.488757036363744e-05,
6700
+ "loss": 1.1977,
6701
+ "step": 956
6702
+ },
6703
+ {
6704
+ "epoch": 0.1637016763599042,
6705
+ "grad_norm": 0.5410541296005249,
6706
+ "learning_rate": 3.4793487452726435e-05,
6707
+ "loss": 1.3308,
6708
+ "step": 957
6709
+ },
6710
+ {
6711
+ "epoch": 0.16387273349298664,
6712
+ "grad_norm": 0.5462161302566528,
6713
+ "learning_rate": 3.469946383282833e-05,
6714
+ "loss": 1.3385,
6715
+ "step": 958
6716
+ },
6717
+ {
6718
+ "epoch": 0.1640437906260691,
6719
+ "grad_norm": 0.5103150606155396,
6720
+ "learning_rate": 3.4605499870546273e-05,
6721
+ "loss": 1.1753,
6722
+ "step": 959
6723
+ },
6724
+ {
6725
+ "epoch": 0.16421484775915154,
6726
+ "grad_norm": 0.5624702572822571,
6727
+ "learning_rate": 3.451159593225085e-05,
6728
+ "loss": 1.3285,
6729
+ "step": 960
6730
+ },
6731
+ {
6732
+ "epoch": 0.164385904892234,
6733
+ "grad_norm": 0.5326713919639587,
6734
+ "learning_rate": 3.441775238407857e-05,
6735
+ "loss": 1.2662,
6736
+ "step": 961
6737
+ },
6738
+ {
6739
+ "epoch": 0.16455696202531644,
6740
+ "grad_norm": 0.5674173831939697,
6741
+ "learning_rate": 3.432396959193046e-05,
6742
+ "loss": 1.4137,
6743
+ "step": 962
6744
+ },
6745
+ {
6746
+ "epoch": 0.1647280191583989,
6747
+ "grad_norm": 0.5856799483299255,
6748
+ "learning_rate": 3.4230247921470716e-05,
6749
+ "loss": 1.3947,
6750
+ "step": 963
6751
+ },
6752
+ {
6753
+ "epoch": 0.16489907629148134,
6754
+ "grad_norm": 0.6064618229866028,
6755
+ "learning_rate": 3.4136587738125183e-05,
6756
+ "loss": 1.3143,
6757
+ "step": 964
6758
+ },
6759
+ {
6760
+ "epoch": 0.1650701334245638,
6761
+ "grad_norm": 0.6087377071380615,
6762
+ "learning_rate": 3.4042989407079985e-05,
6763
+ "loss": 1.4938,
6764
+ "step": 965
6765
+ },
6766
+ {
6767
+ "epoch": 0.16524119055764624,
6768
+ "grad_norm": 0.5864953994750977,
6769
+ "learning_rate": 3.394945329328002e-05,
6770
+ "loss": 1.2633,
6771
+ "step": 966
6772
+ },
6773
+ {
6774
+ "epoch": 0.1654122476907287,
6775
+ "grad_norm": 0.5981158018112183,
6776
+ "learning_rate": 3.38559797614277e-05,
6777
+ "loss": 1.3156,
6778
+ "step": 967
6779
+ },
6780
+ {
6781
+ "epoch": 0.16558330482381114,
6782
+ "grad_norm": 0.6343181133270264,
6783
+ "learning_rate": 3.376256917598132e-05,
6784
+ "loss": 1.3255,
6785
+ "step": 968
6786
+ },
6787
+ {
6788
+ "epoch": 0.1657543619568936,
6789
+ "grad_norm": 0.5806681513786316,
6790
+ "learning_rate": 3.366922190115382e-05,
6791
+ "loss": 1.0793,
6792
+ "step": 969
6793
+ },
6794
+ {
6795
+ "epoch": 0.16592541908997605,
6796
+ "grad_norm": 0.6168162822723389,
6797
+ "learning_rate": 3.3575938300911255e-05,
6798
+ "loss": 1.1826,
6799
+ "step": 970
6800
+ },
6801
+ {
6802
+ "epoch": 0.1660964762230585,
6803
+ "grad_norm": 0.6655823588371277,
6804
+ "learning_rate": 3.348271873897143e-05,
6805
+ "loss": 1.1851,
6806
+ "step": 971
6807
+ },
6808
+ {
6809
+ "epoch": 0.16626753335614095,
6810
+ "grad_norm": 0.6643422245979309,
6811
+ "learning_rate": 3.338956357880241e-05,
6812
+ "loss": 1.2795,
6813
+ "step": 972
6814
+ },
6815
+ {
6816
+ "epoch": 0.1664385904892234,
6817
+ "grad_norm": 0.665899932384491,
6818
+ "learning_rate": 3.329647318362123e-05,
6819
+ "loss": 1.1815,
6820
+ "step": 973
6821
+ },
6822
+ {
6823
+ "epoch": 0.16660964762230585,
6824
+ "grad_norm": 0.6848543882369995,
6825
+ "learning_rate": 3.3203447916392325e-05,
6826
+ "loss": 1.3136,
6827
+ "step": 974
6828
+ },
6829
+ {
6830
+ "epoch": 0.1667807047553883,
6831
+ "grad_norm": 0.6881781220436096,
6832
+ "learning_rate": 3.311048813982627e-05,
6833
+ "loss": 1.1044,
6834
+ "step": 975
6835
+ },
6836
+ {
6837
+ "epoch": 0.16695176188847075,
6838
+ "grad_norm": 0.7546820640563965,
6839
+ "learning_rate": 3.301759421637821e-05,
6840
+ "loss": 1.2274,
6841
+ "step": 976
6842
+ },
6843
+ {
6844
+ "epoch": 0.1671228190215532,
6845
+ "grad_norm": 0.8200444579124451,
6846
+ "learning_rate": 3.2924766508246617e-05,
6847
+ "loss": 1.2202,
6848
+ "step": 977
6849
+ },
6850
+ {
6851
+ "epoch": 0.16729387615463565,
6852
+ "grad_norm": 0.8180068135261536,
6853
+ "learning_rate": 3.283200537737168e-05,
6854
+ "loss": 1.097,
6855
+ "step": 978
6856
+ },
6857
+ {
6858
+ "epoch": 0.1674649332877181,
6859
+ "grad_norm": 0.8673319816589355,
6860
+ "learning_rate": 3.273931118543408e-05,
6861
+ "loss": 1.1548,
6862
+ "step": 979
6863
+ },
6864
+ {
6865
+ "epoch": 0.16763599042080055,
6866
+ "grad_norm": 0.8381339311599731,
6867
+ "learning_rate": 3.2646684293853466e-05,
6868
+ "loss": 1.0368,
6869
+ "step": 980
6870
+ },
6871
+ {
6872
+ "epoch": 0.167807047553883,
6873
+ "grad_norm": 0.9022047519683838,
6874
+ "learning_rate": 3.255412506378709e-05,
6875
+ "loss": 1.3728,
6876
+ "step": 981
6877
+ },
6878
+ {
6879
+ "epoch": 0.16797810468696545,
6880
+ "grad_norm": 0.8893918991088867,
6881
+ "learning_rate": 3.2461633856128405e-05,
6882
+ "loss": 1.1926,
6883
+ "step": 982
6884
+ },
6885
+ {
6886
+ "epoch": 0.16814916182004788,
6887
+ "grad_norm": 1.0304150581359863,
6888
+ "learning_rate": 3.2369211031505565e-05,
6889
+ "loss": 1.2228,
6890
+ "step": 983
6891
+ },
6892
+ {
6893
+ "epoch": 0.16832021895313035,
6894
+ "grad_norm": 1.1268855333328247,
6895
+ "learning_rate": 3.22768569502802e-05,
6896
+ "loss": 1.5402,
6897
+ "step": 984
6898
+ },
6899
+ {
6900
+ "epoch": 0.16849127608621278,
6901
+ "grad_norm": 1.158115029335022,
6902
+ "learning_rate": 3.218457197254583e-05,
6903
+ "loss": 1.4032,
6904
+ "step": 985
6905
+ },
6906
+ {
6907
+ "epoch": 0.16866233321929525,
6908
+ "grad_norm": 1.0024998188018799,
6909
+ "learning_rate": 3.209235645812657e-05,
6910
+ "loss": 1.2276,
6911
+ "step": 986
6912
+ },
6913
+ {
6914
+ "epoch": 0.16883339035237768,
6915
+ "grad_norm": 1.1588295698165894,
6916
+ "learning_rate": 3.200021076657568e-05,
6917
+ "loss": 1.2341,
6918
+ "step": 987
6919
+ },
6920
+ {
6921
+ "epoch": 0.16900444748546015,
6922
+ "grad_norm": 1.2362090349197388,
6923
+ "learning_rate": 3.190813525717421e-05,
6924
+ "loss": 1.0726,
6925
+ "step": 988
6926
+ },
6927
+ {
6928
+ "epoch": 0.16917550461854258,
6929
+ "grad_norm": 1.3645862340927124,
6930
+ "learning_rate": 3.18161302889295e-05,
6931
+ "loss": 1.2231,
6932
+ "step": 989
6933
+ },
6934
+ {
6935
+ "epoch": 0.16934656175162505,
6936
+ "grad_norm": 1.3612865209579468,
6937
+ "learning_rate": 3.172419622057392e-05,
6938
+ "loss": 1.4351,
6939
+ "step": 990
6940
+ },
6941
+ {
6942
+ "epoch": 0.16951761888470748,
6943
+ "grad_norm": 1.5641461610794067,
6944
+ "learning_rate": 3.163233341056333e-05,
6945
+ "loss": 1.345,
6946
+ "step": 991
6947
+ },
6948
+ {
6949
+ "epoch": 0.16968867601778995,
6950
+ "grad_norm": 1.4898855686187744,
6951
+ "learning_rate": 3.154054221707582e-05,
6952
+ "loss": 0.929,
6953
+ "step": 992
6954
+ },
6955
+ {
6956
+ "epoch": 0.16985973315087238,
6957
+ "grad_norm": 1.880551815032959,
6958
+ "learning_rate": 3.144882299801016e-05,
6959
+ "loss": 1.2601,
6960
+ "step": 993
6961
+ },
6962
+ {
6963
+ "epoch": 0.17003079028395485,
6964
+ "grad_norm": 2.0110533237457275,
6965
+ "learning_rate": 3.135717611098458e-05,
6966
+ "loss": 1.1735,
6967
+ "step": 994
6968
+ },
6969
+ {
6970
+ "epoch": 0.17020184741703728,
6971
+ "grad_norm": 2.06731915473938,
6972
+ "learning_rate": 3.1265601913335194e-05,
6973
+ "loss": 1.3196,
6974
+ "step": 995
6975
+ },
6976
+ {
6977
+ "epoch": 0.17037290455011975,
6978
+ "grad_norm": 2.0801901817321777,
6979
+ "learning_rate": 3.117410076211479e-05,
6980
+ "loss": 1.3804,
6981
+ "step": 996
6982
+ },
6983
+ {
6984
+ "epoch": 0.17054396168320218,
6985
+ "grad_norm": 2.814969062805176,
6986
+ "learning_rate": 3.1082673014091246e-05,
6987
+ "loss": 1.3725,
6988
+ "step": 997
6989
+ },
6990
+ {
6991
+ "epoch": 0.17071501881628465,
6992
+ "grad_norm": 2.79948091506958,
6993
+ "learning_rate": 3.0991319025746327e-05,
6994
+ "loss": 1.7117,
6995
+ "step": 998
6996
+ },
6997
+ {
6998
+ "epoch": 0.17088607594936708,
6999
+ "grad_norm": 3.2036147117614746,
7000
+ "learning_rate": 3.090003915327411e-05,
7001
+ "loss": 1.5203,
7002
+ "step": 999
7003
+ },
7004
+ {
7005
+ "epoch": 0.17105713308244955,
7006
+ "grad_norm": 4.76022481918335,
7007
+ "learning_rate": 3.080883375257979e-05,
7008
+ "loss": 1.7787,
7009
+ "step": 1000
7010
+ },
7011
+ {
7012
+ "epoch": 0.17122819021553198,
7013
+ "grad_norm": 0.49586012959480286,
7014
+ "learning_rate": 3.0717703179278115e-05,
7015
+ "loss": 1.1062,
7016
+ "step": 1001
7017
+ },
7018
+ {
7019
+ "epoch": 0.17139924734861445,
7020
+ "grad_norm": 0.5908662676811218,
7021
+ "learning_rate": 3.0626647788692134e-05,
7022
+ "loss": 1.1972,
7023
+ "step": 1002
7024
+ },
7025
+ {
7026
+ "epoch": 0.17157030448169688,
7027
+ "grad_norm": 0.5462906360626221,
7028
+ "learning_rate": 3.053566793585173e-05,
7029
+ "loss": 1.3135,
7030
+ "step": 1003
7031
+ },
7032
+ {
7033
+ "epoch": 0.17174136161477935,
7034
+ "grad_norm": 0.5159565806388855,
7035
+ "learning_rate": 3.0444763975492208e-05,
7036
+ "loss": 1.1127,
7037
+ "step": 1004
7038
+ },
7039
+ {
7040
+ "epoch": 0.17191241874786178,
7041
+ "grad_norm": 0.5438991785049438,
7042
+ "learning_rate": 3.0353936262053064e-05,
7043
+ "loss": 1.2553,
7044
+ "step": 1005
7045
+ },
7046
+ {
7047
+ "epoch": 0.17208347588094425,
7048
+ "grad_norm": 0.5255780816078186,
7049
+ "learning_rate": 3.026318514967642e-05,
7050
+ "loss": 1.2302,
7051
+ "step": 1006
7052
+ },
7053
+ {
7054
+ "epoch": 0.17225453301402668,
7055
+ "grad_norm": 0.5119370818138123,
7056
+ "learning_rate": 3.0172510992205806e-05,
7057
+ "loss": 1.3538,
7058
+ "step": 1007
7059
+ },
7060
+ {
7061
+ "epoch": 0.17242559014710915,
7062
+ "grad_norm": 0.5363578796386719,
7063
+ "learning_rate": 3.008191414318461e-05,
7064
+ "loss": 1.2825,
7065
+ "step": 1008
7066
+ },
7067
+ {
7068
+ "epoch": 0.17259664728019158,
7069
+ "grad_norm": 0.547842264175415,
7070
+ "learning_rate": 2.9991394955854857e-05,
7071
+ "loss": 1.1889,
7072
+ "step": 1009
7073
+ },
7074
+ {
7075
+ "epoch": 0.17276770441327402,
7076
+ "grad_norm": 0.5618794560432434,
7077
+ "learning_rate": 2.990095378315572e-05,
7078
+ "loss": 1.3579,
7079
+ "step": 1010
7080
+ },
7081
+ {
7082
+ "epoch": 0.17293876154635648,
7083
+ "grad_norm": 0.5350480079650879,
7084
+ "learning_rate": 2.981059097772224e-05,
7085
+ "loss": 1.1268,
7086
+ "step": 1011
7087
+ },
7088
+ {
7089
+ "epoch": 0.17310981867943892,
7090
+ "grad_norm": 0.5529703497886658,
7091
+ "learning_rate": 2.9720306891883844e-05,
7092
+ "loss": 1.3048,
7093
+ "step": 1012
7094
+ },
7095
+ {
7096
+ "epoch": 0.17328087581252138,
7097
+ "grad_norm": 0.5668827295303345,
7098
+ "learning_rate": 2.9630101877663087e-05,
7099
+ "loss": 1.2466,
7100
+ "step": 1013
7101
+ },
7102
+ {
7103
+ "epoch": 0.17345193294560382,
7104
+ "grad_norm": 0.5508885383605957,
7105
+ "learning_rate": 2.953997628677415e-05,
7106
+ "loss": 1.3011,
7107
+ "step": 1014
7108
+ },
7109
+ {
7110
+ "epoch": 0.17362299007868628,
7111
+ "grad_norm": 0.553832471370697,
7112
+ "learning_rate": 2.9449930470621605e-05,
7113
+ "loss": 1.3579,
7114
+ "step": 1015
7115
+ },
7116
+ {
7117
+ "epoch": 0.17379404721176872,
7118
+ "grad_norm": 0.5975161790847778,
7119
+ "learning_rate": 2.935996478029892e-05,
7120
+ "loss": 1.4405,
7121
+ "step": 1016
7122
+ },
7123
+ {
7124
+ "epoch": 0.17396510434485118,
7125
+ "grad_norm": 0.6038892865180969,
7126
+ "learning_rate": 2.9270079566587195e-05,
7127
+ "loss": 1.3255,
7128
+ "step": 1017
7129
+ },
7130
+ {
7131
+ "epoch": 0.17413616147793362,
7132
+ "grad_norm": 0.5833334922790527,
7133
+ "learning_rate": 2.918027517995372e-05,
7134
+ "loss": 1.2959,
7135
+ "step": 1018
7136
+ },
7137
+ {
7138
+ "epoch": 0.17430721861101608,
7139
+ "grad_norm": 0.6514463424682617,
7140
+ "learning_rate": 2.9090551970550668e-05,
7141
+ "loss": 1.3835,
7142
+ "step": 1019
7143
+ },
7144
+ {
7145
+ "epoch": 0.17447827574409852,
7146
+ "grad_norm": 0.605550229549408,
7147
+ "learning_rate": 2.9000910288213612e-05,
7148
+ "loss": 1.1497,
7149
+ "step": 1020
7150
+ },
7151
+ {
7152
+ "epoch": 0.17464933287718098,
7153
+ "grad_norm": 0.5976765155792236,
7154
+ "learning_rate": 2.8911350482460374e-05,
7155
+ "loss": 1.2176,
7156
+ "step": 1021
7157
+ },
7158
+ {
7159
+ "epoch": 0.17482039001026342,
7160
+ "grad_norm": 0.6232640743255615,
7161
+ "learning_rate": 2.8821872902489437e-05,
7162
+ "loss": 1.1811,
7163
+ "step": 1022
7164
+ },
7165
+ {
7166
+ "epoch": 0.17499144714334589,
7167
+ "grad_norm": 0.5897780060768127,
7168
+ "learning_rate": 2.873247789717872e-05,
7169
+ "loss": 0.9642,
7170
+ "step": 1023
7171
+ },
7172
+ {
7173
+ "epoch": 0.17516250427642832,
7174
+ "grad_norm": 0.651821494102478,
7175
+ "learning_rate": 2.8643165815084194e-05,
7176
+ "loss": 1.2541,
7177
+ "step": 1024
7178
+ },
7179
+ {
7180
+ "epoch": 0.17533356140951079,
7181
+ "grad_norm": 0.6755815744400024,
7182
+ "learning_rate": 2.8553937004438425e-05,
7183
+ "loss": 1.2069,
7184
+ "step": 1025
7185
+ },
7186
+ {
7187
+ "epoch": 0.17550461854259322,
7188
+ "grad_norm": 0.6916977167129517,
7189
+ "learning_rate": 2.8464791813149418e-05,
7190
+ "loss": 0.9846,
7191
+ "step": 1026
7192
+ },
7193
+ {
7194
+ "epoch": 0.17567567567567569,
7195
+ "grad_norm": 0.7493119239807129,
7196
+ "learning_rate": 2.8375730588799055e-05,
7197
+ "loss": 1.1846,
7198
+ "step": 1027
7199
+ },
7200
+ {
7201
+ "epoch": 0.17584673280875812,
7202
+ "grad_norm": 0.7904576063156128,
7203
+ "learning_rate": 2.828675367864187e-05,
7204
+ "loss": 1.02,
7205
+ "step": 1028
7206
+ },
7207
+ {
7208
+ "epoch": 0.17601778994184059,
7209
+ "grad_norm": 0.8208119869232178,
7210
+ "learning_rate": 2.8197861429603628e-05,
7211
+ "loss": 1.3182,
7212
+ "step": 1029
7213
+ },
7214
+ {
7215
+ "epoch": 0.17618884707492302,
7216
+ "grad_norm": 0.8201320171356201,
7217
+ "learning_rate": 2.8109054188280004e-05,
7218
+ "loss": 1.0203,
7219
+ "step": 1030
7220
+ },
7221
+ {
7222
+ "epoch": 0.17635990420800549,
7223
+ "grad_norm": 0.8551913499832153,
7224
+ "learning_rate": 2.8020332300935225e-05,
7225
+ "loss": 1.0894,
7226
+ "step": 1031
7227
+ },
7228
+ {
7229
+ "epoch": 0.17653096134108792,
7230
+ "grad_norm": 0.9669012427330017,
7231
+ "learning_rate": 2.7931696113500726e-05,
7232
+ "loss": 1.1606,
7233
+ "step": 1032
7234
+ },
7235
+ {
7236
+ "epoch": 0.17670201847417039,
7237
+ "grad_norm": 0.9525704383850098,
7238
+ "learning_rate": 2.7843145971573747e-05,
7239
+ "loss": 1.1445,
7240
+ "step": 1033
7241
+ },
7242
+ {
7243
+ "epoch": 0.17687307560725282,
7244
+ "grad_norm": 1.0303407907485962,
7245
+ "learning_rate": 2.7754682220416138e-05,
7246
+ "loss": 1.4024,
7247
+ "step": 1034
7248
+ },
7249
+ {
7250
+ "epoch": 0.17704413274033526,
7251
+ "grad_norm": 1.0042873620986938,
7252
+ "learning_rate": 2.766630520495277e-05,
7253
+ "loss": 1.1223,
7254
+ "step": 1035
7255
+ },
7256
+ {
7257
+ "epoch": 0.17721518987341772,
7258
+ "grad_norm": 1.1444025039672852,
7259
+ "learning_rate": 2.7578015269770453e-05,
7260
+ "loss": 1.4585,
7261
+ "step": 1036
7262
+ },
7263
+ {
7264
+ "epoch": 0.17738624700650016,
7265
+ "grad_norm": 1.1342707872390747,
7266
+ "learning_rate": 2.748981275911633e-05,
7267
+ "loss": 1.0676,
7268
+ "step": 1037
7269
+ },
7270
+ {
7271
+ "epoch": 0.17755730413958262,
7272
+ "grad_norm": 1.1423594951629639,
7273
+ "learning_rate": 2.7401698016896827e-05,
7274
+ "loss": 0.9903,
7275
+ "step": 1038
7276
+ },
7277
+ {
7278
+ "epoch": 0.17772836127266506,
7279
+ "grad_norm": 1.6184778213500977,
7280
+ "learning_rate": 2.7313671386676042e-05,
7281
+ "loss": 1.4268,
7282
+ "step": 1039
7283
+ },
7284
+ {
7285
+ "epoch": 0.17789941840574752,
7286
+ "grad_norm": 1.3052678108215332,
7287
+ "learning_rate": 2.7225733211674563e-05,
7288
+ "loss": 1.2684,
7289
+ "step": 1040
7290
+ },
7291
+ {
7292
+ "epoch": 0.17807047553882996,
7293
+ "grad_norm": 1.6033530235290527,
7294
+ "learning_rate": 2.7137883834768073e-05,
7295
+ "loss": 1.2586,
7296
+ "step": 1041
7297
+ },
7298
+ {
7299
+ "epoch": 0.17824153267191242,
7300
+ "grad_norm": 1.5226807594299316,
7301
+ "learning_rate": 2.7050123598486043e-05,
7302
+ "loss": 1.2644,
7303
+ "step": 1042
7304
+ },
7305
+ {
7306
+ "epoch": 0.17841258980499486,
7307
+ "grad_norm": 1.6148399114608765,
7308
+ "learning_rate": 2.696245284501036e-05,
7309
+ "loss": 1.1198,
7310
+ "step": 1043
7311
+ },
7312
+ {
7313
+ "epoch": 0.17858364693807732,
7314
+ "grad_norm": 1.7775901556015015,
7315
+ "learning_rate": 2.6874871916174027e-05,
7316
+ "loss": 1.3457,
7317
+ "step": 1044
7318
+ },
7319
+ {
7320
+ "epoch": 0.17875470407115976,
7321
+ "grad_norm": 2.0315780639648438,
7322
+ "learning_rate": 2.67873811534598e-05,
7323
+ "loss": 1.2369,
7324
+ "step": 1045
7325
+ },
7326
+ {
7327
+ "epoch": 0.17892576120424222,
7328
+ "grad_norm": 2.3106753826141357,
7329
+ "learning_rate": 2.66999808979989e-05,
7330
+ "loss": 1.7191,
7331
+ "step": 1046
7332
+ },
7333
+ {
7334
+ "epoch": 0.17909681833732466,
7335
+ "grad_norm": 2.3446497917175293,
7336
+ "learning_rate": 2.661267149056963e-05,
7337
+ "loss": 1.4838,
7338
+ "step": 1047
7339
+ },
7340
+ {
7341
+ "epoch": 0.17926787547040712,
7342
+ "grad_norm": 2.2386043071746826,
7343
+ "learning_rate": 2.6525453271596083e-05,
7344
+ "loss": 1.1141,
7345
+ "step": 1048
7346
+ },
7347
+ {
7348
+ "epoch": 0.17943893260348956,
7349
+ "grad_norm": 3.4601492881774902,
7350
+ "learning_rate": 2.64383265811468e-05,
7351
+ "loss": 1.2839,
7352
+ "step": 1049
7353
+ },
7354
+ {
7355
+ "epoch": 0.17960998973657202,
7356
+ "grad_norm": 2.9660983085632324,
7357
+ "learning_rate": 2.6351291758933428e-05,
7358
+ "loss": 1.1077,
7359
+ "step": 1050
7360
+ },
7361
+ {
7362
+ "epoch": 0.17978104686965446,
7363
+ "grad_norm": 0.557556688785553,
7364
+ "learning_rate": 2.6264349144309487e-05,
7365
+ "loss": 1.1663,
7366
+ "step": 1051
7367
+ },
7368
+ {
7369
+ "epoch": 0.17995210400273692,
7370
+ "grad_norm": 0.5130797028541565,
7371
+ "learning_rate": 2.617749907626885e-05,
7372
+ "loss": 1.2021,
7373
+ "step": 1052
7374
+ },
7375
+ {
7376
+ "epoch": 0.18012316113581936,
7377
+ "grad_norm": 0.5419288873672485,
7378
+ "learning_rate": 2.6090741893444704e-05,
7379
+ "loss": 1.2136,
7380
+ "step": 1053
7381
+ },
7382
+ {
7383
+ "epoch": 0.18029421826890182,
7384
+ "grad_norm": 0.5429167747497559,
7385
+ "learning_rate": 2.6004077934107895e-05,
7386
+ "loss": 1.2599,
7387
+ "step": 1054
7388
+ },
7389
+ {
7390
+ "epoch": 0.18046527540198426,
7391
+ "grad_norm": 0.5111317038536072,
7392
+ "learning_rate": 2.5917507536165956e-05,
7393
+ "loss": 1.1689,
7394
+ "step": 1055
7395
+ },
7396
+ {
7397
+ "epoch": 0.18063633253506672,
7398
+ "grad_norm": 0.5068162679672241,
7399
+ "learning_rate": 2.583103103716147e-05,
7400
+ "loss": 1.1609,
7401
+ "step": 1056
7402
+ },
7403
+ {
7404
+ "epoch": 0.18080738966814916,
7405
+ "grad_norm": 0.5176076889038086,
7406
+ "learning_rate": 2.574464877427103e-05,
7407
+ "loss": 1.2752,
7408
+ "step": 1057
7409
+ },
7410
+ {
7411
+ "epoch": 0.18097844680123162,
7412
+ "grad_norm": 0.5316131711006165,
7413
+ "learning_rate": 2.565836108430371e-05,
7414
+ "loss": 1.1965,
7415
+ "step": 1058
7416
+ },
7417
+ {
7418
+ "epoch": 0.18114950393431406,
7419
+ "grad_norm": 0.5631779432296753,
7420
+ "learning_rate": 2.5572168303699877e-05,
7421
+ "loss": 1.3192,
7422
+ "step": 1059
7423
+ },
7424
+ {
7425
+ "epoch": 0.18132056106739652,
7426
+ "grad_norm": 0.5244829058647156,
7427
+ "learning_rate": 2.5486070768529837e-05,
7428
+ "loss": 1.2116,
7429
+ "step": 1060
7430
+ },
7431
+ {
7432
+ "epoch": 0.18149161820047896,
7433
+ "grad_norm": 0.540724515914917,
7434
+ "learning_rate": 2.5400068814492506e-05,
7435
+ "loss": 1.2249,
7436
+ "step": 1061
7437
+ },
7438
+ {
7439
+ "epoch": 0.1816626753335614,
7440
+ "grad_norm": 0.5655743479728699,
7441
+ "learning_rate": 2.531416277691417e-05,
7442
+ "loss": 1.4045,
7443
+ "step": 1062
7444
+ },
7445
+ {
7446
+ "epoch": 0.18183373246664386,
7447
+ "grad_norm": 0.577039361000061,
7448
+ "learning_rate": 2.5228352990747085e-05,
7449
+ "loss": 1.2942,
7450
+ "step": 1063
7451
+ },
7452
+ {
7453
+ "epoch": 0.1820047895997263,
7454
+ "grad_norm": 0.590980589389801,
7455
+ "learning_rate": 2.5142639790568222e-05,
7456
+ "loss": 1.4284,
7457
+ "step": 1064
7458
+ },
7459
+ {
7460
+ "epoch": 0.18217584673280876,
7461
+ "grad_norm": 0.5911884903907776,
7462
+ "learning_rate": 2.5057023510578037e-05,
7463
+ "loss": 1.3287,
7464
+ "step": 1065
7465
+ },
7466
+ {
7467
+ "epoch": 0.1823469038658912,
7468
+ "grad_norm": 0.6275861859321594,
7469
+ "learning_rate": 2.4971504484598958e-05,
7470
+ "loss": 1.4182,
7471
+ "step": 1066
7472
+ },
7473
+ {
7474
+ "epoch": 0.18251796099897366,
7475
+ "grad_norm": 0.6274673342704773,
7476
+ "learning_rate": 2.488608304607431e-05,
7477
+ "loss": 1.3304,
7478
+ "step": 1067
7479
+ },
7480
+ {
7481
+ "epoch": 0.1826890181320561,
7482
+ "grad_norm": 0.578771710395813,
7483
+ "learning_rate": 2.4800759528066885e-05,
7484
+ "loss": 1.1852,
7485
+ "step": 1068
7486
+ },
7487
+ {
7488
+ "epoch": 0.18286007526513856,
7489
+ "grad_norm": 0.6625096201896667,
7490
+ "learning_rate": 2.4715534263257668e-05,
7491
+ "loss": 1.2603,
7492
+ "step": 1069
7493
+ },
7494
+ {
7495
+ "epoch": 0.183031132398221,
7496
+ "grad_norm": 0.6263986229896545,
7497
+ "learning_rate": 2.4630407583944615e-05,
7498
+ "loss": 1.2788,
7499
+ "step": 1070
7500
+ },
7501
+ {
7502
+ "epoch": 0.18320218953130346,
7503
+ "grad_norm": 0.6890533566474915,
7504
+ "learning_rate": 2.4545379822041175e-05,
7505
+ "loss": 1.348,
7506
+ "step": 1071
7507
+ },
7508
+ {
7509
+ "epoch": 0.1833732466643859,
7510
+ "grad_norm": 0.6721847653388977,
7511
+ "learning_rate": 2.4460451309075248e-05,
7512
+ "loss": 1.3921,
7513
+ "step": 1072
7514
+ },
7515
+ {
7516
+ "epoch": 0.18354430379746836,
7517
+ "grad_norm": 0.6540228128433228,
7518
+ "learning_rate": 2.4375622376187618e-05,
7519
+ "loss": 1.1462,
7520
+ "step": 1073
7521
+ },
7522
+ {
7523
+ "epoch": 0.1837153609305508,
7524
+ "grad_norm": 0.7116681337356567,
7525
+ "learning_rate": 2.4290893354130922e-05,
7526
+ "loss": 1.2309,
7527
+ "step": 1074
7528
+ },
7529
+ {
7530
+ "epoch": 0.18388641806363326,
7531
+ "grad_norm": 0.6965073943138123,
7532
+ "learning_rate": 2.4206264573268172e-05,
7533
+ "loss": 1.051,
7534
+ "step": 1075
7535
+ },
7536
+ {
7537
+ "epoch": 0.1840574751967157,
7538
+ "grad_norm": 0.7276071310043335,
7539
+ "learning_rate": 2.4121736363571557e-05,
7540
+ "loss": 1.0871,
7541
+ "step": 1076
7542
+ },
7543
+ {
7544
+ "epoch": 0.18422853232979816,
7545
+ "grad_norm": 0.7418241500854492,
7546
+ "learning_rate": 2.4037309054621115e-05,
7547
+ "loss": 1.0666,
7548
+ "step": 1077
7549
+ },
7550
+ {
7551
+ "epoch": 0.1843995894628806,
7552
+ "grad_norm": 0.7333283424377441,
7553
+ "learning_rate": 2.3952982975603496e-05,
7554
+ "loss": 1.1881,
7555
+ "step": 1078
7556
+ },
7557
+ {
7558
+ "epoch": 0.18457064659596306,
7559
+ "grad_norm": 0.7455992102622986,
7560
+ "learning_rate": 2.3868758455310614e-05,
7561
+ "loss": 1.0302,
7562
+ "step": 1079
7563
+ },
7564
+ {
7565
+ "epoch": 0.1847417037290455,
7566
+ "grad_norm": 0.8666993379592896,
7567
+ "learning_rate": 2.3784635822138424e-05,
7568
+ "loss": 1.2001,
7569
+ "step": 1080
7570
+ },
7571
+ {
7572
+ "epoch": 0.18491276086212796,
7573
+ "grad_norm": 0.8161441683769226,
7574
+ "learning_rate": 2.3700615404085598e-05,
7575
+ "loss": 1.2939,
7576
+ "step": 1081
7577
+ },
7578
+ {
7579
+ "epoch": 0.1850838179952104,
7580
+ "grad_norm": 0.9533507823944092,
7581
+ "learning_rate": 2.361669752875233e-05,
7582
+ "loss": 1.2736,
7583
+ "step": 1082
7584
+ },
7585
+ {
7586
+ "epoch": 0.18525487512829286,
7587
+ "grad_norm": 0.8938537836074829,
7588
+ "learning_rate": 2.3532882523338873e-05,
7589
+ "loss": 0.9843,
7590
+ "step": 1083
7591
+ },
7592
+ {
7593
+ "epoch": 0.1854259322613753,
7594
+ "grad_norm": 0.8930996060371399,
7595
+ "learning_rate": 2.3449170714644524e-05,
7596
+ "loss": 1.2126,
7597
+ "step": 1084
7598
+ },
7599
+ {
7600
+ "epoch": 0.18559698939445776,
7601
+ "grad_norm": 0.9868687391281128,
7602
+ "learning_rate": 2.336556242906608e-05,
7603
+ "loss": 1.2214,
7604
+ "step": 1085
7605
+ },
7606
+ {
7607
+ "epoch": 0.1857680465275402,
7608
+ "grad_norm": 0.9706618785858154,
7609
+ "learning_rate": 2.3282057992596797e-05,
7610
+ "loss": 0.9344,
7611
+ "step": 1086
7612
+ },
7613
+ {
7614
+ "epoch": 0.18593910366062263,
7615
+ "grad_norm": 0.9862615466117859,
7616
+ "learning_rate": 2.3198657730824985e-05,
7617
+ "loss": 1.0938,
7618
+ "step": 1087
7619
+ },
7620
+ {
7621
+ "epoch": 0.1861101607937051,
7622
+ "grad_norm": 1.3694723844528198,
7623
+ "learning_rate": 2.3115361968932714e-05,
7624
+ "loss": 1.2747,
7625
+ "step": 1088
7626
+ },
7627
+ {
7628
+ "epoch": 0.18628121792678753,
7629
+ "grad_norm": 1.3156152963638306,
7630
+ "learning_rate": 2.3032171031694723e-05,
7631
+ "loss": 1.4315,
7632
+ "step": 1089
7633
+ },
7634
+ {
7635
+ "epoch": 0.18645227505987,
7636
+ "grad_norm": 1.4331876039505005,
7637
+ "learning_rate": 2.2949085243476886e-05,
7638
+ "loss": 1.3056,
7639
+ "step": 1090
7640
+ },
7641
+ {
7642
+ "epoch": 0.18662333219295243,
7643
+ "grad_norm": 1.6338574886322021,
7644
+ "learning_rate": 2.2866104928235243e-05,
7645
+ "loss": 1.3037,
7646
+ "step": 1091
7647
+ },
7648
+ {
7649
+ "epoch": 0.1867943893260349,
7650
+ "grad_norm": 1.6983578205108643,
7651
+ "learning_rate": 2.2783230409514488e-05,
7652
+ "loss": 1.2716,
7653
+ "step": 1092
7654
+ },
7655
+ {
7656
+ "epoch": 0.18696544645911733,
7657
+ "grad_norm": 1.7741411924362183,
7658
+ "learning_rate": 2.270046201044685e-05,
7659
+ "loss": 1.2031,
7660
+ "step": 1093
7661
+ },
7662
+ {
7663
+ "epoch": 0.1871365035921998,
7664
+ "grad_norm": 1.93906831741333,
7665
+ "learning_rate": 2.2617800053750782e-05,
7666
+ "loss": 1.2603,
7667
+ "step": 1094
7668
+ },
7669
+ {
7670
+ "epoch": 0.18730756072528223,
7671
+ "grad_norm": 2.0896623134613037,
7672
+ "learning_rate": 2.2535244861729705e-05,
7673
+ "loss": 1.6169,
7674
+ "step": 1095
7675
+ },
7676
+ {
7677
+ "epoch": 0.1874786178583647,
7678
+ "grad_norm": 2.2424557209014893,
7679
+ "learning_rate": 2.2452796756270777e-05,
7680
+ "loss": 1.3498,
7681
+ "step": 1096
7682
+ },
7683
+ {
7684
+ "epoch": 0.18764967499144714,
7685
+ "grad_norm": 2.4930217266082764,
7686
+ "learning_rate": 2.2370456058843604e-05,
7687
+ "loss": 1.4391,
7688
+ "step": 1097
7689
+ },
7690
+ {
7691
+ "epoch": 0.1878207321245296,
7692
+ "grad_norm": 2.979562759399414,
7693
+ "learning_rate": 2.2288223090499007e-05,
7694
+ "loss": 1.6536,
7695
+ "step": 1098
7696
+ },
7697
+ {
7698
+ "epoch": 0.18799178925761204,
7699
+ "grad_norm": 3.8147144317626953,
7700
+ "learning_rate": 2.2206098171867774e-05,
7701
+ "loss": 1.9091,
7702
+ "step": 1099
7703
+ },
7704
+ {
7705
+ "epoch": 0.1881628463906945,
7706
+ "grad_norm": 3.4456284046173096,
7707
+ "learning_rate": 2.2124081623159366e-05,
7708
+ "loss": 1.1332,
7709
+ "step": 1100
7710
+ },
7711
+ {
7712
+ "epoch": 0.18833390352377694,
7713
+ "grad_norm": 0.457207053899765,
7714
+ "learning_rate": 2.204217376416079e-05,
7715
+ "loss": 1.1188,
7716
+ "step": 1101
7717
+ },
7718
+ {
7719
+ "epoch": 0.1885049606568594,
7720
+ "grad_norm": 0.5947155952453613,
7721
+ "learning_rate": 2.1960374914235138e-05,
7722
+ "loss": 1.1839,
7723
+ "step": 1102
7724
+ },
7725
+ {
7726
+ "epoch": 0.18867601778994184,
7727
+ "grad_norm": 0.5215460658073425,
7728
+ "learning_rate": 2.187868539232061e-05,
7729
+ "loss": 1.1348,
7730
+ "step": 1103
7731
+ },
7732
+ {
7733
+ "epoch": 0.1888470749230243,
7734
+ "grad_norm": 0.5244162082672119,
7735
+ "learning_rate": 2.1797105516928984e-05,
7736
+ "loss": 1.1576,
7737
+ "step": 1104
7738
+ },
7739
+ {
7740
+ "epoch": 0.18901813205610674,
7741
+ "grad_norm": 0.5163097977638245,
7742
+ "learning_rate": 2.1715635606144653e-05,
7743
+ "loss": 1.1651,
7744
+ "step": 1105
7745
+ },
7746
+ {
7747
+ "epoch": 0.1891891891891892,
7748
+ "grad_norm": 0.5445159673690796,
7749
+ "learning_rate": 2.1634275977623177e-05,
7750
+ "loss": 1.0768,
7751
+ "step": 1106
7752
+ },
7753
+ {
7754
+ "epoch": 0.18936024632227164,
7755
+ "grad_norm": 0.5356796383857727,
7756
+ "learning_rate": 2.1553026948590137e-05,
7757
+ "loss": 1.1355,
7758
+ "step": 1107
7759
+ },
7760
+ {
7761
+ "epoch": 0.1895313034553541,
7762
+ "grad_norm": 0.5185807943344116,
7763
+ "learning_rate": 2.1471888835839882e-05,
7764
+ "loss": 1.2743,
7765
+ "step": 1108
7766
+ },
7767
+ {
7768
+ "epoch": 0.18970236058843654,
7769
+ "grad_norm": 0.5446439385414124,
7770
+ "learning_rate": 2.1390861955734287e-05,
7771
+ "loss": 1.2662,
7772
+ "step": 1109
7773
+ },
7774
+ {
7775
+ "epoch": 0.189873417721519,
7776
+ "grad_norm": 0.5431277751922607,
7777
+ "learning_rate": 2.1309946624201533e-05,
7778
+ "loss": 1.3458,
7779
+ "step": 1110
7780
+ },
7781
+ {
7782
+ "epoch": 0.19004447485460144,
7783
+ "grad_norm": 0.5551103353500366,
7784
+ "learning_rate": 2.1229143156734865e-05,
7785
+ "loss": 1.3616,
7786
+ "step": 1111
7787
+ },
7788
+ {
7789
+ "epoch": 0.1902155319876839,
7790
+ "grad_norm": 0.5428812503814697,
7791
+ "learning_rate": 2.1148451868391356e-05,
7792
+ "loss": 1.415,
7793
+ "step": 1112
7794
+ },
7795
+ {
7796
+ "epoch": 0.19038658912076634,
7797
+ "grad_norm": 0.5525882244110107,
7798
+ "learning_rate": 2.10678730737907e-05,
7799
+ "loss": 1.3613,
7800
+ "step": 1113
7801
+ },
7802
+ {
7803
+ "epoch": 0.19055764625384877,
7804
+ "grad_norm": 0.575508177280426,
7805
+ "learning_rate": 2.0987407087113965e-05,
7806
+ "loss": 1.2821,
7807
+ "step": 1114
7808
+ },
7809
+ {
7810
+ "epoch": 0.19072870338693124,
7811
+ "grad_norm": 0.6201297640800476,
7812
+ "learning_rate": 2.090705422210237e-05,
7813
+ "loss": 1.4153,
7814
+ "step": 1115
7815
+ },
7816
+ {
7817
+ "epoch": 0.19089976052001367,
7818
+ "grad_norm": 0.5878698229789734,
7819
+ "learning_rate": 2.082681479205607e-05,
7820
+ "loss": 1.2869,
7821
+ "step": 1116
7822
+ },
7823
+ {
7824
+ "epoch": 0.19107081765309614,
7825
+ "grad_norm": 0.6694919466972351,
7826
+ "learning_rate": 2.0746689109832918e-05,
7827
+ "loss": 1.3329,
7828
+ "step": 1117
7829
+ },
7830
+ {
7831
+ "epoch": 0.19124187478617857,
7832
+ "grad_norm": 0.6331332921981812,
7833
+ "learning_rate": 2.0666677487847325e-05,
7834
+ "loss": 1.2102,
7835
+ "step": 1118
7836
+ },
7837
+ {
7838
+ "epoch": 0.19141293191926104,
7839
+ "grad_norm": 0.6576963067054749,
7840
+ "learning_rate": 2.0586780238068848e-05,
7841
+ "loss": 1.2694,
7842
+ "step": 1119
7843
+ },
7844
+ {
7845
+ "epoch": 0.19158398905234347,
7846
+ "grad_norm": 0.6312718391418457,
7847
+ "learning_rate": 2.050699767202125e-05,
7848
+ "loss": 1.1597,
7849
+ "step": 1120
7850
+ },
7851
+ {
7852
+ "epoch": 0.19175504618542594,
7853
+ "grad_norm": 0.6914326548576355,
7854
+ "learning_rate": 2.042733010078099e-05,
7855
+ "loss": 1.1148,
7856
+ "step": 1121
7857
+ },
7858
+ {
7859
+ "epoch": 0.19192610331850837,
7860
+ "grad_norm": 0.699762225151062,
7861
+ "learning_rate": 2.034777783497628e-05,
7862
+ "loss": 1.1196,
7863
+ "step": 1122
7864
+ },
7865
+ {
7866
+ "epoch": 0.19209716045159084,
7867
+ "grad_norm": 0.7305629253387451,
7868
+ "learning_rate": 2.026834118478567e-05,
7869
+ "loss": 1.1534,
7870
+ "step": 1123
7871
+ },
7872
+ {
7873
+ "epoch": 0.19226821758467327,
7874
+ "grad_norm": 0.7772334218025208,
7875
+ "learning_rate": 2.0189020459936953e-05,
7876
+ "loss": 1.1844,
7877
+ "step": 1124
7878
+ },
7879
+ {
7880
+ "epoch": 0.19243927471775574,
7881
+ "grad_norm": 0.7272955179214478,
7882
+ "learning_rate": 2.010981596970592e-05,
7883
+ "loss": 1.1997,
7884
+ "step": 1125
7885
+ },
7886
+ {
7887
+ "epoch": 0.19261033185083817,
7888
+ "grad_norm": 0.6972033381462097,
7889
+ "learning_rate": 2.003072802291514e-05,
7890
+ "loss": 1.0817,
7891
+ "step": 1126
7892
+ },
7893
+ {
7894
+ "epoch": 0.19278138898392064,
7895
+ "grad_norm": 0.7530586123466492,
7896
+ "learning_rate": 1.995175692793279e-05,
7897
+ "loss": 1.0761,
7898
+ "step": 1127
7899
+ },
7900
+ {
7901
+ "epoch": 0.19295244611700307,
7902
+ "grad_norm": 0.8682284355163574,
7903
+ "learning_rate": 1.9872902992671433e-05,
7904
+ "loss": 1.2157,
7905
+ "step": 1128
7906
+ },
7907
+ {
7908
+ "epoch": 0.19312350325008554,
7909
+ "grad_norm": 0.8820382952690125,
7910
+ "learning_rate": 1.9794166524586798e-05,
7911
+ "loss": 1.2118,
7912
+ "step": 1129
7913
+ },
7914
+ {
7915
+ "epoch": 0.19329456038316797,
7916
+ "grad_norm": 0.8392881751060486,
7917
+ "learning_rate": 1.9715547830676673e-05,
7918
+ "loss": 1.0795,
7919
+ "step": 1130
7920
+ },
7921
+ {
7922
+ "epoch": 0.19346561751625044,
7923
+ "grad_norm": 0.9215697646141052,
7924
+ "learning_rate": 1.9637047217479538e-05,
7925
+ "loss": 1.187,
7926
+ "step": 1131
7927
+ },
7928
+ {
7929
+ "epoch": 0.19363667464933287,
7930
+ "grad_norm": 1.0534172058105469,
7931
+ "learning_rate": 1.9558664991073534e-05,
7932
+ "loss": 1.1555,
7933
+ "step": 1132
7934
+ },
7935
+ {
7936
+ "epoch": 0.19380773178241534,
7937
+ "grad_norm": 1.1032742261886597,
7938
+ "learning_rate": 1.9480401457075194e-05,
7939
+ "loss": 1.3511,
7940
+ "step": 1133
7941
+ },
7942
+ {
7943
+ "epoch": 0.19397878891549777,
7944
+ "grad_norm": 1.005715012550354,
7945
+ "learning_rate": 1.9402256920638235e-05,
7946
+ "loss": 1.136,
7947
+ "step": 1134
7948
+ },
7949
+ {
7950
+ "epoch": 0.19414984604858024,
7951
+ "grad_norm": 1.0756511688232422,
7952
+ "learning_rate": 1.9324231686452477e-05,
7953
+ "loss": 1.2249,
7954
+ "step": 1135
7955
+ },
7956
+ {
7957
+ "epoch": 0.19432090318166267,
7958
+ "grad_norm": 1.1209959983825684,
7959
+ "learning_rate": 1.9246326058742453e-05,
7960
+ "loss": 1.0826,
7961
+ "step": 1136
7962
+ },
7963
+ {
7964
+ "epoch": 0.19449196031474514,
7965
+ "grad_norm": 1.322952389717102,
7966
+ "learning_rate": 1.916854034126648e-05,
7967
+ "loss": 1.3319,
7968
+ "step": 1137
7969
+ },
7970
+ {
7971
+ "epoch": 0.19466301744782757,
7972
+ "grad_norm": 1.3385710716247559,
7973
+ "learning_rate": 1.9090874837315188e-05,
7974
+ "loss": 1.2366,
7975
+ "step": 1138
7976
+ },
7977
+ {
7978
+ "epoch": 0.19483407458091,
7979
+ "grad_norm": 1.2587987184524536,
7980
+ "learning_rate": 1.9013329849710638e-05,
7981
+ "loss": 1.3087,
7982
+ "step": 1139
7983
+ },
7984
+ {
7985
+ "epoch": 0.19500513171399247,
7986
+ "grad_norm": 1.4214056730270386,
7987
+ "learning_rate": 1.8935905680804862e-05,
7988
+ "loss": 1.3393,
7989
+ "step": 1140
7990
+ },
7991
+ {
7992
+ "epoch": 0.1951761888470749,
7993
+ "grad_norm": 1.8044555187225342,
7994
+ "learning_rate": 1.885860263247891e-05,
7995
+ "loss": 1.3181,
7996
+ "step": 1141
7997
+ },
7998
+ {
7999
+ "epoch": 0.19534724598015737,
8000
+ "grad_norm": 2.2799766063690186,
8001
+ "learning_rate": 1.878142100614153e-05,
8002
+ "loss": 1.5249,
8003
+ "step": 1142
8004
+ },
8005
+ {
8006
+ "epoch": 0.1955183031132398,
8007
+ "grad_norm": 2.19240140914917,
8008
+ "learning_rate": 1.8704361102728047e-05,
8009
+ "loss": 1.6337,
8010
+ "step": 1143
8011
+ },
8012
+ {
8013
+ "epoch": 0.19568936024632227,
8014
+ "grad_norm": 1.7697051763534546,
8015
+ "learning_rate": 1.8627423222699182e-05,
8016
+ "loss": 1.1521,
8017
+ "step": 1144
8018
+ },
8019
+ {
8020
+ "epoch": 0.1958604173794047,
8021
+ "grad_norm": 2.0701982975006104,
8022
+ "learning_rate": 1.8550607666039876e-05,
8023
+ "loss": 1.1736,
8024
+ "step": 1145
8025
+ },
8026
+ {
8027
+ "epoch": 0.19603147451248717,
8028
+ "grad_norm": 2.2206737995147705,
8029
+ "learning_rate": 1.847391473225813e-05,
8030
+ "loss": 1.1745,
8031
+ "step": 1146
8032
+ },
8033
+ {
8034
+ "epoch": 0.1962025316455696,
8035
+ "grad_norm": 2.475080728530884,
8036
+ "learning_rate": 1.8397344720383837e-05,
8037
+ "loss": 1.4157,
8038
+ "step": 1147
8039
+ },
8040
+ {
8041
+ "epoch": 0.19637358877865208,
8042
+ "grad_norm": 2.672316074371338,
8043
+ "learning_rate": 1.8320897928967577e-05,
8044
+ "loss": 1.4707,
8045
+ "step": 1148
8046
+ },
8047
+ {
8048
+ "epoch": 0.1965446459117345,
8049
+ "grad_norm": 2.6906559467315674,
8050
+ "learning_rate": 1.8244574656079578e-05,
8051
+ "loss": 1.4775,
8052
+ "step": 1149
8053
+ },
8054
+ {
8055
+ "epoch": 0.19671570304481698,
8056
+ "grad_norm": 4.176140308380127,
8057
+ "learning_rate": 1.8168375199308325e-05,
8058
+ "loss": 2.0203,
8059
+ "step": 1150
8060
+ },
8061
+ {
8062
+ "epoch": 0.1968867601778994,
8063
+ "grad_norm": 0.5323451161384583,
8064
+ "learning_rate": 1.809229985575967e-05,
8065
+ "loss": 1.3286,
8066
+ "step": 1151
8067
+ },
8068
+ {
8069
+ "epoch": 0.19705781731098188,
8070
+ "grad_norm": 0.5143298506736755,
8071
+ "learning_rate": 1.801634892205545e-05,
8072
+ "loss": 1.2097,
8073
+ "step": 1152
8074
+ },
8075
+ {
8076
+ "epoch": 0.1972288744440643,
8077
+ "grad_norm": 0.543321967124939,
8078
+ "learning_rate": 1.794052269433244e-05,
8079
+ "loss": 1.2148,
8080
+ "step": 1153
8081
+ },
8082
+ {
8083
+ "epoch": 0.19739993157714678,
8084
+ "grad_norm": 0.5211328268051147,
8085
+ "learning_rate": 1.7864821468241243e-05,
8086
+ "loss": 1.2108,
8087
+ "step": 1154
8088
+ },
8089
+ {
8090
+ "epoch": 0.1975709887102292,
8091
+ "grad_norm": 0.5046496391296387,
8092
+ "learning_rate": 1.7789245538944972e-05,
8093
+ "loss": 1.1098,
8094
+ "step": 1155
8095
+ },
8096
+ {
8097
+ "epoch": 0.19774204584331168,
8098
+ "grad_norm": 0.5350122451782227,
8099
+ "learning_rate": 1.77137952011183e-05,
8100
+ "loss": 1.2301,
8101
+ "step": 1156
8102
+ },
8103
+ {
8104
+ "epoch": 0.1979131029763941,
8105
+ "grad_norm": 0.5448925495147705,
8106
+ "learning_rate": 1.7638470748946107e-05,
8107
+ "loss": 1.3313,
8108
+ "step": 1157
8109
+ },
8110
+ {
8111
+ "epoch": 0.19808416010947658,
8112
+ "grad_norm": 0.5379893779754639,
8113
+ "learning_rate": 1.756327247612255e-05,
8114
+ "loss": 1.2289,
8115
+ "step": 1158
8116
+ },
8117
+ {
8118
+ "epoch": 0.198255217242559,
8119
+ "grad_norm": 0.5303690433502197,
8120
+ "learning_rate": 1.748820067584973e-05,
8121
+ "loss": 1.1302,
8122
+ "step": 1159
8123
+ },
8124
+ {
8125
+ "epoch": 0.19842627437564148,
8126
+ "grad_norm": 0.5711317658424377,
8127
+ "learning_rate": 1.7413255640836652e-05,
8128
+ "loss": 1.3224,
8129
+ "step": 1160
8130
+ },
8131
+ {
8132
+ "epoch": 0.1985973315087239,
8133
+ "grad_norm": 0.5847582221031189,
8134
+ "learning_rate": 1.7338437663298044e-05,
8135
+ "loss": 1.3615,
8136
+ "step": 1161
8137
+ },
8138
+ {
8139
+ "epoch": 0.19876838864180638,
8140
+ "grad_norm": 0.5739108324050903,
8141
+ "learning_rate": 1.7263747034953242e-05,
8142
+ "loss": 1.359,
8143
+ "step": 1162
8144
+ },
8145
+ {
8146
+ "epoch": 0.1989394457748888,
8147
+ "grad_norm": 0.615225076675415,
8148
+ "learning_rate": 1.718918404702504e-05,
8149
+ "loss": 1.3037,
8150
+ "step": 1163
8151
+ },
8152
+ {
8153
+ "epoch": 0.19911050290797128,
8154
+ "grad_norm": 0.569936215877533,
8155
+ "learning_rate": 1.7114748990238543e-05,
8156
+ "loss": 1.3948,
8157
+ "step": 1164
8158
+ },
8159
+ {
8160
+ "epoch": 0.1992815600410537,
8161
+ "grad_norm": 0.620499312877655,
8162
+ "learning_rate": 1.7040442154820037e-05,
8163
+ "loss": 1.4661,
8164
+ "step": 1165
8165
+ },
8166
+ {
8167
+ "epoch": 0.19945261717413615,
8168
+ "grad_norm": 0.6095662713050842,
8169
+ "learning_rate": 1.6966263830495936e-05,
8170
+ "loss": 1.3705,
8171
+ "step": 1166
8172
+ },
8173
+ {
8174
+ "epoch": 0.1996236743072186,
8175
+ "grad_norm": 0.6132876873016357,
8176
+ "learning_rate": 1.6892214306491468e-05,
8177
+ "loss": 1.3012,
8178
+ "step": 1167
8179
+ },
8180
+ {
8181
+ "epoch": 0.19979473144030105,
8182
+ "grad_norm": 0.6166319847106934,
8183
+ "learning_rate": 1.6818293871529772e-05,
8184
+ "loss": 1.2791,
8185
+ "step": 1168
8186
+ },
8187
+ {
8188
+ "epoch": 0.1999657885733835,
8189
+ "grad_norm": 0.6385096311569214,
8190
+ "learning_rate": 1.6744502813830564e-05,
8191
+ "loss": 1.1081,
8192
+ "step": 1169
8193
+ },
8194
+ {
8195
+ "epoch": 0.20013684570646595,
8196
+ "grad_norm": 0.6585813164710999,
8197
+ "learning_rate": 1.66708414211092e-05,
8198
+ "loss": 1.3367,
8199
+ "step": 1170
8200
+ },
8201
+ {
8202
+ "epoch": 0.2003079028395484,
8203
+ "grad_norm": 0.6779057383537292,
8204
+ "learning_rate": 1.659730998057541e-05,
8205
+ "loss": 1.1752,
8206
+ "step": 1171
8207
+ },
8208
+ {
8209
+ "epoch": 0.20047895997263085,
8210
+ "grad_norm": 0.6424527764320374,
8211
+ "learning_rate": 1.6523908778932245e-05,
8212
+ "loss": 1.1954,
8213
+ "step": 1172
8214
+ },
8215
+ {
8216
+ "epoch": 0.2006500171057133,
8217
+ "grad_norm": 0.7097743153572083,
8218
+ "learning_rate": 1.6450638102374972e-05,
8219
+ "loss": 1.196,
8220
+ "step": 1173
8221
+ },
8222
+ {
8223
+ "epoch": 0.20082107423879575,
8224
+ "grad_norm": 0.6838304996490479,
8225
+ "learning_rate": 1.6377498236589856e-05,
8226
+ "loss": 1.1732,
8227
+ "step": 1174
8228
+ },
8229
+ {
8230
+ "epoch": 0.2009921313718782,
8231
+ "grad_norm": 0.774002194404602,
8232
+ "learning_rate": 1.6304489466753236e-05,
8233
+ "loss": 1.1021,
8234
+ "step": 1175
8235
+ },
8236
+ {
8237
+ "epoch": 0.20116318850496065,
8238
+ "grad_norm": 0.7578701972961426,
8239
+ "learning_rate": 1.623161207753023e-05,
8240
+ "loss": 1.114,
8241
+ "step": 1176
8242
+ },
8243
+ {
8244
+ "epoch": 0.2013342456380431,
8245
+ "grad_norm": 0.7900825142860413,
8246
+ "learning_rate": 1.6158866353073703e-05,
8247
+ "loss": 1.1419,
8248
+ "step": 1177
8249
+ },
8250
+ {
8251
+ "epoch": 0.20150530277112555,
8252
+ "grad_norm": 0.8154890537261963,
8253
+ "learning_rate": 1.6086252577023165e-05,
8254
+ "loss": 1.0797,
8255
+ "step": 1178
8256
+ },
8257
+ {
8258
+ "epoch": 0.201676359904208,
8259
+ "grad_norm": 0.8612083196640015,
8260
+ "learning_rate": 1.6013771032503642e-05,
8261
+ "loss": 1.1258,
8262
+ "step": 1179
8263
+ },
8264
+ {
8265
+ "epoch": 0.20184741703729045,
8266
+ "grad_norm": 0.9238095879554749,
8267
+ "learning_rate": 1.5941422002124596e-05,
8268
+ "loss": 1.0973,
8269
+ "step": 1180
8270
+ },
8271
+ {
8272
+ "epoch": 0.2020184741703729,
8273
+ "grad_norm": 0.8815112113952637,
8274
+ "learning_rate": 1.586920576797879e-05,
8275
+ "loss": 1.1965,
8276
+ "step": 1181
8277
+ },
8278
+ {
8279
+ "epoch": 0.20218953130345535,
8280
+ "grad_norm": 0.93575119972229,
8281
+ "learning_rate": 1.5797122611641222e-05,
8282
+ "loss": 1.2994,
8283
+ "step": 1182
8284
+ },
8285
+ {
8286
+ "epoch": 0.2023605884365378,
8287
+ "grad_norm": 0.9842674732208252,
8288
+ "learning_rate": 1.572517281416801e-05,
8289
+ "loss": 1.441,
8290
+ "step": 1183
8291
+ },
8292
+ {
8293
+ "epoch": 0.20253164556962025,
8294
+ "grad_norm": 0.9615129232406616,
8295
+ "learning_rate": 1.5653356656095276e-05,
8296
+ "loss": 1.1581,
8297
+ "step": 1184
8298
+ },
8299
+ {
8300
+ "epoch": 0.20270270270270271,
8301
+ "grad_norm": 0.9850116968154907,
8302
+ "learning_rate": 1.558167441743814e-05,
8303
+ "loss": 1.1813,
8304
+ "step": 1185
8305
+ },
8306
+ {
8307
+ "epoch": 0.20287375983578515,
8308
+ "grad_norm": 1.164113998413086,
8309
+ "learning_rate": 1.5510126377689467e-05,
8310
+ "loss": 1.3432,
8311
+ "step": 1186
8312
+ },
8313
+ {
8314
+ "epoch": 0.20304481696886761,
8315
+ "grad_norm": 1.2685987949371338,
8316
+ "learning_rate": 1.5438712815818975e-05,
8317
+ "loss": 1.1601,
8318
+ "step": 1187
8319
+ },
8320
+ {
8321
+ "epoch": 0.20321587410195005,
8322
+ "grad_norm": 1.0663849115371704,
8323
+ "learning_rate": 1.5367434010271936e-05,
8324
+ "loss": 1.0746,
8325
+ "step": 1188
8326
+ },
8327
+ {
8328
+ "epoch": 0.20338693123503251,
8329
+ "grad_norm": 1.3609206676483154,
8330
+ "learning_rate": 1.5296290238968303e-05,
8331
+ "loss": 1.1224,
8332
+ "step": 1189
8333
+ },
8334
+ {
8335
+ "epoch": 0.20355798836811495,
8336
+ "grad_norm": 1.2203283309936523,
8337
+ "learning_rate": 1.5225281779301475e-05,
8338
+ "loss": 1.138,
8339
+ "step": 1190
8340
+ },
8341
+ {
8342
+ "epoch": 0.2037290455011974,
8343
+ "grad_norm": 1.4130033254623413,
8344
+ "learning_rate": 1.5154408908137252e-05,
8345
+ "loss": 1.3855,
8346
+ "step": 1191
8347
+ },
8348
+ {
8349
+ "epoch": 0.20390010263427985,
8350
+ "grad_norm": 1.561368465423584,
8351
+ "learning_rate": 1.5083671901812796e-05,
8352
+ "loss": 1.3283,
8353
+ "step": 1192
8354
+ },
8355
+ {
8356
+ "epoch": 0.2040711597673623,
8357
+ "grad_norm": 1.6972764730453491,
8358
+ "learning_rate": 1.50130710361355e-05,
8359
+ "loss": 1.403,
8360
+ "step": 1193
8361
+ },
8362
+ {
8363
+ "epoch": 0.20424221690044475,
8364
+ "grad_norm": 1.7497429847717285,
8365
+ "learning_rate": 1.4942606586381957e-05,
8366
+ "loss": 1.432,
8367
+ "step": 1194
8368
+ },
8369
+ {
8370
+ "epoch": 0.2044132740335272,
8371
+ "grad_norm": 2.139078378677368,
8372
+ "learning_rate": 1.4872278827296854e-05,
8373
+ "loss": 1.13,
8374
+ "step": 1195
8375
+ },
8376
+ {
8377
+ "epoch": 0.20458433116660965,
8378
+ "grad_norm": 2.1031577587127686,
8379
+ "learning_rate": 1.4802088033091921e-05,
8380
+ "loss": 1.2499,
8381
+ "step": 1196
8382
+ },
8383
+ {
8384
+ "epoch": 0.2047553882996921,
8385
+ "grad_norm": 2.3110170364379883,
8386
+ "learning_rate": 1.4732034477444844e-05,
8387
+ "loss": 1.3927,
8388
+ "step": 1197
8389
  }
8390
  ],
8391
  "logging_steps": 1,
 
8405
  "attributes": {}
8406
  }
8407
  },
8408
+ "total_flos": 1.5196889970376704e+18,
8409
  "train_batch_size": 4,
8410
  "trial_name": null,
8411
  "trial_params": null