LuigiJoseph commited on
Commit
4c365ac
·
verified ·
1 Parent(s): 152ec27

Upload folder using huggingface_hub

Browse files
This view is limited to 50 files because it contains too many changes.   See raw diff
Files changed (50) hide show
  1. .gitattributes +14 -0
  2. checkpoint-11948/config.json +41 -0
  3. checkpoint-11948/generation_config.json +16 -0
  4. checkpoint-11948/model.safetensors +3 -0
  5. checkpoint-11948/optimizer.pt +3 -0
  6. checkpoint-11948/rng_state.pth +3 -0
  7. checkpoint-11948/scaler.pt +3 -0
  8. checkpoint-11948/scheduler.pt +3 -0
  9. checkpoint-11948/source.spm +3 -0
  10. checkpoint-11948/special_tokens_map.json +23 -0
  11. checkpoint-11948/target.spm +3 -0
  12. checkpoint-11948/tokenizer_config.json +40 -0
  13. checkpoint-11948/trainer_state.json +1731 -0
  14. checkpoint-11948/training_args.bin +3 -0
  15. checkpoint-11948/vocab.json +0 -0
  16. checkpoint-14935/config.json +41 -0
  17. checkpoint-14935/generation_config.json +16 -0
  18. checkpoint-14935/model.safetensors +3 -0
  19. checkpoint-14935/optimizer.pt +3 -0
  20. checkpoint-14935/rng_state.pth +3 -0
  21. checkpoint-14935/scaler.pt +3 -0
  22. checkpoint-14935/scheduler.pt +3 -0
  23. checkpoint-14935/source.spm +3 -0
  24. checkpoint-14935/special_tokens_map.json +23 -0
  25. checkpoint-14935/target.spm +3 -0
  26. checkpoint-14935/tokenizer_config.json +40 -0
  27. checkpoint-14935/trainer_state.json +2159 -0
  28. checkpoint-14935/training_args.bin +3 -0
  29. checkpoint-14935/vocab.json +0 -0
  30. checkpoint-17922/config.json +41 -0
  31. checkpoint-17922/generation_config.json +16 -0
  32. checkpoint-17922/model.safetensors +3 -0
  33. checkpoint-17922/optimizer.pt +3 -0
  34. checkpoint-17922/rng_state.pth +3 -0
  35. checkpoint-17922/scaler.pt +3 -0
  36. checkpoint-17922/scheduler.pt +3 -0
  37. checkpoint-17922/source.spm +3 -0
  38. checkpoint-17922/special_tokens_map.json +23 -0
  39. checkpoint-17922/target.spm +3 -0
  40. checkpoint-17922/tokenizer_config.json +40 -0
  41. checkpoint-17922/trainer_state.json +2587 -0
  42. checkpoint-17922/training_args.bin +3 -0
  43. checkpoint-17922/vocab.json +0 -0
  44. checkpoint-2987/config.json +41 -0
  45. checkpoint-2987/generation_config.json +16 -0
  46. checkpoint-2987/model.safetensors +3 -0
  47. checkpoint-2987/optimizer.pt +3 -0
  48. checkpoint-2987/rng_state.pth +3 -0
  49. checkpoint-2987/scaler.pt +3 -0
  50. checkpoint-2987/scheduler.pt +3 -0
.gitattributes CHANGED
@@ -33,3 +33,17 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ checkpoint-11948/source.spm filter=lfs diff=lfs merge=lfs -text
37
+ checkpoint-11948/target.spm filter=lfs diff=lfs merge=lfs -text
38
+ checkpoint-14935/source.spm filter=lfs diff=lfs merge=lfs -text
39
+ checkpoint-14935/target.spm filter=lfs diff=lfs merge=lfs -text
40
+ checkpoint-17922/source.spm filter=lfs diff=lfs merge=lfs -text
41
+ checkpoint-17922/target.spm filter=lfs diff=lfs merge=lfs -text
42
+ checkpoint-2987/source.spm filter=lfs diff=lfs merge=lfs -text
43
+ checkpoint-2987/target.spm filter=lfs diff=lfs merge=lfs -text
44
+ checkpoint-5974/source.spm filter=lfs diff=lfs merge=lfs -text
45
+ checkpoint-5974/target.spm filter=lfs diff=lfs merge=lfs -text
46
+ checkpoint-8961/source.spm filter=lfs diff=lfs merge=lfs -text
47
+ checkpoint-8961/target.spm filter=lfs diff=lfs merge=lfs -text
48
+ source.spm filter=lfs diff=lfs merge=lfs -text
49
+ target.spm filter=lfs diff=lfs merge=lfs -text
checkpoint-11948/config.json ADDED
@@ -0,0 +1,41 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "ckartal/english-to-turkish-finetuned-model",
3
+ "activation_dropout": 0.0,
4
+ "activation_function": "swish",
5
+ "architectures": [
6
+ "MarianMTModel"
7
+ ],
8
+ "attention_dropout": 0.0,
9
+ "bos_token_id": 0,
10
+ "classifier_dropout": 0.0,
11
+ "d_model": 512,
12
+ "decoder_attention_heads": 8,
13
+ "decoder_ffn_dim": 2048,
14
+ "decoder_layerdrop": 0.0,
15
+ "decoder_layers": 6,
16
+ "decoder_start_token_id": 59993,
17
+ "decoder_vocab_size": 59994,
18
+ "dropout": 0.1,
19
+ "encoder_attention_heads": 8,
20
+ "encoder_ffn_dim": 2048,
21
+ "encoder_layerdrop": 0.0,
22
+ "encoder_layers": 6,
23
+ "eos_token_id": 0,
24
+ "forced_eos_token_id": 0,
25
+ "init_std": 0.02,
26
+ "is_encoder_decoder": true,
27
+ "max_length": null,
28
+ "max_position_embeddings": 512,
29
+ "model_type": "marian",
30
+ "normalize_embedding": false,
31
+ "num_beams": null,
32
+ "num_hidden_layers": 6,
33
+ "pad_token_id": 59993,
34
+ "scale_embedding": true,
35
+ "share_encoder_decoder_embeddings": true,
36
+ "static_position_embeddings": true,
37
+ "torch_dtype": "float32",
38
+ "transformers_version": "4.49.0",
39
+ "use_cache": true,
40
+ "vocab_size": 59994
41
+ }
checkpoint-11948/generation_config.json ADDED
@@ -0,0 +1,16 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bad_words_ids": [
3
+ [
4
+ 59993
5
+ ]
6
+ ],
7
+ "bos_token_id": 0,
8
+ "decoder_start_token_id": 59993,
9
+ "eos_token_id": 0,
10
+ "forced_eos_token_id": 0,
11
+ "max_length": 512,
12
+ "num_beams": 6,
13
+ "pad_token_id": 59993,
14
+ "renormalize_logits": true,
15
+ "transformers_version": "4.49.0"
16
+ }
checkpoint-11948/model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:51d1dd137adffe19c3b054ce6fde4add2d4588c755def2d90103ef25413d9ff3
3
+ size 299690728
checkpoint-11948/optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9fae7f2689749c5d7511fbc91404d7932e246d3bcacbb83d035467ed24c5573f
3
+ size 599054970
checkpoint-11948/rng_state.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e98dff2b36b15ed0da9adbed2868493be995c81afcb89ad8f263069c503c6599
3
+ size 14244
checkpoint-11948/scaler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5f824a254b9714a4704b979751121752508a64954c9977c2312faa340ea20ba0
3
+ size 988
checkpoint-11948/scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:de83e7c49986c79a6b5bc283e32a2889ea6bca6ea6f90dbe4cbd62bdef7dcccd
3
+ size 1064
checkpoint-11948/source.spm ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:98eb24f0995a9d5f7cb0fb628c474628b1d2284615e881e857d062c0b651ce10
3
+ size 793920
checkpoint-11948/special_tokens_map.json ADDED
@@ -0,0 +1,23 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "eos_token": {
3
+ "content": "</s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "pad_token": {
10
+ "content": "<pad>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "unk_token": {
17
+ "content": "<unk>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ }
23
+ }
checkpoint-11948/target.spm ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:45cc6000ed513cdca8f80739087fbcbf9933dc50c9ae36c319c9670882f72e1b
3
+ size 837876
checkpoint-11948/tokenizer_config.json ADDED
@@ -0,0 +1,40 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "</s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<unk>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "59993": {
20
+ "content": "<pad>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ }
27
+ },
28
+ "clean_up_tokenization_spaces": true,
29
+ "eos_token": "</s>",
30
+ "extra_special_tokens": {},
31
+ "model_max_length": 512,
32
+ "pad_token": "<pad>",
33
+ "return_tensors": "pt",
34
+ "separate_vocabs": false,
35
+ "source_lang": "eng",
36
+ "sp_model_kwargs": {},
37
+ "target_lang": "tur",
38
+ "tokenizer_class": "MarianTokenizer",
39
+ "unk_token": "<unk>"
40
+ }
checkpoint-11948/trainer_state.json ADDED
@@ -0,0 +1,1731 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": null,
3
+ "best_model_checkpoint": null,
4
+ "epoch": 4.0,
5
+ "eval_steps": 500,
6
+ "global_step": 11948,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.016739203213927016,
13
+ "grad_norm": 0.439177542924881,
14
+ "learning_rate": 4.987445597589555e-05,
15
+ "loss": 1.5222,
16
+ "step": 50
17
+ },
18
+ {
19
+ "epoch": 0.03347840642785403,
20
+ "grad_norm": 0.4248828887939453,
21
+ "learning_rate": 4.973496261577949e-05,
22
+ "loss": 0.1842,
23
+ "step": 100
24
+ },
25
+ {
26
+ "epoch": 0.05021760964178105,
27
+ "grad_norm": 0.3019009232521057,
28
+ "learning_rate": 4.9595469255663436e-05,
29
+ "loss": 0.1471,
30
+ "step": 150
31
+ },
32
+ {
33
+ "epoch": 0.06695681285570806,
34
+ "grad_norm": 0.2518245577812195,
35
+ "learning_rate": 4.9455975895547376e-05,
36
+ "loss": 0.1306,
37
+ "step": 200
38
+ },
39
+ {
40
+ "epoch": 0.08369601606963509,
41
+ "grad_norm": 0.3660012185573578,
42
+ "learning_rate": 4.931648253543131e-05,
43
+ "loss": 0.1276,
44
+ "step": 250
45
+ },
46
+ {
47
+ "epoch": 0.1004352192835621,
48
+ "grad_norm": 0.32854148745536804,
49
+ "learning_rate": 4.917698917531526e-05,
50
+ "loss": 0.1048,
51
+ "step": 300
52
+ },
53
+ {
54
+ "epoch": 0.11717442249748912,
55
+ "grad_norm": 0.24879515171051025,
56
+ "learning_rate": 4.90374958151992e-05,
57
+ "loss": 0.1054,
58
+ "step": 350
59
+ },
60
+ {
61
+ "epoch": 0.13391362571141613,
62
+ "grad_norm": 0.36416563391685486,
63
+ "learning_rate": 4.889800245508314e-05,
64
+ "loss": 0.0985,
65
+ "step": 400
66
+ },
67
+ {
68
+ "epoch": 0.15065282892534315,
69
+ "grad_norm": 0.33641186356544495,
70
+ "learning_rate": 4.875850909496708e-05,
71
+ "loss": 0.1044,
72
+ "step": 450
73
+ },
74
+ {
75
+ "epoch": 0.16739203213927017,
76
+ "grad_norm": 0.32909244298934937,
77
+ "learning_rate": 4.861901573485103e-05,
78
+ "loss": 0.1089,
79
+ "step": 500
80
+ },
81
+ {
82
+ "epoch": 0.1841312353531972,
83
+ "grad_norm": 0.36060285568237305,
84
+ "learning_rate": 4.847952237473497e-05,
85
+ "loss": 0.09,
86
+ "step": 550
87
+ },
88
+ {
89
+ "epoch": 0.2008704385671242,
90
+ "grad_norm": 0.2510785758495331,
91
+ "learning_rate": 4.83400290146189e-05,
92
+ "loss": 0.0884,
93
+ "step": 600
94
+ },
95
+ {
96
+ "epoch": 0.21760964178105122,
97
+ "grad_norm": 0.22478719055652618,
98
+ "learning_rate": 4.820053565450285e-05,
99
+ "loss": 0.0866,
100
+ "step": 650
101
+ },
102
+ {
103
+ "epoch": 0.23434884499497824,
104
+ "grad_norm": 0.37321263551712036,
105
+ "learning_rate": 4.806104229438679e-05,
106
+ "loss": 0.0884,
107
+ "step": 700
108
+ },
109
+ {
110
+ "epoch": 0.25108804820890523,
111
+ "grad_norm": 0.2660929262638092,
112
+ "learning_rate": 4.792154893427073e-05,
113
+ "loss": 0.0819,
114
+ "step": 750
115
+ },
116
+ {
117
+ "epoch": 0.26782725142283226,
118
+ "grad_norm": 0.2338525801897049,
119
+ "learning_rate": 4.778205557415467e-05,
120
+ "loss": 0.0845,
121
+ "step": 800
122
+ },
123
+ {
124
+ "epoch": 0.2845664546367593,
125
+ "grad_norm": 0.308557391166687,
126
+ "learning_rate": 4.764256221403862e-05,
127
+ "loss": 0.0815,
128
+ "step": 850
129
+ },
130
+ {
131
+ "epoch": 0.3013056578506863,
132
+ "grad_norm": 0.27098262310028076,
133
+ "learning_rate": 4.750306885392255e-05,
134
+ "loss": 0.0833,
135
+ "step": 900
136
+ },
137
+ {
138
+ "epoch": 0.3180448610646133,
139
+ "grad_norm": 0.23054952919483185,
140
+ "learning_rate": 4.736357549380649e-05,
141
+ "loss": 0.0806,
142
+ "step": 950
143
+ },
144
+ {
145
+ "epoch": 0.33478406427854035,
146
+ "grad_norm": 0.21355900168418884,
147
+ "learning_rate": 4.722408213369044e-05,
148
+ "loss": 0.073,
149
+ "step": 1000
150
+ },
151
+ {
152
+ "epoch": 0.3515232674924674,
153
+ "grad_norm": 0.20395708084106445,
154
+ "learning_rate": 4.708458877357438e-05,
155
+ "loss": 0.0775,
156
+ "step": 1050
157
+ },
158
+ {
159
+ "epoch": 0.3682624707063944,
160
+ "grad_norm": 0.21063613891601562,
161
+ "learning_rate": 4.694509541345832e-05,
162
+ "loss": 0.0789,
163
+ "step": 1100
164
+ },
165
+ {
166
+ "epoch": 0.3850016739203214,
167
+ "grad_norm": 0.20589284598827362,
168
+ "learning_rate": 4.680560205334226e-05,
169
+ "loss": 0.0809,
170
+ "step": 1150
171
+ },
172
+ {
173
+ "epoch": 0.4017408771342484,
174
+ "grad_norm": 0.27975228428840637,
175
+ "learning_rate": 4.666610869322621e-05,
176
+ "loss": 0.078,
177
+ "step": 1200
178
+ },
179
+ {
180
+ "epoch": 0.4184800803481754,
181
+ "grad_norm": 0.2529745399951935,
182
+ "learning_rate": 4.6526615333110144e-05,
183
+ "loss": 0.0704,
184
+ "step": 1250
185
+ },
186
+ {
187
+ "epoch": 0.43521928356210243,
188
+ "grad_norm": 0.2205154448747635,
189
+ "learning_rate": 4.6387121972994084e-05,
190
+ "loss": 0.0733,
191
+ "step": 1300
192
+ },
193
+ {
194
+ "epoch": 0.45195848677602946,
195
+ "grad_norm": 0.2254629135131836,
196
+ "learning_rate": 4.624762861287803e-05,
197
+ "loss": 0.0751,
198
+ "step": 1350
199
+ },
200
+ {
201
+ "epoch": 0.4686976899899565,
202
+ "grad_norm": 0.17614957690238953,
203
+ "learning_rate": 4.610813525276197e-05,
204
+ "loss": 0.0747,
205
+ "step": 1400
206
+ },
207
+ {
208
+ "epoch": 0.4854368932038835,
209
+ "grad_norm": 0.15940478444099426,
210
+ "learning_rate": 4.596864189264591e-05,
211
+ "loss": 0.0698,
212
+ "step": 1450
213
+ },
214
+ {
215
+ "epoch": 0.5021760964178105,
216
+ "grad_norm": 0.1869521141052246,
217
+ "learning_rate": 4.5829148532529854e-05,
218
+ "loss": 0.0721,
219
+ "step": 1500
220
+ },
221
+ {
222
+ "epoch": 0.5189152996317375,
223
+ "grad_norm": 0.36063650250434875,
224
+ "learning_rate": 4.5689655172413794e-05,
225
+ "loss": 0.0706,
226
+ "step": 1550
227
+ },
228
+ {
229
+ "epoch": 0.5356545028456645,
230
+ "grad_norm": 0.16967014968395233,
231
+ "learning_rate": 4.5550161812297735e-05,
232
+ "loss": 0.0759,
233
+ "step": 1600
234
+ },
235
+ {
236
+ "epoch": 0.5523937060595916,
237
+ "grad_norm": 0.29293423891067505,
238
+ "learning_rate": 4.5410668452181676e-05,
239
+ "loss": 0.0711,
240
+ "step": 1650
241
+ },
242
+ {
243
+ "epoch": 0.5691329092735186,
244
+ "grad_norm": 0.3034748136997223,
245
+ "learning_rate": 4.527117509206562e-05,
246
+ "loss": 0.067,
247
+ "step": 1700
248
+ },
249
+ {
250
+ "epoch": 0.5858721124874456,
251
+ "grad_norm": 0.1974593997001648,
252
+ "learning_rate": 4.513168173194956e-05,
253
+ "loss": 0.0701,
254
+ "step": 1750
255
+ },
256
+ {
257
+ "epoch": 0.6026113157013726,
258
+ "grad_norm": 0.18101799488067627,
259
+ "learning_rate": 4.4992188371833505e-05,
260
+ "loss": 0.0717,
261
+ "step": 1800
262
+ },
263
+ {
264
+ "epoch": 0.6193505189152997,
265
+ "grad_norm": 0.14422941207885742,
266
+ "learning_rate": 4.4852695011717445e-05,
267
+ "loss": 0.0686,
268
+ "step": 1850
269
+ },
270
+ {
271
+ "epoch": 0.6360897221292267,
272
+ "grad_norm": 0.28663551807403564,
273
+ "learning_rate": 4.4713201651601386e-05,
274
+ "loss": 0.0646,
275
+ "step": 1900
276
+ },
277
+ {
278
+ "epoch": 0.6528289253431536,
279
+ "grad_norm": 0.23879379034042358,
280
+ "learning_rate": 4.4573708291485327e-05,
281
+ "loss": 0.0684,
282
+ "step": 1950
283
+ },
284
+ {
285
+ "epoch": 0.6695681285570807,
286
+ "grad_norm": 0.21389362215995789,
287
+ "learning_rate": 4.443421493136927e-05,
288
+ "loss": 0.066,
289
+ "step": 2000
290
+ },
291
+ {
292
+ "epoch": 0.6863073317710077,
293
+ "grad_norm": 0.26841893792152405,
294
+ "learning_rate": 4.4294721571253215e-05,
295
+ "loss": 0.0717,
296
+ "step": 2050
297
+ },
298
+ {
299
+ "epoch": 0.7030465349849347,
300
+ "grad_norm": 0.240205317735672,
301
+ "learning_rate": 4.415522821113715e-05,
302
+ "loss": 0.0697,
303
+ "step": 2100
304
+ },
305
+ {
306
+ "epoch": 0.7197857381988617,
307
+ "grad_norm": 0.28098127245903015,
308
+ "learning_rate": 4.4015734851021096e-05,
309
+ "loss": 0.0713,
310
+ "step": 2150
311
+ },
312
+ {
313
+ "epoch": 0.7365249414127888,
314
+ "grad_norm": 0.23308847844600677,
315
+ "learning_rate": 4.3876241490905037e-05,
316
+ "loss": 0.0667,
317
+ "step": 2200
318
+ },
319
+ {
320
+ "epoch": 0.7532641446267158,
321
+ "grad_norm": 0.22748568654060364,
322
+ "learning_rate": 4.373674813078898e-05,
323
+ "loss": 0.0605,
324
+ "step": 2250
325
+ },
326
+ {
327
+ "epoch": 0.7700033478406428,
328
+ "grad_norm": 0.3932187259197235,
329
+ "learning_rate": 4.359725477067292e-05,
330
+ "loss": 0.0676,
331
+ "step": 2300
332
+ },
333
+ {
334
+ "epoch": 0.7867425510545698,
335
+ "grad_norm": 0.23918767273426056,
336
+ "learning_rate": 4.345776141055686e-05,
337
+ "loss": 0.0624,
338
+ "step": 2350
339
+ },
340
+ {
341
+ "epoch": 0.8034817542684968,
342
+ "grad_norm": 0.3068426549434662,
343
+ "learning_rate": 4.33182680504408e-05,
344
+ "loss": 0.0664,
345
+ "step": 2400
346
+ },
347
+ {
348
+ "epoch": 0.8202209574824239,
349
+ "grad_norm": 0.17977873980998993,
350
+ "learning_rate": 4.317877469032474e-05,
351
+ "loss": 0.0726,
352
+ "step": 2450
353
+ },
354
+ {
355
+ "epoch": 0.8369601606963508,
356
+ "grad_norm": 0.16876642405986786,
357
+ "learning_rate": 4.303928133020869e-05,
358
+ "loss": 0.0639,
359
+ "step": 2500
360
+ },
361
+ {
362
+ "epoch": 0.8536993639102779,
363
+ "grad_norm": 0.17980250716209412,
364
+ "learning_rate": 4.289978797009263e-05,
365
+ "loss": 0.0701,
366
+ "step": 2550
367
+ },
368
+ {
369
+ "epoch": 0.8704385671242049,
370
+ "grad_norm": 0.1711459904909134,
371
+ "learning_rate": 4.276029460997656e-05,
372
+ "loss": 0.063,
373
+ "step": 2600
374
+ },
375
+ {
376
+ "epoch": 0.8871777703381319,
377
+ "grad_norm": 0.443228542804718,
378
+ "learning_rate": 4.262080124986051e-05,
379
+ "loss": 0.0675,
380
+ "step": 2650
381
+ },
382
+ {
383
+ "epoch": 0.9039169735520589,
384
+ "grad_norm": 0.2098589390516281,
385
+ "learning_rate": 4.248130788974445e-05,
386
+ "loss": 0.062,
387
+ "step": 2700
388
+ },
389
+ {
390
+ "epoch": 0.920656176765986,
391
+ "grad_norm": 0.3022039234638214,
392
+ "learning_rate": 4.234181452962839e-05,
393
+ "loss": 0.07,
394
+ "step": 2750
395
+ },
396
+ {
397
+ "epoch": 0.937395379979913,
398
+ "grad_norm": 0.19368910789489746,
399
+ "learning_rate": 4.220232116951233e-05,
400
+ "loss": 0.0621,
401
+ "step": 2800
402
+ },
403
+ {
404
+ "epoch": 0.9541345831938399,
405
+ "grad_norm": 0.18753108382225037,
406
+ "learning_rate": 4.206282780939628e-05,
407
+ "loss": 0.0631,
408
+ "step": 2850
409
+ },
410
+ {
411
+ "epoch": 0.970873786407767,
412
+ "grad_norm": 0.15517786145210266,
413
+ "learning_rate": 4.192333444928022e-05,
414
+ "loss": 0.0641,
415
+ "step": 2900
416
+ },
417
+ {
418
+ "epoch": 0.987612989621694,
419
+ "grad_norm": 0.11765792220830917,
420
+ "learning_rate": 4.178384108916415e-05,
421
+ "loss": 0.0612,
422
+ "step": 2950
423
+ },
424
+ {
425
+ "epoch": 1.0,
426
+ "eval_loss": 0.05521286651492119,
427
+ "eval_runtime": 50.415,
428
+ "eval_samples_per_second": 236.993,
429
+ "eval_steps_per_second": 14.817,
430
+ "step": 2987
431
+ },
432
+ {
433
+ "epoch": 1.004352192835621,
434
+ "grad_norm": 0.2691793739795685,
435
+ "learning_rate": 4.16443477290481e-05,
436
+ "loss": 0.059,
437
+ "step": 3000
438
+ },
439
+ {
440
+ "epoch": 1.021091396049548,
441
+ "grad_norm": 0.394694060087204,
442
+ "learning_rate": 4.150485436893204e-05,
443
+ "loss": 0.0566,
444
+ "step": 3050
445
+ },
446
+ {
447
+ "epoch": 1.037830599263475,
448
+ "grad_norm": 0.19438503682613373,
449
+ "learning_rate": 4.136536100881598e-05,
450
+ "loss": 0.0591,
451
+ "step": 3100
452
+ },
453
+ {
454
+ "epoch": 1.0545698024774022,
455
+ "grad_norm": 0.21350933611392975,
456
+ "learning_rate": 4.122586764869992e-05,
457
+ "loss": 0.0509,
458
+ "step": 3150
459
+ },
460
+ {
461
+ "epoch": 1.071309005691329,
462
+ "grad_norm": 0.26747575402259827,
463
+ "learning_rate": 4.108637428858387e-05,
464
+ "loss": 0.0589,
465
+ "step": 3200
466
+ },
467
+ {
468
+ "epoch": 1.088048208905256,
469
+ "grad_norm": 0.31256961822509766,
470
+ "learning_rate": 4.0946880928467804e-05,
471
+ "loss": 0.0602,
472
+ "step": 3250
473
+ },
474
+ {
475
+ "epoch": 1.1047874121191832,
476
+ "grad_norm": 0.18631280958652496,
477
+ "learning_rate": 4.0807387568351745e-05,
478
+ "loss": 0.0547,
479
+ "step": 3300
480
+ },
481
+ {
482
+ "epoch": 1.12152661533311,
483
+ "grad_norm": 0.18677473068237305,
484
+ "learning_rate": 4.066789420823569e-05,
485
+ "loss": 0.0543,
486
+ "step": 3350
487
+ },
488
+ {
489
+ "epoch": 1.1382658185470371,
490
+ "grad_norm": 0.24535444378852844,
491
+ "learning_rate": 4.052840084811963e-05,
492
+ "loss": 0.0583,
493
+ "step": 3400
494
+ },
495
+ {
496
+ "epoch": 1.1550050217609642,
497
+ "grad_norm": 0.1752105951309204,
498
+ "learning_rate": 4.038890748800357e-05,
499
+ "loss": 0.0504,
500
+ "step": 3450
501
+ },
502
+ {
503
+ "epoch": 1.1717442249748913,
504
+ "grad_norm": 0.14743360877037048,
505
+ "learning_rate": 4.0249414127887514e-05,
506
+ "loss": 0.055,
507
+ "step": 3500
508
+ },
509
+ {
510
+ "epoch": 1.1884834281888181,
511
+ "grad_norm": 0.11535945534706116,
512
+ "learning_rate": 4.010992076777146e-05,
513
+ "loss": 0.0552,
514
+ "step": 3550
515
+ },
516
+ {
517
+ "epoch": 1.2052226314027452,
518
+ "grad_norm": 0.26563358306884766,
519
+ "learning_rate": 3.9970427407655395e-05,
520
+ "loss": 0.0552,
521
+ "step": 3600
522
+ },
523
+ {
524
+ "epoch": 1.2219618346166723,
525
+ "grad_norm": 0.15104246139526367,
526
+ "learning_rate": 3.9830934047539336e-05,
527
+ "loss": 0.0575,
528
+ "step": 3650
529
+ },
530
+ {
531
+ "epoch": 1.2387010378305994,
532
+ "grad_norm": 0.2198421210050583,
533
+ "learning_rate": 3.9691440687423283e-05,
534
+ "loss": 0.0567,
535
+ "step": 3700
536
+ },
537
+ {
538
+ "epoch": 1.2554402410445262,
539
+ "grad_norm": 0.20177733898162842,
540
+ "learning_rate": 3.955194732730722e-05,
541
+ "loss": 0.0556,
542
+ "step": 3750
543
+ },
544
+ {
545
+ "epoch": 1.2721794442584533,
546
+ "grad_norm": 0.36604830622673035,
547
+ "learning_rate": 3.9412453967191165e-05,
548
+ "loss": 0.0569,
549
+ "step": 3800
550
+ },
551
+ {
552
+ "epoch": 1.2889186474723804,
553
+ "grad_norm": 0.18883727490901947,
554
+ "learning_rate": 3.9272960607075105e-05,
555
+ "loss": 0.0595,
556
+ "step": 3850
557
+ },
558
+ {
559
+ "epoch": 1.3056578506863072,
560
+ "grad_norm": 0.14828617870807648,
561
+ "learning_rate": 3.9133467246959046e-05,
562
+ "loss": 0.0548,
563
+ "step": 3900
564
+ },
565
+ {
566
+ "epoch": 1.3223970539002343,
567
+ "grad_norm": 0.19220437109470367,
568
+ "learning_rate": 3.899397388684299e-05,
569
+ "loss": 0.053,
570
+ "step": 3950
571
+ },
572
+ {
573
+ "epoch": 1.3391362571141614,
574
+ "grad_norm": 0.16049669682979584,
575
+ "learning_rate": 3.885448052672693e-05,
576
+ "loss": 0.0581,
577
+ "step": 4000
578
+ },
579
+ {
580
+ "epoch": 1.3558754603280883,
581
+ "grad_norm": 0.22821515798568726,
582
+ "learning_rate": 3.8714987166610875e-05,
583
+ "loss": 0.0518,
584
+ "step": 4050
585
+ },
586
+ {
587
+ "epoch": 1.3726146635420153,
588
+ "grad_norm": 0.1879580318927765,
589
+ "learning_rate": 3.857549380649481e-05,
590
+ "loss": 0.0574,
591
+ "step": 4100
592
+ },
593
+ {
594
+ "epoch": 1.3893538667559424,
595
+ "grad_norm": 0.16026251018047333,
596
+ "learning_rate": 3.8436000446378756e-05,
597
+ "loss": 0.063,
598
+ "step": 4150
599
+ },
600
+ {
601
+ "epoch": 1.4060930699698695,
602
+ "grad_norm": 0.26868143677711487,
603
+ "learning_rate": 3.82965070862627e-05,
604
+ "loss": 0.0571,
605
+ "step": 4200
606
+ },
607
+ {
608
+ "epoch": 1.4228322731837966,
609
+ "grad_norm": 0.2529687285423279,
610
+ "learning_rate": 3.815701372614664e-05,
611
+ "loss": 0.0528,
612
+ "step": 4250
613
+ },
614
+ {
615
+ "epoch": 1.4395714763977234,
616
+ "grad_norm": 0.19138221442699432,
617
+ "learning_rate": 3.801752036603058e-05,
618
+ "loss": 0.0584,
619
+ "step": 4300
620
+ },
621
+ {
622
+ "epoch": 1.4563106796116505,
623
+ "grad_norm": 0.16359661519527435,
624
+ "learning_rate": 3.787802700591452e-05,
625
+ "loss": 0.0539,
626
+ "step": 4350
627
+ },
628
+ {
629
+ "epoch": 1.4730498828255776,
630
+ "grad_norm": 0.1373494267463684,
631
+ "learning_rate": 3.7738533645798466e-05,
632
+ "loss": 0.0557,
633
+ "step": 4400
634
+ },
635
+ {
636
+ "epoch": 1.4897890860395044,
637
+ "grad_norm": 0.15695162117481232,
638
+ "learning_rate": 3.75990402856824e-05,
639
+ "loss": 0.0491,
640
+ "step": 4450
641
+ },
642
+ {
643
+ "epoch": 1.5065282892534315,
644
+ "grad_norm": 0.18462614715099335,
645
+ "learning_rate": 3.745954692556635e-05,
646
+ "loss": 0.0495,
647
+ "step": 4500
648
+ },
649
+ {
650
+ "epoch": 1.5232674924673586,
651
+ "grad_norm": 0.27876704931259155,
652
+ "learning_rate": 3.732005356545029e-05,
653
+ "loss": 0.0523,
654
+ "step": 4550
655
+ },
656
+ {
657
+ "epoch": 1.5400066956812855,
658
+ "grad_norm": 0.30491840839385986,
659
+ "learning_rate": 3.718056020533423e-05,
660
+ "loss": 0.0564,
661
+ "step": 4600
662
+ },
663
+ {
664
+ "epoch": 1.5567458988952128,
665
+ "grad_norm": 0.18721336126327515,
666
+ "learning_rate": 3.704106684521817e-05,
667
+ "loss": 0.0524,
668
+ "step": 4650
669
+ },
670
+ {
671
+ "epoch": 1.5734851021091396,
672
+ "grad_norm": 0.21216215193271637,
673
+ "learning_rate": 3.690157348510211e-05,
674
+ "loss": 0.0521,
675
+ "step": 4700
676
+ },
677
+ {
678
+ "epoch": 1.5902243053230665,
679
+ "grad_norm": 0.1368396282196045,
680
+ "learning_rate": 3.676208012498605e-05,
681
+ "loss": 0.056,
682
+ "step": 4750
683
+ },
684
+ {
685
+ "epoch": 1.6069635085369938,
686
+ "grad_norm": 0.13692086935043335,
687
+ "learning_rate": 3.662258676486999e-05,
688
+ "loss": 0.0443,
689
+ "step": 4800
690
+ },
691
+ {
692
+ "epoch": 1.6237027117509206,
693
+ "grad_norm": 0.11640128493309021,
694
+ "learning_rate": 3.648309340475394e-05,
695
+ "loss": 0.0488,
696
+ "step": 4850
697
+ },
698
+ {
699
+ "epoch": 1.6404419149648477,
700
+ "grad_norm": 0.19953882694244385,
701
+ "learning_rate": 3.634360004463788e-05,
702
+ "loss": 0.0553,
703
+ "step": 4900
704
+ },
705
+ {
706
+ "epoch": 1.6571811181787748,
707
+ "grad_norm": 0.1966984122991562,
708
+ "learning_rate": 3.6204106684521813e-05,
709
+ "loss": 0.0536,
710
+ "step": 4950
711
+ },
712
+ {
713
+ "epoch": 1.6739203213927016,
714
+ "grad_norm": 0.2324533313512802,
715
+ "learning_rate": 3.606461332440576e-05,
716
+ "loss": 0.0493,
717
+ "step": 5000
718
+ },
719
+ {
720
+ "epoch": 1.6906595246066287,
721
+ "grad_norm": 0.16217607259750366,
722
+ "learning_rate": 3.59251199642897e-05,
723
+ "loss": 0.0503,
724
+ "step": 5050
725
+ },
726
+ {
727
+ "epoch": 1.7073987278205558,
728
+ "grad_norm": 0.23949602246284485,
729
+ "learning_rate": 3.578562660417364e-05,
730
+ "loss": 0.0556,
731
+ "step": 5100
732
+ },
733
+ {
734
+ "epoch": 1.7241379310344827,
735
+ "grad_norm": 0.21387897431850433,
736
+ "learning_rate": 3.564613324405758e-05,
737
+ "loss": 0.0548,
738
+ "step": 5150
739
+ },
740
+ {
741
+ "epoch": 1.7408771342484097,
742
+ "grad_norm": 0.2055111676454544,
743
+ "learning_rate": 3.550663988394153e-05,
744
+ "loss": 0.06,
745
+ "step": 5200
746
+ },
747
+ {
748
+ "epoch": 1.7576163374623368,
749
+ "grad_norm": 0.20280921459197998,
750
+ "learning_rate": 3.5367146523825464e-05,
751
+ "loss": 0.0508,
752
+ "step": 5250
753
+ },
754
+ {
755
+ "epoch": 1.7743555406762637,
756
+ "grad_norm": 0.14165103435516357,
757
+ "learning_rate": 3.5227653163709405e-05,
758
+ "loss": 0.0581,
759
+ "step": 5300
760
+ },
761
+ {
762
+ "epoch": 1.791094743890191,
763
+ "grad_norm": 0.18099863827228546,
764
+ "learning_rate": 3.508815980359335e-05,
765
+ "loss": 0.0562,
766
+ "step": 5350
767
+ },
768
+ {
769
+ "epoch": 1.8078339471041178,
770
+ "grad_norm": 0.21743184328079224,
771
+ "learning_rate": 3.494866644347729e-05,
772
+ "loss": 0.0498,
773
+ "step": 5400
774
+ },
775
+ {
776
+ "epoch": 1.824573150318045,
777
+ "grad_norm": 0.20934534072875977,
778
+ "learning_rate": 3.4809173083361234e-05,
779
+ "loss": 0.0549,
780
+ "step": 5450
781
+ },
782
+ {
783
+ "epoch": 1.841312353531972,
784
+ "grad_norm": 0.1582174152135849,
785
+ "learning_rate": 3.4669679723245174e-05,
786
+ "loss": 0.0556,
787
+ "step": 5500
788
+ },
789
+ {
790
+ "epoch": 1.8580515567458988,
791
+ "grad_norm": 0.1624903827905655,
792
+ "learning_rate": 3.453018636312912e-05,
793
+ "loss": 0.0516,
794
+ "step": 5550
795
+ },
796
+ {
797
+ "epoch": 1.874790759959826,
798
+ "grad_norm": 0.16255798935890198,
799
+ "learning_rate": 3.4390693003013056e-05,
800
+ "loss": 0.0542,
801
+ "step": 5600
802
+ },
803
+ {
804
+ "epoch": 1.891529963173753,
805
+ "grad_norm": 0.1269742250442505,
806
+ "learning_rate": 3.4251199642896996e-05,
807
+ "loss": 0.0565,
808
+ "step": 5650
809
+ },
810
+ {
811
+ "epoch": 1.9082691663876798,
812
+ "grad_norm": 0.15966229140758514,
813
+ "learning_rate": 3.4111706282780944e-05,
814
+ "loss": 0.0538,
815
+ "step": 5700
816
+ },
817
+ {
818
+ "epoch": 1.925008369601607,
819
+ "grad_norm": 0.21506330370903015,
820
+ "learning_rate": 3.3972212922664884e-05,
821
+ "loss": 0.0505,
822
+ "step": 5750
823
+ },
824
+ {
825
+ "epoch": 1.941747572815534,
826
+ "grad_norm": 0.2145415097475052,
827
+ "learning_rate": 3.3832719562548825e-05,
828
+ "loss": 0.0521,
829
+ "step": 5800
830
+ },
831
+ {
832
+ "epoch": 1.9584867760294609,
833
+ "grad_norm": 0.10960496962070465,
834
+ "learning_rate": 3.3693226202432766e-05,
835
+ "loss": 0.0513,
836
+ "step": 5850
837
+ },
838
+ {
839
+ "epoch": 1.9752259792433882,
840
+ "grad_norm": 0.13635843992233276,
841
+ "learning_rate": 3.355373284231671e-05,
842
+ "loss": 0.0499,
843
+ "step": 5900
844
+ },
845
+ {
846
+ "epoch": 1.991965182457315,
847
+ "grad_norm": 0.1542210429906845,
848
+ "learning_rate": 3.341423948220065e-05,
849
+ "loss": 0.0556,
850
+ "step": 5950
851
+ },
852
+ {
853
+ "epoch": 2.0,
854
+ "eval_loss": 0.04946442320942879,
855
+ "eval_runtime": 55.6114,
856
+ "eval_samples_per_second": 214.848,
857
+ "eval_steps_per_second": 13.432,
858
+ "step": 5974
859
+ },
860
+ {
861
+ "epoch": 2.008704385671242,
862
+ "grad_norm": 0.1718842089176178,
863
+ "learning_rate": 3.327474612208459e-05,
864
+ "loss": 0.0503,
865
+ "step": 6000
866
+ },
867
+ {
868
+ "epoch": 2.025443588885169,
869
+ "grad_norm": 0.1528020203113556,
870
+ "learning_rate": 3.3135252761968535e-05,
871
+ "loss": 0.0479,
872
+ "step": 6050
873
+ },
874
+ {
875
+ "epoch": 2.042182792099096,
876
+ "grad_norm": 0.19148772954940796,
877
+ "learning_rate": 3.299575940185247e-05,
878
+ "loss": 0.0443,
879
+ "step": 6100
880
+ },
881
+ {
882
+ "epoch": 2.058921995313023,
883
+ "grad_norm": 0.18125496804714203,
884
+ "learning_rate": 3.2856266041736416e-05,
885
+ "loss": 0.0473,
886
+ "step": 6150
887
+ },
888
+ {
889
+ "epoch": 2.07566119852695,
890
+ "grad_norm": 0.20772996544837952,
891
+ "learning_rate": 3.271677268162036e-05,
892
+ "loss": 0.0539,
893
+ "step": 6200
894
+ },
895
+ {
896
+ "epoch": 2.092400401740877,
897
+ "grad_norm": 0.2518468201160431,
898
+ "learning_rate": 3.25772793215043e-05,
899
+ "loss": 0.0468,
900
+ "step": 6250
901
+ },
902
+ {
903
+ "epoch": 2.1091396049548043,
904
+ "grad_norm": 0.1350301206111908,
905
+ "learning_rate": 3.243778596138824e-05,
906
+ "loss": 0.0431,
907
+ "step": 6300
908
+ },
909
+ {
910
+ "epoch": 2.125878808168731,
911
+ "grad_norm": 0.19141735136508942,
912
+ "learning_rate": 3.229829260127218e-05,
913
+ "loss": 0.048,
914
+ "step": 6350
915
+ },
916
+ {
917
+ "epoch": 2.142618011382658,
918
+ "grad_norm": 0.2404586374759674,
919
+ "learning_rate": 3.2158799241156126e-05,
920
+ "loss": 0.0516,
921
+ "step": 6400
922
+ },
923
+ {
924
+ "epoch": 2.1593572145965854,
925
+ "grad_norm": 0.21710112690925598,
926
+ "learning_rate": 3.201930588104006e-05,
927
+ "loss": 0.0472,
928
+ "step": 6450
929
+ },
930
+ {
931
+ "epoch": 2.176096417810512,
932
+ "grad_norm": 0.14395031332969666,
933
+ "learning_rate": 3.187981252092401e-05,
934
+ "loss": 0.0438,
935
+ "step": 6500
936
+ },
937
+ {
938
+ "epoch": 2.192835621024439,
939
+ "grad_norm": 0.20882932841777802,
940
+ "learning_rate": 3.174031916080795e-05,
941
+ "loss": 0.0488,
942
+ "step": 6550
943
+ },
944
+ {
945
+ "epoch": 2.2095748242383664,
946
+ "grad_norm": 0.13824905455112457,
947
+ "learning_rate": 3.160082580069189e-05,
948
+ "loss": 0.0464,
949
+ "step": 6600
950
+ },
951
+ {
952
+ "epoch": 2.2263140274522932,
953
+ "grad_norm": 0.1783577799797058,
954
+ "learning_rate": 3.146133244057583e-05,
955
+ "loss": 0.0459,
956
+ "step": 6650
957
+ },
958
+ {
959
+ "epoch": 2.24305323066622,
960
+ "grad_norm": 0.22147531807422638,
961
+ "learning_rate": 3.132183908045977e-05,
962
+ "loss": 0.0476,
963
+ "step": 6700
964
+ },
965
+ {
966
+ "epoch": 2.2597924338801474,
967
+ "grad_norm": 0.17393821477890015,
968
+ "learning_rate": 3.118234572034371e-05,
969
+ "loss": 0.0436,
970
+ "step": 6750
971
+ },
972
+ {
973
+ "epoch": 2.2765316370940742,
974
+ "grad_norm": 0.15850785374641418,
975
+ "learning_rate": 3.104285236022765e-05,
976
+ "loss": 0.0476,
977
+ "step": 6800
978
+ },
979
+ {
980
+ "epoch": 2.2932708403080015,
981
+ "grad_norm": 0.16232182085514069,
982
+ "learning_rate": 3.09033590001116e-05,
983
+ "loss": 0.0473,
984
+ "step": 6850
985
+ },
986
+ {
987
+ "epoch": 2.3100100435219284,
988
+ "grad_norm": 0.1816001981496811,
989
+ "learning_rate": 3.076386563999554e-05,
990
+ "loss": 0.0427,
991
+ "step": 6900
992
+ },
993
+ {
994
+ "epoch": 2.3267492467358553,
995
+ "grad_norm": 0.13417834043502808,
996
+ "learning_rate": 3.062437227987948e-05,
997
+ "loss": 0.0448,
998
+ "step": 6950
999
+ },
1000
+ {
1001
+ "epoch": 2.3434884499497826,
1002
+ "grad_norm": 0.12576530873775482,
1003
+ "learning_rate": 3.048487891976342e-05,
1004
+ "loss": 0.0453,
1005
+ "step": 7000
1006
+ },
1007
+ {
1008
+ "epoch": 2.3602276531637094,
1009
+ "grad_norm": 0.33120718598365784,
1010
+ "learning_rate": 3.0345385559647362e-05,
1011
+ "loss": 0.0462,
1012
+ "step": 7050
1013
+ },
1014
+ {
1015
+ "epoch": 2.3769668563776363,
1016
+ "grad_norm": 0.22310969233512878,
1017
+ "learning_rate": 3.0205892199531306e-05,
1018
+ "loss": 0.0475,
1019
+ "step": 7100
1020
+ },
1021
+ {
1022
+ "epoch": 2.3937060595915636,
1023
+ "grad_norm": 0.18150626122951508,
1024
+ "learning_rate": 3.0066398839415243e-05,
1025
+ "loss": 0.0489,
1026
+ "step": 7150
1027
+ },
1028
+ {
1029
+ "epoch": 2.4104452628054904,
1030
+ "grad_norm": 0.28730452060699463,
1031
+ "learning_rate": 2.9926905479299187e-05,
1032
+ "loss": 0.0536,
1033
+ "step": 7200
1034
+ },
1035
+ {
1036
+ "epoch": 2.4271844660194173,
1037
+ "grad_norm": 0.1918480098247528,
1038
+ "learning_rate": 2.9787412119183128e-05,
1039
+ "loss": 0.0426,
1040
+ "step": 7250
1041
+ },
1042
+ {
1043
+ "epoch": 2.4439236692333446,
1044
+ "grad_norm": 0.16158398985862732,
1045
+ "learning_rate": 2.964791875906707e-05,
1046
+ "loss": 0.0458,
1047
+ "step": 7300
1048
+ },
1049
+ {
1050
+ "epoch": 2.4606628724472714,
1051
+ "grad_norm": 0.27141231298446655,
1052
+ "learning_rate": 2.9508425398951012e-05,
1053
+ "loss": 0.0454,
1054
+ "step": 7350
1055
+ },
1056
+ {
1057
+ "epoch": 2.4774020756611987,
1058
+ "grad_norm": 0.1777345836162567,
1059
+ "learning_rate": 2.936893203883495e-05,
1060
+ "loss": 0.0435,
1061
+ "step": 7400
1062
+ },
1063
+ {
1064
+ "epoch": 2.4941412788751256,
1065
+ "grad_norm": 0.14735421538352966,
1066
+ "learning_rate": 2.9229438678718897e-05,
1067
+ "loss": 0.0489,
1068
+ "step": 7450
1069
+ },
1070
+ {
1071
+ "epoch": 2.5108804820890525,
1072
+ "grad_norm": 0.1486055999994278,
1073
+ "learning_rate": 2.9089945318602834e-05,
1074
+ "loss": 0.0477,
1075
+ "step": 7500
1076
+ },
1077
+ {
1078
+ "epoch": 2.5276196853029793,
1079
+ "grad_norm": 0.17078754305839539,
1080
+ "learning_rate": 2.895045195848678e-05,
1081
+ "loss": 0.0444,
1082
+ "step": 7550
1083
+ },
1084
+ {
1085
+ "epoch": 2.5443588885169066,
1086
+ "grad_norm": 0.19276435673236847,
1087
+ "learning_rate": 2.881095859837072e-05,
1088
+ "loss": 0.0486,
1089
+ "step": 7600
1090
+ },
1091
+ {
1092
+ "epoch": 2.5610980917308335,
1093
+ "grad_norm": 0.21209606528282166,
1094
+ "learning_rate": 2.8671465238254656e-05,
1095
+ "loss": 0.0497,
1096
+ "step": 7650
1097
+ },
1098
+ {
1099
+ "epoch": 2.5778372949447608,
1100
+ "grad_norm": 0.21018877625465393,
1101
+ "learning_rate": 2.8531971878138604e-05,
1102
+ "loss": 0.0441,
1103
+ "step": 7700
1104
+ },
1105
+ {
1106
+ "epoch": 2.5945764981586876,
1107
+ "grad_norm": 0.15666617453098297,
1108
+ "learning_rate": 2.839247851802254e-05,
1109
+ "loss": 0.0467,
1110
+ "step": 7750
1111
+ },
1112
+ {
1113
+ "epoch": 2.6113157013726145,
1114
+ "grad_norm": 0.1940685212612152,
1115
+ "learning_rate": 2.8252985157906485e-05,
1116
+ "loss": 0.0523,
1117
+ "step": 7800
1118
+ },
1119
+ {
1120
+ "epoch": 2.628054904586542,
1121
+ "grad_norm": 0.28480586409568787,
1122
+ "learning_rate": 2.8113491797790426e-05,
1123
+ "loss": 0.0481,
1124
+ "step": 7850
1125
+ },
1126
+ {
1127
+ "epoch": 2.6447941078004686,
1128
+ "grad_norm": 0.2223973125219345,
1129
+ "learning_rate": 2.797399843767437e-05,
1130
+ "loss": 0.0432,
1131
+ "step": 7900
1132
+ },
1133
+ {
1134
+ "epoch": 2.661533311014396,
1135
+ "grad_norm": 0.15986157953739166,
1136
+ "learning_rate": 2.783450507755831e-05,
1137
+ "loss": 0.0454,
1138
+ "step": 7950
1139
+ },
1140
+ {
1141
+ "epoch": 2.678272514228323,
1142
+ "grad_norm": 0.1384258270263672,
1143
+ "learning_rate": 2.7695011717442248e-05,
1144
+ "loss": 0.0477,
1145
+ "step": 8000
1146
+ },
1147
+ {
1148
+ "epoch": 2.6950117174422497,
1149
+ "grad_norm": 0.1721869707107544,
1150
+ "learning_rate": 2.7555518357326192e-05,
1151
+ "loss": 0.0453,
1152
+ "step": 8050
1153
+ },
1154
+ {
1155
+ "epoch": 2.7117509206561765,
1156
+ "grad_norm": 0.20737840235233307,
1157
+ "learning_rate": 2.7416024997210132e-05,
1158
+ "loss": 0.0504,
1159
+ "step": 8100
1160
+ },
1161
+ {
1162
+ "epoch": 2.728490123870104,
1163
+ "grad_norm": 0.18823584914207458,
1164
+ "learning_rate": 2.7276531637094077e-05,
1165
+ "loss": 0.0453,
1166
+ "step": 8150
1167
+ },
1168
+ {
1169
+ "epoch": 2.7452293270840307,
1170
+ "grad_norm": 0.13201962411403656,
1171
+ "learning_rate": 2.7137038276978017e-05,
1172
+ "loss": 0.0433,
1173
+ "step": 8200
1174
+ },
1175
+ {
1176
+ "epoch": 2.761968530297958,
1177
+ "grad_norm": 0.1443973183631897,
1178
+ "learning_rate": 2.699754491686196e-05,
1179
+ "loss": 0.0486,
1180
+ "step": 8250
1181
+ },
1182
+ {
1183
+ "epoch": 2.778707733511885,
1184
+ "grad_norm": 0.29314514994621277,
1185
+ "learning_rate": 2.68580515567459e-05,
1186
+ "loss": 0.05,
1187
+ "step": 8300
1188
+ },
1189
+ {
1190
+ "epoch": 2.7954469367258117,
1191
+ "grad_norm": 0.14852124452590942,
1192
+ "learning_rate": 2.671855819662984e-05,
1193
+ "loss": 0.0495,
1194
+ "step": 8350
1195
+ },
1196
+ {
1197
+ "epoch": 2.812186139939739,
1198
+ "grad_norm": 0.19024662673473358,
1199
+ "learning_rate": 2.6579064836513783e-05,
1200
+ "loss": 0.0508,
1201
+ "step": 8400
1202
+ },
1203
+ {
1204
+ "epoch": 2.828925343153666,
1205
+ "grad_norm": 0.1745578795671463,
1206
+ "learning_rate": 2.6439571476397724e-05,
1207
+ "loss": 0.0443,
1208
+ "step": 8450
1209
+ },
1210
+ {
1211
+ "epoch": 2.845664546367593,
1212
+ "grad_norm": 0.18390017747879028,
1213
+ "learning_rate": 2.6300078116281668e-05,
1214
+ "loss": 0.0468,
1215
+ "step": 8500
1216
+ },
1217
+ {
1218
+ "epoch": 2.86240374958152,
1219
+ "grad_norm": 0.22483347356319427,
1220
+ "learning_rate": 2.616058475616561e-05,
1221
+ "loss": 0.0467,
1222
+ "step": 8550
1223
+ },
1224
+ {
1225
+ "epoch": 2.879142952795447,
1226
+ "grad_norm": 0.18160563707351685,
1227
+ "learning_rate": 2.6021091396049553e-05,
1228
+ "loss": 0.0441,
1229
+ "step": 8600
1230
+ },
1231
+ {
1232
+ "epoch": 2.8958821560093737,
1233
+ "grad_norm": 0.13408955931663513,
1234
+ "learning_rate": 2.588159803593349e-05,
1235
+ "loss": 0.0446,
1236
+ "step": 8650
1237
+ },
1238
+ {
1239
+ "epoch": 2.912621359223301,
1240
+ "grad_norm": 0.16038326919078827,
1241
+ "learning_rate": 2.574210467581743e-05,
1242
+ "loss": 0.0456,
1243
+ "step": 8700
1244
+ },
1245
+ {
1246
+ "epoch": 2.929360562437228,
1247
+ "grad_norm": 0.22738413512706757,
1248
+ "learning_rate": 2.5602611315701375e-05,
1249
+ "loss": 0.0479,
1250
+ "step": 8750
1251
+ },
1252
+ {
1253
+ "epoch": 2.946099765651155,
1254
+ "grad_norm": 0.20327210426330566,
1255
+ "learning_rate": 2.5463117955585315e-05,
1256
+ "loss": 0.0511,
1257
+ "step": 8800
1258
+ },
1259
+ {
1260
+ "epoch": 2.962838968865082,
1261
+ "grad_norm": 0.15756353735923767,
1262
+ "learning_rate": 2.532362459546926e-05,
1263
+ "loss": 0.0426,
1264
+ "step": 8850
1265
+ },
1266
+ {
1267
+ "epoch": 2.979578172079009,
1268
+ "grad_norm": 0.1305045783519745,
1269
+ "learning_rate": 2.5184131235353197e-05,
1270
+ "loss": 0.0442,
1271
+ "step": 8900
1272
+ },
1273
+ {
1274
+ "epoch": 2.996317375292936,
1275
+ "grad_norm": 0.1610562801361084,
1276
+ "learning_rate": 2.5044637875237144e-05,
1277
+ "loss": 0.0467,
1278
+ "step": 8950
1279
+ },
1280
+ {
1281
+ "epoch": 3.0,
1282
+ "eval_loss": 0.04702676460146904,
1283
+ "eval_runtime": 52.8989,
1284
+ "eval_samples_per_second": 225.865,
1285
+ "eval_steps_per_second": 14.121,
1286
+ "step": 8961
1287
+ },
1288
+ {
1289
+ "epoch": 3.013056578506863,
1290
+ "grad_norm": 0.2042045295238495,
1291
+ "learning_rate": 2.490514451512108e-05,
1292
+ "loss": 0.0457,
1293
+ "step": 9000
1294
+ },
1295
+ {
1296
+ "epoch": 3.02979578172079,
1297
+ "grad_norm": 0.27092283964157104,
1298
+ "learning_rate": 2.4765651155005022e-05,
1299
+ "loss": 0.0437,
1300
+ "step": 9050
1301
+ },
1302
+ {
1303
+ "epoch": 3.046534984934717,
1304
+ "grad_norm": 0.18729308247566223,
1305
+ "learning_rate": 2.4626157794888966e-05,
1306
+ "loss": 0.039,
1307
+ "step": 9100
1308
+ },
1309
+ {
1310
+ "epoch": 3.063274188148644,
1311
+ "grad_norm": 0.18845289945602417,
1312
+ "learning_rate": 2.4486664434772903e-05,
1313
+ "loss": 0.0422,
1314
+ "step": 9150
1315
+ },
1316
+ {
1317
+ "epoch": 3.0800133913625714,
1318
+ "grad_norm": 0.17593874037265778,
1319
+ "learning_rate": 2.4347171074656847e-05,
1320
+ "loss": 0.0384,
1321
+ "step": 9200
1322
+ },
1323
+ {
1324
+ "epoch": 3.096752594576498,
1325
+ "grad_norm": 0.23149123787879944,
1326
+ "learning_rate": 2.4207677714540788e-05,
1327
+ "loss": 0.0443,
1328
+ "step": 9250
1329
+ },
1330
+ {
1331
+ "epoch": 3.113491797790425,
1332
+ "grad_norm": 0.1968075931072235,
1333
+ "learning_rate": 2.4068184354424732e-05,
1334
+ "loss": 0.0402,
1335
+ "step": 9300
1336
+ },
1337
+ {
1338
+ "epoch": 3.1302310010043524,
1339
+ "grad_norm": 0.16893354058265686,
1340
+ "learning_rate": 2.3928690994308673e-05,
1341
+ "loss": 0.043,
1342
+ "step": 9350
1343
+ },
1344
+ {
1345
+ "epoch": 3.146970204218279,
1346
+ "grad_norm": 0.161103293299675,
1347
+ "learning_rate": 2.3789197634192613e-05,
1348
+ "loss": 0.0414,
1349
+ "step": 9400
1350
+ },
1351
+ {
1352
+ "epoch": 3.163709407432206,
1353
+ "grad_norm": 0.22712625563144684,
1354
+ "learning_rate": 2.3649704274076557e-05,
1355
+ "loss": 0.0426,
1356
+ "step": 9450
1357
+ },
1358
+ {
1359
+ "epoch": 3.1804486106461334,
1360
+ "grad_norm": 0.12811464071273804,
1361
+ "learning_rate": 2.3510210913960495e-05,
1362
+ "loss": 0.0406,
1363
+ "step": 9500
1364
+ },
1365
+ {
1366
+ "epoch": 3.1971878138600602,
1367
+ "grad_norm": 0.16762731969356537,
1368
+ "learning_rate": 2.337071755384444e-05,
1369
+ "loss": 0.0417,
1370
+ "step": 9550
1371
+ },
1372
+ {
1373
+ "epoch": 3.213927017073987,
1374
+ "grad_norm": 0.14003124833106995,
1375
+ "learning_rate": 2.323122419372838e-05,
1376
+ "loss": 0.0453,
1377
+ "step": 9600
1378
+ },
1379
+ {
1380
+ "epoch": 3.2306662202879144,
1381
+ "grad_norm": 0.16891060769557953,
1382
+ "learning_rate": 2.309173083361232e-05,
1383
+ "loss": 0.0445,
1384
+ "step": 9650
1385
+ },
1386
+ {
1387
+ "epoch": 3.2474054235018412,
1388
+ "grad_norm": 0.16900208592414856,
1389
+ "learning_rate": 2.2952237473496264e-05,
1390
+ "loss": 0.039,
1391
+ "step": 9700
1392
+ },
1393
+ {
1394
+ "epoch": 3.264144626715768,
1395
+ "grad_norm": 0.17154955863952637,
1396
+ "learning_rate": 2.2812744113380205e-05,
1397
+ "loss": 0.0403,
1398
+ "step": 9750
1399
+ },
1400
+ {
1401
+ "epoch": 3.2808838299296954,
1402
+ "grad_norm": 0.1620296835899353,
1403
+ "learning_rate": 2.2673250753264145e-05,
1404
+ "loss": 0.0406,
1405
+ "step": 9800
1406
+ },
1407
+ {
1408
+ "epoch": 3.2976230331436223,
1409
+ "grad_norm": 0.14487063884735107,
1410
+ "learning_rate": 2.2533757393148086e-05,
1411
+ "loss": 0.0467,
1412
+ "step": 9850
1413
+ },
1414
+ {
1415
+ "epoch": 3.3143622363575496,
1416
+ "grad_norm": 0.13799156248569489,
1417
+ "learning_rate": 2.2394264033032027e-05,
1418
+ "loss": 0.0433,
1419
+ "step": 9900
1420
+ },
1421
+ {
1422
+ "epoch": 3.3311014395714764,
1423
+ "grad_norm": 0.1507265418767929,
1424
+ "learning_rate": 2.225477067291597e-05,
1425
+ "loss": 0.0446,
1426
+ "step": 9950
1427
+ },
1428
+ {
1429
+ "epoch": 3.3478406427854033,
1430
+ "grad_norm": 0.1605840027332306,
1431
+ "learning_rate": 2.211527731279991e-05,
1432
+ "loss": 0.0415,
1433
+ "step": 10000
1434
+ },
1435
+ {
1436
+ "epoch": 3.3645798459993306,
1437
+ "grad_norm": 0.11910756677389145,
1438
+ "learning_rate": 2.1975783952683855e-05,
1439
+ "loss": 0.0453,
1440
+ "step": 10050
1441
+ },
1442
+ {
1443
+ "epoch": 3.3813190492132574,
1444
+ "grad_norm": 0.15115414559841156,
1445
+ "learning_rate": 2.1836290592567796e-05,
1446
+ "loss": 0.0395,
1447
+ "step": 10100
1448
+ },
1449
+ {
1450
+ "epoch": 3.3980582524271843,
1451
+ "grad_norm": 0.2044568508863449,
1452
+ "learning_rate": 2.1696797232451737e-05,
1453
+ "loss": 0.0473,
1454
+ "step": 10150
1455
+ },
1456
+ {
1457
+ "epoch": 3.4147974556411116,
1458
+ "grad_norm": 0.18123552203178406,
1459
+ "learning_rate": 2.1557303872335677e-05,
1460
+ "loss": 0.0411,
1461
+ "step": 10200
1462
+ },
1463
+ {
1464
+ "epoch": 3.4315366588550384,
1465
+ "grad_norm": 0.6018120646476746,
1466
+ "learning_rate": 2.1417810512219618e-05,
1467
+ "loss": 0.0413,
1468
+ "step": 10250
1469
+ },
1470
+ {
1471
+ "epoch": 3.4482758620689653,
1472
+ "grad_norm": 0.22490189969539642,
1473
+ "learning_rate": 2.1278317152103562e-05,
1474
+ "loss": 0.0437,
1475
+ "step": 10300
1476
+ },
1477
+ {
1478
+ "epoch": 3.4650150652828926,
1479
+ "grad_norm": 0.1784990429878235,
1480
+ "learning_rate": 2.1138823791987503e-05,
1481
+ "loss": 0.0453,
1482
+ "step": 10350
1483
+ },
1484
+ {
1485
+ "epoch": 3.4817542684968195,
1486
+ "grad_norm": 0.15248402953147888,
1487
+ "learning_rate": 2.0999330431871443e-05,
1488
+ "loss": 0.0456,
1489
+ "step": 10400
1490
+ },
1491
+ {
1492
+ "epoch": 3.4984934717107468,
1493
+ "grad_norm": 0.15146291255950928,
1494
+ "learning_rate": 2.0859837071755387e-05,
1495
+ "loss": 0.0393,
1496
+ "step": 10450
1497
+ },
1498
+ {
1499
+ "epoch": 3.5152326749246736,
1500
+ "grad_norm": 0.1662750393152237,
1501
+ "learning_rate": 2.0720343711639325e-05,
1502
+ "loss": 0.0408,
1503
+ "step": 10500
1504
+ },
1505
+ {
1506
+ "epoch": 3.5319718781386005,
1507
+ "grad_norm": 0.1244506984949112,
1508
+ "learning_rate": 2.058085035152327e-05,
1509
+ "loss": 0.0426,
1510
+ "step": 10550
1511
+ },
1512
+ {
1513
+ "epoch": 3.5487110813525278,
1514
+ "grad_norm": 0.1180344969034195,
1515
+ "learning_rate": 2.044135699140721e-05,
1516
+ "loss": 0.0434,
1517
+ "step": 10600
1518
+ },
1519
+ {
1520
+ "epoch": 3.5654502845664546,
1521
+ "grad_norm": 0.15951013565063477,
1522
+ "learning_rate": 2.030186363129115e-05,
1523
+ "loss": 0.0387,
1524
+ "step": 10650
1525
+ },
1526
+ {
1527
+ "epoch": 3.582189487780382,
1528
+ "grad_norm": 0.16064217686653137,
1529
+ "learning_rate": 2.0162370271175094e-05,
1530
+ "loss": 0.0445,
1531
+ "step": 10700
1532
+ },
1533
+ {
1534
+ "epoch": 3.598928690994309,
1535
+ "grad_norm": 0.17813698947429657,
1536
+ "learning_rate": 2.0022876911059035e-05,
1537
+ "loss": 0.0407,
1538
+ "step": 10750
1539
+ },
1540
+ {
1541
+ "epoch": 3.6156678942082356,
1542
+ "grad_norm": 0.1256450116634369,
1543
+ "learning_rate": 1.988338355094298e-05,
1544
+ "loss": 0.0462,
1545
+ "step": 10800
1546
+ },
1547
+ {
1548
+ "epoch": 3.6324070974221625,
1549
+ "grad_norm": 0.14016403257846832,
1550
+ "learning_rate": 1.9743890190826916e-05,
1551
+ "loss": 0.0456,
1552
+ "step": 10850
1553
+ },
1554
+ {
1555
+ "epoch": 3.64914630063609,
1556
+ "grad_norm": 0.1396850347518921,
1557
+ "learning_rate": 1.9604396830710857e-05,
1558
+ "loss": 0.0403,
1559
+ "step": 10900
1560
+ },
1561
+ {
1562
+ "epoch": 3.6658855038500167,
1563
+ "grad_norm": 0.17943057417869568,
1564
+ "learning_rate": 1.94649034705948e-05,
1565
+ "loss": 0.0417,
1566
+ "step": 10950
1567
+ },
1568
+ {
1569
+ "epoch": 3.682624707063944,
1570
+ "grad_norm": 0.14947953820228577,
1571
+ "learning_rate": 1.932541011047874e-05,
1572
+ "loss": 0.0421,
1573
+ "step": 11000
1574
+ },
1575
+ {
1576
+ "epoch": 3.699363910277871,
1577
+ "grad_norm": 0.12628613412380219,
1578
+ "learning_rate": 1.9185916750362685e-05,
1579
+ "loss": 0.0435,
1580
+ "step": 11050
1581
+ },
1582
+ {
1583
+ "epoch": 3.7161031134917977,
1584
+ "grad_norm": 0.2205984890460968,
1585
+ "learning_rate": 1.9046423390246626e-05,
1586
+ "loss": 0.0396,
1587
+ "step": 11100
1588
+ },
1589
+ {
1590
+ "epoch": 3.732842316705725,
1591
+ "grad_norm": 0.13236357271671295,
1592
+ "learning_rate": 1.8906930030130567e-05,
1593
+ "loss": 0.0405,
1594
+ "step": 11150
1595
+ },
1596
+ {
1597
+ "epoch": 3.749581519919652,
1598
+ "grad_norm": 0.15023528039455414,
1599
+ "learning_rate": 1.8767436670014507e-05,
1600
+ "loss": 0.0434,
1601
+ "step": 11200
1602
+ },
1603
+ {
1604
+ "epoch": 3.7663207231335787,
1605
+ "grad_norm": 0.1427326649427414,
1606
+ "learning_rate": 1.8627943309898448e-05,
1607
+ "loss": 0.0437,
1608
+ "step": 11250
1609
+ },
1610
+ {
1611
+ "epoch": 3.783059926347506,
1612
+ "grad_norm": 0.1890624761581421,
1613
+ "learning_rate": 1.8488449949782392e-05,
1614
+ "loss": 0.0408,
1615
+ "step": 11300
1616
+ },
1617
+ {
1618
+ "epoch": 3.799799129561433,
1619
+ "grad_norm": 0.27970972657203674,
1620
+ "learning_rate": 1.8348956589666333e-05,
1621
+ "loss": 0.0441,
1622
+ "step": 11350
1623
+ },
1624
+ {
1625
+ "epoch": 3.8165383327753597,
1626
+ "grad_norm": 0.12823455035686493,
1627
+ "learning_rate": 1.8209463229550273e-05,
1628
+ "loss": 0.0412,
1629
+ "step": 11400
1630
+ },
1631
+ {
1632
+ "epoch": 3.833277535989287,
1633
+ "grad_norm": 0.1442965269088745,
1634
+ "learning_rate": 1.8069969869434218e-05,
1635
+ "loss": 0.0416,
1636
+ "step": 11450
1637
+ },
1638
+ {
1639
+ "epoch": 3.850016739203214,
1640
+ "grad_norm": 0.13739417493343353,
1641
+ "learning_rate": 1.7930476509318158e-05,
1642
+ "loss": 0.0397,
1643
+ "step": 11500
1644
+ },
1645
+ {
1646
+ "epoch": 3.866755942417141,
1647
+ "grad_norm": 0.16616705060005188,
1648
+ "learning_rate": 1.77909831492021e-05,
1649
+ "loss": 0.0413,
1650
+ "step": 11550
1651
+ },
1652
+ {
1653
+ "epoch": 3.883495145631068,
1654
+ "grad_norm": 0.23060384392738342,
1655
+ "learning_rate": 1.765148978908604e-05,
1656
+ "loss": 0.0447,
1657
+ "step": 11600
1658
+ },
1659
+ {
1660
+ "epoch": 3.900234348844995,
1661
+ "grad_norm": 0.2936810553073883,
1662
+ "learning_rate": 1.751199642896998e-05,
1663
+ "loss": 0.0409,
1664
+ "step": 11650
1665
+ },
1666
+ {
1667
+ "epoch": 3.9169735520589217,
1668
+ "grad_norm": 0.17367126047611237,
1669
+ "learning_rate": 1.7372503068853924e-05,
1670
+ "loss": 0.0411,
1671
+ "step": 11700
1672
+ },
1673
+ {
1674
+ "epoch": 3.933712755272849,
1675
+ "grad_norm": 0.14550547301769257,
1676
+ "learning_rate": 1.7233009708737865e-05,
1677
+ "loss": 0.0445,
1678
+ "step": 11750
1679
+ },
1680
+ {
1681
+ "epoch": 3.950451958486776,
1682
+ "grad_norm": 0.13322454690933228,
1683
+ "learning_rate": 1.709351634862181e-05,
1684
+ "loss": 0.0444,
1685
+ "step": 11800
1686
+ },
1687
+ {
1688
+ "epoch": 3.967191161700703,
1689
+ "grad_norm": 0.13606959581375122,
1690
+ "learning_rate": 1.6954022988505746e-05,
1691
+ "loss": 0.041,
1692
+ "step": 11850
1693
+ },
1694
+ {
1695
+ "epoch": 3.98393036491463,
1696
+ "grad_norm": 0.14227426052093506,
1697
+ "learning_rate": 1.681452962838969e-05,
1698
+ "loss": 0.0412,
1699
+ "step": 11900
1700
+ },
1701
+ {
1702
+ "epoch": 4.0,
1703
+ "eval_loss": 0.045825306326150894,
1704
+ "eval_runtime": 48.668,
1705
+ "eval_samples_per_second": 245.5,
1706
+ "eval_steps_per_second": 15.349,
1707
+ "step": 11948
1708
+ }
1709
+ ],
1710
+ "logging_steps": 50,
1711
+ "max_steps": 17922,
1712
+ "num_input_tokens_seen": 0,
1713
+ "num_train_epochs": 6,
1714
+ "save_steps": 500,
1715
+ "stateful_callbacks": {
1716
+ "TrainerControl": {
1717
+ "args": {
1718
+ "should_epoch_stop": false,
1719
+ "should_evaluate": false,
1720
+ "should_log": false,
1721
+ "should_save": true,
1722
+ "should_training_stop": false
1723
+ },
1724
+ "attributes": {}
1725
+ }
1726
+ },
1727
+ "total_flos": 2.5921130506223616e+16,
1728
+ "train_batch_size": 16,
1729
+ "trial_name": null,
1730
+ "trial_params": null
1731
+ }
checkpoint-11948/training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:37dd546b69fb60d8deb15a8b88e40b23e367c0e9f5a053ea3ae7c730b3874f2e
3
+ size 5304
checkpoint-11948/vocab.json ADDED
The diff for this file is too large to render. See raw diff
 
checkpoint-14935/config.json ADDED
@@ -0,0 +1,41 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "ckartal/english-to-turkish-finetuned-model",
3
+ "activation_dropout": 0.0,
4
+ "activation_function": "swish",
5
+ "architectures": [
6
+ "MarianMTModel"
7
+ ],
8
+ "attention_dropout": 0.0,
9
+ "bos_token_id": 0,
10
+ "classifier_dropout": 0.0,
11
+ "d_model": 512,
12
+ "decoder_attention_heads": 8,
13
+ "decoder_ffn_dim": 2048,
14
+ "decoder_layerdrop": 0.0,
15
+ "decoder_layers": 6,
16
+ "decoder_start_token_id": 59993,
17
+ "decoder_vocab_size": 59994,
18
+ "dropout": 0.1,
19
+ "encoder_attention_heads": 8,
20
+ "encoder_ffn_dim": 2048,
21
+ "encoder_layerdrop": 0.0,
22
+ "encoder_layers": 6,
23
+ "eos_token_id": 0,
24
+ "forced_eos_token_id": 0,
25
+ "init_std": 0.02,
26
+ "is_encoder_decoder": true,
27
+ "max_length": null,
28
+ "max_position_embeddings": 512,
29
+ "model_type": "marian",
30
+ "normalize_embedding": false,
31
+ "num_beams": null,
32
+ "num_hidden_layers": 6,
33
+ "pad_token_id": 59993,
34
+ "scale_embedding": true,
35
+ "share_encoder_decoder_embeddings": true,
36
+ "static_position_embeddings": true,
37
+ "torch_dtype": "float32",
38
+ "transformers_version": "4.49.0",
39
+ "use_cache": true,
40
+ "vocab_size": 59994
41
+ }
checkpoint-14935/generation_config.json ADDED
@@ -0,0 +1,16 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bad_words_ids": [
3
+ [
4
+ 59993
5
+ ]
6
+ ],
7
+ "bos_token_id": 0,
8
+ "decoder_start_token_id": 59993,
9
+ "eos_token_id": 0,
10
+ "forced_eos_token_id": 0,
11
+ "max_length": 512,
12
+ "num_beams": 6,
13
+ "pad_token_id": 59993,
14
+ "renormalize_logits": true,
15
+ "transformers_version": "4.49.0"
16
+ }
checkpoint-14935/model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:10b7619757ec37001c328bb68f33749e3183758158980f8c3a5c346dcb866279
3
+ size 299690728
checkpoint-14935/optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ade4432f6ff505cb413003c71d8fa4ceedcadd0040b992e0df392dbd10889c3d
3
+ size 599054970
checkpoint-14935/rng_state.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3f721aaec70579761bcfa3d2d4441178be84c6f3dcc5f6d933e54b21fe8e6cc2
3
+ size 14244
checkpoint-14935/scaler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:36a823fbff578c8a82c44346b99397ed351d5e6783ee511d8e35285b13133caf
3
+ size 988
checkpoint-14935/scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f321649b2aa5ecd287cb6a64d13837fccb0d3045d069aabc11f66246e4800051
3
+ size 1064
checkpoint-14935/source.spm ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:98eb24f0995a9d5f7cb0fb628c474628b1d2284615e881e857d062c0b651ce10
3
+ size 793920
checkpoint-14935/special_tokens_map.json ADDED
@@ -0,0 +1,23 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "eos_token": {
3
+ "content": "</s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "pad_token": {
10
+ "content": "<pad>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "unk_token": {
17
+ "content": "<unk>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ }
23
+ }
checkpoint-14935/target.spm ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:45cc6000ed513cdca8f80739087fbcbf9933dc50c9ae36c319c9670882f72e1b
3
+ size 837876
checkpoint-14935/tokenizer_config.json ADDED
@@ -0,0 +1,40 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "</s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<unk>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "59993": {
20
+ "content": "<pad>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ }
27
+ },
28
+ "clean_up_tokenization_spaces": true,
29
+ "eos_token": "</s>",
30
+ "extra_special_tokens": {},
31
+ "model_max_length": 512,
32
+ "pad_token": "<pad>",
33
+ "return_tensors": "pt",
34
+ "separate_vocabs": false,
35
+ "source_lang": "eng",
36
+ "sp_model_kwargs": {},
37
+ "target_lang": "tur",
38
+ "tokenizer_class": "MarianTokenizer",
39
+ "unk_token": "<unk>"
40
+ }
checkpoint-14935/trainer_state.json ADDED
@@ -0,0 +1,2159 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": null,
3
+ "best_model_checkpoint": null,
4
+ "epoch": 5.0,
5
+ "eval_steps": 500,
6
+ "global_step": 14935,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.016739203213927016,
13
+ "grad_norm": 0.439177542924881,
14
+ "learning_rate": 4.987445597589555e-05,
15
+ "loss": 1.5222,
16
+ "step": 50
17
+ },
18
+ {
19
+ "epoch": 0.03347840642785403,
20
+ "grad_norm": 0.4248828887939453,
21
+ "learning_rate": 4.973496261577949e-05,
22
+ "loss": 0.1842,
23
+ "step": 100
24
+ },
25
+ {
26
+ "epoch": 0.05021760964178105,
27
+ "grad_norm": 0.3019009232521057,
28
+ "learning_rate": 4.9595469255663436e-05,
29
+ "loss": 0.1471,
30
+ "step": 150
31
+ },
32
+ {
33
+ "epoch": 0.06695681285570806,
34
+ "grad_norm": 0.2518245577812195,
35
+ "learning_rate": 4.9455975895547376e-05,
36
+ "loss": 0.1306,
37
+ "step": 200
38
+ },
39
+ {
40
+ "epoch": 0.08369601606963509,
41
+ "grad_norm": 0.3660012185573578,
42
+ "learning_rate": 4.931648253543131e-05,
43
+ "loss": 0.1276,
44
+ "step": 250
45
+ },
46
+ {
47
+ "epoch": 0.1004352192835621,
48
+ "grad_norm": 0.32854148745536804,
49
+ "learning_rate": 4.917698917531526e-05,
50
+ "loss": 0.1048,
51
+ "step": 300
52
+ },
53
+ {
54
+ "epoch": 0.11717442249748912,
55
+ "grad_norm": 0.24879515171051025,
56
+ "learning_rate": 4.90374958151992e-05,
57
+ "loss": 0.1054,
58
+ "step": 350
59
+ },
60
+ {
61
+ "epoch": 0.13391362571141613,
62
+ "grad_norm": 0.36416563391685486,
63
+ "learning_rate": 4.889800245508314e-05,
64
+ "loss": 0.0985,
65
+ "step": 400
66
+ },
67
+ {
68
+ "epoch": 0.15065282892534315,
69
+ "grad_norm": 0.33641186356544495,
70
+ "learning_rate": 4.875850909496708e-05,
71
+ "loss": 0.1044,
72
+ "step": 450
73
+ },
74
+ {
75
+ "epoch": 0.16739203213927017,
76
+ "grad_norm": 0.32909244298934937,
77
+ "learning_rate": 4.861901573485103e-05,
78
+ "loss": 0.1089,
79
+ "step": 500
80
+ },
81
+ {
82
+ "epoch": 0.1841312353531972,
83
+ "grad_norm": 0.36060285568237305,
84
+ "learning_rate": 4.847952237473497e-05,
85
+ "loss": 0.09,
86
+ "step": 550
87
+ },
88
+ {
89
+ "epoch": 0.2008704385671242,
90
+ "grad_norm": 0.2510785758495331,
91
+ "learning_rate": 4.83400290146189e-05,
92
+ "loss": 0.0884,
93
+ "step": 600
94
+ },
95
+ {
96
+ "epoch": 0.21760964178105122,
97
+ "grad_norm": 0.22478719055652618,
98
+ "learning_rate": 4.820053565450285e-05,
99
+ "loss": 0.0866,
100
+ "step": 650
101
+ },
102
+ {
103
+ "epoch": 0.23434884499497824,
104
+ "grad_norm": 0.37321263551712036,
105
+ "learning_rate": 4.806104229438679e-05,
106
+ "loss": 0.0884,
107
+ "step": 700
108
+ },
109
+ {
110
+ "epoch": 0.25108804820890523,
111
+ "grad_norm": 0.2660929262638092,
112
+ "learning_rate": 4.792154893427073e-05,
113
+ "loss": 0.0819,
114
+ "step": 750
115
+ },
116
+ {
117
+ "epoch": 0.26782725142283226,
118
+ "grad_norm": 0.2338525801897049,
119
+ "learning_rate": 4.778205557415467e-05,
120
+ "loss": 0.0845,
121
+ "step": 800
122
+ },
123
+ {
124
+ "epoch": 0.2845664546367593,
125
+ "grad_norm": 0.308557391166687,
126
+ "learning_rate": 4.764256221403862e-05,
127
+ "loss": 0.0815,
128
+ "step": 850
129
+ },
130
+ {
131
+ "epoch": 0.3013056578506863,
132
+ "grad_norm": 0.27098262310028076,
133
+ "learning_rate": 4.750306885392255e-05,
134
+ "loss": 0.0833,
135
+ "step": 900
136
+ },
137
+ {
138
+ "epoch": 0.3180448610646133,
139
+ "grad_norm": 0.23054952919483185,
140
+ "learning_rate": 4.736357549380649e-05,
141
+ "loss": 0.0806,
142
+ "step": 950
143
+ },
144
+ {
145
+ "epoch": 0.33478406427854035,
146
+ "grad_norm": 0.21355900168418884,
147
+ "learning_rate": 4.722408213369044e-05,
148
+ "loss": 0.073,
149
+ "step": 1000
150
+ },
151
+ {
152
+ "epoch": 0.3515232674924674,
153
+ "grad_norm": 0.20395708084106445,
154
+ "learning_rate": 4.708458877357438e-05,
155
+ "loss": 0.0775,
156
+ "step": 1050
157
+ },
158
+ {
159
+ "epoch": 0.3682624707063944,
160
+ "grad_norm": 0.21063613891601562,
161
+ "learning_rate": 4.694509541345832e-05,
162
+ "loss": 0.0789,
163
+ "step": 1100
164
+ },
165
+ {
166
+ "epoch": 0.3850016739203214,
167
+ "grad_norm": 0.20589284598827362,
168
+ "learning_rate": 4.680560205334226e-05,
169
+ "loss": 0.0809,
170
+ "step": 1150
171
+ },
172
+ {
173
+ "epoch": 0.4017408771342484,
174
+ "grad_norm": 0.27975228428840637,
175
+ "learning_rate": 4.666610869322621e-05,
176
+ "loss": 0.078,
177
+ "step": 1200
178
+ },
179
+ {
180
+ "epoch": 0.4184800803481754,
181
+ "grad_norm": 0.2529745399951935,
182
+ "learning_rate": 4.6526615333110144e-05,
183
+ "loss": 0.0704,
184
+ "step": 1250
185
+ },
186
+ {
187
+ "epoch": 0.43521928356210243,
188
+ "grad_norm": 0.2205154448747635,
189
+ "learning_rate": 4.6387121972994084e-05,
190
+ "loss": 0.0733,
191
+ "step": 1300
192
+ },
193
+ {
194
+ "epoch": 0.45195848677602946,
195
+ "grad_norm": 0.2254629135131836,
196
+ "learning_rate": 4.624762861287803e-05,
197
+ "loss": 0.0751,
198
+ "step": 1350
199
+ },
200
+ {
201
+ "epoch": 0.4686976899899565,
202
+ "grad_norm": 0.17614957690238953,
203
+ "learning_rate": 4.610813525276197e-05,
204
+ "loss": 0.0747,
205
+ "step": 1400
206
+ },
207
+ {
208
+ "epoch": 0.4854368932038835,
209
+ "grad_norm": 0.15940478444099426,
210
+ "learning_rate": 4.596864189264591e-05,
211
+ "loss": 0.0698,
212
+ "step": 1450
213
+ },
214
+ {
215
+ "epoch": 0.5021760964178105,
216
+ "grad_norm": 0.1869521141052246,
217
+ "learning_rate": 4.5829148532529854e-05,
218
+ "loss": 0.0721,
219
+ "step": 1500
220
+ },
221
+ {
222
+ "epoch": 0.5189152996317375,
223
+ "grad_norm": 0.36063650250434875,
224
+ "learning_rate": 4.5689655172413794e-05,
225
+ "loss": 0.0706,
226
+ "step": 1550
227
+ },
228
+ {
229
+ "epoch": 0.5356545028456645,
230
+ "grad_norm": 0.16967014968395233,
231
+ "learning_rate": 4.5550161812297735e-05,
232
+ "loss": 0.0759,
233
+ "step": 1600
234
+ },
235
+ {
236
+ "epoch": 0.5523937060595916,
237
+ "grad_norm": 0.29293423891067505,
238
+ "learning_rate": 4.5410668452181676e-05,
239
+ "loss": 0.0711,
240
+ "step": 1650
241
+ },
242
+ {
243
+ "epoch": 0.5691329092735186,
244
+ "grad_norm": 0.3034748136997223,
245
+ "learning_rate": 4.527117509206562e-05,
246
+ "loss": 0.067,
247
+ "step": 1700
248
+ },
249
+ {
250
+ "epoch": 0.5858721124874456,
251
+ "grad_norm": 0.1974593997001648,
252
+ "learning_rate": 4.513168173194956e-05,
253
+ "loss": 0.0701,
254
+ "step": 1750
255
+ },
256
+ {
257
+ "epoch": 0.6026113157013726,
258
+ "grad_norm": 0.18101799488067627,
259
+ "learning_rate": 4.4992188371833505e-05,
260
+ "loss": 0.0717,
261
+ "step": 1800
262
+ },
263
+ {
264
+ "epoch": 0.6193505189152997,
265
+ "grad_norm": 0.14422941207885742,
266
+ "learning_rate": 4.4852695011717445e-05,
267
+ "loss": 0.0686,
268
+ "step": 1850
269
+ },
270
+ {
271
+ "epoch": 0.6360897221292267,
272
+ "grad_norm": 0.28663551807403564,
273
+ "learning_rate": 4.4713201651601386e-05,
274
+ "loss": 0.0646,
275
+ "step": 1900
276
+ },
277
+ {
278
+ "epoch": 0.6528289253431536,
279
+ "grad_norm": 0.23879379034042358,
280
+ "learning_rate": 4.4573708291485327e-05,
281
+ "loss": 0.0684,
282
+ "step": 1950
283
+ },
284
+ {
285
+ "epoch": 0.6695681285570807,
286
+ "grad_norm": 0.21389362215995789,
287
+ "learning_rate": 4.443421493136927e-05,
288
+ "loss": 0.066,
289
+ "step": 2000
290
+ },
291
+ {
292
+ "epoch": 0.6863073317710077,
293
+ "grad_norm": 0.26841893792152405,
294
+ "learning_rate": 4.4294721571253215e-05,
295
+ "loss": 0.0717,
296
+ "step": 2050
297
+ },
298
+ {
299
+ "epoch": 0.7030465349849347,
300
+ "grad_norm": 0.240205317735672,
301
+ "learning_rate": 4.415522821113715e-05,
302
+ "loss": 0.0697,
303
+ "step": 2100
304
+ },
305
+ {
306
+ "epoch": 0.7197857381988617,
307
+ "grad_norm": 0.28098127245903015,
308
+ "learning_rate": 4.4015734851021096e-05,
309
+ "loss": 0.0713,
310
+ "step": 2150
311
+ },
312
+ {
313
+ "epoch": 0.7365249414127888,
314
+ "grad_norm": 0.23308847844600677,
315
+ "learning_rate": 4.3876241490905037e-05,
316
+ "loss": 0.0667,
317
+ "step": 2200
318
+ },
319
+ {
320
+ "epoch": 0.7532641446267158,
321
+ "grad_norm": 0.22748568654060364,
322
+ "learning_rate": 4.373674813078898e-05,
323
+ "loss": 0.0605,
324
+ "step": 2250
325
+ },
326
+ {
327
+ "epoch": 0.7700033478406428,
328
+ "grad_norm": 0.3932187259197235,
329
+ "learning_rate": 4.359725477067292e-05,
330
+ "loss": 0.0676,
331
+ "step": 2300
332
+ },
333
+ {
334
+ "epoch": 0.7867425510545698,
335
+ "grad_norm": 0.23918767273426056,
336
+ "learning_rate": 4.345776141055686e-05,
337
+ "loss": 0.0624,
338
+ "step": 2350
339
+ },
340
+ {
341
+ "epoch": 0.8034817542684968,
342
+ "grad_norm": 0.3068426549434662,
343
+ "learning_rate": 4.33182680504408e-05,
344
+ "loss": 0.0664,
345
+ "step": 2400
346
+ },
347
+ {
348
+ "epoch": 0.8202209574824239,
349
+ "grad_norm": 0.17977873980998993,
350
+ "learning_rate": 4.317877469032474e-05,
351
+ "loss": 0.0726,
352
+ "step": 2450
353
+ },
354
+ {
355
+ "epoch": 0.8369601606963508,
356
+ "grad_norm": 0.16876642405986786,
357
+ "learning_rate": 4.303928133020869e-05,
358
+ "loss": 0.0639,
359
+ "step": 2500
360
+ },
361
+ {
362
+ "epoch": 0.8536993639102779,
363
+ "grad_norm": 0.17980250716209412,
364
+ "learning_rate": 4.289978797009263e-05,
365
+ "loss": 0.0701,
366
+ "step": 2550
367
+ },
368
+ {
369
+ "epoch": 0.8704385671242049,
370
+ "grad_norm": 0.1711459904909134,
371
+ "learning_rate": 4.276029460997656e-05,
372
+ "loss": 0.063,
373
+ "step": 2600
374
+ },
375
+ {
376
+ "epoch": 0.8871777703381319,
377
+ "grad_norm": 0.443228542804718,
378
+ "learning_rate": 4.262080124986051e-05,
379
+ "loss": 0.0675,
380
+ "step": 2650
381
+ },
382
+ {
383
+ "epoch": 0.9039169735520589,
384
+ "grad_norm": 0.2098589390516281,
385
+ "learning_rate": 4.248130788974445e-05,
386
+ "loss": 0.062,
387
+ "step": 2700
388
+ },
389
+ {
390
+ "epoch": 0.920656176765986,
391
+ "grad_norm": 0.3022039234638214,
392
+ "learning_rate": 4.234181452962839e-05,
393
+ "loss": 0.07,
394
+ "step": 2750
395
+ },
396
+ {
397
+ "epoch": 0.937395379979913,
398
+ "grad_norm": 0.19368910789489746,
399
+ "learning_rate": 4.220232116951233e-05,
400
+ "loss": 0.0621,
401
+ "step": 2800
402
+ },
403
+ {
404
+ "epoch": 0.9541345831938399,
405
+ "grad_norm": 0.18753108382225037,
406
+ "learning_rate": 4.206282780939628e-05,
407
+ "loss": 0.0631,
408
+ "step": 2850
409
+ },
410
+ {
411
+ "epoch": 0.970873786407767,
412
+ "grad_norm": 0.15517786145210266,
413
+ "learning_rate": 4.192333444928022e-05,
414
+ "loss": 0.0641,
415
+ "step": 2900
416
+ },
417
+ {
418
+ "epoch": 0.987612989621694,
419
+ "grad_norm": 0.11765792220830917,
420
+ "learning_rate": 4.178384108916415e-05,
421
+ "loss": 0.0612,
422
+ "step": 2950
423
+ },
424
+ {
425
+ "epoch": 1.0,
426
+ "eval_loss": 0.05521286651492119,
427
+ "eval_runtime": 50.415,
428
+ "eval_samples_per_second": 236.993,
429
+ "eval_steps_per_second": 14.817,
430
+ "step": 2987
431
+ },
432
+ {
433
+ "epoch": 1.004352192835621,
434
+ "grad_norm": 0.2691793739795685,
435
+ "learning_rate": 4.16443477290481e-05,
436
+ "loss": 0.059,
437
+ "step": 3000
438
+ },
439
+ {
440
+ "epoch": 1.021091396049548,
441
+ "grad_norm": 0.394694060087204,
442
+ "learning_rate": 4.150485436893204e-05,
443
+ "loss": 0.0566,
444
+ "step": 3050
445
+ },
446
+ {
447
+ "epoch": 1.037830599263475,
448
+ "grad_norm": 0.19438503682613373,
449
+ "learning_rate": 4.136536100881598e-05,
450
+ "loss": 0.0591,
451
+ "step": 3100
452
+ },
453
+ {
454
+ "epoch": 1.0545698024774022,
455
+ "grad_norm": 0.21350933611392975,
456
+ "learning_rate": 4.122586764869992e-05,
457
+ "loss": 0.0509,
458
+ "step": 3150
459
+ },
460
+ {
461
+ "epoch": 1.071309005691329,
462
+ "grad_norm": 0.26747575402259827,
463
+ "learning_rate": 4.108637428858387e-05,
464
+ "loss": 0.0589,
465
+ "step": 3200
466
+ },
467
+ {
468
+ "epoch": 1.088048208905256,
469
+ "grad_norm": 0.31256961822509766,
470
+ "learning_rate": 4.0946880928467804e-05,
471
+ "loss": 0.0602,
472
+ "step": 3250
473
+ },
474
+ {
475
+ "epoch": 1.1047874121191832,
476
+ "grad_norm": 0.18631280958652496,
477
+ "learning_rate": 4.0807387568351745e-05,
478
+ "loss": 0.0547,
479
+ "step": 3300
480
+ },
481
+ {
482
+ "epoch": 1.12152661533311,
483
+ "grad_norm": 0.18677473068237305,
484
+ "learning_rate": 4.066789420823569e-05,
485
+ "loss": 0.0543,
486
+ "step": 3350
487
+ },
488
+ {
489
+ "epoch": 1.1382658185470371,
490
+ "grad_norm": 0.24535444378852844,
491
+ "learning_rate": 4.052840084811963e-05,
492
+ "loss": 0.0583,
493
+ "step": 3400
494
+ },
495
+ {
496
+ "epoch": 1.1550050217609642,
497
+ "grad_norm": 0.1752105951309204,
498
+ "learning_rate": 4.038890748800357e-05,
499
+ "loss": 0.0504,
500
+ "step": 3450
501
+ },
502
+ {
503
+ "epoch": 1.1717442249748913,
504
+ "grad_norm": 0.14743360877037048,
505
+ "learning_rate": 4.0249414127887514e-05,
506
+ "loss": 0.055,
507
+ "step": 3500
508
+ },
509
+ {
510
+ "epoch": 1.1884834281888181,
511
+ "grad_norm": 0.11535945534706116,
512
+ "learning_rate": 4.010992076777146e-05,
513
+ "loss": 0.0552,
514
+ "step": 3550
515
+ },
516
+ {
517
+ "epoch": 1.2052226314027452,
518
+ "grad_norm": 0.26563358306884766,
519
+ "learning_rate": 3.9970427407655395e-05,
520
+ "loss": 0.0552,
521
+ "step": 3600
522
+ },
523
+ {
524
+ "epoch": 1.2219618346166723,
525
+ "grad_norm": 0.15104246139526367,
526
+ "learning_rate": 3.9830934047539336e-05,
527
+ "loss": 0.0575,
528
+ "step": 3650
529
+ },
530
+ {
531
+ "epoch": 1.2387010378305994,
532
+ "grad_norm": 0.2198421210050583,
533
+ "learning_rate": 3.9691440687423283e-05,
534
+ "loss": 0.0567,
535
+ "step": 3700
536
+ },
537
+ {
538
+ "epoch": 1.2554402410445262,
539
+ "grad_norm": 0.20177733898162842,
540
+ "learning_rate": 3.955194732730722e-05,
541
+ "loss": 0.0556,
542
+ "step": 3750
543
+ },
544
+ {
545
+ "epoch": 1.2721794442584533,
546
+ "grad_norm": 0.36604830622673035,
547
+ "learning_rate": 3.9412453967191165e-05,
548
+ "loss": 0.0569,
549
+ "step": 3800
550
+ },
551
+ {
552
+ "epoch": 1.2889186474723804,
553
+ "grad_norm": 0.18883727490901947,
554
+ "learning_rate": 3.9272960607075105e-05,
555
+ "loss": 0.0595,
556
+ "step": 3850
557
+ },
558
+ {
559
+ "epoch": 1.3056578506863072,
560
+ "grad_norm": 0.14828617870807648,
561
+ "learning_rate": 3.9133467246959046e-05,
562
+ "loss": 0.0548,
563
+ "step": 3900
564
+ },
565
+ {
566
+ "epoch": 1.3223970539002343,
567
+ "grad_norm": 0.19220437109470367,
568
+ "learning_rate": 3.899397388684299e-05,
569
+ "loss": 0.053,
570
+ "step": 3950
571
+ },
572
+ {
573
+ "epoch": 1.3391362571141614,
574
+ "grad_norm": 0.16049669682979584,
575
+ "learning_rate": 3.885448052672693e-05,
576
+ "loss": 0.0581,
577
+ "step": 4000
578
+ },
579
+ {
580
+ "epoch": 1.3558754603280883,
581
+ "grad_norm": 0.22821515798568726,
582
+ "learning_rate": 3.8714987166610875e-05,
583
+ "loss": 0.0518,
584
+ "step": 4050
585
+ },
586
+ {
587
+ "epoch": 1.3726146635420153,
588
+ "grad_norm": 0.1879580318927765,
589
+ "learning_rate": 3.857549380649481e-05,
590
+ "loss": 0.0574,
591
+ "step": 4100
592
+ },
593
+ {
594
+ "epoch": 1.3893538667559424,
595
+ "grad_norm": 0.16026251018047333,
596
+ "learning_rate": 3.8436000446378756e-05,
597
+ "loss": 0.063,
598
+ "step": 4150
599
+ },
600
+ {
601
+ "epoch": 1.4060930699698695,
602
+ "grad_norm": 0.26868143677711487,
603
+ "learning_rate": 3.82965070862627e-05,
604
+ "loss": 0.0571,
605
+ "step": 4200
606
+ },
607
+ {
608
+ "epoch": 1.4228322731837966,
609
+ "grad_norm": 0.2529687285423279,
610
+ "learning_rate": 3.815701372614664e-05,
611
+ "loss": 0.0528,
612
+ "step": 4250
613
+ },
614
+ {
615
+ "epoch": 1.4395714763977234,
616
+ "grad_norm": 0.19138221442699432,
617
+ "learning_rate": 3.801752036603058e-05,
618
+ "loss": 0.0584,
619
+ "step": 4300
620
+ },
621
+ {
622
+ "epoch": 1.4563106796116505,
623
+ "grad_norm": 0.16359661519527435,
624
+ "learning_rate": 3.787802700591452e-05,
625
+ "loss": 0.0539,
626
+ "step": 4350
627
+ },
628
+ {
629
+ "epoch": 1.4730498828255776,
630
+ "grad_norm": 0.1373494267463684,
631
+ "learning_rate": 3.7738533645798466e-05,
632
+ "loss": 0.0557,
633
+ "step": 4400
634
+ },
635
+ {
636
+ "epoch": 1.4897890860395044,
637
+ "grad_norm": 0.15695162117481232,
638
+ "learning_rate": 3.75990402856824e-05,
639
+ "loss": 0.0491,
640
+ "step": 4450
641
+ },
642
+ {
643
+ "epoch": 1.5065282892534315,
644
+ "grad_norm": 0.18462614715099335,
645
+ "learning_rate": 3.745954692556635e-05,
646
+ "loss": 0.0495,
647
+ "step": 4500
648
+ },
649
+ {
650
+ "epoch": 1.5232674924673586,
651
+ "grad_norm": 0.27876704931259155,
652
+ "learning_rate": 3.732005356545029e-05,
653
+ "loss": 0.0523,
654
+ "step": 4550
655
+ },
656
+ {
657
+ "epoch": 1.5400066956812855,
658
+ "grad_norm": 0.30491840839385986,
659
+ "learning_rate": 3.718056020533423e-05,
660
+ "loss": 0.0564,
661
+ "step": 4600
662
+ },
663
+ {
664
+ "epoch": 1.5567458988952128,
665
+ "grad_norm": 0.18721336126327515,
666
+ "learning_rate": 3.704106684521817e-05,
667
+ "loss": 0.0524,
668
+ "step": 4650
669
+ },
670
+ {
671
+ "epoch": 1.5734851021091396,
672
+ "grad_norm": 0.21216215193271637,
673
+ "learning_rate": 3.690157348510211e-05,
674
+ "loss": 0.0521,
675
+ "step": 4700
676
+ },
677
+ {
678
+ "epoch": 1.5902243053230665,
679
+ "grad_norm": 0.1368396282196045,
680
+ "learning_rate": 3.676208012498605e-05,
681
+ "loss": 0.056,
682
+ "step": 4750
683
+ },
684
+ {
685
+ "epoch": 1.6069635085369938,
686
+ "grad_norm": 0.13692086935043335,
687
+ "learning_rate": 3.662258676486999e-05,
688
+ "loss": 0.0443,
689
+ "step": 4800
690
+ },
691
+ {
692
+ "epoch": 1.6237027117509206,
693
+ "grad_norm": 0.11640128493309021,
694
+ "learning_rate": 3.648309340475394e-05,
695
+ "loss": 0.0488,
696
+ "step": 4850
697
+ },
698
+ {
699
+ "epoch": 1.6404419149648477,
700
+ "grad_norm": 0.19953882694244385,
701
+ "learning_rate": 3.634360004463788e-05,
702
+ "loss": 0.0553,
703
+ "step": 4900
704
+ },
705
+ {
706
+ "epoch": 1.6571811181787748,
707
+ "grad_norm": 0.1966984122991562,
708
+ "learning_rate": 3.6204106684521813e-05,
709
+ "loss": 0.0536,
710
+ "step": 4950
711
+ },
712
+ {
713
+ "epoch": 1.6739203213927016,
714
+ "grad_norm": 0.2324533313512802,
715
+ "learning_rate": 3.606461332440576e-05,
716
+ "loss": 0.0493,
717
+ "step": 5000
718
+ },
719
+ {
720
+ "epoch": 1.6906595246066287,
721
+ "grad_norm": 0.16217607259750366,
722
+ "learning_rate": 3.59251199642897e-05,
723
+ "loss": 0.0503,
724
+ "step": 5050
725
+ },
726
+ {
727
+ "epoch": 1.7073987278205558,
728
+ "grad_norm": 0.23949602246284485,
729
+ "learning_rate": 3.578562660417364e-05,
730
+ "loss": 0.0556,
731
+ "step": 5100
732
+ },
733
+ {
734
+ "epoch": 1.7241379310344827,
735
+ "grad_norm": 0.21387897431850433,
736
+ "learning_rate": 3.564613324405758e-05,
737
+ "loss": 0.0548,
738
+ "step": 5150
739
+ },
740
+ {
741
+ "epoch": 1.7408771342484097,
742
+ "grad_norm": 0.2055111676454544,
743
+ "learning_rate": 3.550663988394153e-05,
744
+ "loss": 0.06,
745
+ "step": 5200
746
+ },
747
+ {
748
+ "epoch": 1.7576163374623368,
749
+ "grad_norm": 0.20280921459197998,
750
+ "learning_rate": 3.5367146523825464e-05,
751
+ "loss": 0.0508,
752
+ "step": 5250
753
+ },
754
+ {
755
+ "epoch": 1.7743555406762637,
756
+ "grad_norm": 0.14165103435516357,
757
+ "learning_rate": 3.5227653163709405e-05,
758
+ "loss": 0.0581,
759
+ "step": 5300
760
+ },
761
+ {
762
+ "epoch": 1.791094743890191,
763
+ "grad_norm": 0.18099863827228546,
764
+ "learning_rate": 3.508815980359335e-05,
765
+ "loss": 0.0562,
766
+ "step": 5350
767
+ },
768
+ {
769
+ "epoch": 1.8078339471041178,
770
+ "grad_norm": 0.21743184328079224,
771
+ "learning_rate": 3.494866644347729e-05,
772
+ "loss": 0.0498,
773
+ "step": 5400
774
+ },
775
+ {
776
+ "epoch": 1.824573150318045,
777
+ "grad_norm": 0.20934534072875977,
778
+ "learning_rate": 3.4809173083361234e-05,
779
+ "loss": 0.0549,
780
+ "step": 5450
781
+ },
782
+ {
783
+ "epoch": 1.841312353531972,
784
+ "grad_norm": 0.1582174152135849,
785
+ "learning_rate": 3.4669679723245174e-05,
786
+ "loss": 0.0556,
787
+ "step": 5500
788
+ },
789
+ {
790
+ "epoch": 1.8580515567458988,
791
+ "grad_norm": 0.1624903827905655,
792
+ "learning_rate": 3.453018636312912e-05,
793
+ "loss": 0.0516,
794
+ "step": 5550
795
+ },
796
+ {
797
+ "epoch": 1.874790759959826,
798
+ "grad_norm": 0.16255798935890198,
799
+ "learning_rate": 3.4390693003013056e-05,
800
+ "loss": 0.0542,
801
+ "step": 5600
802
+ },
803
+ {
804
+ "epoch": 1.891529963173753,
805
+ "grad_norm": 0.1269742250442505,
806
+ "learning_rate": 3.4251199642896996e-05,
807
+ "loss": 0.0565,
808
+ "step": 5650
809
+ },
810
+ {
811
+ "epoch": 1.9082691663876798,
812
+ "grad_norm": 0.15966229140758514,
813
+ "learning_rate": 3.4111706282780944e-05,
814
+ "loss": 0.0538,
815
+ "step": 5700
816
+ },
817
+ {
818
+ "epoch": 1.925008369601607,
819
+ "grad_norm": 0.21506330370903015,
820
+ "learning_rate": 3.3972212922664884e-05,
821
+ "loss": 0.0505,
822
+ "step": 5750
823
+ },
824
+ {
825
+ "epoch": 1.941747572815534,
826
+ "grad_norm": 0.2145415097475052,
827
+ "learning_rate": 3.3832719562548825e-05,
828
+ "loss": 0.0521,
829
+ "step": 5800
830
+ },
831
+ {
832
+ "epoch": 1.9584867760294609,
833
+ "grad_norm": 0.10960496962070465,
834
+ "learning_rate": 3.3693226202432766e-05,
835
+ "loss": 0.0513,
836
+ "step": 5850
837
+ },
838
+ {
839
+ "epoch": 1.9752259792433882,
840
+ "grad_norm": 0.13635843992233276,
841
+ "learning_rate": 3.355373284231671e-05,
842
+ "loss": 0.0499,
843
+ "step": 5900
844
+ },
845
+ {
846
+ "epoch": 1.991965182457315,
847
+ "grad_norm": 0.1542210429906845,
848
+ "learning_rate": 3.341423948220065e-05,
849
+ "loss": 0.0556,
850
+ "step": 5950
851
+ },
852
+ {
853
+ "epoch": 2.0,
854
+ "eval_loss": 0.04946442320942879,
855
+ "eval_runtime": 55.6114,
856
+ "eval_samples_per_second": 214.848,
857
+ "eval_steps_per_second": 13.432,
858
+ "step": 5974
859
+ },
860
+ {
861
+ "epoch": 2.008704385671242,
862
+ "grad_norm": 0.1718842089176178,
863
+ "learning_rate": 3.327474612208459e-05,
864
+ "loss": 0.0503,
865
+ "step": 6000
866
+ },
867
+ {
868
+ "epoch": 2.025443588885169,
869
+ "grad_norm": 0.1528020203113556,
870
+ "learning_rate": 3.3135252761968535e-05,
871
+ "loss": 0.0479,
872
+ "step": 6050
873
+ },
874
+ {
875
+ "epoch": 2.042182792099096,
876
+ "grad_norm": 0.19148772954940796,
877
+ "learning_rate": 3.299575940185247e-05,
878
+ "loss": 0.0443,
879
+ "step": 6100
880
+ },
881
+ {
882
+ "epoch": 2.058921995313023,
883
+ "grad_norm": 0.18125496804714203,
884
+ "learning_rate": 3.2856266041736416e-05,
885
+ "loss": 0.0473,
886
+ "step": 6150
887
+ },
888
+ {
889
+ "epoch": 2.07566119852695,
890
+ "grad_norm": 0.20772996544837952,
891
+ "learning_rate": 3.271677268162036e-05,
892
+ "loss": 0.0539,
893
+ "step": 6200
894
+ },
895
+ {
896
+ "epoch": 2.092400401740877,
897
+ "grad_norm": 0.2518468201160431,
898
+ "learning_rate": 3.25772793215043e-05,
899
+ "loss": 0.0468,
900
+ "step": 6250
901
+ },
902
+ {
903
+ "epoch": 2.1091396049548043,
904
+ "grad_norm": 0.1350301206111908,
905
+ "learning_rate": 3.243778596138824e-05,
906
+ "loss": 0.0431,
907
+ "step": 6300
908
+ },
909
+ {
910
+ "epoch": 2.125878808168731,
911
+ "grad_norm": 0.19141735136508942,
912
+ "learning_rate": 3.229829260127218e-05,
913
+ "loss": 0.048,
914
+ "step": 6350
915
+ },
916
+ {
917
+ "epoch": 2.142618011382658,
918
+ "grad_norm": 0.2404586374759674,
919
+ "learning_rate": 3.2158799241156126e-05,
920
+ "loss": 0.0516,
921
+ "step": 6400
922
+ },
923
+ {
924
+ "epoch": 2.1593572145965854,
925
+ "grad_norm": 0.21710112690925598,
926
+ "learning_rate": 3.201930588104006e-05,
927
+ "loss": 0.0472,
928
+ "step": 6450
929
+ },
930
+ {
931
+ "epoch": 2.176096417810512,
932
+ "grad_norm": 0.14395031332969666,
933
+ "learning_rate": 3.187981252092401e-05,
934
+ "loss": 0.0438,
935
+ "step": 6500
936
+ },
937
+ {
938
+ "epoch": 2.192835621024439,
939
+ "grad_norm": 0.20882932841777802,
940
+ "learning_rate": 3.174031916080795e-05,
941
+ "loss": 0.0488,
942
+ "step": 6550
943
+ },
944
+ {
945
+ "epoch": 2.2095748242383664,
946
+ "grad_norm": 0.13824905455112457,
947
+ "learning_rate": 3.160082580069189e-05,
948
+ "loss": 0.0464,
949
+ "step": 6600
950
+ },
951
+ {
952
+ "epoch": 2.2263140274522932,
953
+ "grad_norm": 0.1783577799797058,
954
+ "learning_rate": 3.146133244057583e-05,
955
+ "loss": 0.0459,
956
+ "step": 6650
957
+ },
958
+ {
959
+ "epoch": 2.24305323066622,
960
+ "grad_norm": 0.22147531807422638,
961
+ "learning_rate": 3.132183908045977e-05,
962
+ "loss": 0.0476,
963
+ "step": 6700
964
+ },
965
+ {
966
+ "epoch": 2.2597924338801474,
967
+ "grad_norm": 0.17393821477890015,
968
+ "learning_rate": 3.118234572034371e-05,
969
+ "loss": 0.0436,
970
+ "step": 6750
971
+ },
972
+ {
973
+ "epoch": 2.2765316370940742,
974
+ "grad_norm": 0.15850785374641418,
975
+ "learning_rate": 3.104285236022765e-05,
976
+ "loss": 0.0476,
977
+ "step": 6800
978
+ },
979
+ {
980
+ "epoch": 2.2932708403080015,
981
+ "grad_norm": 0.16232182085514069,
982
+ "learning_rate": 3.09033590001116e-05,
983
+ "loss": 0.0473,
984
+ "step": 6850
985
+ },
986
+ {
987
+ "epoch": 2.3100100435219284,
988
+ "grad_norm": 0.1816001981496811,
989
+ "learning_rate": 3.076386563999554e-05,
990
+ "loss": 0.0427,
991
+ "step": 6900
992
+ },
993
+ {
994
+ "epoch": 2.3267492467358553,
995
+ "grad_norm": 0.13417834043502808,
996
+ "learning_rate": 3.062437227987948e-05,
997
+ "loss": 0.0448,
998
+ "step": 6950
999
+ },
1000
+ {
1001
+ "epoch": 2.3434884499497826,
1002
+ "grad_norm": 0.12576530873775482,
1003
+ "learning_rate": 3.048487891976342e-05,
1004
+ "loss": 0.0453,
1005
+ "step": 7000
1006
+ },
1007
+ {
1008
+ "epoch": 2.3602276531637094,
1009
+ "grad_norm": 0.33120718598365784,
1010
+ "learning_rate": 3.0345385559647362e-05,
1011
+ "loss": 0.0462,
1012
+ "step": 7050
1013
+ },
1014
+ {
1015
+ "epoch": 2.3769668563776363,
1016
+ "grad_norm": 0.22310969233512878,
1017
+ "learning_rate": 3.0205892199531306e-05,
1018
+ "loss": 0.0475,
1019
+ "step": 7100
1020
+ },
1021
+ {
1022
+ "epoch": 2.3937060595915636,
1023
+ "grad_norm": 0.18150626122951508,
1024
+ "learning_rate": 3.0066398839415243e-05,
1025
+ "loss": 0.0489,
1026
+ "step": 7150
1027
+ },
1028
+ {
1029
+ "epoch": 2.4104452628054904,
1030
+ "grad_norm": 0.28730452060699463,
1031
+ "learning_rate": 2.9926905479299187e-05,
1032
+ "loss": 0.0536,
1033
+ "step": 7200
1034
+ },
1035
+ {
1036
+ "epoch": 2.4271844660194173,
1037
+ "grad_norm": 0.1918480098247528,
1038
+ "learning_rate": 2.9787412119183128e-05,
1039
+ "loss": 0.0426,
1040
+ "step": 7250
1041
+ },
1042
+ {
1043
+ "epoch": 2.4439236692333446,
1044
+ "grad_norm": 0.16158398985862732,
1045
+ "learning_rate": 2.964791875906707e-05,
1046
+ "loss": 0.0458,
1047
+ "step": 7300
1048
+ },
1049
+ {
1050
+ "epoch": 2.4606628724472714,
1051
+ "grad_norm": 0.27141231298446655,
1052
+ "learning_rate": 2.9508425398951012e-05,
1053
+ "loss": 0.0454,
1054
+ "step": 7350
1055
+ },
1056
+ {
1057
+ "epoch": 2.4774020756611987,
1058
+ "grad_norm": 0.1777345836162567,
1059
+ "learning_rate": 2.936893203883495e-05,
1060
+ "loss": 0.0435,
1061
+ "step": 7400
1062
+ },
1063
+ {
1064
+ "epoch": 2.4941412788751256,
1065
+ "grad_norm": 0.14735421538352966,
1066
+ "learning_rate": 2.9229438678718897e-05,
1067
+ "loss": 0.0489,
1068
+ "step": 7450
1069
+ },
1070
+ {
1071
+ "epoch": 2.5108804820890525,
1072
+ "grad_norm": 0.1486055999994278,
1073
+ "learning_rate": 2.9089945318602834e-05,
1074
+ "loss": 0.0477,
1075
+ "step": 7500
1076
+ },
1077
+ {
1078
+ "epoch": 2.5276196853029793,
1079
+ "grad_norm": 0.17078754305839539,
1080
+ "learning_rate": 2.895045195848678e-05,
1081
+ "loss": 0.0444,
1082
+ "step": 7550
1083
+ },
1084
+ {
1085
+ "epoch": 2.5443588885169066,
1086
+ "grad_norm": 0.19276435673236847,
1087
+ "learning_rate": 2.881095859837072e-05,
1088
+ "loss": 0.0486,
1089
+ "step": 7600
1090
+ },
1091
+ {
1092
+ "epoch": 2.5610980917308335,
1093
+ "grad_norm": 0.21209606528282166,
1094
+ "learning_rate": 2.8671465238254656e-05,
1095
+ "loss": 0.0497,
1096
+ "step": 7650
1097
+ },
1098
+ {
1099
+ "epoch": 2.5778372949447608,
1100
+ "grad_norm": 0.21018877625465393,
1101
+ "learning_rate": 2.8531971878138604e-05,
1102
+ "loss": 0.0441,
1103
+ "step": 7700
1104
+ },
1105
+ {
1106
+ "epoch": 2.5945764981586876,
1107
+ "grad_norm": 0.15666617453098297,
1108
+ "learning_rate": 2.839247851802254e-05,
1109
+ "loss": 0.0467,
1110
+ "step": 7750
1111
+ },
1112
+ {
1113
+ "epoch": 2.6113157013726145,
1114
+ "grad_norm": 0.1940685212612152,
1115
+ "learning_rate": 2.8252985157906485e-05,
1116
+ "loss": 0.0523,
1117
+ "step": 7800
1118
+ },
1119
+ {
1120
+ "epoch": 2.628054904586542,
1121
+ "grad_norm": 0.28480586409568787,
1122
+ "learning_rate": 2.8113491797790426e-05,
1123
+ "loss": 0.0481,
1124
+ "step": 7850
1125
+ },
1126
+ {
1127
+ "epoch": 2.6447941078004686,
1128
+ "grad_norm": 0.2223973125219345,
1129
+ "learning_rate": 2.797399843767437e-05,
1130
+ "loss": 0.0432,
1131
+ "step": 7900
1132
+ },
1133
+ {
1134
+ "epoch": 2.661533311014396,
1135
+ "grad_norm": 0.15986157953739166,
1136
+ "learning_rate": 2.783450507755831e-05,
1137
+ "loss": 0.0454,
1138
+ "step": 7950
1139
+ },
1140
+ {
1141
+ "epoch": 2.678272514228323,
1142
+ "grad_norm": 0.1384258270263672,
1143
+ "learning_rate": 2.7695011717442248e-05,
1144
+ "loss": 0.0477,
1145
+ "step": 8000
1146
+ },
1147
+ {
1148
+ "epoch": 2.6950117174422497,
1149
+ "grad_norm": 0.1721869707107544,
1150
+ "learning_rate": 2.7555518357326192e-05,
1151
+ "loss": 0.0453,
1152
+ "step": 8050
1153
+ },
1154
+ {
1155
+ "epoch": 2.7117509206561765,
1156
+ "grad_norm": 0.20737840235233307,
1157
+ "learning_rate": 2.7416024997210132e-05,
1158
+ "loss": 0.0504,
1159
+ "step": 8100
1160
+ },
1161
+ {
1162
+ "epoch": 2.728490123870104,
1163
+ "grad_norm": 0.18823584914207458,
1164
+ "learning_rate": 2.7276531637094077e-05,
1165
+ "loss": 0.0453,
1166
+ "step": 8150
1167
+ },
1168
+ {
1169
+ "epoch": 2.7452293270840307,
1170
+ "grad_norm": 0.13201962411403656,
1171
+ "learning_rate": 2.7137038276978017e-05,
1172
+ "loss": 0.0433,
1173
+ "step": 8200
1174
+ },
1175
+ {
1176
+ "epoch": 2.761968530297958,
1177
+ "grad_norm": 0.1443973183631897,
1178
+ "learning_rate": 2.699754491686196e-05,
1179
+ "loss": 0.0486,
1180
+ "step": 8250
1181
+ },
1182
+ {
1183
+ "epoch": 2.778707733511885,
1184
+ "grad_norm": 0.29314514994621277,
1185
+ "learning_rate": 2.68580515567459e-05,
1186
+ "loss": 0.05,
1187
+ "step": 8300
1188
+ },
1189
+ {
1190
+ "epoch": 2.7954469367258117,
1191
+ "grad_norm": 0.14852124452590942,
1192
+ "learning_rate": 2.671855819662984e-05,
1193
+ "loss": 0.0495,
1194
+ "step": 8350
1195
+ },
1196
+ {
1197
+ "epoch": 2.812186139939739,
1198
+ "grad_norm": 0.19024662673473358,
1199
+ "learning_rate": 2.6579064836513783e-05,
1200
+ "loss": 0.0508,
1201
+ "step": 8400
1202
+ },
1203
+ {
1204
+ "epoch": 2.828925343153666,
1205
+ "grad_norm": 0.1745578795671463,
1206
+ "learning_rate": 2.6439571476397724e-05,
1207
+ "loss": 0.0443,
1208
+ "step": 8450
1209
+ },
1210
+ {
1211
+ "epoch": 2.845664546367593,
1212
+ "grad_norm": 0.18390017747879028,
1213
+ "learning_rate": 2.6300078116281668e-05,
1214
+ "loss": 0.0468,
1215
+ "step": 8500
1216
+ },
1217
+ {
1218
+ "epoch": 2.86240374958152,
1219
+ "grad_norm": 0.22483347356319427,
1220
+ "learning_rate": 2.616058475616561e-05,
1221
+ "loss": 0.0467,
1222
+ "step": 8550
1223
+ },
1224
+ {
1225
+ "epoch": 2.879142952795447,
1226
+ "grad_norm": 0.18160563707351685,
1227
+ "learning_rate": 2.6021091396049553e-05,
1228
+ "loss": 0.0441,
1229
+ "step": 8600
1230
+ },
1231
+ {
1232
+ "epoch": 2.8958821560093737,
1233
+ "grad_norm": 0.13408955931663513,
1234
+ "learning_rate": 2.588159803593349e-05,
1235
+ "loss": 0.0446,
1236
+ "step": 8650
1237
+ },
1238
+ {
1239
+ "epoch": 2.912621359223301,
1240
+ "grad_norm": 0.16038326919078827,
1241
+ "learning_rate": 2.574210467581743e-05,
1242
+ "loss": 0.0456,
1243
+ "step": 8700
1244
+ },
1245
+ {
1246
+ "epoch": 2.929360562437228,
1247
+ "grad_norm": 0.22738413512706757,
1248
+ "learning_rate": 2.5602611315701375e-05,
1249
+ "loss": 0.0479,
1250
+ "step": 8750
1251
+ },
1252
+ {
1253
+ "epoch": 2.946099765651155,
1254
+ "grad_norm": 0.20327210426330566,
1255
+ "learning_rate": 2.5463117955585315e-05,
1256
+ "loss": 0.0511,
1257
+ "step": 8800
1258
+ },
1259
+ {
1260
+ "epoch": 2.962838968865082,
1261
+ "grad_norm": 0.15756353735923767,
1262
+ "learning_rate": 2.532362459546926e-05,
1263
+ "loss": 0.0426,
1264
+ "step": 8850
1265
+ },
1266
+ {
1267
+ "epoch": 2.979578172079009,
1268
+ "grad_norm": 0.1305045783519745,
1269
+ "learning_rate": 2.5184131235353197e-05,
1270
+ "loss": 0.0442,
1271
+ "step": 8900
1272
+ },
1273
+ {
1274
+ "epoch": 2.996317375292936,
1275
+ "grad_norm": 0.1610562801361084,
1276
+ "learning_rate": 2.5044637875237144e-05,
1277
+ "loss": 0.0467,
1278
+ "step": 8950
1279
+ },
1280
+ {
1281
+ "epoch": 3.0,
1282
+ "eval_loss": 0.04702676460146904,
1283
+ "eval_runtime": 52.8989,
1284
+ "eval_samples_per_second": 225.865,
1285
+ "eval_steps_per_second": 14.121,
1286
+ "step": 8961
1287
+ },
1288
+ {
1289
+ "epoch": 3.013056578506863,
1290
+ "grad_norm": 0.2042045295238495,
1291
+ "learning_rate": 2.490514451512108e-05,
1292
+ "loss": 0.0457,
1293
+ "step": 9000
1294
+ },
1295
+ {
1296
+ "epoch": 3.02979578172079,
1297
+ "grad_norm": 0.27092283964157104,
1298
+ "learning_rate": 2.4765651155005022e-05,
1299
+ "loss": 0.0437,
1300
+ "step": 9050
1301
+ },
1302
+ {
1303
+ "epoch": 3.046534984934717,
1304
+ "grad_norm": 0.18729308247566223,
1305
+ "learning_rate": 2.4626157794888966e-05,
1306
+ "loss": 0.039,
1307
+ "step": 9100
1308
+ },
1309
+ {
1310
+ "epoch": 3.063274188148644,
1311
+ "grad_norm": 0.18845289945602417,
1312
+ "learning_rate": 2.4486664434772903e-05,
1313
+ "loss": 0.0422,
1314
+ "step": 9150
1315
+ },
1316
+ {
1317
+ "epoch": 3.0800133913625714,
1318
+ "grad_norm": 0.17593874037265778,
1319
+ "learning_rate": 2.4347171074656847e-05,
1320
+ "loss": 0.0384,
1321
+ "step": 9200
1322
+ },
1323
+ {
1324
+ "epoch": 3.096752594576498,
1325
+ "grad_norm": 0.23149123787879944,
1326
+ "learning_rate": 2.4207677714540788e-05,
1327
+ "loss": 0.0443,
1328
+ "step": 9250
1329
+ },
1330
+ {
1331
+ "epoch": 3.113491797790425,
1332
+ "grad_norm": 0.1968075931072235,
1333
+ "learning_rate": 2.4068184354424732e-05,
1334
+ "loss": 0.0402,
1335
+ "step": 9300
1336
+ },
1337
+ {
1338
+ "epoch": 3.1302310010043524,
1339
+ "grad_norm": 0.16893354058265686,
1340
+ "learning_rate": 2.3928690994308673e-05,
1341
+ "loss": 0.043,
1342
+ "step": 9350
1343
+ },
1344
+ {
1345
+ "epoch": 3.146970204218279,
1346
+ "grad_norm": 0.161103293299675,
1347
+ "learning_rate": 2.3789197634192613e-05,
1348
+ "loss": 0.0414,
1349
+ "step": 9400
1350
+ },
1351
+ {
1352
+ "epoch": 3.163709407432206,
1353
+ "grad_norm": 0.22712625563144684,
1354
+ "learning_rate": 2.3649704274076557e-05,
1355
+ "loss": 0.0426,
1356
+ "step": 9450
1357
+ },
1358
+ {
1359
+ "epoch": 3.1804486106461334,
1360
+ "grad_norm": 0.12811464071273804,
1361
+ "learning_rate": 2.3510210913960495e-05,
1362
+ "loss": 0.0406,
1363
+ "step": 9500
1364
+ },
1365
+ {
1366
+ "epoch": 3.1971878138600602,
1367
+ "grad_norm": 0.16762731969356537,
1368
+ "learning_rate": 2.337071755384444e-05,
1369
+ "loss": 0.0417,
1370
+ "step": 9550
1371
+ },
1372
+ {
1373
+ "epoch": 3.213927017073987,
1374
+ "grad_norm": 0.14003124833106995,
1375
+ "learning_rate": 2.323122419372838e-05,
1376
+ "loss": 0.0453,
1377
+ "step": 9600
1378
+ },
1379
+ {
1380
+ "epoch": 3.2306662202879144,
1381
+ "grad_norm": 0.16891060769557953,
1382
+ "learning_rate": 2.309173083361232e-05,
1383
+ "loss": 0.0445,
1384
+ "step": 9650
1385
+ },
1386
+ {
1387
+ "epoch": 3.2474054235018412,
1388
+ "grad_norm": 0.16900208592414856,
1389
+ "learning_rate": 2.2952237473496264e-05,
1390
+ "loss": 0.039,
1391
+ "step": 9700
1392
+ },
1393
+ {
1394
+ "epoch": 3.264144626715768,
1395
+ "grad_norm": 0.17154955863952637,
1396
+ "learning_rate": 2.2812744113380205e-05,
1397
+ "loss": 0.0403,
1398
+ "step": 9750
1399
+ },
1400
+ {
1401
+ "epoch": 3.2808838299296954,
1402
+ "grad_norm": 0.1620296835899353,
1403
+ "learning_rate": 2.2673250753264145e-05,
1404
+ "loss": 0.0406,
1405
+ "step": 9800
1406
+ },
1407
+ {
1408
+ "epoch": 3.2976230331436223,
1409
+ "grad_norm": 0.14487063884735107,
1410
+ "learning_rate": 2.2533757393148086e-05,
1411
+ "loss": 0.0467,
1412
+ "step": 9850
1413
+ },
1414
+ {
1415
+ "epoch": 3.3143622363575496,
1416
+ "grad_norm": 0.13799156248569489,
1417
+ "learning_rate": 2.2394264033032027e-05,
1418
+ "loss": 0.0433,
1419
+ "step": 9900
1420
+ },
1421
+ {
1422
+ "epoch": 3.3311014395714764,
1423
+ "grad_norm": 0.1507265418767929,
1424
+ "learning_rate": 2.225477067291597e-05,
1425
+ "loss": 0.0446,
1426
+ "step": 9950
1427
+ },
1428
+ {
1429
+ "epoch": 3.3478406427854033,
1430
+ "grad_norm": 0.1605840027332306,
1431
+ "learning_rate": 2.211527731279991e-05,
1432
+ "loss": 0.0415,
1433
+ "step": 10000
1434
+ },
1435
+ {
1436
+ "epoch": 3.3645798459993306,
1437
+ "grad_norm": 0.11910756677389145,
1438
+ "learning_rate": 2.1975783952683855e-05,
1439
+ "loss": 0.0453,
1440
+ "step": 10050
1441
+ },
1442
+ {
1443
+ "epoch": 3.3813190492132574,
1444
+ "grad_norm": 0.15115414559841156,
1445
+ "learning_rate": 2.1836290592567796e-05,
1446
+ "loss": 0.0395,
1447
+ "step": 10100
1448
+ },
1449
+ {
1450
+ "epoch": 3.3980582524271843,
1451
+ "grad_norm": 0.2044568508863449,
1452
+ "learning_rate": 2.1696797232451737e-05,
1453
+ "loss": 0.0473,
1454
+ "step": 10150
1455
+ },
1456
+ {
1457
+ "epoch": 3.4147974556411116,
1458
+ "grad_norm": 0.18123552203178406,
1459
+ "learning_rate": 2.1557303872335677e-05,
1460
+ "loss": 0.0411,
1461
+ "step": 10200
1462
+ },
1463
+ {
1464
+ "epoch": 3.4315366588550384,
1465
+ "grad_norm": 0.6018120646476746,
1466
+ "learning_rate": 2.1417810512219618e-05,
1467
+ "loss": 0.0413,
1468
+ "step": 10250
1469
+ },
1470
+ {
1471
+ "epoch": 3.4482758620689653,
1472
+ "grad_norm": 0.22490189969539642,
1473
+ "learning_rate": 2.1278317152103562e-05,
1474
+ "loss": 0.0437,
1475
+ "step": 10300
1476
+ },
1477
+ {
1478
+ "epoch": 3.4650150652828926,
1479
+ "grad_norm": 0.1784990429878235,
1480
+ "learning_rate": 2.1138823791987503e-05,
1481
+ "loss": 0.0453,
1482
+ "step": 10350
1483
+ },
1484
+ {
1485
+ "epoch": 3.4817542684968195,
1486
+ "grad_norm": 0.15248402953147888,
1487
+ "learning_rate": 2.0999330431871443e-05,
1488
+ "loss": 0.0456,
1489
+ "step": 10400
1490
+ },
1491
+ {
1492
+ "epoch": 3.4984934717107468,
1493
+ "grad_norm": 0.15146291255950928,
1494
+ "learning_rate": 2.0859837071755387e-05,
1495
+ "loss": 0.0393,
1496
+ "step": 10450
1497
+ },
1498
+ {
1499
+ "epoch": 3.5152326749246736,
1500
+ "grad_norm": 0.1662750393152237,
1501
+ "learning_rate": 2.0720343711639325e-05,
1502
+ "loss": 0.0408,
1503
+ "step": 10500
1504
+ },
1505
+ {
1506
+ "epoch": 3.5319718781386005,
1507
+ "grad_norm": 0.1244506984949112,
1508
+ "learning_rate": 2.058085035152327e-05,
1509
+ "loss": 0.0426,
1510
+ "step": 10550
1511
+ },
1512
+ {
1513
+ "epoch": 3.5487110813525278,
1514
+ "grad_norm": 0.1180344969034195,
1515
+ "learning_rate": 2.044135699140721e-05,
1516
+ "loss": 0.0434,
1517
+ "step": 10600
1518
+ },
1519
+ {
1520
+ "epoch": 3.5654502845664546,
1521
+ "grad_norm": 0.15951013565063477,
1522
+ "learning_rate": 2.030186363129115e-05,
1523
+ "loss": 0.0387,
1524
+ "step": 10650
1525
+ },
1526
+ {
1527
+ "epoch": 3.582189487780382,
1528
+ "grad_norm": 0.16064217686653137,
1529
+ "learning_rate": 2.0162370271175094e-05,
1530
+ "loss": 0.0445,
1531
+ "step": 10700
1532
+ },
1533
+ {
1534
+ "epoch": 3.598928690994309,
1535
+ "grad_norm": 0.17813698947429657,
1536
+ "learning_rate": 2.0022876911059035e-05,
1537
+ "loss": 0.0407,
1538
+ "step": 10750
1539
+ },
1540
+ {
1541
+ "epoch": 3.6156678942082356,
1542
+ "grad_norm": 0.1256450116634369,
1543
+ "learning_rate": 1.988338355094298e-05,
1544
+ "loss": 0.0462,
1545
+ "step": 10800
1546
+ },
1547
+ {
1548
+ "epoch": 3.6324070974221625,
1549
+ "grad_norm": 0.14016403257846832,
1550
+ "learning_rate": 1.9743890190826916e-05,
1551
+ "loss": 0.0456,
1552
+ "step": 10850
1553
+ },
1554
+ {
1555
+ "epoch": 3.64914630063609,
1556
+ "grad_norm": 0.1396850347518921,
1557
+ "learning_rate": 1.9604396830710857e-05,
1558
+ "loss": 0.0403,
1559
+ "step": 10900
1560
+ },
1561
+ {
1562
+ "epoch": 3.6658855038500167,
1563
+ "grad_norm": 0.17943057417869568,
1564
+ "learning_rate": 1.94649034705948e-05,
1565
+ "loss": 0.0417,
1566
+ "step": 10950
1567
+ },
1568
+ {
1569
+ "epoch": 3.682624707063944,
1570
+ "grad_norm": 0.14947953820228577,
1571
+ "learning_rate": 1.932541011047874e-05,
1572
+ "loss": 0.0421,
1573
+ "step": 11000
1574
+ },
1575
+ {
1576
+ "epoch": 3.699363910277871,
1577
+ "grad_norm": 0.12628613412380219,
1578
+ "learning_rate": 1.9185916750362685e-05,
1579
+ "loss": 0.0435,
1580
+ "step": 11050
1581
+ },
1582
+ {
1583
+ "epoch": 3.7161031134917977,
1584
+ "grad_norm": 0.2205984890460968,
1585
+ "learning_rate": 1.9046423390246626e-05,
1586
+ "loss": 0.0396,
1587
+ "step": 11100
1588
+ },
1589
+ {
1590
+ "epoch": 3.732842316705725,
1591
+ "grad_norm": 0.13236357271671295,
1592
+ "learning_rate": 1.8906930030130567e-05,
1593
+ "loss": 0.0405,
1594
+ "step": 11150
1595
+ },
1596
+ {
1597
+ "epoch": 3.749581519919652,
1598
+ "grad_norm": 0.15023528039455414,
1599
+ "learning_rate": 1.8767436670014507e-05,
1600
+ "loss": 0.0434,
1601
+ "step": 11200
1602
+ },
1603
+ {
1604
+ "epoch": 3.7663207231335787,
1605
+ "grad_norm": 0.1427326649427414,
1606
+ "learning_rate": 1.8627943309898448e-05,
1607
+ "loss": 0.0437,
1608
+ "step": 11250
1609
+ },
1610
+ {
1611
+ "epoch": 3.783059926347506,
1612
+ "grad_norm": 0.1890624761581421,
1613
+ "learning_rate": 1.8488449949782392e-05,
1614
+ "loss": 0.0408,
1615
+ "step": 11300
1616
+ },
1617
+ {
1618
+ "epoch": 3.799799129561433,
1619
+ "grad_norm": 0.27970972657203674,
1620
+ "learning_rate": 1.8348956589666333e-05,
1621
+ "loss": 0.0441,
1622
+ "step": 11350
1623
+ },
1624
+ {
1625
+ "epoch": 3.8165383327753597,
1626
+ "grad_norm": 0.12823455035686493,
1627
+ "learning_rate": 1.8209463229550273e-05,
1628
+ "loss": 0.0412,
1629
+ "step": 11400
1630
+ },
1631
+ {
1632
+ "epoch": 3.833277535989287,
1633
+ "grad_norm": 0.1442965269088745,
1634
+ "learning_rate": 1.8069969869434218e-05,
1635
+ "loss": 0.0416,
1636
+ "step": 11450
1637
+ },
1638
+ {
1639
+ "epoch": 3.850016739203214,
1640
+ "grad_norm": 0.13739417493343353,
1641
+ "learning_rate": 1.7930476509318158e-05,
1642
+ "loss": 0.0397,
1643
+ "step": 11500
1644
+ },
1645
+ {
1646
+ "epoch": 3.866755942417141,
1647
+ "grad_norm": 0.16616705060005188,
1648
+ "learning_rate": 1.77909831492021e-05,
1649
+ "loss": 0.0413,
1650
+ "step": 11550
1651
+ },
1652
+ {
1653
+ "epoch": 3.883495145631068,
1654
+ "grad_norm": 0.23060384392738342,
1655
+ "learning_rate": 1.765148978908604e-05,
1656
+ "loss": 0.0447,
1657
+ "step": 11600
1658
+ },
1659
+ {
1660
+ "epoch": 3.900234348844995,
1661
+ "grad_norm": 0.2936810553073883,
1662
+ "learning_rate": 1.751199642896998e-05,
1663
+ "loss": 0.0409,
1664
+ "step": 11650
1665
+ },
1666
+ {
1667
+ "epoch": 3.9169735520589217,
1668
+ "grad_norm": 0.17367126047611237,
1669
+ "learning_rate": 1.7372503068853924e-05,
1670
+ "loss": 0.0411,
1671
+ "step": 11700
1672
+ },
1673
+ {
1674
+ "epoch": 3.933712755272849,
1675
+ "grad_norm": 0.14550547301769257,
1676
+ "learning_rate": 1.7233009708737865e-05,
1677
+ "loss": 0.0445,
1678
+ "step": 11750
1679
+ },
1680
+ {
1681
+ "epoch": 3.950451958486776,
1682
+ "grad_norm": 0.13322454690933228,
1683
+ "learning_rate": 1.709351634862181e-05,
1684
+ "loss": 0.0444,
1685
+ "step": 11800
1686
+ },
1687
+ {
1688
+ "epoch": 3.967191161700703,
1689
+ "grad_norm": 0.13606959581375122,
1690
+ "learning_rate": 1.6954022988505746e-05,
1691
+ "loss": 0.041,
1692
+ "step": 11850
1693
+ },
1694
+ {
1695
+ "epoch": 3.98393036491463,
1696
+ "grad_norm": 0.14227426052093506,
1697
+ "learning_rate": 1.681452962838969e-05,
1698
+ "loss": 0.0412,
1699
+ "step": 11900
1700
+ },
1701
+ {
1702
+ "epoch": 4.0,
1703
+ "eval_loss": 0.045825306326150894,
1704
+ "eval_runtime": 48.668,
1705
+ "eval_samples_per_second": 245.5,
1706
+ "eval_steps_per_second": 15.349,
1707
+ "step": 11948
1708
+ },
1709
+ {
1710
+ "epoch": 4.000669568128557,
1711
+ "grad_norm": 0.14429377019405365,
1712
+ "learning_rate": 1.667503626827363e-05,
1713
+ "loss": 0.0398,
1714
+ "step": 11950
1715
+ },
1716
+ {
1717
+ "epoch": 4.017408771342484,
1718
+ "grad_norm": 0.13842210173606873,
1719
+ "learning_rate": 1.653554290815757e-05,
1720
+ "loss": 0.0365,
1721
+ "step": 12000
1722
+ },
1723
+ {
1724
+ "epoch": 4.0341479745564115,
1725
+ "grad_norm": 0.2168322205543518,
1726
+ "learning_rate": 1.6396049548041516e-05,
1727
+ "loss": 0.0395,
1728
+ "step": 12050
1729
+ },
1730
+ {
1731
+ "epoch": 4.050887177770338,
1732
+ "grad_norm": 0.1534542292356491,
1733
+ "learning_rate": 1.6256556187925456e-05,
1734
+ "loss": 0.0377,
1735
+ "step": 12100
1736
+ },
1737
+ {
1738
+ "epoch": 4.067626380984265,
1739
+ "grad_norm": 0.13067083060741425,
1740
+ "learning_rate": 1.6117062827809397e-05,
1741
+ "loss": 0.042,
1742
+ "step": 12150
1743
+ },
1744
+ {
1745
+ "epoch": 4.084365584198192,
1746
+ "grad_norm": 0.13599875569343567,
1747
+ "learning_rate": 1.5977569467693338e-05,
1748
+ "loss": 0.0403,
1749
+ "step": 12200
1750
+ },
1751
+ {
1752
+ "epoch": 4.101104787412119,
1753
+ "grad_norm": 0.23121419548988342,
1754
+ "learning_rate": 1.5838076107577278e-05,
1755
+ "loss": 0.0406,
1756
+ "step": 12250
1757
+ },
1758
+ {
1759
+ "epoch": 4.117843990626046,
1760
+ "grad_norm": 0.15491856634616852,
1761
+ "learning_rate": 1.5698582747461222e-05,
1762
+ "loss": 0.0381,
1763
+ "step": 12300
1764
+ },
1765
+ {
1766
+ "epoch": 4.1345831938399735,
1767
+ "grad_norm": 0.13168101012706757,
1768
+ "learning_rate": 1.5559089387345163e-05,
1769
+ "loss": 0.0353,
1770
+ "step": 12350
1771
+ },
1772
+ {
1773
+ "epoch": 4.1513223970539,
1774
+ "grad_norm": 0.1694163829088211,
1775
+ "learning_rate": 1.5419596027229104e-05,
1776
+ "loss": 0.04,
1777
+ "step": 12400
1778
+ },
1779
+ {
1780
+ "epoch": 4.168061600267827,
1781
+ "grad_norm": 0.17727704346179962,
1782
+ "learning_rate": 1.5280102667113048e-05,
1783
+ "loss": 0.0364,
1784
+ "step": 12450
1785
+ },
1786
+ {
1787
+ "epoch": 4.184800803481754,
1788
+ "grad_norm": 0.18948902189731598,
1789
+ "learning_rate": 1.5140609306996988e-05,
1790
+ "loss": 0.0372,
1791
+ "step": 12500
1792
+ },
1793
+ {
1794
+ "epoch": 4.201540006695681,
1795
+ "grad_norm": 0.2130223959684372,
1796
+ "learning_rate": 1.5001115946880929e-05,
1797
+ "loss": 0.0398,
1798
+ "step": 12550
1799
+ },
1800
+ {
1801
+ "epoch": 4.218279209909609,
1802
+ "grad_norm": 0.15893810987472534,
1803
+ "learning_rate": 1.486162258676487e-05,
1804
+ "loss": 0.0387,
1805
+ "step": 12600
1806
+ },
1807
+ {
1808
+ "epoch": 4.2350184131235356,
1809
+ "grad_norm": 0.19536694884300232,
1810
+ "learning_rate": 1.4722129226648812e-05,
1811
+ "loss": 0.041,
1812
+ "step": 12650
1813
+ },
1814
+ {
1815
+ "epoch": 4.251757616337462,
1816
+ "grad_norm": 0.16755405068397522,
1817
+ "learning_rate": 1.4582635866532754e-05,
1818
+ "loss": 0.0367,
1819
+ "step": 12700
1820
+ },
1821
+ {
1822
+ "epoch": 4.268496819551389,
1823
+ "grad_norm": 0.14820334315299988,
1824
+ "learning_rate": 1.4443142506416697e-05,
1825
+ "loss": 0.0382,
1826
+ "step": 12750
1827
+ },
1828
+ {
1829
+ "epoch": 4.285236022765316,
1830
+ "grad_norm": 0.21781007945537567,
1831
+ "learning_rate": 1.4303649146300637e-05,
1832
+ "loss": 0.0398,
1833
+ "step": 12800
1834
+ },
1835
+ {
1836
+ "epoch": 4.301975225979243,
1837
+ "grad_norm": 0.17162373661994934,
1838
+ "learning_rate": 1.4164155786184576e-05,
1839
+ "loss": 0.042,
1840
+ "step": 12850
1841
+ },
1842
+ {
1843
+ "epoch": 4.318714429193171,
1844
+ "grad_norm": 0.13765838742256165,
1845
+ "learning_rate": 1.4024662426068519e-05,
1846
+ "loss": 0.0378,
1847
+ "step": 12900
1848
+ },
1849
+ {
1850
+ "epoch": 4.335453632407098,
1851
+ "grad_norm": 0.22830092906951904,
1852
+ "learning_rate": 1.3885169065952461e-05,
1853
+ "loss": 0.0387,
1854
+ "step": 12950
1855
+ },
1856
+ {
1857
+ "epoch": 4.352192835621024,
1858
+ "grad_norm": 0.1682949960231781,
1859
+ "learning_rate": 1.3745675705836403e-05,
1860
+ "loss": 0.0408,
1861
+ "step": 13000
1862
+ },
1863
+ {
1864
+ "epoch": 4.368932038834951,
1865
+ "grad_norm": 0.16153910756111145,
1866
+ "learning_rate": 1.3606182345720344e-05,
1867
+ "loss": 0.0405,
1868
+ "step": 13050
1869
+ },
1870
+ {
1871
+ "epoch": 4.385671242048878,
1872
+ "grad_norm": 0.18771956861019135,
1873
+ "learning_rate": 1.3466688985604286e-05,
1874
+ "loss": 0.0427,
1875
+ "step": 13100
1876
+ },
1877
+ {
1878
+ "epoch": 4.402410445262806,
1879
+ "grad_norm": 0.11162823438644409,
1880
+ "learning_rate": 1.3327195625488229e-05,
1881
+ "loss": 0.0399,
1882
+ "step": 13150
1883
+ },
1884
+ {
1885
+ "epoch": 4.419149648476733,
1886
+ "grad_norm": 0.14466647803783417,
1887
+ "learning_rate": 1.3187702265372168e-05,
1888
+ "loss": 0.0401,
1889
+ "step": 13200
1890
+ },
1891
+ {
1892
+ "epoch": 4.43588885169066,
1893
+ "grad_norm": 0.14834430813789368,
1894
+ "learning_rate": 1.304820890525611e-05,
1895
+ "loss": 0.0386,
1896
+ "step": 13250
1897
+ },
1898
+ {
1899
+ "epoch": 4.4526280549045865,
1900
+ "grad_norm": 0.20324522256851196,
1901
+ "learning_rate": 1.2908715545140052e-05,
1902
+ "loss": 0.0379,
1903
+ "step": 13300
1904
+ },
1905
+ {
1906
+ "epoch": 4.469367258118513,
1907
+ "grad_norm": 0.12625128030776978,
1908
+ "learning_rate": 1.2769222185023993e-05,
1909
+ "loss": 0.0403,
1910
+ "step": 13350
1911
+ },
1912
+ {
1913
+ "epoch": 4.48610646133244,
1914
+ "grad_norm": 0.11018920689821243,
1915
+ "learning_rate": 1.2629728824907935e-05,
1916
+ "loss": 0.0383,
1917
+ "step": 13400
1918
+ },
1919
+ {
1920
+ "epoch": 4.502845664546368,
1921
+ "grad_norm": 0.18631067872047424,
1922
+ "learning_rate": 1.2490235464791876e-05,
1923
+ "loss": 0.0424,
1924
+ "step": 13450
1925
+ },
1926
+ {
1927
+ "epoch": 4.519584867760295,
1928
+ "grad_norm": 0.28578242659568787,
1929
+ "learning_rate": 1.2350742104675818e-05,
1930
+ "loss": 0.0385,
1931
+ "step": 13500
1932
+ },
1933
+ {
1934
+ "epoch": 4.536324070974222,
1935
+ "grad_norm": 0.1431867629289627,
1936
+ "learning_rate": 1.2211248744559759e-05,
1937
+ "loss": 0.038,
1938
+ "step": 13550
1939
+ },
1940
+ {
1941
+ "epoch": 4.5530632741881485,
1942
+ "grad_norm": 0.12731611728668213,
1943
+ "learning_rate": 1.2071755384443701e-05,
1944
+ "loss": 0.0389,
1945
+ "step": 13600
1946
+ },
1947
+ {
1948
+ "epoch": 4.569802477402075,
1949
+ "grad_norm": 0.20958903431892395,
1950
+ "learning_rate": 1.1932262024327642e-05,
1951
+ "loss": 0.0383,
1952
+ "step": 13650
1953
+ },
1954
+ {
1955
+ "epoch": 4.586541680616003,
1956
+ "grad_norm": 0.21877717971801758,
1957
+ "learning_rate": 1.1792768664211584e-05,
1958
+ "loss": 0.0399,
1959
+ "step": 13700
1960
+ },
1961
+ {
1962
+ "epoch": 4.60328088382993,
1963
+ "grad_norm": 0.1719764918088913,
1964
+ "learning_rate": 1.1653275304095527e-05,
1965
+ "loss": 0.0355,
1966
+ "step": 13750
1967
+ },
1968
+ {
1969
+ "epoch": 4.620020087043857,
1970
+ "grad_norm": 0.13044840097427368,
1971
+ "learning_rate": 1.1513781943979467e-05,
1972
+ "loss": 0.0386,
1973
+ "step": 13800
1974
+ },
1975
+ {
1976
+ "epoch": 4.636759290257784,
1977
+ "grad_norm": 0.20552796125411987,
1978
+ "learning_rate": 1.1374288583863408e-05,
1979
+ "loss": 0.04,
1980
+ "step": 13850
1981
+ },
1982
+ {
1983
+ "epoch": 4.6534984934717105,
1984
+ "grad_norm": 0.15806210041046143,
1985
+ "learning_rate": 1.123479522374735e-05,
1986
+ "loss": 0.0381,
1987
+ "step": 13900
1988
+ },
1989
+ {
1990
+ "epoch": 4.670237696685637,
1991
+ "grad_norm": 0.2317190170288086,
1992
+ "learning_rate": 1.1095301863631291e-05,
1993
+ "loss": 0.0394,
1994
+ "step": 13950
1995
+ },
1996
+ {
1997
+ "epoch": 4.686976899899565,
1998
+ "grad_norm": 0.16183790564537048,
1999
+ "learning_rate": 1.0955808503515233e-05,
2000
+ "loss": 0.0392,
2001
+ "step": 14000
2002
+ },
2003
+ {
2004
+ "epoch": 4.703716103113492,
2005
+ "grad_norm": 0.14107303321361542,
2006
+ "learning_rate": 1.0816315143399176e-05,
2007
+ "loss": 0.039,
2008
+ "step": 14050
2009
+ },
2010
+ {
2011
+ "epoch": 4.720455306327419,
2012
+ "grad_norm": 0.21340009570121765,
2013
+ "learning_rate": 1.0676821783283116e-05,
2014
+ "loss": 0.04,
2015
+ "step": 14100
2016
+ },
2017
+ {
2018
+ "epoch": 4.737194509541346,
2019
+ "grad_norm": 0.1754944771528244,
2020
+ "learning_rate": 1.0537328423167057e-05,
2021
+ "loss": 0.0371,
2022
+ "step": 14150
2023
+ },
2024
+ {
2025
+ "epoch": 4.7539337127552725,
2026
+ "grad_norm": 0.13280175626277924,
2027
+ "learning_rate": 1.0397835063051e-05,
2028
+ "loss": 0.0358,
2029
+ "step": 14200
2030
+ },
2031
+ {
2032
+ "epoch": 4.7706729159692,
2033
+ "grad_norm": 0.15039420127868652,
2034
+ "learning_rate": 1.0258341702934942e-05,
2035
+ "loss": 0.0438,
2036
+ "step": 14250
2037
+ },
2038
+ {
2039
+ "epoch": 4.787412119183127,
2040
+ "grad_norm": 0.30474409461021423,
2041
+ "learning_rate": 1.0118848342818882e-05,
2042
+ "loss": 0.0377,
2043
+ "step": 14300
2044
+ },
2045
+ {
2046
+ "epoch": 4.804151322397054,
2047
+ "grad_norm": 0.2012936919927597,
2048
+ "learning_rate": 9.979354982702823e-06,
2049
+ "loss": 0.0417,
2050
+ "step": 14350
2051
+ },
2052
+ {
2053
+ "epoch": 4.820890525610981,
2054
+ "grad_norm": 0.192657932639122,
2055
+ "learning_rate": 9.839861622586765e-06,
2056
+ "loss": 0.0392,
2057
+ "step": 14400
2058
+ },
2059
+ {
2060
+ "epoch": 4.837629728824908,
2061
+ "grad_norm": 0.16141368448734283,
2062
+ "learning_rate": 9.700368262470706e-06,
2063
+ "loss": 0.0378,
2064
+ "step": 14450
2065
+ },
2066
+ {
2067
+ "epoch": 4.854368932038835,
2068
+ "grad_norm": 0.19473744928836823,
2069
+ "learning_rate": 9.560874902354648e-06,
2070
+ "loss": 0.0368,
2071
+ "step": 14500
2072
+ },
2073
+ {
2074
+ "epoch": 4.871108135252762,
2075
+ "grad_norm": 0.15624327957630157,
2076
+ "learning_rate": 9.42138154223859e-06,
2077
+ "loss": 0.0416,
2078
+ "step": 14550
2079
+ },
2080
+ {
2081
+ "epoch": 4.887847338466689,
2082
+ "grad_norm": 0.1572103202342987,
2083
+ "learning_rate": 9.281888182122531e-06,
2084
+ "loss": 0.0383,
2085
+ "step": 14600
2086
+ },
2087
+ {
2088
+ "epoch": 4.904586541680616,
2089
+ "grad_norm": 0.15121281147003174,
2090
+ "learning_rate": 9.142394822006472e-06,
2091
+ "loss": 0.0405,
2092
+ "step": 14650
2093
+ },
2094
+ {
2095
+ "epoch": 4.921325744894543,
2096
+ "grad_norm": 0.1739313155412674,
2097
+ "learning_rate": 9.002901461890415e-06,
2098
+ "loss": 0.0389,
2099
+ "step": 14700
2100
+ },
2101
+ {
2102
+ "epoch": 4.93806494810847,
2103
+ "grad_norm": 0.12826618552207947,
2104
+ "learning_rate": 8.863408101774357e-06,
2105
+ "loss": 0.0385,
2106
+ "step": 14750
2107
+ },
2108
+ {
2109
+ "epoch": 4.9548041513223975,
2110
+ "grad_norm": 0.11419858038425446,
2111
+ "learning_rate": 8.723914741658298e-06,
2112
+ "loss": 0.0387,
2113
+ "step": 14800
2114
+ },
2115
+ {
2116
+ "epoch": 4.971543354536324,
2117
+ "grad_norm": 0.18640589714050293,
2118
+ "learning_rate": 8.584421381542238e-06,
2119
+ "loss": 0.0376,
2120
+ "step": 14850
2121
+ },
2122
+ {
2123
+ "epoch": 4.988282557750251,
2124
+ "grad_norm": 0.18249401450157166,
2125
+ "learning_rate": 8.44492802142618e-06,
2126
+ "loss": 0.041,
2127
+ "step": 14900
2128
+ },
2129
+ {
2130
+ "epoch": 5.0,
2131
+ "eval_loss": 0.045213617384433746,
2132
+ "eval_runtime": 49.0497,
2133
+ "eval_samples_per_second": 243.589,
2134
+ "eval_steps_per_second": 15.229,
2135
+ "step": 14935
2136
+ }
2137
+ ],
2138
+ "logging_steps": 50,
2139
+ "max_steps": 17922,
2140
+ "num_input_tokens_seen": 0,
2141
+ "num_train_epochs": 6,
2142
+ "save_steps": 500,
2143
+ "stateful_callbacks": {
2144
+ "TrainerControl": {
2145
+ "args": {
2146
+ "should_epoch_stop": false,
2147
+ "should_evaluate": false,
2148
+ "should_log": false,
2149
+ "should_save": true,
2150
+ "should_training_stop": false
2151
+ },
2152
+ "attributes": {}
2153
+ }
2154
+ },
2155
+ "total_flos": 3.240141313277952e+16,
2156
+ "train_batch_size": 16,
2157
+ "trial_name": null,
2158
+ "trial_params": null
2159
+ }
checkpoint-14935/training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:37dd546b69fb60d8deb15a8b88e40b23e367c0e9f5a053ea3ae7c730b3874f2e
3
+ size 5304
checkpoint-14935/vocab.json ADDED
The diff for this file is too large to render. See raw diff
 
checkpoint-17922/config.json ADDED
@@ -0,0 +1,41 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "ckartal/english-to-turkish-finetuned-model",
3
+ "activation_dropout": 0.0,
4
+ "activation_function": "swish",
5
+ "architectures": [
6
+ "MarianMTModel"
7
+ ],
8
+ "attention_dropout": 0.0,
9
+ "bos_token_id": 0,
10
+ "classifier_dropout": 0.0,
11
+ "d_model": 512,
12
+ "decoder_attention_heads": 8,
13
+ "decoder_ffn_dim": 2048,
14
+ "decoder_layerdrop": 0.0,
15
+ "decoder_layers": 6,
16
+ "decoder_start_token_id": 59993,
17
+ "decoder_vocab_size": 59994,
18
+ "dropout": 0.1,
19
+ "encoder_attention_heads": 8,
20
+ "encoder_ffn_dim": 2048,
21
+ "encoder_layerdrop": 0.0,
22
+ "encoder_layers": 6,
23
+ "eos_token_id": 0,
24
+ "forced_eos_token_id": 0,
25
+ "init_std": 0.02,
26
+ "is_encoder_decoder": true,
27
+ "max_length": null,
28
+ "max_position_embeddings": 512,
29
+ "model_type": "marian",
30
+ "normalize_embedding": false,
31
+ "num_beams": null,
32
+ "num_hidden_layers": 6,
33
+ "pad_token_id": 59993,
34
+ "scale_embedding": true,
35
+ "share_encoder_decoder_embeddings": true,
36
+ "static_position_embeddings": true,
37
+ "torch_dtype": "float32",
38
+ "transformers_version": "4.49.0",
39
+ "use_cache": true,
40
+ "vocab_size": 59994
41
+ }
checkpoint-17922/generation_config.json ADDED
@@ -0,0 +1,16 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bad_words_ids": [
3
+ [
4
+ 59993
5
+ ]
6
+ ],
7
+ "bos_token_id": 0,
8
+ "decoder_start_token_id": 59993,
9
+ "eos_token_id": 0,
10
+ "forced_eos_token_id": 0,
11
+ "max_length": 512,
12
+ "num_beams": 6,
13
+ "pad_token_id": 59993,
14
+ "renormalize_logits": true,
15
+ "transformers_version": "4.49.0"
16
+ }
checkpoint-17922/model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0f997b0d1f9ca9a397fb73218159940280ff32f3cbdca06c9d17a7f7d3d66fd6
3
+ size 299690728
checkpoint-17922/optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:06b55ff1b42484ee0be4850e41eb3646e2b79718e1fa5063f2d0b28829c5a60c
3
+ size 599054970
checkpoint-17922/rng_state.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ced61baf7d63e0cafc1cd86b7b3b037ca4c3dbe957b8fabdf5fca21030341962
3
+ size 14244
checkpoint-17922/scaler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d6dcca174cef295bb501b3b96815eb3658373aa4e458716e9734213c4c12acfc
3
+ size 988
checkpoint-17922/scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a21237281603ebbc5900a536864616af817483454cb0f49aefdabd07813fd8a8
3
+ size 1064
checkpoint-17922/source.spm ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:98eb24f0995a9d5f7cb0fb628c474628b1d2284615e881e857d062c0b651ce10
3
+ size 793920
checkpoint-17922/special_tokens_map.json ADDED
@@ -0,0 +1,23 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "eos_token": {
3
+ "content": "</s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "pad_token": {
10
+ "content": "<pad>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "unk_token": {
17
+ "content": "<unk>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ }
23
+ }
checkpoint-17922/target.spm ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:45cc6000ed513cdca8f80739087fbcbf9933dc50c9ae36c319c9670882f72e1b
3
+ size 837876
checkpoint-17922/tokenizer_config.json ADDED
@@ -0,0 +1,40 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "</s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<unk>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "59993": {
20
+ "content": "<pad>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ }
27
+ },
28
+ "clean_up_tokenization_spaces": true,
29
+ "eos_token": "</s>",
30
+ "extra_special_tokens": {},
31
+ "model_max_length": 512,
32
+ "pad_token": "<pad>",
33
+ "return_tensors": "pt",
34
+ "separate_vocabs": false,
35
+ "source_lang": "eng",
36
+ "sp_model_kwargs": {},
37
+ "target_lang": "tur",
38
+ "tokenizer_class": "MarianTokenizer",
39
+ "unk_token": "<unk>"
40
+ }
checkpoint-17922/trainer_state.json ADDED
@@ -0,0 +1,2587 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": null,
3
+ "best_model_checkpoint": null,
4
+ "epoch": 6.0,
5
+ "eval_steps": 500,
6
+ "global_step": 17922,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.016739203213927016,
13
+ "grad_norm": 0.439177542924881,
14
+ "learning_rate": 4.987445597589555e-05,
15
+ "loss": 1.5222,
16
+ "step": 50
17
+ },
18
+ {
19
+ "epoch": 0.03347840642785403,
20
+ "grad_norm": 0.4248828887939453,
21
+ "learning_rate": 4.973496261577949e-05,
22
+ "loss": 0.1842,
23
+ "step": 100
24
+ },
25
+ {
26
+ "epoch": 0.05021760964178105,
27
+ "grad_norm": 0.3019009232521057,
28
+ "learning_rate": 4.9595469255663436e-05,
29
+ "loss": 0.1471,
30
+ "step": 150
31
+ },
32
+ {
33
+ "epoch": 0.06695681285570806,
34
+ "grad_norm": 0.2518245577812195,
35
+ "learning_rate": 4.9455975895547376e-05,
36
+ "loss": 0.1306,
37
+ "step": 200
38
+ },
39
+ {
40
+ "epoch": 0.08369601606963509,
41
+ "grad_norm": 0.3660012185573578,
42
+ "learning_rate": 4.931648253543131e-05,
43
+ "loss": 0.1276,
44
+ "step": 250
45
+ },
46
+ {
47
+ "epoch": 0.1004352192835621,
48
+ "grad_norm": 0.32854148745536804,
49
+ "learning_rate": 4.917698917531526e-05,
50
+ "loss": 0.1048,
51
+ "step": 300
52
+ },
53
+ {
54
+ "epoch": 0.11717442249748912,
55
+ "grad_norm": 0.24879515171051025,
56
+ "learning_rate": 4.90374958151992e-05,
57
+ "loss": 0.1054,
58
+ "step": 350
59
+ },
60
+ {
61
+ "epoch": 0.13391362571141613,
62
+ "grad_norm": 0.36416563391685486,
63
+ "learning_rate": 4.889800245508314e-05,
64
+ "loss": 0.0985,
65
+ "step": 400
66
+ },
67
+ {
68
+ "epoch": 0.15065282892534315,
69
+ "grad_norm": 0.33641186356544495,
70
+ "learning_rate": 4.875850909496708e-05,
71
+ "loss": 0.1044,
72
+ "step": 450
73
+ },
74
+ {
75
+ "epoch": 0.16739203213927017,
76
+ "grad_norm": 0.32909244298934937,
77
+ "learning_rate": 4.861901573485103e-05,
78
+ "loss": 0.1089,
79
+ "step": 500
80
+ },
81
+ {
82
+ "epoch": 0.1841312353531972,
83
+ "grad_norm": 0.36060285568237305,
84
+ "learning_rate": 4.847952237473497e-05,
85
+ "loss": 0.09,
86
+ "step": 550
87
+ },
88
+ {
89
+ "epoch": 0.2008704385671242,
90
+ "grad_norm": 0.2510785758495331,
91
+ "learning_rate": 4.83400290146189e-05,
92
+ "loss": 0.0884,
93
+ "step": 600
94
+ },
95
+ {
96
+ "epoch": 0.21760964178105122,
97
+ "grad_norm": 0.22478719055652618,
98
+ "learning_rate": 4.820053565450285e-05,
99
+ "loss": 0.0866,
100
+ "step": 650
101
+ },
102
+ {
103
+ "epoch": 0.23434884499497824,
104
+ "grad_norm": 0.37321263551712036,
105
+ "learning_rate": 4.806104229438679e-05,
106
+ "loss": 0.0884,
107
+ "step": 700
108
+ },
109
+ {
110
+ "epoch": 0.25108804820890523,
111
+ "grad_norm": 0.2660929262638092,
112
+ "learning_rate": 4.792154893427073e-05,
113
+ "loss": 0.0819,
114
+ "step": 750
115
+ },
116
+ {
117
+ "epoch": 0.26782725142283226,
118
+ "grad_norm": 0.2338525801897049,
119
+ "learning_rate": 4.778205557415467e-05,
120
+ "loss": 0.0845,
121
+ "step": 800
122
+ },
123
+ {
124
+ "epoch": 0.2845664546367593,
125
+ "grad_norm": 0.308557391166687,
126
+ "learning_rate": 4.764256221403862e-05,
127
+ "loss": 0.0815,
128
+ "step": 850
129
+ },
130
+ {
131
+ "epoch": 0.3013056578506863,
132
+ "grad_norm": 0.27098262310028076,
133
+ "learning_rate": 4.750306885392255e-05,
134
+ "loss": 0.0833,
135
+ "step": 900
136
+ },
137
+ {
138
+ "epoch": 0.3180448610646133,
139
+ "grad_norm": 0.23054952919483185,
140
+ "learning_rate": 4.736357549380649e-05,
141
+ "loss": 0.0806,
142
+ "step": 950
143
+ },
144
+ {
145
+ "epoch": 0.33478406427854035,
146
+ "grad_norm": 0.21355900168418884,
147
+ "learning_rate": 4.722408213369044e-05,
148
+ "loss": 0.073,
149
+ "step": 1000
150
+ },
151
+ {
152
+ "epoch": 0.3515232674924674,
153
+ "grad_norm": 0.20395708084106445,
154
+ "learning_rate": 4.708458877357438e-05,
155
+ "loss": 0.0775,
156
+ "step": 1050
157
+ },
158
+ {
159
+ "epoch": 0.3682624707063944,
160
+ "grad_norm": 0.21063613891601562,
161
+ "learning_rate": 4.694509541345832e-05,
162
+ "loss": 0.0789,
163
+ "step": 1100
164
+ },
165
+ {
166
+ "epoch": 0.3850016739203214,
167
+ "grad_norm": 0.20589284598827362,
168
+ "learning_rate": 4.680560205334226e-05,
169
+ "loss": 0.0809,
170
+ "step": 1150
171
+ },
172
+ {
173
+ "epoch": 0.4017408771342484,
174
+ "grad_norm": 0.27975228428840637,
175
+ "learning_rate": 4.666610869322621e-05,
176
+ "loss": 0.078,
177
+ "step": 1200
178
+ },
179
+ {
180
+ "epoch": 0.4184800803481754,
181
+ "grad_norm": 0.2529745399951935,
182
+ "learning_rate": 4.6526615333110144e-05,
183
+ "loss": 0.0704,
184
+ "step": 1250
185
+ },
186
+ {
187
+ "epoch": 0.43521928356210243,
188
+ "grad_norm": 0.2205154448747635,
189
+ "learning_rate": 4.6387121972994084e-05,
190
+ "loss": 0.0733,
191
+ "step": 1300
192
+ },
193
+ {
194
+ "epoch": 0.45195848677602946,
195
+ "grad_norm": 0.2254629135131836,
196
+ "learning_rate": 4.624762861287803e-05,
197
+ "loss": 0.0751,
198
+ "step": 1350
199
+ },
200
+ {
201
+ "epoch": 0.4686976899899565,
202
+ "grad_norm": 0.17614957690238953,
203
+ "learning_rate": 4.610813525276197e-05,
204
+ "loss": 0.0747,
205
+ "step": 1400
206
+ },
207
+ {
208
+ "epoch": 0.4854368932038835,
209
+ "grad_norm": 0.15940478444099426,
210
+ "learning_rate": 4.596864189264591e-05,
211
+ "loss": 0.0698,
212
+ "step": 1450
213
+ },
214
+ {
215
+ "epoch": 0.5021760964178105,
216
+ "grad_norm": 0.1869521141052246,
217
+ "learning_rate": 4.5829148532529854e-05,
218
+ "loss": 0.0721,
219
+ "step": 1500
220
+ },
221
+ {
222
+ "epoch": 0.5189152996317375,
223
+ "grad_norm": 0.36063650250434875,
224
+ "learning_rate": 4.5689655172413794e-05,
225
+ "loss": 0.0706,
226
+ "step": 1550
227
+ },
228
+ {
229
+ "epoch": 0.5356545028456645,
230
+ "grad_norm": 0.16967014968395233,
231
+ "learning_rate": 4.5550161812297735e-05,
232
+ "loss": 0.0759,
233
+ "step": 1600
234
+ },
235
+ {
236
+ "epoch": 0.5523937060595916,
237
+ "grad_norm": 0.29293423891067505,
238
+ "learning_rate": 4.5410668452181676e-05,
239
+ "loss": 0.0711,
240
+ "step": 1650
241
+ },
242
+ {
243
+ "epoch": 0.5691329092735186,
244
+ "grad_norm": 0.3034748136997223,
245
+ "learning_rate": 4.527117509206562e-05,
246
+ "loss": 0.067,
247
+ "step": 1700
248
+ },
249
+ {
250
+ "epoch": 0.5858721124874456,
251
+ "grad_norm": 0.1974593997001648,
252
+ "learning_rate": 4.513168173194956e-05,
253
+ "loss": 0.0701,
254
+ "step": 1750
255
+ },
256
+ {
257
+ "epoch": 0.6026113157013726,
258
+ "grad_norm": 0.18101799488067627,
259
+ "learning_rate": 4.4992188371833505e-05,
260
+ "loss": 0.0717,
261
+ "step": 1800
262
+ },
263
+ {
264
+ "epoch": 0.6193505189152997,
265
+ "grad_norm": 0.14422941207885742,
266
+ "learning_rate": 4.4852695011717445e-05,
267
+ "loss": 0.0686,
268
+ "step": 1850
269
+ },
270
+ {
271
+ "epoch": 0.6360897221292267,
272
+ "grad_norm": 0.28663551807403564,
273
+ "learning_rate": 4.4713201651601386e-05,
274
+ "loss": 0.0646,
275
+ "step": 1900
276
+ },
277
+ {
278
+ "epoch": 0.6528289253431536,
279
+ "grad_norm": 0.23879379034042358,
280
+ "learning_rate": 4.4573708291485327e-05,
281
+ "loss": 0.0684,
282
+ "step": 1950
283
+ },
284
+ {
285
+ "epoch": 0.6695681285570807,
286
+ "grad_norm": 0.21389362215995789,
287
+ "learning_rate": 4.443421493136927e-05,
288
+ "loss": 0.066,
289
+ "step": 2000
290
+ },
291
+ {
292
+ "epoch": 0.6863073317710077,
293
+ "grad_norm": 0.26841893792152405,
294
+ "learning_rate": 4.4294721571253215e-05,
295
+ "loss": 0.0717,
296
+ "step": 2050
297
+ },
298
+ {
299
+ "epoch": 0.7030465349849347,
300
+ "grad_norm": 0.240205317735672,
301
+ "learning_rate": 4.415522821113715e-05,
302
+ "loss": 0.0697,
303
+ "step": 2100
304
+ },
305
+ {
306
+ "epoch": 0.7197857381988617,
307
+ "grad_norm": 0.28098127245903015,
308
+ "learning_rate": 4.4015734851021096e-05,
309
+ "loss": 0.0713,
310
+ "step": 2150
311
+ },
312
+ {
313
+ "epoch": 0.7365249414127888,
314
+ "grad_norm": 0.23308847844600677,
315
+ "learning_rate": 4.3876241490905037e-05,
316
+ "loss": 0.0667,
317
+ "step": 2200
318
+ },
319
+ {
320
+ "epoch": 0.7532641446267158,
321
+ "grad_norm": 0.22748568654060364,
322
+ "learning_rate": 4.373674813078898e-05,
323
+ "loss": 0.0605,
324
+ "step": 2250
325
+ },
326
+ {
327
+ "epoch": 0.7700033478406428,
328
+ "grad_norm": 0.3932187259197235,
329
+ "learning_rate": 4.359725477067292e-05,
330
+ "loss": 0.0676,
331
+ "step": 2300
332
+ },
333
+ {
334
+ "epoch": 0.7867425510545698,
335
+ "grad_norm": 0.23918767273426056,
336
+ "learning_rate": 4.345776141055686e-05,
337
+ "loss": 0.0624,
338
+ "step": 2350
339
+ },
340
+ {
341
+ "epoch": 0.8034817542684968,
342
+ "grad_norm": 0.3068426549434662,
343
+ "learning_rate": 4.33182680504408e-05,
344
+ "loss": 0.0664,
345
+ "step": 2400
346
+ },
347
+ {
348
+ "epoch": 0.8202209574824239,
349
+ "grad_norm": 0.17977873980998993,
350
+ "learning_rate": 4.317877469032474e-05,
351
+ "loss": 0.0726,
352
+ "step": 2450
353
+ },
354
+ {
355
+ "epoch": 0.8369601606963508,
356
+ "grad_norm": 0.16876642405986786,
357
+ "learning_rate": 4.303928133020869e-05,
358
+ "loss": 0.0639,
359
+ "step": 2500
360
+ },
361
+ {
362
+ "epoch": 0.8536993639102779,
363
+ "grad_norm": 0.17980250716209412,
364
+ "learning_rate": 4.289978797009263e-05,
365
+ "loss": 0.0701,
366
+ "step": 2550
367
+ },
368
+ {
369
+ "epoch": 0.8704385671242049,
370
+ "grad_norm": 0.1711459904909134,
371
+ "learning_rate": 4.276029460997656e-05,
372
+ "loss": 0.063,
373
+ "step": 2600
374
+ },
375
+ {
376
+ "epoch": 0.8871777703381319,
377
+ "grad_norm": 0.443228542804718,
378
+ "learning_rate": 4.262080124986051e-05,
379
+ "loss": 0.0675,
380
+ "step": 2650
381
+ },
382
+ {
383
+ "epoch": 0.9039169735520589,
384
+ "grad_norm": 0.2098589390516281,
385
+ "learning_rate": 4.248130788974445e-05,
386
+ "loss": 0.062,
387
+ "step": 2700
388
+ },
389
+ {
390
+ "epoch": 0.920656176765986,
391
+ "grad_norm": 0.3022039234638214,
392
+ "learning_rate": 4.234181452962839e-05,
393
+ "loss": 0.07,
394
+ "step": 2750
395
+ },
396
+ {
397
+ "epoch": 0.937395379979913,
398
+ "grad_norm": 0.19368910789489746,
399
+ "learning_rate": 4.220232116951233e-05,
400
+ "loss": 0.0621,
401
+ "step": 2800
402
+ },
403
+ {
404
+ "epoch": 0.9541345831938399,
405
+ "grad_norm": 0.18753108382225037,
406
+ "learning_rate": 4.206282780939628e-05,
407
+ "loss": 0.0631,
408
+ "step": 2850
409
+ },
410
+ {
411
+ "epoch": 0.970873786407767,
412
+ "grad_norm": 0.15517786145210266,
413
+ "learning_rate": 4.192333444928022e-05,
414
+ "loss": 0.0641,
415
+ "step": 2900
416
+ },
417
+ {
418
+ "epoch": 0.987612989621694,
419
+ "grad_norm": 0.11765792220830917,
420
+ "learning_rate": 4.178384108916415e-05,
421
+ "loss": 0.0612,
422
+ "step": 2950
423
+ },
424
+ {
425
+ "epoch": 1.0,
426
+ "eval_loss": 0.05521286651492119,
427
+ "eval_runtime": 50.415,
428
+ "eval_samples_per_second": 236.993,
429
+ "eval_steps_per_second": 14.817,
430
+ "step": 2987
431
+ },
432
+ {
433
+ "epoch": 1.004352192835621,
434
+ "grad_norm": 0.2691793739795685,
435
+ "learning_rate": 4.16443477290481e-05,
436
+ "loss": 0.059,
437
+ "step": 3000
438
+ },
439
+ {
440
+ "epoch": 1.021091396049548,
441
+ "grad_norm": 0.394694060087204,
442
+ "learning_rate": 4.150485436893204e-05,
443
+ "loss": 0.0566,
444
+ "step": 3050
445
+ },
446
+ {
447
+ "epoch": 1.037830599263475,
448
+ "grad_norm": 0.19438503682613373,
449
+ "learning_rate": 4.136536100881598e-05,
450
+ "loss": 0.0591,
451
+ "step": 3100
452
+ },
453
+ {
454
+ "epoch": 1.0545698024774022,
455
+ "grad_norm": 0.21350933611392975,
456
+ "learning_rate": 4.122586764869992e-05,
457
+ "loss": 0.0509,
458
+ "step": 3150
459
+ },
460
+ {
461
+ "epoch": 1.071309005691329,
462
+ "grad_norm": 0.26747575402259827,
463
+ "learning_rate": 4.108637428858387e-05,
464
+ "loss": 0.0589,
465
+ "step": 3200
466
+ },
467
+ {
468
+ "epoch": 1.088048208905256,
469
+ "grad_norm": 0.31256961822509766,
470
+ "learning_rate": 4.0946880928467804e-05,
471
+ "loss": 0.0602,
472
+ "step": 3250
473
+ },
474
+ {
475
+ "epoch": 1.1047874121191832,
476
+ "grad_norm": 0.18631280958652496,
477
+ "learning_rate": 4.0807387568351745e-05,
478
+ "loss": 0.0547,
479
+ "step": 3300
480
+ },
481
+ {
482
+ "epoch": 1.12152661533311,
483
+ "grad_norm": 0.18677473068237305,
484
+ "learning_rate": 4.066789420823569e-05,
485
+ "loss": 0.0543,
486
+ "step": 3350
487
+ },
488
+ {
489
+ "epoch": 1.1382658185470371,
490
+ "grad_norm": 0.24535444378852844,
491
+ "learning_rate": 4.052840084811963e-05,
492
+ "loss": 0.0583,
493
+ "step": 3400
494
+ },
495
+ {
496
+ "epoch": 1.1550050217609642,
497
+ "grad_norm": 0.1752105951309204,
498
+ "learning_rate": 4.038890748800357e-05,
499
+ "loss": 0.0504,
500
+ "step": 3450
501
+ },
502
+ {
503
+ "epoch": 1.1717442249748913,
504
+ "grad_norm": 0.14743360877037048,
505
+ "learning_rate": 4.0249414127887514e-05,
506
+ "loss": 0.055,
507
+ "step": 3500
508
+ },
509
+ {
510
+ "epoch": 1.1884834281888181,
511
+ "grad_norm": 0.11535945534706116,
512
+ "learning_rate": 4.010992076777146e-05,
513
+ "loss": 0.0552,
514
+ "step": 3550
515
+ },
516
+ {
517
+ "epoch": 1.2052226314027452,
518
+ "grad_norm": 0.26563358306884766,
519
+ "learning_rate": 3.9970427407655395e-05,
520
+ "loss": 0.0552,
521
+ "step": 3600
522
+ },
523
+ {
524
+ "epoch": 1.2219618346166723,
525
+ "grad_norm": 0.15104246139526367,
526
+ "learning_rate": 3.9830934047539336e-05,
527
+ "loss": 0.0575,
528
+ "step": 3650
529
+ },
530
+ {
531
+ "epoch": 1.2387010378305994,
532
+ "grad_norm": 0.2198421210050583,
533
+ "learning_rate": 3.9691440687423283e-05,
534
+ "loss": 0.0567,
535
+ "step": 3700
536
+ },
537
+ {
538
+ "epoch": 1.2554402410445262,
539
+ "grad_norm": 0.20177733898162842,
540
+ "learning_rate": 3.955194732730722e-05,
541
+ "loss": 0.0556,
542
+ "step": 3750
543
+ },
544
+ {
545
+ "epoch": 1.2721794442584533,
546
+ "grad_norm": 0.36604830622673035,
547
+ "learning_rate": 3.9412453967191165e-05,
548
+ "loss": 0.0569,
549
+ "step": 3800
550
+ },
551
+ {
552
+ "epoch": 1.2889186474723804,
553
+ "grad_norm": 0.18883727490901947,
554
+ "learning_rate": 3.9272960607075105e-05,
555
+ "loss": 0.0595,
556
+ "step": 3850
557
+ },
558
+ {
559
+ "epoch": 1.3056578506863072,
560
+ "grad_norm": 0.14828617870807648,
561
+ "learning_rate": 3.9133467246959046e-05,
562
+ "loss": 0.0548,
563
+ "step": 3900
564
+ },
565
+ {
566
+ "epoch": 1.3223970539002343,
567
+ "grad_norm": 0.19220437109470367,
568
+ "learning_rate": 3.899397388684299e-05,
569
+ "loss": 0.053,
570
+ "step": 3950
571
+ },
572
+ {
573
+ "epoch": 1.3391362571141614,
574
+ "grad_norm": 0.16049669682979584,
575
+ "learning_rate": 3.885448052672693e-05,
576
+ "loss": 0.0581,
577
+ "step": 4000
578
+ },
579
+ {
580
+ "epoch": 1.3558754603280883,
581
+ "grad_norm": 0.22821515798568726,
582
+ "learning_rate": 3.8714987166610875e-05,
583
+ "loss": 0.0518,
584
+ "step": 4050
585
+ },
586
+ {
587
+ "epoch": 1.3726146635420153,
588
+ "grad_norm": 0.1879580318927765,
589
+ "learning_rate": 3.857549380649481e-05,
590
+ "loss": 0.0574,
591
+ "step": 4100
592
+ },
593
+ {
594
+ "epoch": 1.3893538667559424,
595
+ "grad_norm": 0.16026251018047333,
596
+ "learning_rate": 3.8436000446378756e-05,
597
+ "loss": 0.063,
598
+ "step": 4150
599
+ },
600
+ {
601
+ "epoch": 1.4060930699698695,
602
+ "grad_norm": 0.26868143677711487,
603
+ "learning_rate": 3.82965070862627e-05,
604
+ "loss": 0.0571,
605
+ "step": 4200
606
+ },
607
+ {
608
+ "epoch": 1.4228322731837966,
609
+ "grad_norm": 0.2529687285423279,
610
+ "learning_rate": 3.815701372614664e-05,
611
+ "loss": 0.0528,
612
+ "step": 4250
613
+ },
614
+ {
615
+ "epoch": 1.4395714763977234,
616
+ "grad_norm": 0.19138221442699432,
617
+ "learning_rate": 3.801752036603058e-05,
618
+ "loss": 0.0584,
619
+ "step": 4300
620
+ },
621
+ {
622
+ "epoch": 1.4563106796116505,
623
+ "grad_norm": 0.16359661519527435,
624
+ "learning_rate": 3.787802700591452e-05,
625
+ "loss": 0.0539,
626
+ "step": 4350
627
+ },
628
+ {
629
+ "epoch": 1.4730498828255776,
630
+ "grad_norm": 0.1373494267463684,
631
+ "learning_rate": 3.7738533645798466e-05,
632
+ "loss": 0.0557,
633
+ "step": 4400
634
+ },
635
+ {
636
+ "epoch": 1.4897890860395044,
637
+ "grad_norm": 0.15695162117481232,
638
+ "learning_rate": 3.75990402856824e-05,
639
+ "loss": 0.0491,
640
+ "step": 4450
641
+ },
642
+ {
643
+ "epoch": 1.5065282892534315,
644
+ "grad_norm": 0.18462614715099335,
645
+ "learning_rate": 3.745954692556635e-05,
646
+ "loss": 0.0495,
647
+ "step": 4500
648
+ },
649
+ {
650
+ "epoch": 1.5232674924673586,
651
+ "grad_norm": 0.27876704931259155,
652
+ "learning_rate": 3.732005356545029e-05,
653
+ "loss": 0.0523,
654
+ "step": 4550
655
+ },
656
+ {
657
+ "epoch": 1.5400066956812855,
658
+ "grad_norm": 0.30491840839385986,
659
+ "learning_rate": 3.718056020533423e-05,
660
+ "loss": 0.0564,
661
+ "step": 4600
662
+ },
663
+ {
664
+ "epoch": 1.5567458988952128,
665
+ "grad_norm": 0.18721336126327515,
666
+ "learning_rate": 3.704106684521817e-05,
667
+ "loss": 0.0524,
668
+ "step": 4650
669
+ },
670
+ {
671
+ "epoch": 1.5734851021091396,
672
+ "grad_norm": 0.21216215193271637,
673
+ "learning_rate": 3.690157348510211e-05,
674
+ "loss": 0.0521,
675
+ "step": 4700
676
+ },
677
+ {
678
+ "epoch": 1.5902243053230665,
679
+ "grad_norm": 0.1368396282196045,
680
+ "learning_rate": 3.676208012498605e-05,
681
+ "loss": 0.056,
682
+ "step": 4750
683
+ },
684
+ {
685
+ "epoch": 1.6069635085369938,
686
+ "grad_norm": 0.13692086935043335,
687
+ "learning_rate": 3.662258676486999e-05,
688
+ "loss": 0.0443,
689
+ "step": 4800
690
+ },
691
+ {
692
+ "epoch": 1.6237027117509206,
693
+ "grad_norm": 0.11640128493309021,
694
+ "learning_rate": 3.648309340475394e-05,
695
+ "loss": 0.0488,
696
+ "step": 4850
697
+ },
698
+ {
699
+ "epoch": 1.6404419149648477,
700
+ "grad_norm": 0.19953882694244385,
701
+ "learning_rate": 3.634360004463788e-05,
702
+ "loss": 0.0553,
703
+ "step": 4900
704
+ },
705
+ {
706
+ "epoch": 1.6571811181787748,
707
+ "grad_norm": 0.1966984122991562,
708
+ "learning_rate": 3.6204106684521813e-05,
709
+ "loss": 0.0536,
710
+ "step": 4950
711
+ },
712
+ {
713
+ "epoch": 1.6739203213927016,
714
+ "grad_norm": 0.2324533313512802,
715
+ "learning_rate": 3.606461332440576e-05,
716
+ "loss": 0.0493,
717
+ "step": 5000
718
+ },
719
+ {
720
+ "epoch": 1.6906595246066287,
721
+ "grad_norm": 0.16217607259750366,
722
+ "learning_rate": 3.59251199642897e-05,
723
+ "loss": 0.0503,
724
+ "step": 5050
725
+ },
726
+ {
727
+ "epoch": 1.7073987278205558,
728
+ "grad_norm": 0.23949602246284485,
729
+ "learning_rate": 3.578562660417364e-05,
730
+ "loss": 0.0556,
731
+ "step": 5100
732
+ },
733
+ {
734
+ "epoch": 1.7241379310344827,
735
+ "grad_norm": 0.21387897431850433,
736
+ "learning_rate": 3.564613324405758e-05,
737
+ "loss": 0.0548,
738
+ "step": 5150
739
+ },
740
+ {
741
+ "epoch": 1.7408771342484097,
742
+ "grad_norm": 0.2055111676454544,
743
+ "learning_rate": 3.550663988394153e-05,
744
+ "loss": 0.06,
745
+ "step": 5200
746
+ },
747
+ {
748
+ "epoch": 1.7576163374623368,
749
+ "grad_norm": 0.20280921459197998,
750
+ "learning_rate": 3.5367146523825464e-05,
751
+ "loss": 0.0508,
752
+ "step": 5250
753
+ },
754
+ {
755
+ "epoch": 1.7743555406762637,
756
+ "grad_norm": 0.14165103435516357,
757
+ "learning_rate": 3.5227653163709405e-05,
758
+ "loss": 0.0581,
759
+ "step": 5300
760
+ },
761
+ {
762
+ "epoch": 1.791094743890191,
763
+ "grad_norm": 0.18099863827228546,
764
+ "learning_rate": 3.508815980359335e-05,
765
+ "loss": 0.0562,
766
+ "step": 5350
767
+ },
768
+ {
769
+ "epoch": 1.8078339471041178,
770
+ "grad_norm": 0.21743184328079224,
771
+ "learning_rate": 3.494866644347729e-05,
772
+ "loss": 0.0498,
773
+ "step": 5400
774
+ },
775
+ {
776
+ "epoch": 1.824573150318045,
777
+ "grad_norm": 0.20934534072875977,
778
+ "learning_rate": 3.4809173083361234e-05,
779
+ "loss": 0.0549,
780
+ "step": 5450
781
+ },
782
+ {
783
+ "epoch": 1.841312353531972,
784
+ "grad_norm": 0.1582174152135849,
785
+ "learning_rate": 3.4669679723245174e-05,
786
+ "loss": 0.0556,
787
+ "step": 5500
788
+ },
789
+ {
790
+ "epoch": 1.8580515567458988,
791
+ "grad_norm": 0.1624903827905655,
792
+ "learning_rate": 3.453018636312912e-05,
793
+ "loss": 0.0516,
794
+ "step": 5550
795
+ },
796
+ {
797
+ "epoch": 1.874790759959826,
798
+ "grad_norm": 0.16255798935890198,
799
+ "learning_rate": 3.4390693003013056e-05,
800
+ "loss": 0.0542,
801
+ "step": 5600
802
+ },
803
+ {
804
+ "epoch": 1.891529963173753,
805
+ "grad_norm": 0.1269742250442505,
806
+ "learning_rate": 3.4251199642896996e-05,
807
+ "loss": 0.0565,
808
+ "step": 5650
809
+ },
810
+ {
811
+ "epoch": 1.9082691663876798,
812
+ "grad_norm": 0.15966229140758514,
813
+ "learning_rate": 3.4111706282780944e-05,
814
+ "loss": 0.0538,
815
+ "step": 5700
816
+ },
817
+ {
818
+ "epoch": 1.925008369601607,
819
+ "grad_norm": 0.21506330370903015,
820
+ "learning_rate": 3.3972212922664884e-05,
821
+ "loss": 0.0505,
822
+ "step": 5750
823
+ },
824
+ {
825
+ "epoch": 1.941747572815534,
826
+ "grad_norm": 0.2145415097475052,
827
+ "learning_rate": 3.3832719562548825e-05,
828
+ "loss": 0.0521,
829
+ "step": 5800
830
+ },
831
+ {
832
+ "epoch": 1.9584867760294609,
833
+ "grad_norm": 0.10960496962070465,
834
+ "learning_rate": 3.3693226202432766e-05,
835
+ "loss": 0.0513,
836
+ "step": 5850
837
+ },
838
+ {
839
+ "epoch": 1.9752259792433882,
840
+ "grad_norm": 0.13635843992233276,
841
+ "learning_rate": 3.355373284231671e-05,
842
+ "loss": 0.0499,
843
+ "step": 5900
844
+ },
845
+ {
846
+ "epoch": 1.991965182457315,
847
+ "grad_norm": 0.1542210429906845,
848
+ "learning_rate": 3.341423948220065e-05,
849
+ "loss": 0.0556,
850
+ "step": 5950
851
+ },
852
+ {
853
+ "epoch": 2.0,
854
+ "eval_loss": 0.04946442320942879,
855
+ "eval_runtime": 55.6114,
856
+ "eval_samples_per_second": 214.848,
857
+ "eval_steps_per_second": 13.432,
858
+ "step": 5974
859
+ },
860
+ {
861
+ "epoch": 2.008704385671242,
862
+ "grad_norm": 0.1718842089176178,
863
+ "learning_rate": 3.327474612208459e-05,
864
+ "loss": 0.0503,
865
+ "step": 6000
866
+ },
867
+ {
868
+ "epoch": 2.025443588885169,
869
+ "grad_norm": 0.1528020203113556,
870
+ "learning_rate": 3.3135252761968535e-05,
871
+ "loss": 0.0479,
872
+ "step": 6050
873
+ },
874
+ {
875
+ "epoch": 2.042182792099096,
876
+ "grad_norm": 0.19148772954940796,
877
+ "learning_rate": 3.299575940185247e-05,
878
+ "loss": 0.0443,
879
+ "step": 6100
880
+ },
881
+ {
882
+ "epoch": 2.058921995313023,
883
+ "grad_norm": 0.18125496804714203,
884
+ "learning_rate": 3.2856266041736416e-05,
885
+ "loss": 0.0473,
886
+ "step": 6150
887
+ },
888
+ {
889
+ "epoch": 2.07566119852695,
890
+ "grad_norm": 0.20772996544837952,
891
+ "learning_rate": 3.271677268162036e-05,
892
+ "loss": 0.0539,
893
+ "step": 6200
894
+ },
895
+ {
896
+ "epoch": 2.092400401740877,
897
+ "grad_norm": 0.2518468201160431,
898
+ "learning_rate": 3.25772793215043e-05,
899
+ "loss": 0.0468,
900
+ "step": 6250
901
+ },
902
+ {
903
+ "epoch": 2.1091396049548043,
904
+ "grad_norm": 0.1350301206111908,
905
+ "learning_rate": 3.243778596138824e-05,
906
+ "loss": 0.0431,
907
+ "step": 6300
908
+ },
909
+ {
910
+ "epoch": 2.125878808168731,
911
+ "grad_norm": 0.19141735136508942,
912
+ "learning_rate": 3.229829260127218e-05,
913
+ "loss": 0.048,
914
+ "step": 6350
915
+ },
916
+ {
917
+ "epoch": 2.142618011382658,
918
+ "grad_norm": 0.2404586374759674,
919
+ "learning_rate": 3.2158799241156126e-05,
920
+ "loss": 0.0516,
921
+ "step": 6400
922
+ },
923
+ {
924
+ "epoch": 2.1593572145965854,
925
+ "grad_norm": 0.21710112690925598,
926
+ "learning_rate": 3.201930588104006e-05,
927
+ "loss": 0.0472,
928
+ "step": 6450
929
+ },
930
+ {
931
+ "epoch": 2.176096417810512,
932
+ "grad_norm": 0.14395031332969666,
933
+ "learning_rate": 3.187981252092401e-05,
934
+ "loss": 0.0438,
935
+ "step": 6500
936
+ },
937
+ {
938
+ "epoch": 2.192835621024439,
939
+ "grad_norm": 0.20882932841777802,
940
+ "learning_rate": 3.174031916080795e-05,
941
+ "loss": 0.0488,
942
+ "step": 6550
943
+ },
944
+ {
945
+ "epoch": 2.2095748242383664,
946
+ "grad_norm": 0.13824905455112457,
947
+ "learning_rate": 3.160082580069189e-05,
948
+ "loss": 0.0464,
949
+ "step": 6600
950
+ },
951
+ {
952
+ "epoch": 2.2263140274522932,
953
+ "grad_norm": 0.1783577799797058,
954
+ "learning_rate": 3.146133244057583e-05,
955
+ "loss": 0.0459,
956
+ "step": 6650
957
+ },
958
+ {
959
+ "epoch": 2.24305323066622,
960
+ "grad_norm": 0.22147531807422638,
961
+ "learning_rate": 3.132183908045977e-05,
962
+ "loss": 0.0476,
963
+ "step": 6700
964
+ },
965
+ {
966
+ "epoch": 2.2597924338801474,
967
+ "grad_norm": 0.17393821477890015,
968
+ "learning_rate": 3.118234572034371e-05,
969
+ "loss": 0.0436,
970
+ "step": 6750
971
+ },
972
+ {
973
+ "epoch": 2.2765316370940742,
974
+ "grad_norm": 0.15850785374641418,
975
+ "learning_rate": 3.104285236022765e-05,
976
+ "loss": 0.0476,
977
+ "step": 6800
978
+ },
979
+ {
980
+ "epoch": 2.2932708403080015,
981
+ "grad_norm": 0.16232182085514069,
982
+ "learning_rate": 3.09033590001116e-05,
983
+ "loss": 0.0473,
984
+ "step": 6850
985
+ },
986
+ {
987
+ "epoch": 2.3100100435219284,
988
+ "grad_norm": 0.1816001981496811,
989
+ "learning_rate": 3.076386563999554e-05,
990
+ "loss": 0.0427,
991
+ "step": 6900
992
+ },
993
+ {
994
+ "epoch": 2.3267492467358553,
995
+ "grad_norm": 0.13417834043502808,
996
+ "learning_rate": 3.062437227987948e-05,
997
+ "loss": 0.0448,
998
+ "step": 6950
999
+ },
1000
+ {
1001
+ "epoch": 2.3434884499497826,
1002
+ "grad_norm": 0.12576530873775482,
1003
+ "learning_rate": 3.048487891976342e-05,
1004
+ "loss": 0.0453,
1005
+ "step": 7000
1006
+ },
1007
+ {
1008
+ "epoch": 2.3602276531637094,
1009
+ "grad_norm": 0.33120718598365784,
1010
+ "learning_rate": 3.0345385559647362e-05,
1011
+ "loss": 0.0462,
1012
+ "step": 7050
1013
+ },
1014
+ {
1015
+ "epoch": 2.3769668563776363,
1016
+ "grad_norm": 0.22310969233512878,
1017
+ "learning_rate": 3.0205892199531306e-05,
1018
+ "loss": 0.0475,
1019
+ "step": 7100
1020
+ },
1021
+ {
1022
+ "epoch": 2.3937060595915636,
1023
+ "grad_norm": 0.18150626122951508,
1024
+ "learning_rate": 3.0066398839415243e-05,
1025
+ "loss": 0.0489,
1026
+ "step": 7150
1027
+ },
1028
+ {
1029
+ "epoch": 2.4104452628054904,
1030
+ "grad_norm": 0.28730452060699463,
1031
+ "learning_rate": 2.9926905479299187e-05,
1032
+ "loss": 0.0536,
1033
+ "step": 7200
1034
+ },
1035
+ {
1036
+ "epoch": 2.4271844660194173,
1037
+ "grad_norm": 0.1918480098247528,
1038
+ "learning_rate": 2.9787412119183128e-05,
1039
+ "loss": 0.0426,
1040
+ "step": 7250
1041
+ },
1042
+ {
1043
+ "epoch": 2.4439236692333446,
1044
+ "grad_norm": 0.16158398985862732,
1045
+ "learning_rate": 2.964791875906707e-05,
1046
+ "loss": 0.0458,
1047
+ "step": 7300
1048
+ },
1049
+ {
1050
+ "epoch": 2.4606628724472714,
1051
+ "grad_norm": 0.27141231298446655,
1052
+ "learning_rate": 2.9508425398951012e-05,
1053
+ "loss": 0.0454,
1054
+ "step": 7350
1055
+ },
1056
+ {
1057
+ "epoch": 2.4774020756611987,
1058
+ "grad_norm": 0.1777345836162567,
1059
+ "learning_rate": 2.936893203883495e-05,
1060
+ "loss": 0.0435,
1061
+ "step": 7400
1062
+ },
1063
+ {
1064
+ "epoch": 2.4941412788751256,
1065
+ "grad_norm": 0.14735421538352966,
1066
+ "learning_rate": 2.9229438678718897e-05,
1067
+ "loss": 0.0489,
1068
+ "step": 7450
1069
+ },
1070
+ {
1071
+ "epoch": 2.5108804820890525,
1072
+ "grad_norm": 0.1486055999994278,
1073
+ "learning_rate": 2.9089945318602834e-05,
1074
+ "loss": 0.0477,
1075
+ "step": 7500
1076
+ },
1077
+ {
1078
+ "epoch": 2.5276196853029793,
1079
+ "grad_norm": 0.17078754305839539,
1080
+ "learning_rate": 2.895045195848678e-05,
1081
+ "loss": 0.0444,
1082
+ "step": 7550
1083
+ },
1084
+ {
1085
+ "epoch": 2.5443588885169066,
1086
+ "grad_norm": 0.19276435673236847,
1087
+ "learning_rate": 2.881095859837072e-05,
1088
+ "loss": 0.0486,
1089
+ "step": 7600
1090
+ },
1091
+ {
1092
+ "epoch": 2.5610980917308335,
1093
+ "grad_norm": 0.21209606528282166,
1094
+ "learning_rate": 2.8671465238254656e-05,
1095
+ "loss": 0.0497,
1096
+ "step": 7650
1097
+ },
1098
+ {
1099
+ "epoch": 2.5778372949447608,
1100
+ "grad_norm": 0.21018877625465393,
1101
+ "learning_rate": 2.8531971878138604e-05,
1102
+ "loss": 0.0441,
1103
+ "step": 7700
1104
+ },
1105
+ {
1106
+ "epoch": 2.5945764981586876,
1107
+ "grad_norm": 0.15666617453098297,
1108
+ "learning_rate": 2.839247851802254e-05,
1109
+ "loss": 0.0467,
1110
+ "step": 7750
1111
+ },
1112
+ {
1113
+ "epoch": 2.6113157013726145,
1114
+ "grad_norm": 0.1940685212612152,
1115
+ "learning_rate": 2.8252985157906485e-05,
1116
+ "loss": 0.0523,
1117
+ "step": 7800
1118
+ },
1119
+ {
1120
+ "epoch": 2.628054904586542,
1121
+ "grad_norm": 0.28480586409568787,
1122
+ "learning_rate": 2.8113491797790426e-05,
1123
+ "loss": 0.0481,
1124
+ "step": 7850
1125
+ },
1126
+ {
1127
+ "epoch": 2.6447941078004686,
1128
+ "grad_norm": 0.2223973125219345,
1129
+ "learning_rate": 2.797399843767437e-05,
1130
+ "loss": 0.0432,
1131
+ "step": 7900
1132
+ },
1133
+ {
1134
+ "epoch": 2.661533311014396,
1135
+ "grad_norm": 0.15986157953739166,
1136
+ "learning_rate": 2.783450507755831e-05,
1137
+ "loss": 0.0454,
1138
+ "step": 7950
1139
+ },
1140
+ {
1141
+ "epoch": 2.678272514228323,
1142
+ "grad_norm": 0.1384258270263672,
1143
+ "learning_rate": 2.7695011717442248e-05,
1144
+ "loss": 0.0477,
1145
+ "step": 8000
1146
+ },
1147
+ {
1148
+ "epoch": 2.6950117174422497,
1149
+ "grad_norm": 0.1721869707107544,
1150
+ "learning_rate": 2.7555518357326192e-05,
1151
+ "loss": 0.0453,
1152
+ "step": 8050
1153
+ },
1154
+ {
1155
+ "epoch": 2.7117509206561765,
1156
+ "grad_norm": 0.20737840235233307,
1157
+ "learning_rate": 2.7416024997210132e-05,
1158
+ "loss": 0.0504,
1159
+ "step": 8100
1160
+ },
1161
+ {
1162
+ "epoch": 2.728490123870104,
1163
+ "grad_norm": 0.18823584914207458,
1164
+ "learning_rate": 2.7276531637094077e-05,
1165
+ "loss": 0.0453,
1166
+ "step": 8150
1167
+ },
1168
+ {
1169
+ "epoch": 2.7452293270840307,
1170
+ "grad_norm": 0.13201962411403656,
1171
+ "learning_rate": 2.7137038276978017e-05,
1172
+ "loss": 0.0433,
1173
+ "step": 8200
1174
+ },
1175
+ {
1176
+ "epoch": 2.761968530297958,
1177
+ "grad_norm": 0.1443973183631897,
1178
+ "learning_rate": 2.699754491686196e-05,
1179
+ "loss": 0.0486,
1180
+ "step": 8250
1181
+ },
1182
+ {
1183
+ "epoch": 2.778707733511885,
1184
+ "grad_norm": 0.29314514994621277,
1185
+ "learning_rate": 2.68580515567459e-05,
1186
+ "loss": 0.05,
1187
+ "step": 8300
1188
+ },
1189
+ {
1190
+ "epoch": 2.7954469367258117,
1191
+ "grad_norm": 0.14852124452590942,
1192
+ "learning_rate": 2.671855819662984e-05,
1193
+ "loss": 0.0495,
1194
+ "step": 8350
1195
+ },
1196
+ {
1197
+ "epoch": 2.812186139939739,
1198
+ "grad_norm": 0.19024662673473358,
1199
+ "learning_rate": 2.6579064836513783e-05,
1200
+ "loss": 0.0508,
1201
+ "step": 8400
1202
+ },
1203
+ {
1204
+ "epoch": 2.828925343153666,
1205
+ "grad_norm": 0.1745578795671463,
1206
+ "learning_rate": 2.6439571476397724e-05,
1207
+ "loss": 0.0443,
1208
+ "step": 8450
1209
+ },
1210
+ {
1211
+ "epoch": 2.845664546367593,
1212
+ "grad_norm": 0.18390017747879028,
1213
+ "learning_rate": 2.6300078116281668e-05,
1214
+ "loss": 0.0468,
1215
+ "step": 8500
1216
+ },
1217
+ {
1218
+ "epoch": 2.86240374958152,
1219
+ "grad_norm": 0.22483347356319427,
1220
+ "learning_rate": 2.616058475616561e-05,
1221
+ "loss": 0.0467,
1222
+ "step": 8550
1223
+ },
1224
+ {
1225
+ "epoch": 2.879142952795447,
1226
+ "grad_norm": 0.18160563707351685,
1227
+ "learning_rate": 2.6021091396049553e-05,
1228
+ "loss": 0.0441,
1229
+ "step": 8600
1230
+ },
1231
+ {
1232
+ "epoch": 2.8958821560093737,
1233
+ "grad_norm": 0.13408955931663513,
1234
+ "learning_rate": 2.588159803593349e-05,
1235
+ "loss": 0.0446,
1236
+ "step": 8650
1237
+ },
1238
+ {
1239
+ "epoch": 2.912621359223301,
1240
+ "grad_norm": 0.16038326919078827,
1241
+ "learning_rate": 2.574210467581743e-05,
1242
+ "loss": 0.0456,
1243
+ "step": 8700
1244
+ },
1245
+ {
1246
+ "epoch": 2.929360562437228,
1247
+ "grad_norm": 0.22738413512706757,
1248
+ "learning_rate": 2.5602611315701375e-05,
1249
+ "loss": 0.0479,
1250
+ "step": 8750
1251
+ },
1252
+ {
1253
+ "epoch": 2.946099765651155,
1254
+ "grad_norm": 0.20327210426330566,
1255
+ "learning_rate": 2.5463117955585315e-05,
1256
+ "loss": 0.0511,
1257
+ "step": 8800
1258
+ },
1259
+ {
1260
+ "epoch": 2.962838968865082,
1261
+ "grad_norm": 0.15756353735923767,
1262
+ "learning_rate": 2.532362459546926e-05,
1263
+ "loss": 0.0426,
1264
+ "step": 8850
1265
+ },
1266
+ {
1267
+ "epoch": 2.979578172079009,
1268
+ "grad_norm": 0.1305045783519745,
1269
+ "learning_rate": 2.5184131235353197e-05,
1270
+ "loss": 0.0442,
1271
+ "step": 8900
1272
+ },
1273
+ {
1274
+ "epoch": 2.996317375292936,
1275
+ "grad_norm": 0.1610562801361084,
1276
+ "learning_rate": 2.5044637875237144e-05,
1277
+ "loss": 0.0467,
1278
+ "step": 8950
1279
+ },
1280
+ {
1281
+ "epoch": 3.0,
1282
+ "eval_loss": 0.04702676460146904,
1283
+ "eval_runtime": 52.8989,
1284
+ "eval_samples_per_second": 225.865,
1285
+ "eval_steps_per_second": 14.121,
1286
+ "step": 8961
1287
+ },
1288
+ {
1289
+ "epoch": 3.013056578506863,
1290
+ "grad_norm": 0.2042045295238495,
1291
+ "learning_rate": 2.490514451512108e-05,
1292
+ "loss": 0.0457,
1293
+ "step": 9000
1294
+ },
1295
+ {
1296
+ "epoch": 3.02979578172079,
1297
+ "grad_norm": 0.27092283964157104,
1298
+ "learning_rate": 2.4765651155005022e-05,
1299
+ "loss": 0.0437,
1300
+ "step": 9050
1301
+ },
1302
+ {
1303
+ "epoch": 3.046534984934717,
1304
+ "grad_norm": 0.18729308247566223,
1305
+ "learning_rate": 2.4626157794888966e-05,
1306
+ "loss": 0.039,
1307
+ "step": 9100
1308
+ },
1309
+ {
1310
+ "epoch": 3.063274188148644,
1311
+ "grad_norm": 0.18845289945602417,
1312
+ "learning_rate": 2.4486664434772903e-05,
1313
+ "loss": 0.0422,
1314
+ "step": 9150
1315
+ },
1316
+ {
1317
+ "epoch": 3.0800133913625714,
1318
+ "grad_norm": 0.17593874037265778,
1319
+ "learning_rate": 2.4347171074656847e-05,
1320
+ "loss": 0.0384,
1321
+ "step": 9200
1322
+ },
1323
+ {
1324
+ "epoch": 3.096752594576498,
1325
+ "grad_norm": 0.23149123787879944,
1326
+ "learning_rate": 2.4207677714540788e-05,
1327
+ "loss": 0.0443,
1328
+ "step": 9250
1329
+ },
1330
+ {
1331
+ "epoch": 3.113491797790425,
1332
+ "grad_norm": 0.1968075931072235,
1333
+ "learning_rate": 2.4068184354424732e-05,
1334
+ "loss": 0.0402,
1335
+ "step": 9300
1336
+ },
1337
+ {
1338
+ "epoch": 3.1302310010043524,
1339
+ "grad_norm": 0.16893354058265686,
1340
+ "learning_rate": 2.3928690994308673e-05,
1341
+ "loss": 0.043,
1342
+ "step": 9350
1343
+ },
1344
+ {
1345
+ "epoch": 3.146970204218279,
1346
+ "grad_norm": 0.161103293299675,
1347
+ "learning_rate": 2.3789197634192613e-05,
1348
+ "loss": 0.0414,
1349
+ "step": 9400
1350
+ },
1351
+ {
1352
+ "epoch": 3.163709407432206,
1353
+ "grad_norm": 0.22712625563144684,
1354
+ "learning_rate": 2.3649704274076557e-05,
1355
+ "loss": 0.0426,
1356
+ "step": 9450
1357
+ },
1358
+ {
1359
+ "epoch": 3.1804486106461334,
1360
+ "grad_norm": 0.12811464071273804,
1361
+ "learning_rate": 2.3510210913960495e-05,
1362
+ "loss": 0.0406,
1363
+ "step": 9500
1364
+ },
1365
+ {
1366
+ "epoch": 3.1971878138600602,
1367
+ "grad_norm": 0.16762731969356537,
1368
+ "learning_rate": 2.337071755384444e-05,
1369
+ "loss": 0.0417,
1370
+ "step": 9550
1371
+ },
1372
+ {
1373
+ "epoch": 3.213927017073987,
1374
+ "grad_norm": 0.14003124833106995,
1375
+ "learning_rate": 2.323122419372838e-05,
1376
+ "loss": 0.0453,
1377
+ "step": 9600
1378
+ },
1379
+ {
1380
+ "epoch": 3.2306662202879144,
1381
+ "grad_norm": 0.16891060769557953,
1382
+ "learning_rate": 2.309173083361232e-05,
1383
+ "loss": 0.0445,
1384
+ "step": 9650
1385
+ },
1386
+ {
1387
+ "epoch": 3.2474054235018412,
1388
+ "grad_norm": 0.16900208592414856,
1389
+ "learning_rate": 2.2952237473496264e-05,
1390
+ "loss": 0.039,
1391
+ "step": 9700
1392
+ },
1393
+ {
1394
+ "epoch": 3.264144626715768,
1395
+ "grad_norm": 0.17154955863952637,
1396
+ "learning_rate": 2.2812744113380205e-05,
1397
+ "loss": 0.0403,
1398
+ "step": 9750
1399
+ },
1400
+ {
1401
+ "epoch": 3.2808838299296954,
1402
+ "grad_norm": 0.1620296835899353,
1403
+ "learning_rate": 2.2673250753264145e-05,
1404
+ "loss": 0.0406,
1405
+ "step": 9800
1406
+ },
1407
+ {
1408
+ "epoch": 3.2976230331436223,
1409
+ "grad_norm": 0.14487063884735107,
1410
+ "learning_rate": 2.2533757393148086e-05,
1411
+ "loss": 0.0467,
1412
+ "step": 9850
1413
+ },
1414
+ {
1415
+ "epoch": 3.3143622363575496,
1416
+ "grad_norm": 0.13799156248569489,
1417
+ "learning_rate": 2.2394264033032027e-05,
1418
+ "loss": 0.0433,
1419
+ "step": 9900
1420
+ },
1421
+ {
1422
+ "epoch": 3.3311014395714764,
1423
+ "grad_norm": 0.1507265418767929,
1424
+ "learning_rate": 2.225477067291597e-05,
1425
+ "loss": 0.0446,
1426
+ "step": 9950
1427
+ },
1428
+ {
1429
+ "epoch": 3.3478406427854033,
1430
+ "grad_norm": 0.1605840027332306,
1431
+ "learning_rate": 2.211527731279991e-05,
1432
+ "loss": 0.0415,
1433
+ "step": 10000
1434
+ },
1435
+ {
1436
+ "epoch": 3.3645798459993306,
1437
+ "grad_norm": 0.11910756677389145,
1438
+ "learning_rate": 2.1975783952683855e-05,
1439
+ "loss": 0.0453,
1440
+ "step": 10050
1441
+ },
1442
+ {
1443
+ "epoch": 3.3813190492132574,
1444
+ "grad_norm": 0.15115414559841156,
1445
+ "learning_rate": 2.1836290592567796e-05,
1446
+ "loss": 0.0395,
1447
+ "step": 10100
1448
+ },
1449
+ {
1450
+ "epoch": 3.3980582524271843,
1451
+ "grad_norm": 0.2044568508863449,
1452
+ "learning_rate": 2.1696797232451737e-05,
1453
+ "loss": 0.0473,
1454
+ "step": 10150
1455
+ },
1456
+ {
1457
+ "epoch": 3.4147974556411116,
1458
+ "grad_norm": 0.18123552203178406,
1459
+ "learning_rate": 2.1557303872335677e-05,
1460
+ "loss": 0.0411,
1461
+ "step": 10200
1462
+ },
1463
+ {
1464
+ "epoch": 3.4315366588550384,
1465
+ "grad_norm": 0.6018120646476746,
1466
+ "learning_rate": 2.1417810512219618e-05,
1467
+ "loss": 0.0413,
1468
+ "step": 10250
1469
+ },
1470
+ {
1471
+ "epoch": 3.4482758620689653,
1472
+ "grad_norm": 0.22490189969539642,
1473
+ "learning_rate": 2.1278317152103562e-05,
1474
+ "loss": 0.0437,
1475
+ "step": 10300
1476
+ },
1477
+ {
1478
+ "epoch": 3.4650150652828926,
1479
+ "grad_norm": 0.1784990429878235,
1480
+ "learning_rate": 2.1138823791987503e-05,
1481
+ "loss": 0.0453,
1482
+ "step": 10350
1483
+ },
1484
+ {
1485
+ "epoch": 3.4817542684968195,
1486
+ "grad_norm": 0.15248402953147888,
1487
+ "learning_rate": 2.0999330431871443e-05,
1488
+ "loss": 0.0456,
1489
+ "step": 10400
1490
+ },
1491
+ {
1492
+ "epoch": 3.4984934717107468,
1493
+ "grad_norm": 0.15146291255950928,
1494
+ "learning_rate": 2.0859837071755387e-05,
1495
+ "loss": 0.0393,
1496
+ "step": 10450
1497
+ },
1498
+ {
1499
+ "epoch": 3.5152326749246736,
1500
+ "grad_norm": 0.1662750393152237,
1501
+ "learning_rate": 2.0720343711639325e-05,
1502
+ "loss": 0.0408,
1503
+ "step": 10500
1504
+ },
1505
+ {
1506
+ "epoch": 3.5319718781386005,
1507
+ "grad_norm": 0.1244506984949112,
1508
+ "learning_rate": 2.058085035152327e-05,
1509
+ "loss": 0.0426,
1510
+ "step": 10550
1511
+ },
1512
+ {
1513
+ "epoch": 3.5487110813525278,
1514
+ "grad_norm": 0.1180344969034195,
1515
+ "learning_rate": 2.044135699140721e-05,
1516
+ "loss": 0.0434,
1517
+ "step": 10600
1518
+ },
1519
+ {
1520
+ "epoch": 3.5654502845664546,
1521
+ "grad_norm": 0.15951013565063477,
1522
+ "learning_rate": 2.030186363129115e-05,
1523
+ "loss": 0.0387,
1524
+ "step": 10650
1525
+ },
1526
+ {
1527
+ "epoch": 3.582189487780382,
1528
+ "grad_norm": 0.16064217686653137,
1529
+ "learning_rate": 2.0162370271175094e-05,
1530
+ "loss": 0.0445,
1531
+ "step": 10700
1532
+ },
1533
+ {
1534
+ "epoch": 3.598928690994309,
1535
+ "grad_norm": 0.17813698947429657,
1536
+ "learning_rate": 2.0022876911059035e-05,
1537
+ "loss": 0.0407,
1538
+ "step": 10750
1539
+ },
1540
+ {
1541
+ "epoch": 3.6156678942082356,
1542
+ "grad_norm": 0.1256450116634369,
1543
+ "learning_rate": 1.988338355094298e-05,
1544
+ "loss": 0.0462,
1545
+ "step": 10800
1546
+ },
1547
+ {
1548
+ "epoch": 3.6324070974221625,
1549
+ "grad_norm": 0.14016403257846832,
1550
+ "learning_rate": 1.9743890190826916e-05,
1551
+ "loss": 0.0456,
1552
+ "step": 10850
1553
+ },
1554
+ {
1555
+ "epoch": 3.64914630063609,
1556
+ "grad_norm": 0.1396850347518921,
1557
+ "learning_rate": 1.9604396830710857e-05,
1558
+ "loss": 0.0403,
1559
+ "step": 10900
1560
+ },
1561
+ {
1562
+ "epoch": 3.6658855038500167,
1563
+ "grad_norm": 0.17943057417869568,
1564
+ "learning_rate": 1.94649034705948e-05,
1565
+ "loss": 0.0417,
1566
+ "step": 10950
1567
+ },
1568
+ {
1569
+ "epoch": 3.682624707063944,
1570
+ "grad_norm": 0.14947953820228577,
1571
+ "learning_rate": 1.932541011047874e-05,
1572
+ "loss": 0.0421,
1573
+ "step": 11000
1574
+ },
1575
+ {
1576
+ "epoch": 3.699363910277871,
1577
+ "grad_norm": 0.12628613412380219,
1578
+ "learning_rate": 1.9185916750362685e-05,
1579
+ "loss": 0.0435,
1580
+ "step": 11050
1581
+ },
1582
+ {
1583
+ "epoch": 3.7161031134917977,
1584
+ "grad_norm": 0.2205984890460968,
1585
+ "learning_rate": 1.9046423390246626e-05,
1586
+ "loss": 0.0396,
1587
+ "step": 11100
1588
+ },
1589
+ {
1590
+ "epoch": 3.732842316705725,
1591
+ "grad_norm": 0.13236357271671295,
1592
+ "learning_rate": 1.8906930030130567e-05,
1593
+ "loss": 0.0405,
1594
+ "step": 11150
1595
+ },
1596
+ {
1597
+ "epoch": 3.749581519919652,
1598
+ "grad_norm": 0.15023528039455414,
1599
+ "learning_rate": 1.8767436670014507e-05,
1600
+ "loss": 0.0434,
1601
+ "step": 11200
1602
+ },
1603
+ {
1604
+ "epoch": 3.7663207231335787,
1605
+ "grad_norm": 0.1427326649427414,
1606
+ "learning_rate": 1.8627943309898448e-05,
1607
+ "loss": 0.0437,
1608
+ "step": 11250
1609
+ },
1610
+ {
1611
+ "epoch": 3.783059926347506,
1612
+ "grad_norm": 0.1890624761581421,
1613
+ "learning_rate": 1.8488449949782392e-05,
1614
+ "loss": 0.0408,
1615
+ "step": 11300
1616
+ },
1617
+ {
1618
+ "epoch": 3.799799129561433,
1619
+ "grad_norm": 0.27970972657203674,
1620
+ "learning_rate": 1.8348956589666333e-05,
1621
+ "loss": 0.0441,
1622
+ "step": 11350
1623
+ },
1624
+ {
1625
+ "epoch": 3.8165383327753597,
1626
+ "grad_norm": 0.12823455035686493,
1627
+ "learning_rate": 1.8209463229550273e-05,
1628
+ "loss": 0.0412,
1629
+ "step": 11400
1630
+ },
1631
+ {
1632
+ "epoch": 3.833277535989287,
1633
+ "grad_norm": 0.1442965269088745,
1634
+ "learning_rate": 1.8069969869434218e-05,
1635
+ "loss": 0.0416,
1636
+ "step": 11450
1637
+ },
1638
+ {
1639
+ "epoch": 3.850016739203214,
1640
+ "grad_norm": 0.13739417493343353,
1641
+ "learning_rate": 1.7930476509318158e-05,
1642
+ "loss": 0.0397,
1643
+ "step": 11500
1644
+ },
1645
+ {
1646
+ "epoch": 3.866755942417141,
1647
+ "grad_norm": 0.16616705060005188,
1648
+ "learning_rate": 1.77909831492021e-05,
1649
+ "loss": 0.0413,
1650
+ "step": 11550
1651
+ },
1652
+ {
1653
+ "epoch": 3.883495145631068,
1654
+ "grad_norm": 0.23060384392738342,
1655
+ "learning_rate": 1.765148978908604e-05,
1656
+ "loss": 0.0447,
1657
+ "step": 11600
1658
+ },
1659
+ {
1660
+ "epoch": 3.900234348844995,
1661
+ "grad_norm": 0.2936810553073883,
1662
+ "learning_rate": 1.751199642896998e-05,
1663
+ "loss": 0.0409,
1664
+ "step": 11650
1665
+ },
1666
+ {
1667
+ "epoch": 3.9169735520589217,
1668
+ "grad_norm": 0.17367126047611237,
1669
+ "learning_rate": 1.7372503068853924e-05,
1670
+ "loss": 0.0411,
1671
+ "step": 11700
1672
+ },
1673
+ {
1674
+ "epoch": 3.933712755272849,
1675
+ "grad_norm": 0.14550547301769257,
1676
+ "learning_rate": 1.7233009708737865e-05,
1677
+ "loss": 0.0445,
1678
+ "step": 11750
1679
+ },
1680
+ {
1681
+ "epoch": 3.950451958486776,
1682
+ "grad_norm": 0.13322454690933228,
1683
+ "learning_rate": 1.709351634862181e-05,
1684
+ "loss": 0.0444,
1685
+ "step": 11800
1686
+ },
1687
+ {
1688
+ "epoch": 3.967191161700703,
1689
+ "grad_norm": 0.13606959581375122,
1690
+ "learning_rate": 1.6954022988505746e-05,
1691
+ "loss": 0.041,
1692
+ "step": 11850
1693
+ },
1694
+ {
1695
+ "epoch": 3.98393036491463,
1696
+ "grad_norm": 0.14227426052093506,
1697
+ "learning_rate": 1.681452962838969e-05,
1698
+ "loss": 0.0412,
1699
+ "step": 11900
1700
+ },
1701
+ {
1702
+ "epoch": 4.0,
1703
+ "eval_loss": 0.045825306326150894,
1704
+ "eval_runtime": 48.668,
1705
+ "eval_samples_per_second": 245.5,
1706
+ "eval_steps_per_second": 15.349,
1707
+ "step": 11948
1708
+ },
1709
+ {
1710
+ "epoch": 4.000669568128557,
1711
+ "grad_norm": 0.14429377019405365,
1712
+ "learning_rate": 1.667503626827363e-05,
1713
+ "loss": 0.0398,
1714
+ "step": 11950
1715
+ },
1716
+ {
1717
+ "epoch": 4.017408771342484,
1718
+ "grad_norm": 0.13842210173606873,
1719
+ "learning_rate": 1.653554290815757e-05,
1720
+ "loss": 0.0365,
1721
+ "step": 12000
1722
+ },
1723
+ {
1724
+ "epoch": 4.0341479745564115,
1725
+ "grad_norm": 0.2168322205543518,
1726
+ "learning_rate": 1.6396049548041516e-05,
1727
+ "loss": 0.0395,
1728
+ "step": 12050
1729
+ },
1730
+ {
1731
+ "epoch": 4.050887177770338,
1732
+ "grad_norm": 0.1534542292356491,
1733
+ "learning_rate": 1.6256556187925456e-05,
1734
+ "loss": 0.0377,
1735
+ "step": 12100
1736
+ },
1737
+ {
1738
+ "epoch": 4.067626380984265,
1739
+ "grad_norm": 0.13067083060741425,
1740
+ "learning_rate": 1.6117062827809397e-05,
1741
+ "loss": 0.042,
1742
+ "step": 12150
1743
+ },
1744
+ {
1745
+ "epoch": 4.084365584198192,
1746
+ "grad_norm": 0.13599875569343567,
1747
+ "learning_rate": 1.5977569467693338e-05,
1748
+ "loss": 0.0403,
1749
+ "step": 12200
1750
+ },
1751
+ {
1752
+ "epoch": 4.101104787412119,
1753
+ "grad_norm": 0.23121419548988342,
1754
+ "learning_rate": 1.5838076107577278e-05,
1755
+ "loss": 0.0406,
1756
+ "step": 12250
1757
+ },
1758
+ {
1759
+ "epoch": 4.117843990626046,
1760
+ "grad_norm": 0.15491856634616852,
1761
+ "learning_rate": 1.5698582747461222e-05,
1762
+ "loss": 0.0381,
1763
+ "step": 12300
1764
+ },
1765
+ {
1766
+ "epoch": 4.1345831938399735,
1767
+ "grad_norm": 0.13168101012706757,
1768
+ "learning_rate": 1.5559089387345163e-05,
1769
+ "loss": 0.0353,
1770
+ "step": 12350
1771
+ },
1772
+ {
1773
+ "epoch": 4.1513223970539,
1774
+ "grad_norm": 0.1694163829088211,
1775
+ "learning_rate": 1.5419596027229104e-05,
1776
+ "loss": 0.04,
1777
+ "step": 12400
1778
+ },
1779
+ {
1780
+ "epoch": 4.168061600267827,
1781
+ "grad_norm": 0.17727704346179962,
1782
+ "learning_rate": 1.5280102667113048e-05,
1783
+ "loss": 0.0364,
1784
+ "step": 12450
1785
+ },
1786
+ {
1787
+ "epoch": 4.184800803481754,
1788
+ "grad_norm": 0.18948902189731598,
1789
+ "learning_rate": 1.5140609306996988e-05,
1790
+ "loss": 0.0372,
1791
+ "step": 12500
1792
+ },
1793
+ {
1794
+ "epoch": 4.201540006695681,
1795
+ "grad_norm": 0.2130223959684372,
1796
+ "learning_rate": 1.5001115946880929e-05,
1797
+ "loss": 0.0398,
1798
+ "step": 12550
1799
+ },
1800
+ {
1801
+ "epoch": 4.218279209909609,
1802
+ "grad_norm": 0.15893810987472534,
1803
+ "learning_rate": 1.486162258676487e-05,
1804
+ "loss": 0.0387,
1805
+ "step": 12600
1806
+ },
1807
+ {
1808
+ "epoch": 4.2350184131235356,
1809
+ "grad_norm": 0.19536694884300232,
1810
+ "learning_rate": 1.4722129226648812e-05,
1811
+ "loss": 0.041,
1812
+ "step": 12650
1813
+ },
1814
+ {
1815
+ "epoch": 4.251757616337462,
1816
+ "grad_norm": 0.16755405068397522,
1817
+ "learning_rate": 1.4582635866532754e-05,
1818
+ "loss": 0.0367,
1819
+ "step": 12700
1820
+ },
1821
+ {
1822
+ "epoch": 4.268496819551389,
1823
+ "grad_norm": 0.14820334315299988,
1824
+ "learning_rate": 1.4443142506416697e-05,
1825
+ "loss": 0.0382,
1826
+ "step": 12750
1827
+ },
1828
+ {
1829
+ "epoch": 4.285236022765316,
1830
+ "grad_norm": 0.21781007945537567,
1831
+ "learning_rate": 1.4303649146300637e-05,
1832
+ "loss": 0.0398,
1833
+ "step": 12800
1834
+ },
1835
+ {
1836
+ "epoch": 4.301975225979243,
1837
+ "grad_norm": 0.17162373661994934,
1838
+ "learning_rate": 1.4164155786184576e-05,
1839
+ "loss": 0.042,
1840
+ "step": 12850
1841
+ },
1842
+ {
1843
+ "epoch": 4.318714429193171,
1844
+ "grad_norm": 0.13765838742256165,
1845
+ "learning_rate": 1.4024662426068519e-05,
1846
+ "loss": 0.0378,
1847
+ "step": 12900
1848
+ },
1849
+ {
1850
+ "epoch": 4.335453632407098,
1851
+ "grad_norm": 0.22830092906951904,
1852
+ "learning_rate": 1.3885169065952461e-05,
1853
+ "loss": 0.0387,
1854
+ "step": 12950
1855
+ },
1856
+ {
1857
+ "epoch": 4.352192835621024,
1858
+ "grad_norm": 0.1682949960231781,
1859
+ "learning_rate": 1.3745675705836403e-05,
1860
+ "loss": 0.0408,
1861
+ "step": 13000
1862
+ },
1863
+ {
1864
+ "epoch": 4.368932038834951,
1865
+ "grad_norm": 0.16153910756111145,
1866
+ "learning_rate": 1.3606182345720344e-05,
1867
+ "loss": 0.0405,
1868
+ "step": 13050
1869
+ },
1870
+ {
1871
+ "epoch": 4.385671242048878,
1872
+ "grad_norm": 0.18771956861019135,
1873
+ "learning_rate": 1.3466688985604286e-05,
1874
+ "loss": 0.0427,
1875
+ "step": 13100
1876
+ },
1877
+ {
1878
+ "epoch": 4.402410445262806,
1879
+ "grad_norm": 0.11162823438644409,
1880
+ "learning_rate": 1.3327195625488229e-05,
1881
+ "loss": 0.0399,
1882
+ "step": 13150
1883
+ },
1884
+ {
1885
+ "epoch": 4.419149648476733,
1886
+ "grad_norm": 0.14466647803783417,
1887
+ "learning_rate": 1.3187702265372168e-05,
1888
+ "loss": 0.0401,
1889
+ "step": 13200
1890
+ },
1891
+ {
1892
+ "epoch": 4.43588885169066,
1893
+ "grad_norm": 0.14834430813789368,
1894
+ "learning_rate": 1.304820890525611e-05,
1895
+ "loss": 0.0386,
1896
+ "step": 13250
1897
+ },
1898
+ {
1899
+ "epoch": 4.4526280549045865,
1900
+ "grad_norm": 0.20324522256851196,
1901
+ "learning_rate": 1.2908715545140052e-05,
1902
+ "loss": 0.0379,
1903
+ "step": 13300
1904
+ },
1905
+ {
1906
+ "epoch": 4.469367258118513,
1907
+ "grad_norm": 0.12625128030776978,
1908
+ "learning_rate": 1.2769222185023993e-05,
1909
+ "loss": 0.0403,
1910
+ "step": 13350
1911
+ },
1912
+ {
1913
+ "epoch": 4.48610646133244,
1914
+ "grad_norm": 0.11018920689821243,
1915
+ "learning_rate": 1.2629728824907935e-05,
1916
+ "loss": 0.0383,
1917
+ "step": 13400
1918
+ },
1919
+ {
1920
+ "epoch": 4.502845664546368,
1921
+ "grad_norm": 0.18631067872047424,
1922
+ "learning_rate": 1.2490235464791876e-05,
1923
+ "loss": 0.0424,
1924
+ "step": 13450
1925
+ },
1926
+ {
1927
+ "epoch": 4.519584867760295,
1928
+ "grad_norm": 0.28578242659568787,
1929
+ "learning_rate": 1.2350742104675818e-05,
1930
+ "loss": 0.0385,
1931
+ "step": 13500
1932
+ },
1933
+ {
1934
+ "epoch": 4.536324070974222,
1935
+ "grad_norm": 0.1431867629289627,
1936
+ "learning_rate": 1.2211248744559759e-05,
1937
+ "loss": 0.038,
1938
+ "step": 13550
1939
+ },
1940
+ {
1941
+ "epoch": 4.5530632741881485,
1942
+ "grad_norm": 0.12731611728668213,
1943
+ "learning_rate": 1.2071755384443701e-05,
1944
+ "loss": 0.0389,
1945
+ "step": 13600
1946
+ },
1947
+ {
1948
+ "epoch": 4.569802477402075,
1949
+ "grad_norm": 0.20958903431892395,
1950
+ "learning_rate": 1.1932262024327642e-05,
1951
+ "loss": 0.0383,
1952
+ "step": 13650
1953
+ },
1954
+ {
1955
+ "epoch": 4.586541680616003,
1956
+ "grad_norm": 0.21877717971801758,
1957
+ "learning_rate": 1.1792768664211584e-05,
1958
+ "loss": 0.0399,
1959
+ "step": 13700
1960
+ },
1961
+ {
1962
+ "epoch": 4.60328088382993,
1963
+ "grad_norm": 0.1719764918088913,
1964
+ "learning_rate": 1.1653275304095527e-05,
1965
+ "loss": 0.0355,
1966
+ "step": 13750
1967
+ },
1968
+ {
1969
+ "epoch": 4.620020087043857,
1970
+ "grad_norm": 0.13044840097427368,
1971
+ "learning_rate": 1.1513781943979467e-05,
1972
+ "loss": 0.0386,
1973
+ "step": 13800
1974
+ },
1975
+ {
1976
+ "epoch": 4.636759290257784,
1977
+ "grad_norm": 0.20552796125411987,
1978
+ "learning_rate": 1.1374288583863408e-05,
1979
+ "loss": 0.04,
1980
+ "step": 13850
1981
+ },
1982
+ {
1983
+ "epoch": 4.6534984934717105,
1984
+ "grad_norm": 0.15806210041046143,
1985
+ "learning_rate": 1.123479522374735e-05,
1986
+ "loss": 0.0381,
1987
+ "step": 13900
1988
+ },
1989
+ {
1990
+ "epoch": 4.670237696685637,
1991
+ "grad_norm": 0.2317190170288086,
1992
+ "learning_rate": 1.1095301863631291e-05,
1993
+ "loss": 0.0394,
1994
+ "step": 13950
1995
+ },
1996
+ {
1997
+ "epoch": 4.686976899899565,
1998
+ "grad_norm": 0.16183790564537048,
1999
+ "learning_rate": 1.0955808503515233e-05,
2000
+ "loss": 0.0392,
2001
+ "step": 14000
2002
+ },
2003
+ {
2004
+ "epoch": 4.703716103113492,
2005
+ "grad_norm": 0.14107303321361542,
2006
+ "learning_rate": 1.0816315143399176e-05,
2007
+ "loss": 0.039,
2008
+ "step": 14050
2009
+ },
2010
+ {
2011
+ "epoch": 4.720455306327419,
2012
+ "grad_norm": 0.21340009570121765,
2013
+ "learning_rate": 1.0676821783283116e-05,
2014
+ "loss": 0.04,
2015
+ "step": 14100
2016
+ },
2017
+ {
2018
+ "epoch": 4.737194509541346,
2019
+ "grad_norm": 0.1754944771528244,
2020
+ "learning_rate": 1.0537328423167057e-05,
2021
+ "loss": 0.0371,
2022
+ "step": 14150
2023
+ },
2024
+ {
2025
+ "epoch": 4.7539337127552725,
2026
+ "grad_norm": 0.13280175626277924,
2027
+ "learning_rate": 1.0397835063051e-05,
2028
+ "loss": 0.0358,
2029
+ "step": 14200
2030
+ },
2031
+ {
2032
+ "epoch": 4.7706729159692,
2033
+ "grad_norm": 0.15039420127868652,
2034
+ "learning_rate": 1.0258341702934942e-05,
2035
+ "loss": 0.0438,
2036
+ "step": 14250
2037
+ },
2038
+ {
2039
+ "epoch": 4.787412119183127,
2040
+ "grad_norm": 0.30474409461021423,
2041
+ "learning_rate": 1.0118848342818882e-05,
2042
+ "loss": 0.0377,
2043
+ "step": 14300
2044
+ },
2045
+ {
2046
+ "epoch": 4.804151322397054,
2047
+ "grad_norm": 0.2012936919927597,
2048
+ "learning_rate": 9.979354982702823e-06,
2049
+ "loss": 0.0417,
2050
+ "step": 14350
2051
+ },
2052
+ {
2053
+ "epoch": 4.820890525610981,
2054
+ "grad_norm": 0.192657932639122,
2055
+ "learning_rate": 9.839861622586765e-06,
2056
+ "loss": 0.0392,
2057
+ "step": 14400
2058
+ },
2059
+ {
2060
+ "epoch": 4.837629728824908,
2061
+ "grad_norm": 0.16141368448734283,
2062
+ "learning_rate": 9.700368262470706e-06,
2063
+ "loss": 0.0378,
2064
+ "step": 14450
2065
+ },
2066
+ {
2067
+ "epoch": 4.854368932038835,
2068
+ "grad_norm": 0.19473744928836823,
2069
+ "learning_rate": 9.560874902354648e-06,
2070
+ "loss": 0.0368,
2071
+ "step": 14500
2072
+ },
2073
+ {
2074
+ "epoch": 4.871108135252762,
2075
+ "grad_norm": 0.15624327957630157,
2076
+ "learning_rate": 9.42138154223859e-06,
2077
+ "loss": 0.0416,
2078
+ "step": 14550
2079
+ },
2080
+ {
2081
+ "epoch": 4.887847338466689,
2082
+ "grad_norm": 0.1572103202342987,
2083
+ "learning_rate": 9.281888182122531e-06,
2084
+ "loss": 0.0383,
2085
+ "step": 14600
2086
+ },
2087
+ {
2088
+ "epoch": 4.904586541680616,
2089
+ "grad_norm": 0.15121281147003174,
2090
+ "learning_rate": 9.142394822006472e-06,
2091
+ "loss": 0.0405,
2092
+ "step": 14650
2093
+ },
2094
+ {
2095
+ "epoch": 4.921325744894543,
2096
+ "grad_norm": 0.1739313155412674,
2097
+ "learning_rate": 9.002901461890415e-06,
2098
+ "loss": 0.0389,
2099
+ "step": 14700
2100
+ },
2101
+ {
2102
+ "epoch": 4.93806494810847,
2103
+ "grad_norm": 0.12826618552207947,
2104
+ "learning_rate": 8.863408101774357e-06,
2105
+ "loss": 0.0385,
2106
+ "step": 14750
2107
+ },
2108
+ {
2109
+ "epoch": 4.9548041513223975,
2110
+ "grad_norm": 0.11419858038425446,
2111
+ "learning_rate": 8.723914741658298e-06,
2112
+ "loss": 0.0387,
2113
+ "step": 14800
2114
+ },
2115
+ {
2116
+ "epoch": 4.971543354536324,
2117
+ "grad_norm": 0.18640589714050293,
2118
+ "learning_rate": 8.584421381542238e-06,
2119
+ "loss": 0.0376,
2120
+ "step": 14850
2121
+ },
2122
+ {
2123
+ "epoch": 4.988282557750251,
2124
+ "grad_norm": 0.18249401450157166,
2125
+ "learning_rate": 8.44492802142618e-06,
2126
+ "loss": 0.041,
2127
+ "step": 14900
2128
+ },
2129
+ {
2130
+ "epoch": 5.0,
2131
+ "eval_loss": 0.045213617384433746,
2132
+ "eval_runtime": 49.0497,
2133
+ "eval_samples_per_second": 243.589,
2134
+ "eval_steps_per_second": 15.229,
2135
+ "step": 14935
2136
+ },
2137
+ {
2138
+ "epoch": 5.005021760964178,
2139
+ "grad_norm": 0.25643524527549744,
2140
+ "learning_rate": 8.305434661310121e-06,
2141
+ "loss": 0.0403,
2142
+ "step": 14950
2143
+ },
2144
+ {
2145
+ "epoch": 5.021760964178105,
2146
+ "grad_norm": 0.16471606492996216,
2147
+ "learning_rate": 8.165941301194064e-06,
2148
+ "loss": 0.0374,
2149
+ "step": 15000
2150
+ },
2151
+ {
2152
+ "epoch": 5.038500167392032,
2153
+ "grad_norm": 0.14938130974769592,
2154
+ "learning_rate": 8.026447941078006e-06,
2155
+ "loss": 0.0363,
2156
+ "step": 15050
2157
+ },
2158
+ {
2159
+ "epoch": 5.0552393706059595,
2160
+ "grad_norm": 0.13239839673042297,
2161
+ "learning_rate": 7.886954580961947e-06,
2162
+ "loss": 0.037,
2163
+ "step": 15100
2164
+ },
2165
+ {
2166
+ "epoch": 5.071978573819886,
2167
+ "grad_norm": 0.17447875440120697,
2168
+ "learning_rate": 7.747461220845887e-06,
2169
+ "loss": 0.0374,
2170
+ "step": 15150
2171
+ },
2172
+ {
2173
+ "epoch": 5.088717777033813,
2174
+ "grad_norm": 0.15902550518512726,
2175
+ "learning_rate": 7.6079678607298296e-06,
2176
+ "loss": 0.0361,
2177
+ "step": 15200
2178
+ },
2179
+ {
2180
+ "epoch": 5.10545698024774,
2181
+ "grad_norm": 0.22053466737270355,
2182
+ "learning_rate": 7.468474500613772e-06,
2183
+ "loss": 0.0381,
2184
+ "step": 15250
2185
+ },
2186
+ {
2187
+ "epoch": 5.122196183461667,
2188
+ "grad_norm": 0.1754140853881836,
2189
+ "learning_rate": 7.328981140497712e-06,
2190
+ "loss": 0.0327,
2191
+ "step": 15300
2192
+ },
2193
+ {
2194
+ "epoch": 5.138935386675595,
2195
+ "grad_norm": 0.15227694809436798,
2196
+ "learning_rate": 7.189487780381654e-06,
2197
+ "loss": 0.0343,
2198
+ "step": 15350
2199
+ },
2200
+ {
2201
+ "epoch": 5.1556745898895215,
2202
+ "grad_norm": 0.1644590198993683,
2203
+ "learning_rate": 7.049994420265596e-06,
2204
+ "loss": 0.0373,
2205
+ "step": 15400
2206
+ },
2207
+ {
2208
+ "epoch": 5.172413793103448,
2209
+ "grad_norm": 0.13261474668979645,
2210
+ "learning_rate": 6.910501060149536e-06,
2211
+ "loss": 0.0354,
2212
+ "step": 15450
2213
+ },
2214
+ {
2215
+ "epoch": 5.189152996317375,
2216
+ "grad_norm": 0.16326355934143066,
2217
+ "learning_rate": 6.771007700033479e-06,
2218
+ "loss": 0.0368,
2219
+ "step": 15500
2220
+ },
2221
+ {
2222
+ "epoch": 5.205892199531302,
2223
+ "grad_norm": 0.21868841350078583,
2224
+ "learning_rate": 6.63151433991742e-06,
2225
+ "loss": 0.0384,
2226
+ "step": 15550
2227
+ },
2228
+ {
2229
+ "epoch": 5.222631402745229,
2230
+ "grad_norm": 0.1279917061328888,
2231
+ "learning_rate": 6.4920209798013624e-06,
2232
+ "loss": 0.037,
2233
+ "step": 15600
2234
+ },
2235
+ {
2236
+ "epoch": 5.239370605959157,
2237
+ "grad_norm": 0.14255809783935547,
2238
+ "learning_rate": 6.352527619685303e-06,
2239
+ "loss": 0.0345,
2240
+ "step": 15650
2241
+ },
2242
+ {
2243
+ "epoch": 5.256109809173084,
2244
+ "grad_norm": 0.15950387716293335,
2245
+ "learning_rate": 6.213034259569245e-06,
2246
+ "loss": 0.0389,
2247
+ "step": 15700
2248
+ },
2249
+ {
2250
+ "epoch": 5.27284901238701,
2251
+ "grad_norm": 0.1789381355047226,
2252
+ "learning_rate": 6.073540899453186e-06,
2253
+ "loss": 0.0368,
2254
+ "step": 15750
2255
+ },
2256
+ {
2257
+ "epoch": 5.289588215600937,
2258
+ "grad_norm": 0.17775952816009521,
2259
+ "learning_rate": 5.934047539337128e-06,
2260
+ "loss": 0.0367,
2261
+ "step": 15800
2262
+ },
2263
+ {
2264
+ "epoch": 5.306327418814864,
2265
+ "grad_norm": 0.16045907139778137,
2266
+ "learning_rate": 5.794554179221069e-06,
2267
+ "loss": 0.0363,
2268
+ "step": 15850
2269
+ },
2270
+ {
2271
+ "epoch": 5.323066622028792,
2272
+ "grad_norm": 0.14778949320316315,
2273
+ "learning_rate": 5.6550608191050115e-06,
2274
+ "loss": 0.038,
2275
+ "step": 15900
2276
+ },
2277
+ {
2278
+ "epoch": 5.339805825242719,
2279
+ "grad_norm": 0.13788272440433502,
2280
+ "learning_rate": 5.515567458988952e-06,
2281
+ "loss": 0.0336,
2282
+ "step": 15950
2283
+ },
2284
+ {
2285
+ "epoch": 5.356545028456646,
2286
+ "grad_norm": 0.14058952033519745,
2287
+ "learning_rate": 5.376074098872894e-06,
2288
+ "loss": 0.0371,
2289
+ "step": 16000
2290
+ },
2291
+ {
2292
+ "epoch": 5.3732842316705725,
2293
+ "grad_norm": 0.13372714817523956,
2294
+ "learning_rate": 5.236580738756835e-06,
2295
+ "loss": 0.0388,
2296
+ "step": 16050
2297
+ },
2298
+ {
2299
+ "epoch": 5.390023434884499,
2300
+ "grad_norm": 0.09582552313804626,
2301
+ "learning_rate": 5.097087378640777e-06,
2302
+ "loss": 0.0345,
2303
+ "step": 16100
2304
+ },
2305
+ {
2306
+ "epoch": 5.406762638098426,
2307
+ "grad_norm": 0.14247213304042816,
2308
+ "learning_rate": 4.957594018524719e-06,
2309
+ "loss": 0.0348,
2310
+ "step": 16150
2311
+ },
2312
+ {
2313
+ "epoch": 5.423501841312354,
2314
+ "grad_norm": 0.18378828465938568,
2315
+ "learning_rate": 4.81810065840866e-06,
2316
+ "loss": 0.036,
2317
+ "step": 16200
2318
+ },
2319
+ {
2320
+ "epoch": 5.440241044526281,
2321
+ "grad_norm": 0.14933009445667267,
2322
+ "learning_rate": 4.678607298292601e-06,
2323
+ "loss": 0.0385,
2324
+ "step": 16250
2325
+ },
2326
+ {
2327
+ "epoch": 5.456980247740208,
2328
+ "grad_norm": 0.14775556325912476,
2329
+ "learning_rate": 4.5391139381765435e-06,
2330
+ "loss": 0.0381,
2331
+ "step": 16300
2332
+ },
2333
+ {
2334
+ "epoch": 5.4737194509541345,
2335
+ "grad_norm": 0.17397841811180115,
2336
+ "learning_rate": 4.399620578060484e-06,
2337
+ "loss": 0.0355,
2338
+ "step": 16350
2339
+ },
2340
+ {
2341
+ "epoch": 5.490458654168061,
2342
+ "grad_norm": 0.15232603251934052,
2343
+ "learning_rate": 4.2601272179444265e-06,
2344
+ "loss": 0.0363,
2345
+ "step": 16400
2346
+ },
2347
+ {
2348
+ "epoch": 5.507197857381989,
2349
+ "grad_norm": 0.1729612499475479,
2350
+ "learning_rate": 4.120633857828367e-06,
2351
+ "loss": 0.0356,
2352
+ "step": 16450
2353
+ },
2354
+ {
2355
+ "epoch": 5.523937060595916,
2356
+ "grad_norm": 0.12964119017124176,
2357
+ "learning_rate": 3.9811404977123095e-06,
2358
+ "loss": 0.0393,
2359
+ "step": 16500
2360
+ },
2361
+ {
2362
+ "epoch": 5.540676263809843,
2363
+ "grad_norm": 0.201249361038208,
2364
+ "learning_rate": 3.841647137596251e-06,
2365
+ "loss": 0.0368,
2366
+ "step": 16550
2367
+ },
2368
+ {
2369
+ "epoch": 5.55741546702377,
2370
+ "grad_norm": 0.14805611968040466,
2371
+ "learning_rate": 3.7021537774801917e-06,
2372
+ "loss": 0.0338,
2373
+ "step": 16600
2374
+ },
2375
+ {
2376
+ "epoch": 5.5741546702376965,
2377
+ "grad_norm": 0.11392233520746231,
2378
+ "learning_rate": 3.5626604173641336e-06,
2379
+ "loss": 0.0351,
2380
+ "step": 16650
2381
+ },
2382
+ {
2383
+ "epoch": 5.590893873451623,
2384
+ "grad_norm": 0.13584397733211517,
2385
+ "learning_rate": 3.423167057248075e-06,
2386
+ "loss": 0.0373,
2387
+ "step": 16700
2388
+ },
2389
+ {
2390
+ "epoch": 5.60763307666555,
2391
+ "grad_norm": 0.17985470592975616,
2392
+ "learning_rate": 3.283673697132017e-06,
2393
+ "loss": 0.0355,
2394
+ "step": 16750
2395
+ },
2396
+ {
2397
+ "epoch": 5.624372279879478,
2398
+ "grad_norm": 0.18598899245262146,
2399
+ "learning_rate": 3.144180337015958e-06,
2400
+ "loss": 0.0409,
2401
+ "step": 16800
2402
+ },
2403
+ {
2404
+ "epoch": 5.641111483093405,
2405
+ "grad_norm": 0.17507706582546234,
2406
+ "learning_rate": 3.0046869768998996e-06,
2407
+ "loss": 0.0354,
2408
+ "step": 16850
2409
+ },
2410
+ {
2411
+ "epoch": 5.657850686307332,
2412
+ "grad_norm": 0.15566672384738922,
2413
+ "learning_rate": 2.865193616783841e-06,
2414
+ "loss": 0.0347,
2415
+ "step": 16900
2416
+ },
2417
+ {
2418
+ "epoch": 5.6745898895212585,
2419
+ "grad_norm": 0.15541379153728485,
2420
+ "learning_rate": 2.7257002566677827e-06,
2421
+ "loss": 0.0398,
2422
+ "step": 16950
2423
+ },
2424
+ {
2425
+ "epoch": 5.691329092735186,
2426
+ "grad_norm": 0.20108754932880402,
2427
+ "learning_rate": 2.586206896551724e-06,
2428
+ "loss": 0.0358,
2429
+ "step": 17000
2430
+ },
2431
+ {
2432
+ "epoch": 5.708068295949113,
2433
+ "grad_norm": 0.1303117424249649,
2434
+ "learning_rate": 2.4467135364356657e-06,
2435
+ "loss": 0.043,
2436
+ "step": 17050
2437
+ },
2438
+ {
2439
+ "epoch": 5.72480749916304,
2440
+ "grad_norm": 0.14489831030368805,
2441
+ "learning_rate": 2.3072201763196076e-06,
2442
+ "loss": 0.0377,
2443
+ "step": 17100
2444
+ },
2445
+ {
2446
+ "epoch": 5.741546702376967,
2447
+ "grad_norm": 0.10605516284704208,
2448
+ "learning_rate": 2.167726816203549e-06,
2449
+ "loss": 0.0348,
2450
+ "step": 17150
2451
+ },
2452
+ {
2453
+ "epoch": 5.758285905590894,
2454
+ "grad_norm": 0.29746726155281067,
2455
+ "learning_rate": 2.02823345608749e-06,
2456
+ "loss": 0.0359,
2457
+ "step": 17200
2458
+ },
2459
+ {
2460
+ "epoch": 5.775025108804821,
2461
+ "grad_norm": 0.14607931673526764,
2462
+ "learning_rate": 1.888740095971432e-06,
2463
+ "loss": 0.0361,
2464
+ "step": 17250
2465
+ },
2466
+ {
2467
+ "epoch": 5.791764312018747,
2468
+ "grad_norm": 0.12281953543424606,
2469
+ "learning_rate": 1.7492467358553734e-06,
2470
+ "loss": 0.0377,
2471
+ "step": 17300
2472
+ },
2473
+ {
2474
+ "epoch": 5.808503515232675,
2475
+ "grad_norm": 0.19870831072330475,
2476
+ "learning_rate": 1.609753375739315e-06,
2477
+ "loss": 0.0383,
2478
+ "step": 17350
2479
+ },
2480
+ {
2481
+ "epoch": 5.825242718446602,
2482
+ "grad_norm": 0.13006938993930817,
2483
+ "learning_rate": 1.4702600156232564e-06,
2484
+ "loss": 0.0381,
2485
+ "step": 17400
2486
+ },
2487
+ {
2488
+ "epoch": 5.841981921660529,
2489
+ "grad_norm": 0.12237653881311417,
2490
+ "learning_rate": 1.330766655507198e-06,
2491
+ "loss": 0.0375,
2492
+ "step": 17450
2493
+ },
2494
+ {
2495
+ "epoch": 5.858721124874456,
2496
+ "grad_norm": 0.17220979928970337,
2497
+ "learning_rate": 1.1912732953911394e-06,
2498
+ "loss": 0.0365,
2499
+ "step": 17500
2500
+ },
2501
+ {
2502
+ "epoch": 5.8754603280883835,
2503
+ "grad_norm": 0.18653325736522675,
2504
+ "learning_rate": 1.051779935275081e-06,
2505
+ "loss": 0.0383,
2506
+ "step": 17550
2507
+ },
2508
+ {
2509
+ "epoch": 5.89219953130231,
2510
+ "grad_norm": 0.11963806301355362,
2511
+ "learning_rate": 9.122865751590225e-07,
2512
+ "loss": 0.0399,
2513
+ "step": 17600
2514
+ },
2515
+ {
2516
+ "epoch": 5.908938734516237,
2517
+ "grad_norm": 0.26904088258743286,
2518
+ "learning_rate": 7.72793215042964e-07,
2519
+ "loss": 0.0405,
2520
+ "step": 17650
2521
+ },
2522
+ {
2523
+ "epoch": 5.925677937730164,
2524
+ "grad_norm": 0.149702250957489,
2525
+ "learning_rate": 6.332998549269055e-07,
2526
+ "loss": 0.0358,
2527
+ "step": 17700
2528
+ },
2529
+ {
2530
+ "epoch": 5.942417140944091,
2531
+ "grad_norm": 0.15700772404670715,
2532
+ "learning_rate": 4.93806494810847e-07,
2533
+ "loss": 0.0374,
2534
+ "step": 17750
2535
+ },
2536
+ {
2537
+ "epoch": 5.959156344158018,
2538
+ "grad_norm": 0.20573197305202484,
2539
+ "learning_rate": 3.5431313469478856e-07,
2540
+ "loss": 0.0362,
2541
+ "step": 17800
2542
+ },
2543
+ {
2544
+ "epoch": 5.975895547371945,
2545
+ "grad_norm": 0.11808827519416809,
2546
+ "learning_rate": 2.1481977457873006e-07,
2547
+ "loss": 0.0371,
2548
+ "step": 17850
2549
+ },
2550
+ {
2551
+ "epoch": 5.992634750585872,
2552
+ "grad_norm": 0.1634693145751953,
2553
+ "learning_rate": 7.532641446267158e-08,
2554
+ "loss": 0.0365,
2555
+ "step": 17900
2556
+ },
2557
+ {
2558
+ "epoch": 6.0,
2559
+ "eval_loss": 0.045013878494501114,
2560
+ "eval_runtime": 49.7786,
2561
+ "eval_samples_per_second": 240.023,
2562
+ "eval_steps_per_second": 15.006,
2563
+ "step": 17922
2564
+ }
2565
+ ],
2566
+ "logging_steps": 50,
2567
+ "max_steps": 17922,
2568
+ "num_input_tokens_seen": 0,
2569
+ "num_train_epochs": 6,
2570
+ "save_steps": 500,
2571
+ "stateful_callbacks": {
2572
+ "TrainerControl": {
2573
+ "args": {
2574
+ "should_epoch_stop": false,
2575
+ "should_evaluate": false,
2576
+ "should_log": false,
2577
+ "should_save": true,
2578
+ "should_training_stop": true
2579
+ },
2580
+ "attributes": {}
2581
+ }
2582
+ },
2583
+ "total_flos": 3.888169575933542e+16,
2584
+ "train_batch_size": 16,
2585
+ "trial_name": null,
2586
+ "trial_params": null
2587
+ }
checkpoint-17922/training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:37dd546b69fb60d8deb15a8b88e40b23e367c0e9f5a053ea3ae7c730b3874f2e
3
+ size 5304
checkpoint-17922/vocab.json ADDED
The diff for this file is too large to render. See raw diff
 
checkpoint-2987/config.json ADDED
@@ -0,0 +1,41 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "ckartal/english-to-turkish-finetuned-model",
3
+ "activation_dropout": 0.0,
4
+ "activation_function": "swish",
5
+ "architectures": [
6
+ "MarianMTModel"
7
+ ],
8
+ "attention_dropout": 0.0,
9
+ "bos_token_id": 0,
10
+ "classifier_dropout": 0.0,
11
+ "d_model": 512,
12
+ "decoder_attention_heads": 8,
13
+ "decoder_ffn_dim": 2048,
14
+ "decoder_layerdrop": 0.0,
15
+ "decoder_layers": 6,
16
+ "decoder_start_token_id": 59993,
17
+ "decoder_vocab_size": 59994,
18
+ "dropout": 0.1,
19
+ "encoder_attention_heads": 8,
20
+ "encoder_ffn_dim": 2048,
21
+ "encoder_layerdrop": 0.0,
22
+ "encoder_layers": 6,
23
+ "eos_token_id": 0,
24
+ "forced_eos_token_id": 0,
25
+ "init_std": 0.02,
26
+ "is_encoder_decoder": true,
27
+ "max_length": null,
28
+ "max_position_embeddings": 512,
29
+ "model_type": "marian",
30
+ "normalize_embedding": false,
31
+ "num_beams": null,
32
+ "num_hidden_layers": 6,
33
+ "pad_token_id": 59993,
34
+ "scale_embedding": true,
35
+ "share_encoder_decoder_embeddings": true,
36
+ "static_position_embeddings": true,
37
+ "torch_dtype": "float32",
38
+ "transformers_version": "4.49.0",
39
+ "use_cache": true,
40
+ "vocab_size": 59994
41
+ }
checkpoint-2987/generation_config.json ADDED
@@ -0,0 +1,16 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bad_words_ids": [
3
+ [
4
+ 59993
5
+ ]
6
+ ],
7
+ "bos_token_id": 0,
8
+ "decoder_start_token_id": 59993,
9
+ "eos_token_id": 0,
10
+ "forced_eos_token_id": 0,
11
+ "max_length": 512,
12
+ "num_beams": 6,
13
+ "pad_token_id": 59993,
14
+ "renormalize_logits": true,
15
+ "transformers_version": "4.49.0"
16
+ }
checkpoint-2987/model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:772b21519870015edcff8e2db9a6a4448060eeeb8178debe04f9b0dd8da0ceff
3
+ size 299690728
checkpoint-2987/optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:06b8b97b6f892dac0c6a91fa2167f3739d8cd231960f03b5887658f9fbe99aa4
3
+ size 599054970
checkpoint-2987/rng_state.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f9ec85fbd9238c9947c10323eb559f724ad5ae320e21f57a8df756ef2b058ef4
3
+ size 14244
checkpoint-2987/scaler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:73f80cf9a0e45ee7096ade8909076162b7d66cc8713162644286a9a6524a58c6
3
+ size 988
checkpoint-2987/scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:48275315da074348c5e3aa2b9e9ce7e52122fa39adbd74e2b655d4d79629ace5
3
+ size 1064