schaeff commited on
Commit
408b46b
·
verified ·
1 Parent(s): 0dad036

Upload folder using huggingface_hub

Browse files
config.json ADDED
@@ -0,0 +1,41 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "gpt2-medium",
3
+ "activation_function": "gelu_new",
4
+ "architectures": [
5
+ "GPT2LMHeadModel"
6
+ ],
7
+ "attn_pdrop": 0.1,
8
+ "bos_token_id": 50256,
9
+ "embd_pdrop": 0.1,
10
+ "eos_token_id": 50256,
11
+ "initializer_range": 0.02,
12
+ "layer_norm_epsilon": 1e-05,
13
+ "model_type": "gpt2",
14
+ "n_ctx": 1024,
15
+ "n_embd": 1024,
16
+ "n_head": 16,
17
+ "n_inner": null,
18
+ "n_layer": 24,
19
+ "n_positions": 1024,
20
+ "n_special": 0,
21
+ "predict_special_tokens": true,
22
+ "reorder_and_upcast_attn": false,
23
+ "resid_pdrop": 0.1,
24
+ "scale_attn_by_inverse_layer_idx": false,
25
+ "scale_attn_weights": true,
26
+ "summary_activation": null,
27
+ "summary_first_dropout": 0.1,
28
+ "summary_proj_to_labels": true,
29
+ "summary_type": "cls_index",
30
+ "summary_use_proj": true,
31
+ "task_specific_params": {
32
+ "text-generation": {
33
+ "do_sample": true,
34
+ "max_length": 50
35
+ }
36
+ },
37
+ "torch_dtype": "float32",
38
+ "transformers_version": "4.48.1",
39
+ "use_cache": true,
40
+ "vocab_size": 50257
41
+ }
generation_config.json ADDED
@@ -0,0 +1,6 @@
 
 
 
 
 
 
 
1
+ {
2
+ "_from_model_config": true,
3
+ "bos_token_id": 50256,
4
+ "eos_token_id": 50256,
5
+ "transformers_version": "4.48.1"
6
+ }
optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:db7739905c147b17d274771a25e55851f13f02174b812014d68a1a9cd62907e6
3
+ size 2838829242
pytorch_model.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:096fd587e795a89eeb51c8a0a424af48e0a357ece497f4554e415b0cdfd8ae59
3
+ size 1419388314
rng_state.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:059726101f5ec710d50a3b485f6858b22467df59fa4ff2ef558ac12ca72bea00
3
+ size 14244
scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ac9d3e73e0c21c379b4e6670dc27c8dfe37b6b09e4c0969cc088d2ffcae7c045
3
+ size 1064
trainer_state.json ADDED
@@ -0,0 +1,3573 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": null,
3
+ "best_model_checkpoint": null,
4
+ "epoch": 0.02869777005849354,
5
+ "eval_steps": 100,
6
+ "global_step": 500,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 5.739554011698708e-05,
13
+ "grad_norm": 1.8802112340927124,
14
+ "learning_rate": 5.9999999999999995e-05,
15
+ "loss": 2.9438,
16
+ "step": 1
17
+ },
18
+ {
19
+ "epoch": 0.00011479108023397416,
20
+ "grad_norm": 1.9408955574035645,
21
+ "learning_rate": 0.00011999999999999999,
22
+ "loss": 2.9429,
23
+ "step": 2
24
+ },
25
+ {
26
+ "epoch": 0.00017218662035096125,
27
+ "grad_norm": 2.9192652702331543,
28
+ "learning_rate": 0.00017999999999999998,
29
+ "loss": 2.952,
30
+ "step": 3
31
+ },
32
+ {
33
+ "epoch": 0.00022958216046794832,
34
+ "grad_norm": 2.3403642177581787,
35
+ "learning_rate": 0.00023999999999999998,
36
+ "loss": 2.9307,
37
+ "step": 4
38
+ },
39
+ {
40
+ "epoch": 0.00028697770058493544,
41
+ "grad_norm": 2.134683847427368,
42
+ "learning_rate": 0.0003,
43
+ "loss": 2.8917,
44
+ "step": 5
45
+ },
46
+ {
47
+ "epoch": 0.0003443732407019225,
48
+ "grad_norm": 1.5358260869979858,
49
+ "learning_rate": 0.00035999999999999997,
50
+ "loss": 2.9205,
51
+ "step": 6
52
+ },
53
+ {
54
+ "epoch": 0.0004017687808189096,
55
+ "grad_norm": 0.9012013673782349,
56
+ "learning_rate": 0.00041999999999999996,
57
+ "loss": 2.8937,
58
+ "step": 7
59
+ },
60
+ {
61
+ "epoch": 0.00045916432093589664,
62
+ "grad_norm": 0.9427694082260132,
63
+ "learning_rate": 0.00047999999999999996,
64
+ "loss": 2.904,
65
+ "step": 8
66
+ },
67
+ {
68
+ "epoch": 0.0005165598610528837,
69
+ "grad_norm": 1.662156105041504,
70
+ "learning_rate": 0.00054,
71
+ "loss": 2.9114,
72
+ "step": 9
73
+ },
74
+ {
75
+ "epoch": 0.0005739554011698709,
76
+ "grad_norm": 1.2877967357635498,
77
+ "learning_rate": 0.0006,
78
+ "loss": 2.9185,
79
+ "step": 10
80
+ },
81
+ {
82
+ "epoch": 0.000631350941286858,
83
+ "grad_norm": 1.3717082738876343,
84
+ "learning_rate": 0.0005999969170437548,
85
+ "loss": 2.899,
86
+ "step": 11
87
+ },
88
+ {
89
+ "epoch": 0.000688746481403845,
90
+ "grad_norm": 1.3706175088882446,
91
+ "learning_rate": 0.0005999876683017478,
92
+ "loss": 2.8522,
93
+ "step": 12
94
+ },
95
+ {
96
+ "epoch": 0.0007461420215208321,
97
+ "grad_norm": 0.7431464791297913,
98
+ "learning_rate": 0.0005999722541541584,
99
+ "loss": 2.8894,
100
+ "step": 13
101
+ },
102
+ {
103
+ "epoch": 0.0008035375616378192,
104
+ "grad_norm": 0.5839619040489197,
105
+ "learning_rate": 0.0005999506752346019,
106
+ "loss": 2.8866,
107
+ "step": 14
108
+ },
109
+ {
110
+ "epoch": 0.0008609331017548062,
111
+ "grad_norm": 0.5229901671409607,
112
+ "learning_rate": 0.0005999229324301031,
113
+ "loss": 2.8608,
114
+ "step": 15
115
+ },
116
+ {
117
+ "epoch": 0.0009183286418717933,
118
+ "grad_norm": 0.6879259943962097,
119
+ "learning_rate": 0.00059988902688106,
120
+ "loss": 2.8801,
121
+ "step": 16
122
+ },
123
+ {
124
+ "epoch": 0.0009757241819887805,
125
+ "grad_norm": 0.4949502646923065,
126
+ "learning_rate": 0.0005998489599811971,
127
+ "loss": 2.8857,
128
+ "step": 17
129
+ },
130
+ {
131
+ "epoch": 0.0010331197221057674,
132
+ "grad_norm": 0.5659216642379761,
133
+ "learning_rate": 0.0005998027333775077,
134
+ "loss": 2.8172,
135
+ "step": 18
136
+ },
137
+ {
138
+ "epoch": 0.0010905152622227546,
139
+ "grad_norm": 0.43849167227745056,
140
+ "learning_rate": 0.0005997503489701861,
141
+ "loss": 2.8479,
142
+ "step": 19
143
+ },
144
+ {
145
+ "epoch": 0.0011479108023397418,
146
+ "grad_norm": 0.5036750435829163,
147
+ "learning_rate": 0.0005996918089125504,
148
+ "loss": 2.8957,
149
+ "step": 20
150
+ },
151
+ {
152
+ "epoch": 0.0012053063424567287,
153
+ "grad_norm": 0.40093106031417847,
154
+ "learning_rate": 0.000599627115610953,
155
+ "loss": 2.8951,
156
+ "step": 21
157
+ },
158
+ {
159
+ "epoch": 0.001262701882573716,
160
+ "grad_norm": 0.3499244153499603,
161
+ "learning_rate": 0.0005995562717246821,
162
+ "loss": 2.8535,
163
+ "step": 22
164
+ },
165
+ {
166
+ "epoch": 0.0013200974226907029,
167
+ "grad_norm": 0.3672889769077301,
168
+ "learning_rate": 0.0005994792801658526,
169
+ "loss": 2.8507,
170
+ "step": 23
171
+ },
172
+ {
173
+ "epoch": 0.00137749296280769,
174
+ "grad_norm": 0.3307906985282898,
175
+ "learning_rate": 0.0005993961440992859,
176
+ "loss": 2.8597,
177
+ "step": 24
178
+ },
179
+ {
180
+ "epoch": 0.001434888502924677,
181
+ "grad_norm": 0.33352652192115784,
182
+ "learning_rate": 0.0005993068669423797,
183
+ "loss": 2.8023,
184
+ "step": 25
185
+ },
186
+ {
187
+ "epoch": 0.0014922840430416642,
188
+ "grad_norm": 0.30308255553245544,
189
+ "learning_rate": 0.0005992114523649685,
190
+ "loss": 2.864,
191
+ "step": 26
192
+ },
193
+ {
194
+ "epoch": 0.0015496795831586513,
195
+ "grad_norm": 0.2800331711769104,
196
+ "learning_rate": 0.000599109904289172,
197
+ "loss": 2.8459,
198
+ "step": 27
199
+ },
200
+ {
201
+ "epoch": 0.0016070751232756383,
202
+ "grad_norm": 0.2467849850654602,
203
+ "learning_rate": 0.0005990022268892337,
204
+ "loss": 2.8298,
205
+ "step": 28
206
+ },
207
+ {
208
+ "epoch": 0.0016644706633926255,
209
+ "grad_norm": 0.25928932428359985,
210
+ "learning_rate": 0.0005988884245913497,
211
+ "loss": 2.8061,
212
+ "step": 29
213
+ },
214
+ {
215
+ "epoch": 0.0017218662035096124,
216
+ "grad_norm": 0.2770285904407501,
217
+ "learning_rate": 0.0005987685020734869,
218
+ "loss": 2.8363,
219
+ "step": 30
220
+ },
221
+ {
222
+ "epoch": 0.0017792617436265996,
223
+ "grad_norm": 0.2888840436935425,
224
+ "learning_rate": 0.0005986424642651901,
225
+ "loss": 2.847,
226
+ "step": 31
227
+ },
228
+ {
229
+ "epoch": 0.0018366572837435866,
230
+ "grad_norm": 0.3389260172843933,
231
+ "learning_rate": 0.0005985103163473802,
232
+ "loss": 2.8185,
233
+ "step": 32
234
+ },
235
+ {
236
+ "epoch": 0.0018940528238605737,
237
+ "grad_norm": 0.3043622672557831,
238
+ "learning_rate": 0.0005983720637521404,
239
+ "loss": 2.8073,
240
+ "step": 33
241
+ },
242
+ {
243
+ "epoch": 0.001951448363977561,
244
+ "grad_norm": 0.2626359760761261,
245
+ "learning_rate": 0.0005982277121624933,
246
+ "loss": 2.8278,
247
+ "step": 34
248
+ },
249
+ {
250
+ "epoch": 0.002008843904094548,
251
+ "grad_norm": 0.2601317763328552,
252
+ "learning_rate": 0.0005980772675121675,
253
+ "loss": 2.8293,
254
+ "step": 35
255
+ },
256
+ {
257
+ "epoch": 0.002066239444211535,
258
+ "grad_norm": 0.2932066023349762,
259
+ "learning_rate": 0.0005979207359853532,
260
+ "loss": 2.842,
261
+ "step": 36
262
+ },
263
+ {
264
+ "epoch": 0.002123634984328522,
265
+ "grad_norm": 0.3828963041305542,
266
+ "learning_rate": 0.0005977581240164485,
267
+ "loss": 2.8383,
268
+ "step": 37
269
+ },
270
+ {
271
+ "epoch": 0.002181030524445509,
272
+ "grad_norm": 0.2928522527217865,
273
+ "learning_rate": 0.0005975894382897944,
274
+ "loss": 2.8291,
275
+ "step": 38
276
+ },
277
+ {
278
+ "epoch": 0.0022384260645624964,
279
+ "grad_norm": 0.2287234663963318,
280
+ "learning_rate": 0.0005974146857394005,
281
+ "loss": 2.8422,
282
+ "step": 39
283
+ },
284
+ {
285
+ "epoch": 0.0022958216046794835,
286
+ "grad_norm": 0.2722682058811188,
287
+ "learning_rate": 0.0005972338735486597,
288
+ "loss": 2.8217,
289
+ "step": 40
290
+ },
291
+ {
292
+ "epoch": 0.0023532171447964703,
293
+ "grad_norm": 0.21170516312122345,
294
+ "learning_rate": 0.0005970470091500531,
295
+ "loss": 2.831,
296
+ "step": 41
297
+ },
298
+ {
299
+ "epoch": 0.0024106126849134575,
300
+ "grad_norm": 0.22243160009384155,
301
+ "learning_rate": 0.0005968541002248439,
302
+ "loss": 2.862,
303
+ "step": 42
304
+ },
305
+ {
306
+ "epoch": 0.0024680082250304446,
307
+ "grad_norm": 0.18485133349895477,
308
+ "learning_rate": 0.0005966551547027627,
309
+ "loss": 2.8531,
310
+ "step": 43
311
+ },
312
+ {
313
+ "epoch": 0.002525403765147432,
314
+ "grad_norm": 0.21640127897262573,
315
+ "learning_rate": 0.0005964501807616806,
316
+ "loss": 2.8245,
317
+ "step": 44
318
+ },
319
+ {
320
+ "epoch": 0.0025827993052644185,
321
+ "grad_norm": 0.2716100513935089,
322
+ "learning_rate": 0.0005962391868272735,
323
+ "loss": 2.8093,
324
+ "step": 45
325
+ },
326
+ {
327
+ "epoch": 0.0026401948453814057,
328
+ "grad_norm": 0.19726517796516418,
329
+ "learning_rate": 0.0005960221815726757,
330
+ "loss": 2.8214,
331
+ "step": 46
332
+ },
333
+ {
334
+ "epoch": 0.002697590385498393,
335
+ "grad_norm": 0.2424098700284958,
336
+ "learning_rate": 0.0005957991739181231,
337
+ "loss": 2.818,
338
+ "step": 47
339
+ },
340
+ {
341
+ "epoch": 0.00275498592561538,
342
+ "grad_norm": 0.2414388209581375,
343
+ "learning_rate": 0.0005955701730305872,
344
+ "loss": 2.8491,
345
+ "step": 48
346
+ },
347
+ {
348
+ "epoch": 0.0028123814657323673,
349
+ "grad_norm": 0.25403571128845215,
350
+ "learning_rate": 0.0005953351883233972,
351
+ "loss": 2.8321,
352
+ "step": 49
353
+ },
354
+ {
355
+ "epoch": 0.002869777005849354,
356
+ "grad_norm": 0.30923786759376526,
357
+ "learning_rate": 0.0005950942294558544,
358
+ "loss": 2.8298,
359
+ "step": 50
360
+ },
361
+ {
362
+ "epoch": 0.002927172545966341,
363
+ "grad_norm": 0.22294141352176666,
364
+ "learning_rate": 0.0005948473063328338,
365
+ "loss": 2.8015,
366
+ "step": 51
367
+ },
368
+ {
369
+ "epoch": 0.0029845680860833283,
370
+ "grad_norm": 0.2882789075374603,
371
+ "learning_rate": 0.0005945944291043779,
372
+ "loss": 2.8256,
373
+ "step": 52
374
+ },
375
+ {
376
+ "epoch": 0.0030419636262003155,
377
+ "grad_norm": 0.25416064262390137,
378
+ "learning_rate": 0.0005943356081652793,
379
+ "loss": 2.8211,
380
+ "step": 53
381
+ },
382
+ {
383
+ "epoch": 0.0030993591663173027,
384
+ "grad_norm": 0.2488490343093872,
385
+ "learning_rate": 0.0005940708541546529,
386
+ "loss": 2.8618,
387
+ "step": 54
388
+ },
389
+ {
390
+ "epoch": 0.0031567547064342894,
391
+ "grad_norm": 0.27515849471092224,
392
+ "learning_rate": 0.000593800177955499,
393
+ "loss": 2.802,
394
+ "step": 55
395
+ },
396
+ {
397
+ "epoch": 0.0032141502465512766,
398
+ "grad_norm": 0.2030380666255951,
399
+ "learning_rate": 0.0005935235906942563,
400
+ "loss": 2.8229,
401
+ "step": 56
402
+ },
403
+ {
404
+ "epoch": 0.003271545786668264,
405
+ "grad_norm": 0.2384052276611328,
406
+ "learning_rate": 0.0005932411037403436,
407
+ "loss": 2.8122,
408
+ "step": 57
409
+ },
410
+ {
411
+ "epoch": 0.003328941326785251,
412
+ "grad_norm": 0.2543489336967468,
413
+ "learning_rate": 0.000592952728705693,
414
+ "loss": 2.8302,
415
+ "step": 58
416
+ },
417
+ {
418
+ "epoch": 0.003386336866902238,
419
+ "grad_norm": 0.2387794405221939,
420
+ "learning_rate": 0.000592658477444273,
421
+ "loss": 2.835,
422
+ "step": 59
423
+ },
424
+ {
425
+ "epoch": 0.003443732407019225,
426
+ "grad_norm": 0.2748169004917145,
427
+ "learning_rate": 0.0005923583620516003,
428
+ "loss": 2.834,
429
+ "step": 60
430
+ },
431
+ {
432
+ "epoch": 0.003501127947136212,
433
+ "grad_norm": 0.2565017640590668,
434
+ "learning_rate": 0.0005920523948642431,
435
+ "loss": 2.8452,
436
+ "step": 61
437
+ },
438
+ {
439
+ "epoch": 0.0035585234872531992,
440
+ "grad_norm": 0.25502678751945496,
441
+ "learning_rate": 0.0005917405884593144,
442
+ "loss": 2.8345,
443
+ "step": 62
444
+ },
445
+ {
446
+ "epoch": 0.0036159190273701864,
447
+ "grad_norm": 0.22830121219158173,
448
+ "learning_rate": 0.0005914229556539538,
449
+ "loss": 2.7989,
450
+ "step": 63
451
+ },
452
+ {
453
+ "epoch": 0.003673314567487173,
454
+ "grad_norm": 0.3146669268608093,
455
+ "learning_rate": 0.0005910995095048024,
456
+ "loss": 2.845,
457
+ "step": 64
458
+ },
459
+ {
460
+ "epoch": 0.0037307101076041603,
461
+ "grad_norm": 0.2924383580684662,
462
+ "learning_rate": 0.000590770263307464,
463
+ "loss": 2.8303,
464
+ "step": 65
465
+ },
466
+ {
467
+ "epoch": 0.0037881056477211475,
468
+ "grad_norm": 0.2577711343765259,
469
+ "learning_rate": 0.0005904352305959605,
470
+ "loss": 2.8156,
471
+ "step": 66
472
+ },
473
+ {
474
+ "epoch": 0.0038455011878381347,
475
+ "grad_norm": 0.2631978988647461,
476
+ "learning_rate": 0.0005900944251421745,
477
+ "loss": 2.833,
478
+ "step": 67
479
+ },
480
+ {
481
+ "epoch": 0.003902896727955122,
482
+ "grad_norm": 0.21994397044181824,
483
+ "learning_rate": 0.000589747860955283,
484
+ "loss": 2.8136,
485
+ "step": 68
486
+ },
487
+ {
488
+ "epoch": 0.003960292268072109,
489
+ "grad_norm": 0.3000943064689636,
490
+ "learning_rate": 0.0005893955522811827,
491
+ "loss": 2.8415,
492
+ "step": 69
493
+ },
494
+ {
495
+ "epoch": 0.004017687808189096,
496
+ "grad_norm": 0.24310976266860962,
497
+ "learning_rate": 0.0005890375136019032,
498
+ "loss": 2.8148,
499
+ "step": 70
500
+ },
501
+ {
502
+ "epoch": 0.004075083348306083,
503
+ "grad_norm": 0.24616850912570953,
504
+ "learning_rate": 0.0005886737596350122,
505
+ "loss": 2.8329,
506
+ "step": 71
507
+ },
508
+ {
509
+ "epoch": 0.00413247888842307,
510
+ "grad_norm": 0.2714521884918213,
511
+ "learning_rate": 0.0005883043053330105,
512
+ "loss": 2.8356,
513
+ "step": 72
514
+ },
515
+ {
516
+ "epoch": 0.004189874428540057,
517
+ "grad_norm": 0.2601388096809387,
518
+ "learning_rate": 0.0005879291658827176,
519
+ "loss": 2.8228,
520
+ "step": 73
521
+ },
522
+ {
523
+ "epoch": 0.004247269968657044,
524
+ "grad_norm": 0.22764116525650024,
525
+ "learning_rate": 0.0005875483567046467,
526
+ "loss": 2.801,
527
+ "step": 74
528
+ },
529
+ {
530
+ "epoch": 0.004304665508774032,
531
+ "grad_norm": 0.22346433997154236,
532
+ "learning_rate": 0.0005871618934523719,
533
+ "loss": 2.7948,
534
+ "step": 75
535
+ },
536
+ {
537
+ "epoch": 0.004362061048891018,
538
+ "grad_norm": 0.18839874863624573,
539
+ "learning_rate": 0.0005867697920118835,
540
+ "loss": 2.8341,
541
+ "step": 76
542
+ },
543
+ {
544
+ "epoch": 0.004419456589008005,
545
+ "grad_norm": 0.25794312357902527,
546
+ "learning_rate": 0.0005863720685009362,
547
+ "loss": 2.815,
548
+ "step": 77
549
+ },
550
+ {
551
+ "epoch": 0.004476852129124993,
552
+ "grad_norm": 0.2352106124162674,
553
+ "learning_rate": 0.0005859687392683856,
554
+ "loss": 2.8169,
555
+ "step": 78
556
+ },
557
+ {
558
+ "epoch": 0.0045342476692419795,
559
+ "grad_norm": 0.28784099221229553,
560
+ "learning_rate": 0.0005855598208935169,
561
+ "loss": 2.8506,
562
+ "step": 79
563
+ },
564
+ {
565
+ "epoch": 0.004591643209358967,
566
+ "grad_norm": 0.22999855875968933,
567
+ "learning_rate": 0.0005851453301853628,
568
+ "loss": 2.8377,
569
+ "step": 80
570
+ },
571
+ {
572
+ "epoch": 0.004649038749475954,
573
+ "grad_norm": 0.21411263942718506,
574
+ "learning_rate": 0.0005847252841820128,
575
+ "loss": 2.8137,
576
+ "step": 81
577
+ },
578
+ {
579
+ "epoch": 0.0047064342895929406,
580
+ "grad_norm": 0.2420736700296402,
581
+ "learning_rate": 0.0005842997001499129,
582
+ "loss": 2.7929,
583
+ "step": 82
584
+ },
585
+ {
586
+ "epoch": 0.004763829829709928,
587
+ "grad_norm": 0.24426190555095673,
588
+ "learning_rate": 0.0005838685955831558,
589
+ "loss": 2.8273,
590
+ "step": 83
591
+ },
592
+ {
593
+ "epoch": 0.004821225369826915,
594
+ "grad_norm": 0.20297811925411224,
595
+ "learning_rate": 0.0005834319882027617,
596
+ "loss": 2.7993,
597
+ "step": 84
598
+ },
599
+ {
600
+ "epoch": 0.0048786209099439025,
601
+ "grad_norm": 0.2474389523267746,
602
+ "learning_rate": 0.00058298989595595,
603
+ "loss": 2.8252,
604
+ "step": 85
605
+ },
606
+ {
607
+ "epoch": 0.004936016450060889,
608
+ "grad_norm": 0.22601982951164246,
609
+ "learning_rate": 0.0005825423370154012,
610
+ "loss": 2.8421,
611
+ "step": 86
612
+ },
613
+ {
614
+ "epoch": 0.004993411990177876,
615
+ "grad_norm": 0.24997788667678833,
616
+ "learning_rate": 0.0005820893297785106,
617
+ "loss": 2.8485,
618
+ "step": 87
619
+ },
620
+ {
621
+ "epoch": 0.005050807530294864,
622
+ "grad_norm": 0.19994623959064484,
623
+ "learning_rate": 0.0005816308928666314,
624
+ "loss": 2.8456,
625
+ "step": 88
626
+ },
627
+ {
628
+ "epoch": 0.00510820307041185,
629
+ "grad_norm": 0.19206245243549347,
630
+ "learning_rate": 0.0005811670451243093,
631
+ "loss": 2.8035,
632
+ "step": 89
633
+ },
634
+ {
635
+ "epoch": 0.005165598610528837,
636
+ "grad_norm": 0.2515026032924652,
637
+ "learning_rate": 0.0005806978056185083,
638
+ "loss": 2.8232,
639
+ "step": 90
640
+ },
641
+ {
642
+ "epoch": 0.005222994150645825,
643
+ "grad_norm": 0.22921022772789001,
644
+ "learning_rate": 0.0005802231936378267,
645
+ "loss": 2.8366,
646
+ "step": 91
647
+ },
648
+ {
649
+ "epoch": 0.0052803896907628114,
650
+ "grad_norm": 0.248809352517128,
651
+ "learning_rate": 0.000579743228691704,
652
+ "loss": 2.8331,
653
+ "step": 92
654
+ },
655
+ {
656
+ "epoch": 0.005337785230879799,
657
+ "grad_norm": 0.18247073888778687,
658
+ "learning_rate": 0.0005792579305096191,
659
+ "loss": 2.8249,
660
+ "step": 93
661
+ },
662
+ {
663
+ "epoch": 0.005395180770996786,
664
+ "grad_norm": 0.2440440058708191,
665
+ "learning_rate": 0.0005787673190402799,
666
+ "loss": 2.837,
667
+ "step": 94
668
+ },
669
+ {
670
+ "epoch": 0.0054525763111137725,
671
+ "grad_norm": 0.21160444617271423,
672
+ "learning_rate": 0.0005782714144508019,
673
+ "loss": 2.7864,
674
+ "step": 95
675
+ },
676
+ {
677
+ "epoch": 0.00550997185123076,
678
+ "grad_norm": 0.21344538033008575,
679
+ "learning_rate": 0.0005777702371258806,
680
+ "loss": 2.847,
681
+ "step": 96
682
+ },
683
+ {
684
+ "epoch": 0.005567367391347747,
685
+ "grad_norm": 0.24861139059066772,
686
+ "learning_rate": 0.0005772638076669529,
687
+ "loss": 2.8267,
688
+ "step": 97
689
+ },
690
+ {
691
+ "epoch": 0.0056247629314647345,
692
+ "grad_norm": 0.290520042181015,
693
+ "learning_rate": 0.0005767521468913501,
694
+ "loss": 2.827,
695
+ "step": 98
696
+ },
697
+ {
698
+ "epoch": 0.005682158471581721,
699
+ "grad_norm": 0.20536312460899353,
700
+ "learning_rate": 0.0005762352758314429,
701
+ "loss": 2.8476,
702
+ "step": 99
703
+ },
704
+ {
705
+ "epoch": 0.005739554011698708,
706
+ "grad_norm": 0.21782469749450684,
707
+ "learning_rate": 0.000575713215733776,
708
+ "loss": 2.844,
709
+ "step": 100
710
+ },
711
+ {
712
+ "epoch": 0.005739554011698708,
713
+ "eval_loss": 2.7509028911590576,
714
+ "eval_runtime": 85.2068,
715
+ "eval_samples_per_second": 50.641,
716
+ "eval_steps_per_second": 12.663,
717
+ "step": 100
718
+ },
719
+ {
720
+ "epoch": 0.005796949551815696,
721
+ "grad_norm": 0.2523731291294098,
722
+ "learning_rate": 0.0005751859880581954,
723
+ "loss": 2.8125,
724
+ "step": 101
725
+ },
726
+ {
727
+ "epoch": 0.005854345091932682,
728
+ "grad_norm": 0.30107325315475464,
729
+ "learning_rate": 0.0005746536144769656,
730
+ "loss": 2.8108,
731
+ "step": 102
732
+ },
733
+ {
734
+ "epoch": 0.00591174063204967,
735
+ "grad_norm": 0.24103832244873047,
736
+ "learning_rate": 0.0005741161168738794,
737
+ "loss": 2.8282,
738
+ "step": 103
739
+ },
740
+ {
741
+ "epoch": 0.005969136172166657,
742
+ "grad_norm": 0.31273001432418823,
743
+ "learning_rate": 0.0005735735173433582,
744
+ "loss": 2.8104,
745
+ "step": 104
746
+ },
747
+ {
748
+ "epoch": 0.006026531712283643,
749
+ "grad_norm": 0.19059035181999207,
750
+ "learning_rate": 0.0005730258381895433,
751
+ "loss": 2.8186,
752
+ "step": 105
753
+ },
754
+ {
755
+ "epoch": 0.006083927252400631,
756
+ "grad_norm": 0.25082021951675415,
757
+ "learning_rate": 0.0005724731019253797,
758
+ "loss": 2.8154,
759
+ "step": 106
760
+ },
761
+ {
762
+ "epoch": 0.006141322792517618,
763
+ "grad_norm": 0.23254480957984924,
764
+ "learning_rate": 0.0005719153312716904,
765
+ "loss": 2.8121,
766
+ "step": 107
767
+ },
768
+ {
769
+ "epoch": 0.006198718332634605,
770
+ "grad_norm": 0.24095705151557922,
771
+ "learning_rate": 0.0005713525491562421,
772
+ "loss": 2.8361,
773
+ "step": 108
774
+ },
775
+ {
776
+ "epoch": 0.006256113872751592,
777
+ "grad_norm": 0.17760275304317474,
778
+ "learning_rate": 0.0005707847787128034,
779
+ "loss": 2.8396,
780
+ "step": 109
781
+ },
782
+ {
783
+ "epoch": 0.006313509412868579,
784
+ "grad_norm": 0.20905229449272156,
785
+ "learning_rate": 0.0005702120432801934,
786
+ "loss": 2.8284,
787
+ "step": 110
788
+ },
789
+ {
790
+ "epoch": 0.0063709049529855665,
791
+ "grad_norm": 0.19538630545139313,
792
+ "learning_rate": 0.0005696343664013227,
793
+ "loss": 2.8417,
794
+ "step": 111
795
+ },
796
+ {
797
+ "epoch": 0.006428300493102553,
798
+ "grad_norm": 0.2408672571182251,
799
+ "learning_rate": 0.0005690517718222248,
800
+ "loss": 2.8416,
801
+ "step": 112
802
+ },
803
+ {
804
+ "epoch": 0.006485696033219541,
805
+ "grad_norm": 0.19618412852287292,
806
+ "learning_rate": 0.0005684642834910813,
807
+ "loss": 2.8683,
808
+ "step": 113
809
+ },
810
+ {
811
+ "epoch": 0.006543091573336528,
812
+ "grad_norm": 0.17854906618595123,
813
+ "learning_rate": 0.0005678719255572363,
814
+ "loss": 2.8232,
815
+ "step": 114
816
+ },
817
+ {
818
+ "epoch": 0.006600487113453514,
819
+ "grad_norm": 0.2527766227722168,
820
+ "learning_rate": 0.0005672747223702044,
821
+ "loss": 2.8219,
822
+ "step": 115
823
+ },
824
+ {
825
+ "epoch": 0.006657882653570502,
826
+ "grad_norm": 0.21465440094470978,
827
+ "learning_rate": 0.0005666726984786695,
828
+ "loss": 2.8308,
829
+ "step": 116
830
+ },
831
+ {
832
+ "epoch": 0.006715278193687489,
833
+ "grad_norm": 0.2080729454755783,
834
+ "learning_rate": 0.000566065878629476,
835
+ "loss": 2.8369,
836
+ "step": 117
837
+ },
838
+ {
839
+ "epoch": 0.006772673733804476,
840
+ "grad_norm": 0.18979360163211823,
841
+ "learning_rate": 0.0005654542877666108,
842
+ "loss": 2.7997,
843
+ "step": 118
844
+ },
845
+ {
846
+ "epoch": 0.006830069273921463,
847
+ "grad_norm": 0.20258580148220062,
848
+ "learning_rate": 0.0005648379510301792,
849
+ "loss": 2.846,
850
+ "step": 119
851
+ },
852
+ {
853
+ "epoch": 0.00688746481403845,
854
+ "grad_norm": 0.2112026810646057,
855
+ "learning_rate": 0.0005642168937553701,
856
+ "loss": 2.8521,
857
+ "step": 120
858
+ },
859
+ {
860
+ "epoch": 0.006944860354155437,
861
+ "grad_norm": 0.25105029344558716,
862
+ "learning_rate": 0.0005635911414714158,
863
+ "loss": 2.8081,
864
+ "step": 121
865
+ },
866
+ {
867
+ "epoch": 0.007002255894272424,
868
+ "grad_norm": 0.21830224990844727,
869
+ "learning_rate": 0.0005629607199005416,
870
+ "loss": 2.8161,
871
+ "step": 122
872
+ },
873
+ {
874
+ "epoch": 0.007059651434389411,
875
+ "grad_norm": 0.19216330349445343,
876
+ "learning_rate": 0.0005623256549569091,
877
+ "loss": 2.805,
878
+ "step": 123
879
+ },
880
+ {
881
+ "epoch": 0.0071170469745063985,
882
+ "grad_norm": 0.19969609379768372,
883
+ "learning_rate": 0.000561685972745551,
884
+ "loss": 2.7859,
885
+ "step": 124
886
+ },
887
+ {
888
+ "epoch": 0.007174442514623385,
889
+ "grad_norm": 0.22093947231769562,
890
+ "learning_rate": 0.0005610416995612973,
891
+ "loss": 2.8194,
892
+ "step": 125
893
+ },
894
+ {
895
+ "epoch": 0.007231838054740373,
896
+ "grad_norm": 0.2148187905550003,
897
+ "learning_rate": 0.0005603928618876952,
898
+ "loss": 2.8565,
899
+ "step": 126
900
+ },
901
+ {
902
+ "epoch": 0.0072892335948573595,
903
+ "grad_norm": 0.18277674913406372,
904
+ "learning_rate": 0.0005597394863959201,
905
+ "loss": 2.8187,
906
+ "step": 127
907
+ },
908
+ {
909
+ "epoch": 0.007346629134974346,
910
+ "grad_norm": 0.22607837617397308,
911
+ "learning_rate": 0.0005590815999436795,
912
+ "loss": 2.8607,
913
+ "step": 128
914
+ },
915
+ {
916
+ "epoch": 0.007404024675091334,
917
+ "grad_norm": 0.22417186200618744,
918
+ "learning_rate": 0.0005584192295741086,
919
+ "loss": 2.8198,
920
+ "step": 129
921
+ },
922
+ {
923
+ "epoch": 0.007461420215208321,
924
+ "grad_norm": 0.229670912027359,
925
+ "learning_rate": 0.0005577524025146591,
926
+ "loss": 2.8477,
927
+ "step": 130
928
+ },
929
+ {
930
+ "epoch": 0.007518815755325308,
931
+ "grad_norm": 0.1985808163881302,
932
+ "learning_rate": 0.0005570811461759794,
933
+ "loss": 2.8058,
934
+ "step": 131
935
+ },
936
+ {
937
+ "epoch": 0.007576211295442295,
938
+ "grad_norm": 0.22260330617427826,
939
+ "learning_rate": 0.0005564054881507886,
940
+ "loss": 2.8369,
941
+ "step": 132
942
+ },
943
+ {
944
+ "epoch": 0.007633606835559282,
945
+ "grad_norm": 0.20925524830818176,
946
+ "learning_rate": 0.0005557254562127417,
947
+ "loss": 2.8205,
948
+ "step": 133
949
+ },
950
+ {
951
+ "epoch": 0.007691002375676269,
952
+ "grad_norm": 0.26581674814224243,
953
+ "learning_rate": 0.0005550410783152882,
954
+ "loss": 2.8164,
955
+ "step": 134
956
+ },
957
+ {
958
+ "epoch": 0.007748397915793256,
959
+ "grad_norm": 0.2182077318429947,
960
+ "learning_rate": 0.0005543523825905229,
961
+ "loss": 2.8279,
962
+ "step": 135
963
+ },
964
+ {
965
+ "epoch": 0.007805793455910244,
966
+ "grad_norm": 0.24468722939491272,
967
+ "learning_rate": 0.0005536593973480297,
968
+ "loss": 2.8281,
969
+ "step": 136
970
+ },
971
+ {
972
+ "epoch": 0.007863188996027231,
973
+ "grad_norm": 0.22021321952342987,
974
+ "learning_rate": 0.0005529621510737175,
975
+ "loss": 2.8028,
976
+ "step": 137
977
+ },
978
+ {
979
+ "epoch": 0.007920584536144217,
980
+ "grad_norm": 0.20566654205322266,
981
+ "learning_rate": 0.0005522606724286498,
982
+ "loss": 2.7937,
983
+ "step": 138
984
+ },
985
+ {
986
+ "epoch": 0.007977980076261205,
987
+ "grad_norm": 0.1960543841123581,
988
+ "learning_rate": 0.0005515549902478665,
989
+ "loss": 2.8089,
990
+ "step": 139
991
+ },
992
+ {
993
+ "epoch": 0.008035375616378192,
994
+ "grad_norm": 0.2689999043941498,
995
+ "learning_rate": 0.0005508451335391975,
996
+ "loss": 2.7959,
997
+ "step": 140
998
+ },
999
+ {
1000
+ "epoch": 0.008092771156495178,
1001
+ "grad_norm": 0.19776718318462372,
1002
+ "learning_rate": 0.0005501311314820721,
1003
+ "loss": 2.8442,
1004
+ "step": 141
1005
+ },
1006
+ {
1007
+ "epoch": 0.008150166696612166,
1008
+ "grad_norm": 0.2156287282705307,
1009
+ "learning_rate": 0.0005494130134263184,
1010
+ "loss": 2.8224,
1011
+ "step": 142
1012
+ },
1013
+ {
1014
+ "epoch": 0.008207562236729153,
1015
+ "grad_norm": 0.17528703808784485,
1016
+ "learning_rate": 0.0005486908088909568,
1017
+ "loss": 2.8659,
1018
+ "step": 143
1019
+ },
1020
+ {
1021
+ "epoch": 0.00826495777684614,
1022
+ "grad_norm": 0.1757359504699707,
1023
+ "learning_rate": 0.0005479645475629872,
1024
+ "loss": 2.8119,
1025
+ "step": 144
1026
+ },
1027
+ {
1028
+ "epoch": 0.008322353316963127,
1029
+ "grad_norm": 0.1916513890028,
1030
+ "learning_rate": 0.0005472342592961683,
1031
+ "loss": 2.8069,
1032
+ "step": 145
1033
+ },
1034
+ {
1035
+ "epoch": 0.008379748857080115,
1036
+ "grad_norm": 0.19162799417972565,
1037
+ "learning_rate": 0.0005464999741097901,
1038
+ "loss": 2.8211,
1039
+ "step": 146
1040
+ },
1041
+ {
1042
+ "epoch": 0.0084371443971971,
1043
+ "grad_norm": 0.1881379634141922,
1044
+ "learning_rate": 0.0005457617221874408,
1045
+ "loss": 2.7954,
1046
+ "step": 147
1047
+ },
1048
+ {
1049
+ "epoch": 0.008494539937314088,
1050
+ "grad_norm": 0.22305060923099518,
1051
+ "learning_rate": 0.0005450195338757654,
1052
+ "loss": 2.8447,
1053
+ "step": 148
1054
+ },
1055
+ {
1056
+ "epoch": 0.008551935477431076,
1057
+ "grad_norm": 0.25081732869148254,
1058
+ "learning_rate": 0.0005442734396832185,
1059
+ "loss": 2.8205,
1060
+ "step": 149
1061
+ },
1062
+ {
1063
+ "epoch": 0.008609331017548063,
1064
+ "grad_norm": 0.24046167731285095,
1065
+ "learning_rate": 0.00054352347027881,
1066
+ "loss": 2.8246,
1067
+ "step": 150
1068
+ },
1069
+ {
1070
+ "epoch": 0.00866672655766505,
1071
+ "grad_norm": 0.20985569059848785,
1072
+ "learning_rate": 0.0005427696564908447,
1073
+ "loss": 2.8384,
1074
+ "step": 151
1075
+ },
1076
+ {
1077
+ "epoch": 0.008724122097782037,
1078
+ "grad_norm": 0.18979063630104065,
1079
+ "learning_rate": 0.000542012029305655,
1080
+ "loss": 2.8261,
1081
+ "step": 152
1082
+ },
1083
+ {
1084
+ "epoch": 0.008781517637899024,
1085
+ "grad_norm": 0.21513347327709198,
1086
+ "learning_rate": 0.0005412506198663268,
1087
+ "loss": 2.8197,
1088
+ "step": 153
1089
+ },
1090
+ {
1091
+ "epoch": 0.00883891317801601,
1092
+ "grad_norm": 0.25432831048965454,
1093
+ "learning_rate": 0.0005404854594714204,
1094
+ "loss": 2.8091,
1095
+ "step": 154
1096
+ },
1097
+ {
1098
+ "epoch": 0.008896308718132998,
1099
+ "grad_norm": 0.261273592710495,
1100
+ "learning_rate": 0.0005397165795736823,
1101
+ "loss": 2.8324,
1102
+ "step": 155
1103
+ },
1104
+ {
1105
+ "epoch": 0.008953704258249985,
1106
+ "grad_norm": 0.22144336998462677,
1107
+ "learning_rate": 0.0005389440117787538,
1108
+ "loss": 2.8459,
1109
+ "step": 156
1110
+ },
1111
+ {
1112
+ "epoch": 0.009011099798366971,
1113
+ "grad_norm": 0.1860560178756714,
1114
+ "learning_rate": 0.000538167787843871,
1115
+ "loss": 2.8552,
1116
+ "step": 157
1117
+ },
1118
+ {
1119
+ "epoch": 0.009068495338483959,
1120
+ "grad_norm": 0.2402401566505432,
1121
+ "learning_rate": 0.0005373879396765593,
1122
+ "loss": 2.8229,
1123
+ "step": 158
1124
+ },
1125
+ {
1126
+ "epoch": 0.009125890878600947,
1127
+ "grad_norm": 0.2112584114074707,
1128
+ "learning_rate": 0.0005366044993333228,
1129
+ "loss": 2.823,
1130
+ "step": 159
1131
+ },
1132
+ {
1133
+ "epoch": 0.009183286418717934,
1134
+ "grad_norm": 0.24757996201515198,
1135
+ "learning_rate": 0.0005358174990183254,
1136
+ "loss": 2.8458,
1137
+ "step": 160
1138
+ },
1139
+ {
1140
+ "epoch": 0.00924068195883492,
1141
+ "grad_norm": 0.20984984934329987,
1142
+ "learning_rate": 0.0005350269710820675,
1143
+ "loss": 2.8375,
1144
+ "step": 161
1145
+ },
1146
+ {
1147
+ "epoch": 0.009298077498951908,
1148
+ "grad_norm": 0.22329501807689667,
1149
+ "learning_rate": 0.0005342329480200562,
1150
+ "loss": 2.815,
1151
+ "step": 162
1152
+ },
1153
+ {
1154
+ "epoch": 0.009355473039068895,
1155
+ "grad_norm": 0.26144203543663025,
1156
+ "learning_rate": 0.0005334354624714697,
1157
+ "loss": 2.8286,
1158
+ "step": 163
1159
+ },
1160
+ {
1161
+ "epoch": 0.009412868579185881,
1162
+ "grad_norm": 0.20015327632427216,
1163
+ "learning_rate": 0.0005326345472178154,
1164
+ "loss": 2.8304,
1165
+ "step": 164
1166
+ },
1167
+ {
1168
+ "epoch": 0.009470264119302869,
1169
+ "grad_norm": 0.29256758093833923,
1170
+ "learning_rate": 0.0005318302351815823,
1171
+ "loss": 2.7884,
1172
+ "step": 165
1173
+ },
1174
+ {
1175
+ "epoch": 0.009527659659419856,
1176
+ "grad_norm": 0.22914084792137146,
1177
+ "learning_rate": 0.000531022559424888,
1178
+ "loss": 2.8253,
1179
+ "step": 166
1180
+ },
1181
+ {
1182
+ "epoch": 0.009585055199536842,
1183
+ "grad_norm": 0.2677003741264343,
1184
+ "learning_rate": 0.0005302115531481195,
1185
+ "loss": 2.8084,
1186
+ "step": 167
1187
+ },
1188
+ {
1189
+ "epoch": 0.00964245073965383,
1190
+ "grad_norm": 0.2672327756881714,
1191
+ "learning_rate": 0.000529397249688568,
1192
+ "loss": 2.8351,
1193
+ "step": 168
1194
+ },
1195
+ {
1196
+ "epoch": 0.009699846279770817,
1197
+ "grad_norm": 0.21281464397907257,
1198
+ "learning_rate": 0.0005285796825190598,
1199
+ "loss": 2.8463,
1200
+ "step": 169
1201
+ },
1202
+ {
1203
+ "epoch": 0.009757241819887805,
1204
+ "grad_norm": 0.22858156263828278,
1205
+ "learning_rate": 0.0005277588852465788,
1206
+ "loss": 2.8156,
1207
+ "step": 170
1208
+ },
1209
+ {
1210
+ "epoch": 0.009814637360004791,
1211
+ "grad_norm": 0.20694582164287567,
1212
+ "learning_rate": 0.0005269348916108859,
1213
+ "loss": 2.8392,
1214
+ "step": 171
1215
+ },
1216
+ {
1217
+ "epoch": 0.009872032900121779,
1218
+ "grad_norm": 0.22438685595989227,
1219
+ "learning_rate": 0.0005261077354831322,
1220
+ "loss": 2.8336,
1221
+ "step": 172
1222
+ },
1223
+ {
1224
+ "epoch": 0.009929428440238766,
1225
+ "grad_norm": 0.2279587984085083,
1226
+ "learning_rate": 0.0005252774508644666,
1227
+ "loss": 2.7972,
1228
+ "step": 173
1229
+ },
1230
+ {
1231
+ "epoch": 0.009986823980355752,
1232
+ "grad_norm": 0.21278439462184906,
1233
+ "learning_rate": 0.0005244440718846375,
1234
+ "loss": 2.7946,
1235
+ "step": 174
1236
+ },
1237
+ {
1238
+ "epoch": 0.01004421952047274,
1239
+ "grad_norm": 0.23399871587753296,
1240
+ "learning_rate": 0.0005236076328005906,
1241
+ "loss": 2.8648,
1242
+ "step": 175
1243
+ },
1244
+ {
1245
+ "epoch": 0.010101615060589727,
1246
+ "grad_norm": 0.2649572193622589,
1247
+ "learning_rate": 0.0005227681679950607,
1248
+ "loss": 2.8453,
1249
+ "step": 176
1250
+ },
1251
+ {
1252
+ "epoch": 0.010159010600706713,
1253
+ "grad_norm": 0.21067285537719727,
1254
+ "learning_rate": 0.0005219257119751581,
1255
+ "loss": 2.8357,
1256
+ "step": 177
1257
+ },
1258
+ {
1259
+ "epoch": 0.0102164061408237,
1260
+ "grad_norm": 0.22862860560417175,
1261
+ "learning_rate": 0.0005210802993709497,
1262
+ "loss": 2.8235,
1263
+ "step": 178
1264
+ },
1265
+ {
1266
+ "epoch": 0.010273801680940688,
1267
+ "grad_norm": 0.22179283201694489,
1268
+ "learning_rate": 0.0005202319649340369,
1269
+ "loss": 2.82,
1270
+ "step": 179
1271
+ },
1272
+ {
1273
+ "epoch": 0.010331197221057674,
1274
+ "grad_norm": 0.16690605878829956,
1275
+ "learning_rate": 0.0005193807435361252,
1276
+ "loss": 2.8237,
1277
+ "step": 180
1278
+ },
1279
+ {
1280
+ "epoch": 0.010388592761174662,
1281
+ "grad_norm": 0.21572506427764893,
1282
+ "learning_rate": 0.0005185266701675927,
1283
+ "loss": 2.8403,
1284
+ "step": 181
1285
+ },
1286
+ {
1287
+ "epoch": 0.01044598830129165,
1288
+ "grad_norm": 0.1778525710105896,
1289
+ "learning_rate": 0.0005176697799360502,
1290
+ "loss": 2.8204,
1291
+ "step": 182
1292
+ },
1293
+ {
1294
+ "epoch": 0.010503383841408637,
1295
+ "grad_norm": 0.18887534737586975,
1296
+ "learning_rate": 0.0005168101080648989,
1297
+ "loss": 2.8146,
1298
+ "step": 183
1299
+ },
1300
+ {
1301
+ "epoch": 0.010560779381525623,
1302
+ "grad_norm": 0.18108077347278595,
1303
+ "learning_rate": 0.0005159476898918823,
1304
+ "loss": 2.853,
1305
+ "step": 184
1306
+ },
1307
+ {
1308
+ "epoch": 0.01061817492164261,
1309
+ "grad_norm": 0.1870754212141037,
1310
+ "learning_rate": 0.0005150825608676336,
1311
+ "loss": 2.8537,
1312
+ "step": 185
1313
+ },
1314
+ {
1315
+ "epoch": 0.010675570461759598,
1316
+ "grad_norm": 0.16484060883522034,
1317
+ "learning_rate": 0.0005142147565542188,
1318
+ "loss": 2.8194,
1319
+ "step": 186
1320
+ },
1321
+ {
1322
+ "epoch": 0.010732966001876584,
1323
+ "grad_norm": 0.18527449667453766,
1324
+ "learning_rate": 0.0005133443126236739,
1325
+ "loss": 2.8402,
1326
+ "step": 187
1327
+ },
1328
+ {
1329
+ "epoch": 0.010790361541993572,
1330
+ "grad_norm": 0.17674389481544495,
1331
+ "learning_rate": 0.0005124712648565398,
1332
+ "loss": 2.8412,
1333
+ "step": 188
1334
+ },
1335
+ {
1336
+ "epoch": 0.01084775708211056,
1337
+ "grad_norm": 0.2521503269672394,
1338
+ "learning_rate": 0.0005115956491403907,
1339
+ "loss": 2.8348,
1340
+ "step": 189
1341
+ },
1342
+ {
1343
+ "epoch": 0.010905152622227545,
1344
+ "grad_norm": 0.17621657252311707,
1345
+ "learning_rate": 0.000510717501468359,
1346
+ "loss": 2.8293,
1347
+ "step": 190
1348
+ },
1349
+ {
1350
+ "epoch": 0.010962548162344533,
1351
+ "grad_norm": 0.2621336579322815,
1352
+ "learning_rate": 0.0005098368579376563,
1353
+ "loss": 2.8164,
1354
+ "step": 191
1355
+ },
1356
+ {
1357
+ "epoch": 0.01101994370246152,
1358
+ "grad_norm": 0.18950189650058746,
1359
+ "learning_rate": 0.0005089537547480885,
1360
+ "loss": 2.7976,
1361
+ "step": 192
1362
+ },
1363
+ {
1364
+ "epoch": 0.011077339242578508,
1365
+ "grad_norm": 0.24857239425182343,
1366
+ "learning_rate": 0.0005080682282005692,
1367
+ "loss": 2.8323,
1368
+ "step": 193
1369
+ },
1370
+ {
1371
+ "epoch": 0.011134734782695494,
1372
+ "grad_norm": 0.16708490252494812,
1373
+ "learning_rate": 0.0005071803146956262,
1374
+ "loss": 2.801,
1375
+ "step": 194
1376
+ },
1377
+ {
1378
+ "epoch": 0.011192130322812481,
1379
+ "grad_norm": 0.24443359673023224,
1380
+ "learning_rate": 0.000506290050731906,
1381
+ "loss": 2.8121,
1382
+ "step": 195
1383
+ },
1384
+ {
1385
+ "epoch": 0.011249525862929469,
1386
+ "grad_norm": 0.2458924949169159,
1387
+ "learning_rate": 0.0005053974729046734,
1388
+ "loss": 2.8325,
1389
+ "step": 196
1390
+ },
1391
+ {
1392
+ "epoch": 0.011306921403046455,
1393
+ "grad_norm": 0.2034812569618225,
1394
+ "learning_rate": 0.0005045026179043067,
1395
+ "loss": 2.8123,
1396
+ "step": 197
1397
+ },
1398
+ {
1399
+ "epoch": 0.011364316943163442,
1400
+ "grad_norm": 0.2774895429611206,
1401
+ "learning_rate": 0.0005036055225147901,
1402
+ "loss": 2.8324,
1403
+ "step": 198
1404
+ },
1405
+ {
1406
+ "epoch": 0.01142171248328043,
1407
+ "grad_norm": 0.22201013565063477,
1408
+ "learning_rate": 0.0005027062236122014,
1409
+ "loss": 2.8195,
1410
+ "step": 199
1411
+ },
1412
+ {
1413
+ "epoch": 0.011479108023397416,
1414
+ "grad_norm": 0.1893691122531891,
1415
+ "learning_rate": 0.0005018047581631961,
1416
+ "loss": 2.8177,
1417
+ "step": 200
1418
+ },
1419
+ {
1420
+ "epoch": 0.011479108023397416,
1421
+ "eval_loss": 2.749150037765503,
1422
+ "eval_runtime": 85.2258,
1423
+ "eval_samples_per_second": 50.63,
1424
+ "eval_steps_per_second": 12.66,
1425
+ "step": 200
1426
+ },
1427
+ {
1428
+ "epoch": 0.011536503563514404,
1429
+ "grad_norm": 0.2689765691757202,
1430
+ "learning_rate": 0.0005009011632234881,
1431
+ "loss": 2.8438,
1432
+ "step": 201
1433
+ },
1434
+ {
1435
+ "epoch": 0.011593899103631391,
1436
+ "grad_norm": 0.2234533727169037,
1437
+ "learning_rate": 0.0004999954759363262,
1438
+ "loss": 2.8103,
1439
+ "step": 202
1440
+ },
1441
+ {
1442
+ "epoch": 0.011651294643748379,
1443
+ "grad_norm": 0.25140801072120667,
1444
+ "learning_rate": 0.0004990877335309675,
1445
+ "loss": 2.8178,
1446
+ "step": 203
1447
+ },
1448
+ {
1449
+ "epoch": 0.011708690183865365,
1450
+ "grad_norm": 0.3070688843727112,
1451
+ "learning_rate": 0.0004981779733211468,
1452
+ "loss": 2.8518,
1453
+ "step": 204
1454
+ },
1455
+ {
1456
+ "epoch": 0.011766085723982352,
1457
+ "grad_norm": 0.25637757778167725,
1458
+ "learning_rate": 0.0004972662327035431,
1459
+ "loss": 2.8578,
1460
+ "step": 205
1461
+ },
1462
+ {
1463
+ "epoch": 0.01182348126409934,
1464
+ "grad_norm": 0.2551119923591614,
1465
+ "learning_rate": 0.0004963525491562421,
1466
+ "loss": 2.8237,
1467
+ "step": 206
1468
+ },
1469
+ {
1470
+ "epoch": 0.011880876804216326,
1471
+ "grad_norm": 0.2416735738515854,
1472
+ "learning_rate": 0.0004954369602371958,
1473
+ "loss": 2.8195,
1474
+ "step": 207
1475
+ },
1476
+ {
1477
+ "epoch": 0.011938272344333313,
1478
+ "grad_norm": 0.3950039744377136,
1479
+ "learning_rate": 0.0004945195035826785,
1480
+ "loss": 2.8087,
1481
+ "step": 208
1482
+ },
1483
+ {
1484
+ "epoch": 0.011995667884450301,
1485
+ "grad_norm": 0.16370531916618347,
1486
+ "learning_rate": 0.00049360021690574,
1487
+ "loss": 2.8464,
1488
+ "step": 209
1489
+ },
1490
+ {
1491
+ "epoch": 0.012053063424567287,
1492
+ "grad_norm": 0.28070008754730225,
1493
+ "learning_rate": 0.0004926791379946549,
1494
+ "loss": 2.8377,
1495
+ "step": 210
1496
+ },
1497
+ {
1498
+ "epoch": 0.012110458964684274,
1499
+ "grad_norm": 0.1902085244655609,
1500
+ "learning_rate": 0.0004917563047113695,
1501
+ "loss": 2.8279,
1502
+ "step": 211
1503
+ },
1504
+ {
1505
+ "epoch": 0.012167854504801262,
1506
+ "grad_norm": 0.27748385071754456,
1507
+ "learning_rate": 0.0004908317549899456,
1508
+ "loss": 2.837,
1509
+ "step": 212
1510
+ },
1511
+ {
1512
+ "epoch": 0.012225250044918248,
1513
+ "grad_norm": 0.18437190353870392,
1514
+ "learning_rate": 0.0004899055268350012,
1515
+ "loss": 2.8301,
1516
+ "step": 213
1517
+ },
1518
+ {
1519
+ "epoch": 0.012282645585035236,
1520
+ "grad_norm": 0.22971947491168976,
1521
+ "learning_rate": 0.0004889776583201479,
1522
+ "loss": 2.8051,
1523
+ "step": 214
1524
+ },
1525
+ {
1526
+ "epoch": 0.012340041125152223,
1527
+ "grad_norm": 0.238089457154274,
1528
+ "learning_rate": 0.0004880481875864261,
1529
+ "loss": 2.8162,
1530
+ "step": 215
1531
+ },
1532
+ {
1533
+ "epoch": 0.01239743666526921,
1534
+ "grad_norm": 0.24253320693969727,
1535
+ "learning_rate": 0.0004871171528407371,
1536
+ "loss": 2.8181,
1537
+ "step": 216
1538
+ },
1539
+ {
1540
+ "epoch": 0.012454832205386197,
1541
+ "grad_norm": 0.2351958006620407,
1542
+ "learning_rate": 0.0004861845923542728,
1543
+ "loss": 2.8136,
1544
+ "step": 217
1545
+ },
1546
+ {
1547
+ "epoch": 0.012512227745503184,
1548
+ "grad_norm": 0.23203608393669128,
1549
+ "learning_rate": 0.0004852505444609422,
1550
+ "loss": 2.804,
1551
+ "step": 218
1552
+ },
1553
+ {
1554
+ "epoch": 0.012569623285620172,
1555
+ "grad_norm": 0.1896822452545166,
1556
+ "learning_rate": 0.00048431504755579575,
1557
+ "loss": 2.8118,
1558
+ "step": 219
1559
+ },
1560
+ {
1561
+ "epoch": 0.012627018825737158,
1562
+ "grad_norm": 0.18357349932193756,
1563
+ "learning_rate": 0.0004833781400934471,
1564
+ "loss": 2.8205,
1565
+ "step": 220
1566
+ },
1567
+ {
1568
+ "epoch": 0.012684414365854145,
1569
+ "grad_norm": 0.23723295331001282,
1570
+ "learning_rate": 0.00048243986058649246,
1571
+ "loss": 2.8291,
1572
+ "step": 221
1573
+ },
1574
+ {
1575
+ "epoch": 0.012741809905971133,
1576
+ "grad_norm": 0.1937919706106186,
1577
+ "learning_rate": 0.0004815002476039273,
1578
+ "loss": 2.8416,
1579
+ "step": 222
1580
+ },
1581
+ {
1582
+ "epoch": 0.012799205446088119,
1583
+ "grad_norm": 0.19754467904567719,
1584
+ "learning_rate": 0.0004805593397695613,
1585
+ "loss": 2.7963,
1586
+ "step": 223
1587
+ },
1588
+ {
1589
+ "epoch": 0.012856600986205106,
1590
+ "grad_norm": 0.1592610776424408,
1591
+ "learning_rate": 0.00047961717576043,
1592
+ "loss": 2.8264,
1593
+ "step": 224
1594
+ },
1595
+ {
1596
+ "epoch": 0.012913996526322094,
1597
+ "grad_norm": 0.2083783745765686,
1598
+ "learning_rate": 0.00047867379430520585,
1599
+ "loss": 2.8348,
1600
+ "step": 225
1601
+ },
1602
+ {
1603
+ "epoch": 0.012971392066439082,
1604
+ "grad_norm": 0.1895647495985031,
1605
+ "learning_rate": 0.00047772923418260525,
1606
+ "loss": 2.8212,
1607
+ "step": 226
1608
+ },
1609
+ {
1610
+ "epoch": 0.013028787606556068,
1611
+ "grad_norm": 0.2173570841550827,
1612
+ "learning_rate": 0.0004767835342197954,
1613
+ "loss": 2.8098,
1614
+ "step": 227
1615
+ },
1616
+ {
1617
+ "epoch": 0.013086183146673055,
1618
+ "grad_norm": 0.1693475991487503,
1619
+ "learning_rate": 0.0004758367332907978,
1620
+ "loss": 2.796,
1621
+ "step": 228
1622
+ },
1623
+ {
1624
+ "epoch": 0.013143578686790043,
1625
+ "grad_norm": 0.21635355055332184,
1626
+ "learning_rate": 0.00047488887031489017,
1627
+ "loss": 2.843,
1628
+ "step": 229
1629
+ },
1630
+ {
1631
+ "epoch": 0.013200974226907029,
1632
+ "grad_norm": 0.18521156907081604,
1633
+ "learning_rate": 0.0004739399842550068,
1634
+ "loss": 2.8296,
1635
+ "step": 230
1636
+ },
1637
+ {
1638
+ "epoch": 0.013258369767024016,
1639
+ "grad_norm": 0.22925664484500885,
1640
+ "learning_rate": 0.00047299011411613734,
1641
+ "loss": 2.8287,
1642
+ "step": 231
1643
+ },
1644
+ {
1645
+ "epoch": 0.013315765307141004,
1646
+ "grad_norm": 0.24881386756896973,
1647
+ "learning_rate": 0.00047203929894372264,
1648
+ "loss": 2.8257,
1649
+ "step": 232
1650
+ },
1651
+ {
1652
+ "epoch": 0.01337316084725799,
1653
+ "grad_norm": 0.20801618695259094,
1654
+ "learning_rate": 0.00047108757782205043,
1655
+ "loss": 2.8241,
1656
+ "step": 233
1657
+ },
1658
+ {
1659
+ "epoch": 0.013430556387374977,
1660
+ "grad_norm": 0.199665367603302,
1661
+ "learning_rate": 0.0004701349898726483,
1662
+ "loss": 2.7916,
1663
+ "step": 234
1664
+ },
1665
+ {
1666
+ "epoch": 0.013487951927491965,
1667
+ "grad_norm": 0.25221607089042664,
1668
+ "learning_rate": 0.00046918157425267584,
1669
+ "loss": 2.8233,
1670
+ "step": 235
1671
+ },
1672
+ {
1673
+ "epoch": 0.013545347467608953,
1674
+ "grad_norm": 0.1931813657283783,
1675
+ "learning_rate": 0.00046822737015331505,
1676
+ "loss": 2.8016,
1677
+ "step": 236
1678
+ },
1679
+ {
1680
+ "epoch": 0.013602743007725938,
1681
+ "grad_norm": 0.17353369295597076,
1682
+ "learning_rate": 0.00046727241679815894,
1683
+ "loss": 2.8125,
1684
+ "step": 237
1685
+ },
1686
+ {
1687
+ "epoch": 0.013660138547842926,
1688
+ "grad_norm": 0.22225958108901978,
1689
+ "learning_rate": 0.0004663167534415996,
1690
+ "loss": 2.824,
1691
+ "step": 238
1692
+ },
1693
+ {
1694
+ "epoch": 0.013717534087959914,
1695
+ "grad_norm": 0.17010116577148438,
1696
+ "learning_rate": 0.0004653604193672147,
1697
+ "loss": 2.8425,
1698
+ "step": 239
1699
+ },
1700
+ {
1701
+ "epoch": 0.0137749296280769,
1702
+ "grad_norm": 0.2103683203458786,
1703
+ "learning_rate": 0.00046440345388615225,
1704
+ "loss": 2.8641,
1705
+ "step": 240
1706
+ },
1707
+ {
1708
+ "epoch": 0.013832325168193887,
1709
+ "grad_norm": 0.17934557795524597,
1710
+ "learning_rate": 0.00046344589633551497,
1711
+ "loss": 2.8069,
1712
+ "step": 241
1713
+ },
1714
+ {
1715
+ "epoch": 0.013889720708310875,
1716
+ "grad_norm": 0.2116999328136444,
1717
+ "learning_rate": 0.0004624877860767434,
1718
+ "loss": 2.8601,
1719
+ "step": 242
1720
+ },
1721
+ {
1722
+ "epoch": 0.01394711624842786,
1723
+ "grad_norm": 0.20861205458641052,
1724
+ "learning_rate": 0.0004615291624939975,
1725
+ "loss": 2.8232,
1726
+ "step": 243
1727
+ },
1728
+ {
1729
+ "epoch": 0.014004511788544848,
1730
+ "grad_norm": 0.24393285810947418,
1731
+ "learning_rate": 0.0004605700649925381,
1732
+ "loss": 2.8041,
1733
+ "step": 244
1734
+ },
1735
+ {
1736
+ "epoch": 0.014061907328661836,
1737
+ "grad_norm": 0.2089577168226242,
1738
+ "learning_rate": 0.0004596105329971069,
1739
+ "loss": 2.8351,
1740
+ "step": 245
1741
+ },
1742
+ {
1743
+ "epoch": 0.014119302868778822,
1744
+ "grad_norm": 0.20232421159744263,
1745
+ "learning_rate": 0.00045865060595030616,
1746
+ "loss": 2.8171,
1747
+ "step": 246
1748
+ },
1749
+ {
1750
+ "epoch": 0.01417669840889581,
1751
+ "grad_norm": 0.22081732749938965,
1752
+ "learning_rate": 0.00045769032331097686,
1753
+ "loss": 2.8202,
1754
+ "step": 247
1755
+ },
1756
+ {
1757
+ "epoch": 0.014234093949012797,
1758
+ "grad_norm": 0.17081516981124878,
1759
+ "learning_rate": 0.00045672972455257723,
1760
+ "loss": 2.8358,
1761
+ "step": 248
1762
+ },
1763
+ {
1764
+ "epoch": 0.014291489489129785,
1765
+ "grad_norm": 0.3317008316516876,
1766
+ "learning_rate": 0.0004557688491615597,
1767
+ "loss": 2.8302,
1768
+ "step": 249
1769
+ },
1770
+ {
1771
+ "epoch": 0.01434888502924677,
1772
+ "grad_norm": 0.23239760100841522,
1773
+ "learning_rate": 0.0004548077366357483,
1774
+ "loss": 2.8191,
1775
+ "step": 250
1776
+ },
1777
+ {
1778
+ "epoch": 0.014406280569363758,
1779
+ "grad_norm": 0.22138993442058563,
1780
+ "learning_rate": 0.0004538464264827143,
1781
+ "loss": 2.8096,
1782
+ "step": 251
1783
+ },
1784
+ {
1785
+ "epoch": 0.014463676109480746,
1786
+ "grad_norm": 0.23655574023723602,
1787
+ "learning_rate": 0.000452884958218153,
1788
+ "loss": 2.8295,
1789
+ "step": 252
1790
+ },
1791
+ {
1792
+ "epoch": 0.014521071649597731,
1793
+ "grad_norm": 0.2227945327758789,
1794
+ "learning_rate": 0.000451923371364259,
1795
+ "loss": 2.8158,
1796
+ "step": 253
1797
+ },
1798
+ {
1799
+ "epoch": 0.014578467189714719,
1800
+ "grad_norm": 0.20443300902843475,
1801
+ "learning_rate": 0.0004509617054481017,
1802
+ "loss": 2.83,
1803
+ "step": 254
1804
+ },
1805
+ {
1806
+ "epoch": 0.014635862729831707,
1807
+ "grad_norm": 0.22221451997756958,
1808
+ "learning_rate": 0.00045,
1809
+ "loss": 2.8253,
1810
+ "step": 255
1811
+ },
1812
+ {
1813
+ "epoch": 0.014693258269948693,
1814
+ "grad_norm": 0.1941068023443222,
1815
+ "learning_rate": 0.00044903829455189825,
1816
+ "loss": 2.83,
1817
+ "step": 256
1818
+ },
1819
+ {
1820
+ "epoch": 0.01475065381006568,
1821
+ "grad_norm": 0.1914331614971161,
1822
+ "learning_rate": 0.0004480766286357409,
1823
+ "loss": 2.8162,
1824
+ "step": 257
1825
+ },
1826
+ {
1827
+ "epoch": 0.014808049350182668,
1828
+ "grad_norm": 0.21014779806137085,
1829
+ "learning_rate": 0.0004471150417818469,
1830
+ "loss": 2.7993,
1831
+ "step": 258
1832
+ },
1833
+ {
1834
+ "epoch": 0.014865444890299655,
1835
+ "grad_norm": 0.2057676762342453,
1836
+ "learning_rate": 0.00044615357351728566,
1837
+ "loss": 2.8223,
1838
+ "step": 259
1839
+ },
1840
+ {
1841
+ "epoch": 0.014922840430416641,
1842
+ "grad_norm": 0.19875939190387726,
1843
+ "learning_rate": 0.00044519226336425165,
1844
+ "loss": 2.8016,
1845
+ "step": 260
1846
+ },
1847
+ {
1848
+ "epoch": 0.014980235970533629,
1849
+ "grad_norm": 0.23691999912261963,
1850
+ "learning_rate": 0.0004442311508384402,
1851
+ "loss": 2.8373,
1852
+ "step": 261
1853
+ },
1854
+ {
1855
+ "epoch": 0.015037631510650616,
1856
+ "grad_norm": 0.1729947328567505,
1857
+ "learning_rate": 0.0004432702754474228,
1858
+ "loss": 2.8233,
1859
+ "step": 262
1860
+ },
1861
+ {
1862
+ "epoch": 0.015095027050767602,
1863
+ "grad_norm": 0.18821187317371368,
1864
+ "learning_rate": 0.00044230967668902306,
1865
+ "loss": 2.8128,
1866
+ "step": 263
1867
+ },
1868
+ {
1869
+ "epoch": 0.01515242259088459,
1870
+ "grad_norm": 0.2283882200717926,
1871
+ "learning_rate": 0.00044134939404969387,
1872
+ "loss": 2.8178,
1873
+ "step": 264
1874
+ },
1875
+ {
1876
+ "epoch": 0.015209818131001578,
1877
+ "grad_norm": 0.16724412143230438,
1878
+ "learning_rate": 0.000440389467002893,
1879
+ "loss": 2.8249,
1880
+ "step": 265
1881
+ },
1882
+ {
1883
+ "epoch": 0.015267213671118563,
1884
+ "grad_norm": 0.18209712207317352,
1885
+ "learning_rate": 0.00043942993500746183,
1886
+ "loss": 2.8095,
1887
+ "step": 266
1888
+ },
1889
+ {
1890
+ "epoch": 0.015324609211235551,
1891
+ "grad_norm": 0.1857995092868805,
1892
+ "learning_rate": 0.00043847083750600253,
1893
+ "loss": 2.806,
1894
+ "step": 267
1895
+ },
1896
+ {
1897
+ "epoch": 0.015382004751352539,
1898
+ "grad_norm": 0.20734605193138123,
1899
+ "learning_rate": 0.0004375122139232566,
1900
+ "loss": 2.8695,
1901
+ "step": 268
1902
+ },
1903
+ {
1904
+ "epoch": 0.015439400291469526,
1905
+ "grad_norm": 0.23138895630836487,
1906
+ "learning_rate": 0.00043655410366448495,
1907
+ "loss": 2.8033,
1908
+ "step": 269
1909
+ },
1910
+ {
1911
+ "epoch": 0.015496795831586512,
1912
+ "grad_norm": 0.20481987297534943,
1913
+ "learning_rate": 0.0004355965461138477,
1914
+ "loss": 2.8269,
1915
+ "step": 270
1916
+ },
1917
+ {
1918
+ "epoch": 0.0155541913717035,
1919
+ "grad_norm": 0.2318529337644577,
1920
+ "learning_rate": 0.00043463958063278524,
1921
+ "loss": 2.8332,
1922
+ "step": 271
1923
+ },
1924
+ {
1925
+ "epoch": 0.015611586911820487,
1926
+ "grad_norm": 0.2501411736011505,
1927
+ "learning_rate": 0.00043368324655840035,
1928
+ "loss": 2.8445,
1929
+ "step": 272
1930
+ },
1931
+ {
1932
+ "epoch": 0.015668982451937475,
1933
+ "grad_norm": 0.26137158274650574,
1934
+ "learning_rate": 0.0004327275832018411,
1935
+ "loss": 2.8279,
1936
+ "step": 273
1937
+ },
1938
+ {
1939
+ "epoch": 0.015726377992054463,
1940
+ "grad_norm": 0.19074887037277222,
1941
+ "learning_rate": 0.0004317726298466849,
1942
+ "loss": 2.8132,
1943
+ "step": 274
1944
+ },
1945
+ {
1946
+ "epoch": 0.015783773532171447,
1947
+ "grad_norm": 0.26000818610191345,
1948
+ "learning_rate": 0.0004308184257473241,
1949
+ "loss": 2.8091,
1950
+ "step": 275
1951
+ },
1952
+ {
1953
+ "epoch": 0.015841169072288434,
1954
+ "grad_norm": 0.16060984134674072,
1955
+ "learning_rate": 0.0004298650101273517,
1956
+ "loss": 2.8206,
1957
+ "step": 276
1958
+ },
1959
+ {
1960
+ "epoch": 0.015898564612405422,
1961
+ "grad_norm": 0.284445583820343,
1962
+ "learning_rate": 0.00042891242217794954,
1963
+ "loss": 2.7867,
1964
+ "step": 277
1965
+ },
1966
+ {
1967
+ "epoch": 0.01595596015252241,
1968
+ "grad_norm": 0.15903466939926147,
1969
+ "learning_rate": 0.0004279607010562773,
1970
+ "loss": 2.83,
1971
+ "step": 278
1972
+ },
1973
+ {
1974
+ "epoch": 0.016013355692639397,
1975
+ "grad_norm": 0.24330751597881317,
1976
+ "learning_rate": 0.0004270098858838626,
1977
+ "loss": 2.817,
1978
+ "step": 279
1979
+ },
1980
+ {
1981
+ "epoch": 0.016070751232756385,
1982
+ "grad_norm": 0.1687777042388916,
1983
+ "learning_rate": 0.0004260600157449931,
1984
+ "loss": 2.8112,
1985
+ "step": 280
1986
+ },
1987
+ {
1988
+ "epoch": 0.01612814677287337,
1989
+ "grad_norm": 0.18230785429477692,
1990
+ "learning_rate": 0.0004251111296851098,
1991
+ "loss": 2.8394,
1992
+ "step": 281
1993
+ },
1994
+ {
1995
+ "epoch": 0.016185542312990357,
1996
+ "grad_norm": 0.1889660507440567,
1997
+ "learning_rate": 0.00042416326670920217,
1998
+ "loss": 2.8109,
1999
+ "step": 282
2000
+ },
2001
+ {
2002
+ "epoch": 0.016242937853107344,
2003
+ "grad_norm": 0.16135123372077942,
2004
+ "learning_rate": 0.0004232164657802045,
2005
+ "loss": 2.7953,
2006
+ "step": 283
2007
+ },
2008
+ {
2009
+ "epoch": 0.016300333393224332,
2010
+ "grad_norm": 0.15787218511104584,
2011
+ "learning_rate": 0.00042227076581739467,
2012
+ "loss": 2.7921,
2013
+ "step": 284
2014
+ },
2015
+ {
2016
+ "epoch": 0.01635772893334132,
2017
+ "grad_norm": 0.16313977539539337,
2018
+ "learning_rate": 0.0004213262056947942,
2019
+ "loss": 2.8107,
2020
+ "step": 285
2021
+ },
2022
+ {
2023
+ "epoch": 0.016415124473458307,
2024
+ "grad_norm": 0.18806132674217224,
2025
+ "learning_rate": 0.0004203828242395699,
2026
+ "loss": 2.8451,
2027
+ "step": 286
2028
+ },
2029
+ {
2030
+ "epoch": 0.016472520013575295,
2031
+ "grad_norm": 0.17279674112796783,
2032
+ "learning_rate": 0.00041944066023043866,
2033
+ "loss": 2.8333,
2034
+ "step": 287
2035
+ },
2036
+ {
2037
+ "epoch": 0.01652991555369228,
2038
+ "grad_norm": 0.17451834678649902,
2039
+ "learning_rate": 0.00041849975239607255,
2040
+ "loss": 2.7798,
2041
+ "step": 288
2042
+ },
2043
+ {
2044
+ "epoch": 0.016587311093809266,
2045
+ "grad_norm": 0.1943039745092392,
2046
+ "learning_rate": 0.00041756013941350747,
2047
+ "loss": 2.8011,
2048
+ "step": 289
2049
+ },
2050
+ {
2051
+ "epoch": 0.016644706633926254,
2052
+ "grad_norm": 0.1578904092311859,
2053
+ "learning_rate": 0.0004166218599065528,
2054
+ "loss": 2.852,
2055
+ "step": 290
2056
+ },
2057
+ {
2058
+ "epoch": 0.01670210217404324,
2059
+ "grad_norm": 0.20066620409488678,
2060
+ "learning_rate": 0.0004156849524442042,
2061
+ "loss": 2.7876,
2062
+ "step": 291
2063
+ },
2064
+ {
2065
+ "epoch": 0.01675949771416023,
2066
+ "grad_norm": 0.18306495249271393,
2067
+ "learning_rate": 0.0004147494555390577,
2068
+ "loss": 2.817,
2069
+ "step": 292
2070
+ },
2071
+ {
2072
+ "epoch": 0.016816893254277217,
2073
+ "grad_norm": 0.1622687727212906,
2074
+ "learning_rate": 0.0004138154076457271,
2075
+ "loss": 2.815,
2076
+ "step": 293
2077
+ },
2078
+ {
2079
+ "epoch": 0.0168742887943942,
2080
+ "grad_norm": 0.2056518942117691,
2081
+ "learning_rate": 0.0004128828471592628,
2082
+ "loss": 2.8131,
2083
+ "step": 294
2084
+ },
2085
+ {
2086
+ "epoch": 0.01693168433451119,
2087
+ "grad_norm": 0.17123937606811523,
2088
+ "learning_rate": 0.00041195181241357383,
2089
+ "loss": 2.8025,
2090
+ "step": 295
2091
+ },
2092
+ {
2093
+ "epoch": 0.016989079874628176,
2094
+ "grad_norm": 0.2233334332704544,
2095
+ "learning_rate": 0.00041102234167985204,
2096
+ "loss": 2.8347,
2097
+ "step": 296
2098
+ },
2099
+ {
2100
+ "epoch": 0.017046475414745164,
2101
+ "grad_norm": 0.20740529894828796,
2102
+ "learning_rate": 0.0004100944731649987,
2103
+ "loss": 2.8099,
2104
+ "step": 297
2105
+ },
2106
+ {
2107
+ "epoch": 0.01710387095486215,
2108
+ "grad_norm": 0.20391066372394562,
2109
+ "learning_rate": 0.0004091682450100543,
2110
+ "loss": 2.8363,
2111
+ "step": 298
2112
+ },
2113
+ {
2114
+ "epoch": 0.01716126649497914,
2115
+ "grad_norm": 0.17306548357009888,
2116
+ "learning_rate": 0.0004082436952886305,
2117
+ "loss": 2.8211,
2118
+ "step": 299
2119
+ },
2120
+ {
2121
+ "epoch": 0.017218662035096127,
2122
+ "grad_norm": 0.24933576583862305,
2123
+ "learning_rate": 0.0004073208620053451,
2124
+ "loss": 2.8048,
2125
+ "step": 300
2126
+ },
2127
+ {
2128
+ "epoch": 0.017218662035096127,
2129
+ "eval_loss": 2.7432332038879395,
2130
+ "eval_runtime": 85.2508,
2131
+ "eval_samples_per_second": 50.615,
2132
+ "eval_steps_per_second": 12.657,
2133
+ "step": 300
2134
+ },
2135
+ {
2136
+ "epoch": 0.01727605757521311,
2137
+ "grad_norm": 0.231708824634552,
2138
+ "learning_rate": 0.00040639978309425995,
2139
+ "loss": 2.8025,
2140
+ "step": 301
2141
+ },
2142
+ {
2143
+ "epoch": 0.0173334531153301,
2144
+ "grad_norm": 0.15970614552497864,
2145
+ "learning_rate": 0.00040548049641732137,
2146
+ "loss": 2.8392,
2147
+ "step": 302
2148
+ },
2149
+ {
2150
+ "epoch": 0.017390848655447086,
2151
+ "grad_norm": 0.20457029342651367,
2152
+ "learning_rate": 0.0004045630397628042,
2153
+ "loss": 2.8247,
2154
+ "step": 303
2155
+ },
2156
+ {
2157
+ "epoch": 0.017448244195564074,
2158
+ "grad_norm": 0.1734900325536728,
2159
+ "learning_rate": 0.00040364745084375787,
2160
+ "loss": 2.7979,
2161
+ "step": 304
2162
+ },
2163
+ {
2164
+ "epoch": 0.01750563973568106,
2165
+ "grad_norm": 0.19265452027320862,
2166
+ "learning_rate": 0.00040273376729645685,
2167
+ "loss": 2.8033,
2168
+ "step": 305
2169
+ },
2170
+ {
2171
+ "epoch": 0.01756303527579805,
2172
+ "grad_norm": 0.19174844026565552,
2173
+ "learning_rate": 0.00040182202667885317,
2174
+ "loss": 2.8354,
2175
+ "step": 306
2176
+ },
2177
+ {
2178
+ "epoch": 0.017620430815915036,
2179
+ "grad_norm": 0.27793413400650024,
2180
+ "learning_rate": 0.00040091226646903245,
2181
+ "loss": 2.797,
2182
+ "step": 307
2183
+ },
2184
+ {
2185
+ "epoch": 0.01767782635603202,
2186
+ "grad_norm": 0.1806309074163437,
2187
+ "learning_rate": 0.00040000452406367367,
2188
+ "loss": 2.8046,
2189
+ "step": 308
2190
+ },
2191
+ {
2192
+ "epoch": 0.017735221896149008,
2193
+ "grad_norm": 0.2249089479446411,
2194
+ "learning_rate": 0.0003990988367765118,
2195
+ "loss": 2.8125,
2196
+ "step": 309
2197
+ },
2198
+ {
2199
+ "epoch": 0.017792617436265996,
2200
+ "grad_norm": 0.27839699387550354,
2201
+ "learning_rate": 0.00039819524183680384,
2202
+ "loss": 2.8183,
2203
+ "step": 310
2204
+ },
2205
+ {
2206
+ "epoch": 0.017850012976382983,
2207
+ "grad_norm": 0.1877232789993286,
2208
+ "learning_rate": 0.00039729377638779857,
2209
+ "loss": 2.7989,
2210
+ "step": 311
2211
+ },
2212
+ {
2213
+ "epoch": 0.01790740851649997,
2214
+ "grad_norm": 0.25160273909568787,
2215
+ "learning_rate": 0.00039639447748520985,
2216
+ "loss": 2.8536,
2217
+ "step": 312
2218
+ },
2219
+ {
2220
+ "epoch": 0.01796480405661696,
2221
+ "grad_norm": 0.23843353986740112,
2222
+ "learning_rate": 0.0003954973820956932,
2223
+ "loss": 2.8064,
2224
+ "step": 313
2225
+ },
2226
+ {
2227
+ "epoch": 0.018022199596733943,
2228
+ "grad_norm": 0.2549470365047455,
2229
+ "learning_rate": 0.00039460252709532656,
2230
+ "loss": 2.8415,
2231
+ "step": 314
2232
+ },
2233
+ {
2234
+ "epoch": 0.01807959513685093,
2235
+ "grad_norm": 0.39248892664909363,
2236
+ "learning_rate": 0.0003937099492680938,
2237
+ "loss": 2.8137,
2238
+ "step": 315
2239
+ },
2240
+ {
2241
+ "epoch": 0.018136990676967918,
2242
+ "grad_norm": 0.24034982919692993,
2243
+ "learning_rate": 0.0003928196853043737,
2244
+ "loss": 2.8301,
2245
+ "step": 316
2246
+ },
2247
+ {
2248
+ "epoch": 0.018194386217084905,
2249
+ "grad_norm": 0.29434794187545776,
2250
+ "learning_rate": 0.00039193177179943083,
2251
+ "loss": 2.8288,
2252
+ "step": 317
2253
+ },
2254
+ {
2255
+ "epoch": 0.018251781757201893,
2256
+ "grad_norm": 0.21636317670345306,
2257
+ "learning_rate": 0.0003910462452519114,
2258
+ "loss": 2.8121,
2259
+ "step": 318
2260
+ },
2261
+ {
2262
+ "epoch": 0.01830917729731888,
2263
+ "grad_norm": 0.2217407375574112,
2264
+ "learning_rate": 0.0003901631420623437,
2265
+ "loss": 2.8551,
2266
+ "step": 319
2267
+ },
2268
+ {
2269
+ "epoch": 0.01836657283743587,
2270
+ "grad_norm": 0.20126426219940186,
2271
+ "learning_rate": 0.0003892824985316409,
2272
+ "loss": 2.7812,
2273
+ "step": 320
2274
+ },
2275
+ {
2276
+ "epoch": 0.018423968377552852,
2277
+ "grad_norm": 0.20343463122844696,
2278
+ "learning_rate": 0.0003884043508596093,
2279
+ "loss": 2.7959,
2280
+ "step": 321
2281
+ },
2282
+ {
2283
+ "epoch": 0.01848136391766984,
2284
+ "grad_norm": 0.22265484929084778,
2285
+ "learning_rate": 0.00038752873514346015,
2286
+ "loss": 2.8254,
2287
+ "step": 322
2288
+ },
2289
+ {
2290
+ "epoch": 0.018538759457786828,
2291
+ "grad_norm": 0.20545947551727295,
2292
+ "learning_rate": 0.000386655687376326,
2293
+ "loss": 2.8166,
2294
+ "step": 323
2295
+ },
2296
+ {
2297
+ "epoch": 0.018596154997903815,
2298
+ "grad_norm": 0.17015507817268372,
2299
+ "learning_rate": 0.00038578524344578115,
2300
+ "loss": 2.806,
2301
+ "step": 324
2302
+ },
2303
+ {
2304
+ "epoch": 0.018653550538020803,
2305
+ "grad_norm": 0.19378258287906647,
2306
+ "learning_rate": 0.00038491743913236624,
2307
+ "loss": 2.7979,
2308
+ "step": 325
2309
+ },
2310
+ {
2311
+ "epoch": 0.01871094607813779,
2312
+ "grad_norm": 0.2112617790699005,
2313
+ "learning_rate": 0.0003840523101081177,
2314
+ "loss": 2.8149,
2315
+ "step": 326
2316
+ },
2317
+ {
2318
+ "epoch": 0.018768341618254775,
2319
+ "grad_norm": 0.18846029043197632,
2320
+ "learning_rate": 0.0003831898919351011,
2321
+ "loss": 2.8334,
2322
+ "step": 327
2323
+ },
2324
+ {
2325
+ "epoch": 0.018825737158371762,
2326
+ "grad_norm": 0.20672033727169037,
2327
+ "learning_rate": 0.00038233022006394976,
2328
+ "loss": 2.8061,
2329
+ "step": 328
2330
+ },
2331
+ {
2332
+ "epoch": 0.01888313269848875,
2333
+ "grad_norm": 0.2700256109237671,
2334
+ "learning_rate": 0.00038147332983240717,
2335
+ "loss": 2.8101,
2336
+ "step": 329
2337
+ },
2338
+ {
2339
+ "epoch": 0.018940528238605737,
2340
+ "grad_norm": 0.16990099847316742,
2341
+ "learning_rate": 0.00038061925646387467,
2342
+ "loss": 2.8227,
2343
+ "step": 330
2344
+ },
2345
+ {
2346
+ "epoch": 0.018997923778722725,
2347
+ "grad_norm": 0.2140357792377472,
2348
+ "learning_rate": 0.0003797680350659631,
2349
+ "loss": 2.8018,
2350
+ "step": 331
2351
+ },
2352
+ {
2353
+ "epoch": 0.019055319318839713,
2354
+ "grad_norm": 0.2538260221481323,
2355
+ "learning_rate": 0.0003789197006290502,
2356
+ "loss": 2.7725,
2357
+ "step": 332
2358
+ },
2359
+ {
2360
+ "epoch": 0.0191127148589567,
2361
+ "grad_norm": 0.1694011092185974,
2362
+ "learning_rate": 0.0003780742880248419,
2363
+ "loss": 2.7973,
2364
+ "step": 333
2365
+ },
2366
+ {
2367
+ "epoch": 0.019170110399073684,
2368
+ "grad_norm": 0.2092764526605606,
2369
+ "learning_rate": 0.0003772318320049391,
2370
+ "loss": 2.8256,
2371
+ "step": 334
2372
+ },
2373
+ {
2374
+ "epoch": 0.019227505939190672,
2375
+ "grad_norm": 0.22675682604312897,
2376
+ "learning_rate": 0.0003763923671994093,
2377
+ "loss": 2.8092,
2378
+ "step": 335
2379
+ },
2380
+ {
2381
+ "epoch": 0.01928490147930766,
2382
+ "grad_norm": 0.20571155846118927,
2383
+ "learning_rate": 0.0003755559281153625,
2384
+ "loss": 2.8176,
2385
+ "step": 336
2386
+ },
2387
+ {
2388
+ "epoch": 0.019342297019424647,
2389
+ "grad_norm": 0.18606650829315186,
2390
+ "learning_rate": 0.0003747225491355334,
2391
+ "loss": 2.8019,
2392
+ "step": 337
2393
+ },
2394
+ {
2395
+ "epoch": 0.019399692559541635,
2396
+ "grad_norm": 0.19859890639781952,
2397
+ "learning_rate": 0.00037389226451686763,
2398
+ "loss": 2.8036,
2399
+ "step": 338
2400
+ },
2401
+ {
2402
+ "epoch": 0.019457088099658622,
2403
+ "grad_norm": 0.1632896512746811,
2404
+ "learning_rate": 0.00037306510838911404,
2405
+ "loss": 2.797,
2406
+ "step": 339
2407
+ },
2408
+ {
2409
+ "epoch": 0.01951448363977561,
2410
+ "grad_norm": 0.17494754493236542,
2411
+ "learning_rate": 0.00037224111475342116,
2412
+ "loss": 2.8152,
2413
+ "step": 340
2414
+ },
2415
+ {
2416
+ "epoch": 0.019571879179892594,
2417
+ "grad_norm": 0.20659732818603516,
2418
+ "learning_rate": 0.00037142031748094016,
2419
+ "loss": 2.8061,
2420
+ "step": 341
2421
+ },
2422
+ {
2423
+ "epoch": 0.019629274720009582,
2424
+ "grad_norm": 0.18716713786125183,
2425
+ "learning_rate": 0.00037060275031143184,
2426
+ "loss": 2.8419,
2427
+ "step": 342
2428
+ },
2429
+ {
2430
+ "epoch": 0.01968667026012657,
2431
+ "grad_norm": 0.2575749158859253,
2432
+ "learning_rate": 0.0003697884468518805,
2433
+ "loss": 2.7814,
2434
+ "step": 343
2435
+ },
2436
+ {
2437
+ "epoch": 0.019744065800243557,
2438
+ "grad_norm": 0.19076134264469147,
2439
+ "learning_rate": 0.0003689774405751119,
2440
+ "loss": 2.797,
2441
+ "step": 344
2442
+ },
2443
+ {
2444
+ "epoch": 0.019801461340360545,
2445
+ "grad_norm": 0.19563442468643188,
2446
+ "learning_rate": 0.00036816976481841764,
2447
+ "loss": 2.8269,
2448
+ "step": 345
2449
+ },
2450
+ {
2451
+ "epoch": 0.019858856880477532,
2452
+ "grad_norm": 0.1790810525417328,
2453
+ "learning_rate": 0.0003673654527821846,
2454
+ "loss": 2.7856,
2455
+ "step": 346
2456
+ },
2457
+ {
2458
+ "epoch": 0.019916252420594516,
2459
+ "grad_norm": 0.2125868797302246,
2460
+ "learning_rate": 0.00036656453752853025,
2461
+ "loss": 2.7973,
2462
+ "step": 347
2463
+ },
2464
+ {
2465
+ "epoch": 0.019973647960711504,
2466
+ "grad_norm": 0.1454995572566986,
2467
+ "learning_rate": 0.00036576705197994376,
2468
+ "loss": 2.7869,
2469
+ "step": 348
2470
+ },
2471
+ {
2472
+ "epoch": 0.02003104350082849,
2473
+ "grad_norm": 0.2808379530906677,
2474
+ "learning_rate": 0.00036497302891793255,
2475
+ "loss": 2.7923,
2476
+ "step": 349
2477
+ },
2478
+ {
2479
+ "epoch": 0.02008843904094548,
2480
+ "grad_norm": 0.1776140034198761,
2481
+ "learning_rate": 0.0003641825009816745,
2482
+ "loss": 2.8194,
2483
+ "step": 350
2484
+ },
2485
+ {
2486
+ "epoch": 0.020145834581062467,
2487
+ "grad_norm": 0.22207793593406677,
2488
+ "learning_rate": 0.0003633955006666771,
2489
+ "loss": 2.8234,
2490
+ "step": 351
2491
+ },
2492
+ {
2493
+ "epoch": 0.020203230121179454,
2494
+ "grad_norm": 0.24642404913902283,
2495
+ "learning_rate": 0.0003626120603234406,
2496
+ "loss": 2.8351,
2497
+ "step": 352
2498
+ },
2499
+ {
2500
+ "epoch": 0.020260625661296442,
2501
+ "grad_norm": 0.24731726944446564,
2502
+ "learning_rate": 0.000361832212156129,
2503
+ "loss": 2.7983,
2504
+ "step": 353
2505
+ },
2506
+ {
2507
+ "epoch": 0.020318021201413426,
2508
+ "grad_norm": 0.21677981317043304,
2509
+ "learning_rate": 0.0003610559882212461,
2510
+ "loss": 2.8372,
2511
+ "step": 354
2512
+ },
2513
+ {
2514
+ "epoch": 0.020375416741530414,
2515
+ "grad_norm": 0.28350090980529785,
2516
+ "learning_rate": 0.00036028342042631755,
2517
+ "loss": 2.8138,
2518
+ "step": 355
2519
+ },
2520
+ {
2521
+ "epoch": 0.0204328122816474,
2522
+ "grad_norm": 0.22418756783008575,
2523
+ "learning_rate": 0.00035951454052857954,
2524
+ "loss": 2.7897,
2525
+ "step": 356
2526
+ },
2527
+ {
2528
+ "epoch": 0.02049020782176439,
2529
+ "grad_norm": 0.27765804529190063,
2530
+ "learning_rate": 0.000358749380133673,
2531
+ "loss": 2.8139,
2532
+ "step": 357
2533
+ },
2534
+ {
2535
+ "epoch": 0.020547603361881377,
2536
+ "grad_norm": 0.2694258391857147,
2537
+ "learning_rate": 0.000357987970694345,
2538
+ "loss": 2.7881,
2539
+ "step": 358
2540
+ },
2541
+ {
2542
+ "epoch": 0.020604998901998364,
2543
+ "grad_norm": 0.3746117055416107,
2544
+ "learning_rate": 0.00035723034350915525,
2545
+ "loss": 2.8108,
2546
+ "step": 359
2547
+ },
2548
+ {
2549
+ "epoch": 0.02066239444211535,
2550
+ "grad_norm": 0.22864773869514465,
2551
+ "learning_rate": 0.00035647652972119,
2552
+ "loss": 2.8102,
2553
+ "step": 360
2554
+ },
2555
+ {
2556
+ "epoch": 0.020719789982232336,
2557
+ "grad_norm": 0.2728801369667053,
2558
+ "learning_rate": 0.0003557265603167814,
2559
+ "loss": 2.8046,
2560
+ "step": 361
2561
+ },
2562
+ {
2563
+ "epoch": 0.020777185522349324,
2564
+ "grad_norm": 0.2561710774898529,
2565
+ "learning_rate": 0.0003549804661242345,
2566
+ "loss": 2.8242,
2567
+ "step": 362
2568
+ },
2569
+ {
2570
+ "epoch": 0.02083458106246631,
2571
+ "grad_norm": 0.26235631108283997,
2572
+ "learning_rate": 0.00035423827781255914,
2573
+ "loss": 2.847,
2574
+ "step": 363
2575
+ },
2576
+ {
2577
+ "epoch": 0.0208919766025833,
2578
+ "grad_norm": 0.24725806713104248,
2579
+ "learning_rate": 0.0003535000258902099,
2580
+ "loss": 2.7873,
2581
+ "step": 364
2582
+ },
2583
+ {
2584
+ "epoch": 0.020949372142700286,
2585
+ "grad_norm": 0.2562279999256134,
2586
+ "learning_rate": 0.0003527657407038317,
2587
+ "loss": 2.799,
2588
+ "step": 365
2589
+ },
2590
+ {
2591
+ "epoch": 0.021006767682817274,
2592
+ "grad_norm": 0.20368199050426483,
2593
+ "learning_rate": 0.00035203545243701266,
2594
+ "loss": 2.8011,
2595
+ "step": 366
2596
+ },
2597
+ {
2598
+ "epoch": 0.021064163222934258,
2599
+ "grad_norm": 0.25594958662986755,
2600
+ "learning_rate": 0.0003513091911090431,
2601
+ "loss": 2.8099,
2602
+ "step": 367
2603
+ },
2604
+ {
2605
+ "epoch": 0.021121558763051246,
2606
+ "grad_norm": 0.20084761083126068,
2607
+ "learning_rate": 0.00035058698657368154,
2608
+ "loss": 2.8249,
2609
+ "step": 368
2610
+ },
2611
+ {
2612
+ "epoch": 0.021178954303168233,
2613
+ "grad_norm": 0.24110020697116852,
2614
+ "learning_rate": 0.00034986886851792775,
2615
+ "loss": 2.8058,
2616
+ "step": 369
2617
+ },
2618
+ {
2619
+ "epoch": 0.02123634984328522,
2620
+ "grad_norm": 0.2016633003950119,
2621
+ "learning_rate": 0.0003491548664608024,
2622
+ "loss": 2.7935,
2623
+ "step": 370
2624
+ },
2625
+ {
2626
+ "epoch": 0.02129374538340221,
2627
+ "grad_norm": 0.2722468376159668,
2628
+ "learning_rate": 0.0003484450097521336,
2629
+ "loss": 2.8146,
2630
+ "step": 371
2631
+ },
2632
+ {
2633
+ "epoch": 0.021351140923519196,
2634
+ "grad_norm": 0.2089434564113617,
2635
+ "learning_rate": 0.0003477393275713501,
2636
+ "loss": 2.8231,
2637
+ "step": 372
2638
+ },
2639
+ {
2640
+ "epoch": 0.021408536463636184,
2641
+ "grad_norm": 0.24770453572273254,
2642
+ "learning_rate": 0.0003470378489262824,
2643
+ "loss": 2.7994,
2644
+ "step": 373
2645
+ },
2646
+ {
2647
+ "epoch": 0.021465932003753168,
2648
+ "grad_norm": 0.21104897558689117,
2649
+ "learning_rate": 0.00034634060265197026,
2650
+ "loss": 2.8189,
2651
+ "step": 374
2652
+ },
2653
+ {
2654
+ "epoch": 0.021523327543870156,
2655
+ "grad_norm": 0.23374824225902557,
2656
+ "learning_rate": 0.000345647617409477,
2657
+ "loss": 2.783,
2658
+ "step": 375
2659
+ },
2660
+ {
2661
+ "epoch": 0.021580723083987143,
2662
+ "grad_norm": 0.24334168434143066,
2663
+ "learning_rate": 0.00034495892168471176,
2664
+ "loss": 2.8092,
2665
+ "step": 376
2666
+ },
2667
+ {
2668
+ "epoch": 0.02163811862410413,
2669
+ "grad_norm": 0.22772932052612305,
2670
+ "learning_rate": 0.00034427454378725827,
2671
+ "loss": 2.8178,
2672
+ "step": 377
2673
+ },
2674
+ {
2675
+ "epoch": 0.02169551416422112,
2676
+ "grad_norm": 0.22545067965984344,
2677
+ "learning_rate": 0.00034359451184921125,
2678
+ "loss": 2.7961,
2679
+ "step": 378
2680
+ },
2681
+ {
2682
+ "epoch": 0.021752909704338106,
2683
+ "grad_norm": 0.2873929738998413,
2684
+ "learning_rate": 0.00034291885382402044,
2685
+ "loss": 2.8408,
2686
+ "step": 379
2687
+ },
2688
+ {
2689
+ "epoch": 0.02181030524445509,
2690
+ "grad_norm": 0.2099824994802475,
2691
+ "learning_rate": 0.00034224759748534083,
2692
+ "loss": 2.782,
2693
+ "step": 380
2694
+ },
2695
+ {
2696
+ "epoch": 0.021867700784572078,
2697
+ "grad_norm": 0.32221996784210205,
2698
+ "learning_rate": 0.0003415807704258913,
2699
+ "loss": 2.8337,
2700
+ "step": 381
2701
+ },
2702
+ {
2703
+ "epoch": 0.021925096324689065,
2704
+ "grad_norm": 0.2531490623950958,
2705
+ "learning_rate": 0.0003409184000563204,
2706
+ "loss": 2.8273,
2707
+ "step": 382
2708
+ },
2709
+ {
2710
+ "epoch": 0.021982491864806053,
2711
+ "grad_norm": 0.3075484037399292,
2712
+ "learning_rate": 0.00034026051360407973,
2713
+ "loss": 2.7805,
2714
+ "step": 383
2715
+ },
2716
+ {
2717
+ "epoch": 0.02203988740492304,
2718
+ "grad_norm": 0.2366313338279724,
2719
+ "learning_rate": 0.0003396071381123047,
2720
+ "loss": 2.8278,
2721
+ "step": 384
2722
+ },
2723
+ {
2724
+ "epoch": 0.022097282945040028,
2725
+ "grad_norm": 0.2348204106092453,
2726
+ "learning_rate": 0.00033895830043870266,
2727
+ "loss": 2.7922,
2728
+ "step": 385
2729
+ },
2730
+ {
2731
+ "epoch": 0.022154678485157016,
2732
+ "grad_norm": 0.28124627470970154,
2733
+ "learning_rate": 0.00033831402725444896,
2734
+ "loss": 2.8065,
2735
+ "step": 386
2736
+ },
2737
+ {
2738
+ "epoch": 0.022212074025274,
2739
+ "grad_norm": 0.1927008032798767,
2740
+ "learning_rate": 0.0003376743450430907,
2741
+ "loss": 2.7958,
2742
+ "step": 387
2743
+ },
2744
+ {
2745
+ "epoch": 0.022269469565390988,
2746
+ "grad_norm": 0.26325997710227966,
2747
+ "learning_rate": 0.0003370392800994583,
2748
+ "loss": 2.8313,
2749
+ "step": 388
2750
+ },
2751
+ {
2752
+ "epoch": 0.022326865105507975,
2753
+ "grad_norm": 0.23394963145256042,
2754
+ "learning_rate": 0.0003364088585285842,
2755
+ "loss": 2.8126,
2756
+ "step": 389
2757
+ },
2758
+ {
2759
+ "epoch": 0.022384260645624963,
2760
+ "grad_norm": 0.26055994629859924,
2761
+ "learning_rate": 0.00033578310624462983,
2762
+ "loss": 2.787,
2763
+ "step": 390
2764
+ },
2765
+ {
2766
+ "epoch": 0.02244165618574195,
2767
+ "grad_norm": 0.2207145392894745,
2768
+ "learning_rate": 0.0003351620489698208,
2769
+ "loss": 2.796,
2770
+ "step": 391
2771
+ },
2772
+ {
2773
+ "epoch": 0.022499051725858938,
2774
+ "grad_norm": 0.34231698513031006,
2775
+ "learning_rate": 0.0003345457122333891,
2776
+ "loss": 2.7951,
2777
+ "step": 392
2778
+ },
2779
+ {
2780
+ "epoch": 0.022556447265975922,
2781
+ "grad_norm": 0.22361671924591064,
2782
+ "learning_rate": 0.00033393412137052396,
2783
+ "loss": 2.8251,
2784
+ "step": 393
2785
+ },
2786
+ {
2787
+ "epoch": 0.02261384280609291,
2788
+ "grad_norm": 0.24573372304439545,
2789
+ "learning_rate": 0.0003333273015213304,
2790
+ "loss": 2.7899,
2791
+ "step": 394
2792
+ },
2793
+ {
2794
+ "epoch": 0.022671238346209897,
2795
+ "grad_norm": 0.22109688818454742,
2796
+ "learning_rate": 0.0003327252776297955,
2797
+ "loss": 2.8178,
2798
+ "step": 395
2799
+ },
2800
+ {
2801
+ "epoch": 0.022728633886326885,
2802
+ "grad_norm": 0.22289875149726868,
2803
+ "learning_rate": 0.00033212807444276364,
2804
+ "loss": 2.8053,
2805
+ "step": 396
2806
+ },
2807
+ {
2808
+ "epoch": 0.022786029426443873,
2809
+ "grad_norm": 0.21445147693157196,
2810
+ "learning_rate": 0.00033153571650891865,
2811
+ "loss": 2.7998,
2812
+ "step": 397
2813
+ },
2814
+ {
2815
+ "epoch": 0.02284342496656086,
2816
+ "grad_norm": 0.25061139464378357,
2817
+ "learning_rate": 0.00033094822817777514,
2818
+ "loss": 2.8055,
2819
+ "step": 398
2820
+ },
2821
+ {
2822
+ "epoch": 0.022900820506677848,
2823
+ "grad_norm": 0.24680854380130768,
2824
+ "learning_rate": 0.0003303656335986773,
2825
+ "loss": 2.8143,
2826
+ "step": 399
2827
+ },
2828
+ {
2829
+ "epoch": 0.022958216046794832,
2830
+ "grad_norm": 0.16644932329654694,
2831
+ "learning_rate": 0.0003297879567198065,
2832
+ "loss": 2.8192,
2833
+ "step": 400
2834
+ },
2835
+ {
2836
+ "epoch": 0.022958216046794832,
2837
+ "eval_loss": 2.738191604614258,
2838
+ "eval_runtime": 85.3252,
2839
+ "eval_samples_per_second": 50.571,
2840
+ "eval_steps_per_second": 12.646,
2841
+ "step": 400
2842
+ },
2843
+ {
2844
+ "epoch": 0.02301561158691182,
2845
+ "grad_norm": 0.2816384434700012,
2846
+ "learning_rate": 0.00032921522128719657,
2847
+ "loss": 2.8209,
2848
+ "step": 401
2849
+ },
2850
+ {
2851
+ "epoch": 0.023073007127028807,
2852
+ "grad_norm": 0.20395685732364655,
2853
+ "learning_rate": 0.00032864745084375783,
2854
+ "loss": 2.8021,
2855
+ "step": 402
2856
+ },
2857
+ {
2858
+ "epoch": 0.023130402667145795,
2859
+ "grad_norm": 0.24216794967651367,
2860
+ "learning_rate": 0.00032808466872830957,
2861
+ "loss": 2.8447,
2862
+ "step": 403
2863
+ },
2864
+ {
2865
+ "epoch": 0.023187798207262782,
2866
+ "grad_norm": 0.2526738941669464,
2867
+ "learning_rate": 0.00032752689807462017,
2868
+ "loss": 2.7906,
2869
+ "step": 404
2870
+ },
2871
+ {
2872
+ "epoch": 0.02324519374737977,
2873
+ "grad_norm": 0.21725283563137054,
2874
+ "learning_rate": 0.0003269741618104566,
2875
+ "loss": 2.7943,
2876
+ "step": 405
2877
+ },
2878
+ {
2879
+ "epoch": 0.023302589287496758,
2880
+ "grad_norm": 0.2765718102455139,
2881
+ "learning_rate": 0.00032642648265664175,
2882
+ "loss": 2.8109,
2883
+ "step": 406
2884
+ },
2885
+ {
2886
+ "epoch": 0.02335998482761374,
2887
+ "grad_norm": 0.20015880465507507,
2888
+ "learning_rate": 0.00032588388312612053,
2889
+ "loss": 2.8239,
2890
+ "step": 407
2891
+ },
2892
+ {
2893
+ "epoch": 0.02341738036773073,
2894
+ "grad_norm": 0.26865240931510925,
2895
+ "learning_rate": 0.0003253463855230344,
2896
+ "loss": 2.8279,
2897
+ "step": 408
2898
+ },
2899
+ {
2900
+ "epoch": 0.023474775907847717,
2901
+ "grad_norm": 0.23522211611270905,
2902
+ "learning_rate": 0.0003248140119418046,
2903
+ "loss": 2.8123,
2904
+ "step": 409
2905
+ },
2906
+ {
2907
+ "epoch": 0.023532171447964705,
2908
+ "grad_norm": 0.2388644963502884,
2909
+ "learning_rate": 0.0003242867842662239,
2910
+ "loss": 2.8057,
2911
+ "step": 410
2912
+ },
2913
+ {
2914
+ "epoch": 0.023589566988081692,
2915
+ "grad_norm": 0.18323197960853577,
2916
+ "learning_rate": 0.00032376472416855703,
2917
+ "loss": 2.8193,
2918
+ "step": 411
2919
+ },
2920
+ {
2921
+ "epoch": 0.02364696252819868,
2922
+ "grad_norm": 0.24734856188297272,
2923
+ "learning_rate": 0.00032324785310864983,
2924
+ "loss": 2.7924,
2925
+ "step": 412
2926
+ },
2927
+ {
2928
+ "epoch": 0.023704358068315664,
2929
+ "grad_norm": 0.1722363829612732,
2930
+ "learning_rate": 0.0003227361923330471,
2931
+ "loss": 2.8242,
2932
+ "step": 413
2933
+ },
2934
+ {
2935
+ "epoch": 0.02376175360843265,
2936
+ "grad_norm": 0.2052358090877533,
2937
+ "learning_rate": 0.00032222976287411934,
2938
+ "loss": 2.8129,
2939
+ "step": 414
2940
+ },
2941
+ {
2942
+ "epoch": 0.02381914914854964,
2943
+ "grad_norm": 0.2536105811595917,
2944
+ "learning_rate": 0.00032172858554919807,
2945
+ "loss": 2.8207,
2946
+ "step": 415
2947
+ },
2948
+ {
2949
+ "epoch": 0.023876544688666627,
2950
+ "grad_norm": 0.23084022104740143,
2951
+ "learning_rate": 0.00032123268095972005,
2952
+ "loss": 2.8156,
2953
+ "step": 416
2954
+ },
2955
+ {
2956
+ "epoch": 0.023933940228783614,
2957
+ "grad_norm": 0.28741586208343506,
2958
+ "learning_rate": 0.00032074206949038073,
2959
+ "loss": 2.8008,
2960
+ "step": 417
2961
+ },
2962
+ {
2963
+ "epoch": 0.023991335768900602,
2964
+ "grad_norm": 0.2419297993183136,
2965
+ "learning_rate": 0.0003202567713082959,
2966
+ "loss": 2.8112,
2967
+ "step": 418
2968
+ },
2969
+ {
2970
+ "epoch": 0.02404873130901759,
2971
+ "grad_norm": 0.19744537770748138,
2972
+ "learning_rate": 0.0003197768063621732,
2973
+ "loss": 2.7894,
2974
+ "step": 419
2975
+ },
2976
+ {
2977
+ "epoch": 0.024106126849134574,
2978
+ "grad_norm": 0.22780993580818176,
2979
+ "learning_rate": 0.0003193021943814916,
2980
+ "loss": 2.8019,
2981
+ "step": 420
2982
+ },
2983
+ {
2984
+ "epoch": 0.02416352238925156,
2985
+ "grad_norm": 0.2176397144794464,
2986
+ "learning_rate": 0.00031883295487569063,
2987
+ "loss": 2.8183,
2988
+ "step": 421
2989
+ },
2990
+ {
2991
+ "epoch": 0.02422091792936855,
2992
+ "grad_norm": 0.23891203105449677,
2993
+ "learning_rate": 0.00031836910713336857,
2994
+ "loss": 2.8022,
2995
+ "step": 422
2996
+ },
2997
+ {
2998
+ "epoch": 0.024278313469485537,
2999
+ "grad_norm": 0.18507017195224762,
3000
+ "learning_rate": 0.0003179106702214893,
3001
+ "loss": 2.8013,
3002
+ "step": 423
3003
+ },
3004
+ {
3005
+ "epoch": 0.024335709009602524,
3006
+ "grad_norm": 0.20408926904201508,
3007
+ "learning_rate": 0.0003174576629845987,
3008
+ "loss": 2.8085,
3009
+ "step": 424
3010
+ },
3011
+ {
3012
+ "epoch": 0.024393104549719512,
3013
+ "grad_norm": 0.18055075407028198,
3014
+ "learning_rate": 0.00031701010404404996,
3015
+ "loss": 2.8341,
3016
+ "step": 425
3017
+ },
3018
+ {
3019
+ "epoch": 0.024450500089836496,
3020
+ "grad_norm": 0.22974956035614014,
3021
+ "learning_rate": 0.0003165680117972382,
3022
+ "loss": 2.8044,
3023
+ "step": 426
3024
+ },
3025
+ {
3026
+ "epoch": 0.024507895629953484,
3027
+ "grad_norm": 0.17688511312007904,
3028
+ "learning_rate": 0.00031613140441684413,
3029
+ "loss": 2.7866,
3030
+ "step": 427
3031
+ },
3032
+ {
3033
+ "epoch": 0.02456529117007047,
3034
+ "grad_norm": 0.22350828349590302,
3035
+ "learning_rate": 0.000315700299850087,
3036
+ "loss": 2.7939,
3037
+ "step": 428
3038
+ },
3039
+ {
3040
+ "epoch": 0.02462268671018746,
3041
+ "grad_norm": 0.2138863056898117,
3042
+ "learning_rate": 0.0003152747158179871,
3043
+ "loss": 2.8112,
3044
+ "step": 429
3045
+ },
3046
+ {
3047
+ "epoch": 0.024680082250304446,
3048
+ "grad_norm": 0.1666262447834015,
3049
+ "learning_rate": 0.0003148546698146371,
3050
+ "loss": 2.8464,
3051
+ "step": 430
3052
+ },
3053
+ {
3054
+ "epoch": 0.024737477790421434,
3055
+ "grad_norm": 0.23217864334583282,
3056
+ "learning_rate": 0.00031444017910648293,
3057
+ "loss": 2.8154,
3058
+ "step": 431
3059
+ },
3060
+ {
3061
+ "epoch": 0.02479487333053842,
3062
+ "grad_norm": 0.23967209458351135,
3063
+ "learning_rate": 0.00031403126073161424,
3064
+ "loss": 2.8068,
3065
+ "step": 432
3066
+ },
3067
+ {
3068
+ "epoch": 0.024852268870655406,
3069
+ "grad_norm": 0.2363416850566864,
3070
+ "learning_rate": 0.0003136279314990637,
3071
+ "loss": 2.832,
3072
+ "step": 433
3073
+ },
3074
+ {
3075
+ "epoch": 0.024909664410772393,
3076
+ "grad_norm": 0.20204566419124603,
3077
+ "learning_rate": 0.00031323020798811643,
3078
+ "loss": 2.8118,
3079
+ "step": 434
3080
+ },
3081
+ {
3082
+ "epoch": 0.02496705995088938,
3083
+ "grad_norm": 0.2645012438297272,
3084
+ "learning_rate": 0.00031283810654762816,
3085
+ "loss": 2.7988,
3086
+ "step": 435
3087
+ },
3088
+ {
3089
+ "epoch": 0.02502445549100637,
3090
+ "grad_norm": 0.31096434593200684,
3091
+ "learning_rate": 0.0003124516432953532,
3092
+ "loss": 2.8021,
3093
+ "step": 436
3094
+ },
3095
+ {
3096
+ "epoch": 0.025081851031123356,
3097
+ "grad_norm": 0.25740697979927063,
3098
+ "learning_rate": 0.00031207083411728236,
3099
+ "loss": 2.828,
3100
+ "step": 437
3101
+ },
3102
+ {
3103
+ "epoch": 0.025139246571240344,
3104
+ "grad_norm": 0.24895477294921875,
3105
+ "learning_rate": 0.00031169569466698937,
3106
+ "loss": 2.8073,
3107
+ "step": 438
3108
+ },
3109
+ {
3110
+ "epoch": 0.02519664211135733,
3111
+ "grad_norm": 0.2860502004623413,
3112
+ "learning_rate": 0.00031132624036498774,
3113
+ "loss": 2.8275,
3114
+ "step": 439
3115
+ },
3116
+ {
3117
+ "epoch": 0.025254037651474315,
3118
+ "grad_norm": 0.3134096562862396,
3119
+ "learning_rate": 0.00031096248639809674,
3120
+ "loss": 2.816,
3121
+ "step": 440
3122
+ },
3123
+ {
3124
+ "epoch": 0.025311433191591303,
3125
+ "grad_norm": 0.2185070812702179,
3126
+ "learning_rate": 0.0003106044477188172,
3127
+ "loss": 2.7799,
3128
+ "step": 441
3129
+ },
3130
+ {
3131
+ "epoch": 0.02536882873170829,
3132
+ "grad_norm": 0.3582714796066284,
3133
+ "learning_rate": 0.0003102521390447169,
3134
+ "loss": 2.7923,
3135
+ "step": 442
3136
+ },
3137
+ {
3138
+ "epoch": 0.02542622427182528,
3139
+ "grad_norm": 0.19494207203388214,
3140
+ "learning_rate": 0.00030990557485782553,
3141
+ "loss": 2.7999,
3142
+ "step": 443
3143
+ },
3144
+ {
3145
+ "epoch": 0.025483619811942266,
3146
+ "grad_norm": 0.2574940025806427,
3147
+ "learning_rate": 0.0003095647694040394,
3148
+ "loss": 2.8087,
3149
+ "step": 444
3150
+ },
3151
+ {
3152
+ "epoch": 0.025541015352059254,
3153
+ "grad_norm": 0.17501215636730194,
3154
+ "learning_rate": 0.0003092297366925359,
3155
+ "loss": 2.7817,
3156
+ "step": 445
3157
+ },
3158
+ {
3159
+ "epoch": 0.025598410892176238,
3160
+ "grad_norm": 0.4073377251625061,
3161
+ "learning_rate": 0.0003089004904951976,
3162
+ "loss": 2.813,
3163
+ "step": 446
3164
+ },
3165
+ {
3166
+ "epoch": 0.025655806432293225,
3167
+ "grad_norm": 0.21654489636421204,
3168
+ "learning_rate": 0.000308577044346046,
3169
+ "loss": 2.8165,
3170
+ "step": 447
3171
+ },
3172
+ {
3173
+ "epoch": 0.025713201972410213,
3174
+ "grad_norm": 0.26500189304351807,
3175
+ "learning_rate": 0.0003082594115406856,
3176
+ "loss": 2.8229,
3177
+ "step": 448
3178
+ },
3179
+ {
3180
+ "epoch": 0.0257705975125272,
3181
+ "grad_norm": 0.188262477517128,
3182
+ "learning_rate": 0.00030794760513575675,
3183
+ "loss": 2.8112,
3184
+ "step": 449
3185
+ },
3186
+ {
3187
+ "epoch": 0.025827993052644188,
3188
+ "grad_norm": 0.3432970643043518,
3189
+ "learning_rate": 0.00030764163794839966,
3190
+ "loss": 2.8241,
3191
+ "step": 450
3192
+ },
3193
+ {
3194
+ "epoch": 0.025885388592761176,
3195
+ "grad_norm": 0.23415225744247437,
3196
+ "learning_rate": 0.0003073415225557269,
3197
+ "loss": 2.8039,
3198
+ "step": 451
3199
+ },
3200
+ {
3201
+ "epoch": 0.025942784132878163,
3202
+ "grad_norm": 0.2670385241508484,
3203
+ "learning_rate": 0.0003070472712943069,
3204
+ "loss": 2.8215,
3205
+ "step": 452
3206
+ },
3207
+ {
3208
+ "epoch": 0.026000179672995147,
3209
+ "grad_norm": 0.17434735596179962,
3210
+ "learning_rate": 0.00030675889625965646,
3211
+ "loss": 2.8352,
3212
+ "step": 453
3213
+ },
3214
+ {
3215
+ "epoch": 0.026057575213112135,
3216
+ "grad_norm": 0.2789264917373657,
3217
+ "learning_rate": 0.0003064764093057437,
3218
+ "loss": 2.7856,
3219
+ "step": 454
3220
+ },
3221
+ {
3222
+ "epoch": 0.026114970753229123,
3223
+ "grad_norm": 0.2666022479534149,
3224
+ "learning_rate": 0.0003061998220445009,
3225
+ "loss": 2.8063,
3226
+ "step": 455
3227
+ },
3228
+ {
3229
+ "epoch": 0.02617236629334611,
3230
+ "grad_norm": 0.22438260912895203,
3231
+ "learning_rate": 0.00030592914584534706,
3232
+ "loss": 2.7783,
3233
+ "step": 456
3234
+ },
3235
+ {
3236
+ "epoch": 0.026229761833463098,
3237
+ "grad_norm": 0.2177169770002365,
3238
+ "learning_rate": 0.00030566439183472063,
3239
+ "loss": 2.786,
3240
+ "step": 457
3241
+ },
3242
+ {
3243
+ "epoch": 0.026287157373580086,
3244
+ "grad_norm": 0.22771142423152924,
3245
+ "learning_rate": 0.000305405570895622,
3246
+ "loss": 2.7881,
3247
+ "step": 458
3248
+ },
3249
+ {
3250
+ "epoch": 0.02634455291369707,
3251
+ "grad_norm": 0.29228097200393677,
3252
+ "learning_rate": 0.00030515269366716613,
3253
+ "loss": 2.7876,
3254
+ "step": 459
3255
+ },
3256
+ {
3257
+ "epoch": 0.026401948453814057,
3258
+ "grad_norm": 0.18204721808433533,
3259
+ "learning_rate": 0.00030490577054414553,
3260
+ "loss": 2.8153,
3261
+ "step": 460
3262
+ },
3263
+ {
3264
+ "epoch": 0.026459343993931045,
3265
+ "grad_norm": 0.19830970466136932,
3266
+ "learning_rate": 0.0003046648116766027,
3267
+ "loss": 2.7884,
3268
+ "step": 461
3269
+ },
3270
+ {
3271
+ "epoch": 0.026516739534048032,
3272
+ "grad_norm": 0.17311398684978485,
3273
+ "learning_rate": 0.00030442982696941276,
3274
+ "loss": 2.8055,
3275
+ "step": 462
3276
+ },
3277
+ {
3278
+ "epoch": 0.02657413507416502,
3279
+ "grad_norm": 0.21194536983966827,
3280
+ "learning_rate": 0.0003042008260818768,
3281
+ "loss": 2.815,
3282
+ "step": 463
3283
+ },
3284
+ {
3285
+ "epoch": 0.026631530614282008,
3286
+ "grad_norm": 0.22366400063037872,
3287
+ "learning_rate": 0.0003039778184273243,
3288
+ "loss": 2.7994,
3289
+ "step": 464
3290
+ },
3291
+ {
3292
+ "epoch": 0.026688926154398995,
3293
+ "grad_norm": 0.17785237729549408,
3294
+ "learning_rate": 0.00030376081317272645,
3295
+ "loss": 2.8049,
3296
+ "step": 465
3297
+ },
3298
+ {
3299
+ "epoch": 0.02674632169451598,
3300
+ "grad_norm": 0.2285715490579605,
3301
+ "learning_rate": 0.00030354981923831934,
3302
+ "loss": 2.8105,
3303
+ "step": 466
3304
+ },
3305
+ {
3306
+ "epoch": 0.026803717234632967,
3307
+ "grad_norm": 0.17985928058624268,
3308
+ "learning_rate": 0.0003033448452972373,
3309
+ "loss": 2.8246,
3310
+ "step": 467
3311
+ },
3312
+ {
3313
+ "epoch": 0.026861112774749955,
3314
+ "grad_norm": 0.2026437669992447,
3315
+ "learning_rate": 0.000303145899775156,
3316
+ "loss": 2.8192,
3317
+ "step": 468
3318
+ },
3319
+ {
3320
+ "epoch": 0.026918508314866942,
3321
+ "grad_norm": 0.2605213522911072,
3322
+ "learning_rate": 0.0003029529908499469,
3323
+ "loss": 2.826,
3324
+ "step": 469
3325
+ },
3326
+ {
3327
+ "epoch": 0.02697590385498393,
3328
+ "grad_norm": 0.22592206299304962,
3329
+ "learning_rate": 0.00030276612645134017,
3330
+ "loss": 2.7987,
3331
+ "step": 470
3332
+ },
3333
+ {
3334
+ "epoch": 0.027033299395100917,
3335
+ "grad_norm": 0.2988434433937073,
3336
+ "learning_rate": 0.0003025853142605994,
3337
+ "loss": 2.826,
3338
+ "step": 471
3339
+ },
3340
+ {
3341
+ "epoch": 0.027090694935217905,
3342
+ "grad_norm": 0.2247052788734436,
3343
+ "learning_rate": 0.0003024105617102055,
3344
+ "loss": 2.815,
3345
+ "step": 472
3346
+ },
3347
+ {
3348
+ "epoch": 0.02714809047533489,
3349
+ "grad_norm": 0.26565778255462646,
3350
+ "learning_rate": 0.00030224187598355145,
3351
+ "loss": 2.8283,
3352
+ "step": 473
3353
+ },
3354
+ {
3355
+ "epoch": 0.027205486015451877,
3356
+ "grad_norm": 0.2834932804107666,
3357
+ "learning_rate": 0.00030207926401464675,
3358
+ "loss": 2.8088,
3359
+ "step": 474
3360
+ },
3361
+ {
3362
+ "epoch": 0.027262881555568864,
3363
+ "grad_norm": 0.2396688312292099,
3364
+ "learning_rate": 0.0003019227324878324,
3365
+ "loss": 2.8024,
3366
+ "step": 475
3367
+ },
3368
+ {
3369
+ "epoch": 0.027320277095685852,
3370
+ "grad_norm": 0.2600051760673523,
3371
+ "learning_rate": 0.0003017722878375066,
3372
+ "loss": 2.8258,
3373
+ "step": 476
3374
+ },
3375
+ {
3376
+ "epoch": 0.02737767263580284,
3377
+ "grad_norm": 0.26368406414985657,
3378
+ "learning_rate": 0.00030162793624785957,
3379
+ "loss": 2.7875,
3380
+ "step": 477
3381
+ },
3382
+ {
3383
+ "epoch": 0.027435068175919827,
3384
+ "grad_norm": 0.389852911233902,
3385
+ "learning_rate": 0.0003014896836526197,
3386
+ "loss": 2.8166,
3387
+ "step": 478
3388
+ },
3389
+ {
3390
+ "epoch": 0.02749246371603681,
3391
+ "grad_norm": 0.23984675109386444,
3392
+ "learning_rate": 0.0003013575357348098,
3393
+ "loss": 2.8025,
3394
+ "step": 479
3395
+ },
3396
+ {
3397
+ "epoch": 0.0275498592561538,
3398
+ "grad_norm": 0.24591901898384094,
3399
+ "learning_rate": 0.00030123149792651307,
3400
+ "loss": 2.7898,
3401
+ "step": 480
3402
+ },
3403
+ {
3404
+ "epoch": 0.027607254796270787,
3405
+ "grad_norm": 0.24797213077545166,
3406
+ "learning_rate": 0.00030111157540865026,
3407
+ "loss": 2.8291,
3408
+ "step": 481
3409
+ },
3410
+ {
3411
+ "epoch": 0.027664650336387774,
3412
+ "grad_norm": 0.2542579770088196,
3413
+ "learning_rate": 0.0003009977731107663,
3414
+ "loss": 2.7868,
3415
+ "step": 482
3416
+ },
3417
+ {
3418
+ "epoch": 0.027722045876504762,
3419
+ "grad_norm": 0.21780452132225037,
3420
+ "learning_rate": 0.00030089009571082794,
3421
+ "loss": 2.8051,
3422
+ "step": 483
3423
+ },
3424
+ {
3425
+ "epoch": 0.02777944141662175,
3426
+ "grad_norm": 0.2790198028087616,
3427
+ "learning_rate": 0.0003007885476350314,
3428
+ "loss": 2.8004,
3429
+ "step": 484
3430
+ },
3431
+ {
3432
+ "epoch": 0.027836836956738737,
3433
+ "grad_norm": 0.2793212831020355,
3434
+ "learning_rate": 0.00030069313305762025,
3435
+ "loss": 2.8077,
3436
+ "step": 485
3437
+ },
3438
+ {
3439
+ "epoch": 0.02789423249685572,
3440
+ "grad_norm": 0.2663847506046295,
3441
+ "learning_rate": 0.0003006038559007141,
3442
+ "loss": 2.805,
3443
+ "step": 486
3444
+ },
3445
+ {
3446
+ "epoch": 0.02795162803697271,
3447
+ "grad_norm": 0.2695571482181549,
3448
+ "learning_rate": 0.0003005207198341473,
3449
+ "loss": 2.8102,
3450
+ "step": 487
3451
+ },
3452
+ {
3453
+ "epoch": 0.028009023577089696,
3454
+ "grad_norm": 0.3027716875076294,
3455
+ "learning_rate": 0.0003004437282753177,
3456
+ "loss": 2.7944,
3457
+ "step": 488
3458
+ },
3459
+ {
3460
+ "epoch": 0.028066419117206684,
3461
+ "grad_norm": 0.25220444798469543,
3462
+ "learning_rate": 0.0003003728843890469,
3463
+ "loss": 2.781,
3464
+ "step": 489
3465
+ },
3466
+ {
3467
+ "epoch": 0.02812381465732367,
3468
+ "grad_norm": 0.2733742594718933,
3469
+ "learning_rate": 0.0003003081910874495,
3470
+ "loss": 2.8138,
3471
+ "step": 490
3472
+ },
3473
+ {
3474
+ "epoch": 0.02818121019744066,
3475
+ "grad_norm": 0.23873530328273773,
3476
+ "learning_rate": 0.00030024965102981387,
3477
+ "loss": 2.8017,
3478
+ "step": 491
3479
+ },
3480
+ {
3481
+ "epoch": 0.028238605737557643,
3482
+ "grad_norm": 0.29158100485801697,
3483
+ "learning_rate": 0.0003001972666224923,
3484
+ "loss": 2.8084,
3485
+ "step": 492
3486
+ },
3487
+ {
3488
+ "epoch": 0.02829600127767463,
3489
+ "grad_norm": 0.3079324960708618,
3490
+ "learning_rate": 0.00030015104001880274,
3491
+ "loss": 2.8061,
3492
+ "step": 493
3493
+ },
3494
+ {
3495
+ "epoch": 0.02835339681779162,
3496
+ "grad_norm": 0.2448122203350067,
3497
+ "learning_rate": 0.00030011097311893984,
3498
+ "loss": 2.7817,
3499
+ "step": 494
3500
+ },
3501
+ {
3502
+ "epoch": 0.028410792357908606,
3503
+ "grad_norm": 0.3495275378227234,
3504
+ "learning_rate": 0.00030007706756989683,
3505
+ "loss": 2.8053,
3506
+ "step": 495
3507
+ },
3508
+ {
3509
+ "epoch": 0.028468187898025594,
3510
+ "grad_norm": 0.19935691356658936,
3511
+ "learning_rate": 0.000300049324765398,
3512
+ "loss": 2.7985,
3513
+ "step": 496
3514
+ },
3515
+ {
3516
+ "epoch": 0.02852558343814258,
3517
+ "grad_norm": 0.30157798528671265,
3518
+ "learning_rate": 0.0003000277458458415,
3519
+ "loss": 2.8271,
3520
+ "step": 497
3521
+ },
3522
+ {
3523
+ "epoch": 0.02858297897825957,
3524
+ "grad_norm": 0.23343823850154877,
3525
+ "learning_rate": 0.00030001233169825214,
3526
+ "loss": 2.807,
3527
+ "step": 498
3528
+ },
3529
+ {
3530
+ "epoch": 0.028640374518376553,
3531
+ "grad_norm": 0.25404173135757446,
3532
+ "learning_rate": 0.0003000030829562451,
3533
+ "loss": 2.8072,
3534
+ "step": 499
3535
+ },
3536
+ {
3537
+ "epoch": 0.02869777005849354,
3538
+ "grad_norm": 0.28863540291786194,
3539
+ "learning_rate": 0.0003,
3540
+ "loss": 2.8088,
3541
+ "step": 500
3542
+ },
3543
+ {
3544
+ "epoch": 0.02869777005849354,
3545
+ "eval_loss": 2.735079288482666,
3546
+ "eval_runtime": 85.4355,
3547
+ "eval_samples_per_second": 50.506,
3548
+ "eval_steps_per_second": 12.629,
3549
+ "step": 500
3550
+ }
3551
+ ],
3552
+ "logging_steps": 1,
3553
+ "max_steps": 500,
3554
+ "num_input_tokens_seen": 0,
3555
+ "num_train_epochs": 1,
3556
+ "save_steps": 150,
3557
+ "stateful_callbacks": {
3558
+ "TrainerControl": {
3559
+ "args": {
3560
+ "should_epoch_stop": false,
3561
+ "should_evaluate": false,
3562
+ "should_log": false,
3563
+ "should_save": true,
3564
+ "should_training_stop": true
3565
+ },
3566
+ "attributes": {}
3567
+ }
3568
+ },
3569
+ "total_flos": 4.69922551431168e+17,
3570
+ "train_batch_size": 22,
3571
+ "trial_name": null,
3572
+ "trial_params": null
3573
+ }
training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:594db8e3ba17a8fa3661cdc5102444839e6fe80ed0f8414f52615396a149cc65
3
+ size 5368