Training in progress, epoch 0, checkpoint

Browse files

Files changed (14) hide show

last-checkpoint/README.md +202 -0
last-checkpoint/adapter_config.json +34 -0
last-checkpoint/adapter_model.safetensors +3 -0
last-checkpoint/added_tokens.json +6 -0
last-checkpoint/merges.txt +0 -0
last-checkpoint/optimizer.pt +3 -0
last-checkpoint/rng_state.pth +3 -0
last-checkpoint/scheduler.pt +3 -0
last-checkpoint/special_tokens_map.json +20 -0
last-checkpoint/tokenizer.json +3 -0
last-checkpoint/tokenizer_config.json +52 -0
last-checkpoint/trainer_state.json +2274 -0
last-checkpoint/training_args.bin +3 -0
last-checkpoint/vocab.json +0 -0

last-checkpoint/README.md ADDED Viewed

	@@ -0,0 +1,202 @@

+---
+base_model: unsloth/Qwen2-1.5B
+library_name: peft
+---
+# Model Card for Model ID
+<!-- Provide a quick summary of what the model is/does. -->
+## Model Details
+### Model Description
+<!-- Provide a longer summary of what this model is. -->
+- **Developed by:** [More Information Needed]
+- **Funded by [optional]:** [More Information Needed]
+- **Shared by [optional]:** [More Information Needed]
+- **Model type:** [More Information Needed]
+- **Language(s) (NLP):** [More Information Needed]
+- **License:** [More Information Needed]
+- **Finetuned from model [optional]:** [More Information Needed]
+### Model Sources [optional]
+<!-- Provide the basic links for the model. -->
+- **Repository:** [More Information Needed]
+- **Paper [optional]:** [More Information Needed]
+- **Demo [optional]:** [More Information Needed]
+## Uses
+<!-- Address questions around how the model is intended to be used, including the foreseeable users of the model and those affected by the model. -->
+### Direct Use
+<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
+[More Information Needed]
+### Downstream Use [optional]
+<!-- This section is for the model use when fine-tuned for a task, or when plugged into a larger ecosystem/app -->
+[More Information Needed]
+### Out-of-Scope Use
+<!-- This section addresses misuse, malicious use, and uses that the model will not work well for. -->
+[More Information Needed]
+## Bias, Risks, and Limitations
+<!-- This section is meant to convey both technical and sociotechnical limitations. -->
+[More Information Needed]
+### Recommendations
+<!-- This section is meant to convey recommendations with respect to the bias, risk, and technical limitations. -->
+Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. More information needed for further recommendations.
+## How to Get Started with the Model
+Use the code below to get started with the model.
+[More Information Needed]
+## Training Details
+### Training Data
+<!-- This should link to a Dataset Card, perhaps with a short stub of information on what the training data is all about as well as documentation related to data pre-processing or additional filtering. -->
+[More Information Needed]
+### Training Procedure
+<!-- This relates heavily to the Technical Specifications. Content here should link to that section when it is relevant to the training procedure. -->
+#### Preprocessing [optional]
+[More Information Needed]
+#### Training Hyperparameters
+- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
+#### Speeds, Sizes, Times [optional]
+<!-- This section provides information about throughput, start/end time, checkpoint size if relevant, etc. -->
+[More Information Needed]
+## Evaluation
+<!-- This section describes the evaluation protocols and provides the results. -->
+### Testing Data, Factors & Metrics
+#### Testing Data
+<!-- This should link to a Dataset Card if possible. -->
+[More Information Needed]
+#### Factors
+<!-- These are the things the evaluation is disaggregating by, e.g., subpopulations or domains. -->
+[More Information Needed]
+#### Metrics
+<!-- These are the evaluation metrics being used, ideally with a description of why. -->
+[More Information Needed]
+### Results
+[More Information Needed]
+#### Summary
+## Model Examination [optional]
+<!-- Relevant interpretability work for the model goes here -->
+[More Information Needed]
+## Environmental Impact
+<!-- Total emissions (in grams of CO2eq) and additional considerations, such as electricity usage, go here. Edit the suggested text below accordingly -->
+Carbon emissions can be estimated using the [Machine Learning Impact calculator](https://mlco2.github.io/impact#compute) presented in [Lacoste et al. (2019)](https://arxiv.org/abs/1910.09700).
+- **Hardware Type:** [More Information Needed]
+- **Hours used:** [More Information Needed]
+- **Cloud Provider:** [More Information Needed]
+- **Compute Region:** [More Information Needed]
+- **Carbon Emitted:** [More Information Needed]
+## Technical Specifications [optional]
+### Model Architecture and Objective
+[More Information Needed]
+### Compute Infrastructure
+[More Information Needed]
+#### Hardware
+[More Information Needed]
+#### Software
+[More Information Needed]
+## Citation [optional]
+<!-- If there is a paper or blog post introducing the model, the APA and Bibtex information for that should go in this section. -->
+**BibTeX:**
+[More Information Needed]
+**APA:**
+[More Information Needed]
+## Glossary [optional]
+<!-- If relevant, include terms and calculations in this section that can help readers understand the model or model card. -->
+[More Information Needed]
+## More Information [optional]
+[More Information Needed]
+## Model Card Authors [optional]
+[More Information Needed]
+## Model Card Contact
+[More Information Needed]
+### Framework versions
+- PEFT 0.13.2

last-checkpoint/adapter_config.json ADDED Viewed

	@@ -0,0 +1,34 @@

+{
+  "alpha_pattern": {},
+  "auto_mapping": null,
+  "base_model_name_or_path": "unsloth/Qwen2-1.5B",
+  "bias": "none",
+  "fan_in_fan_out": null,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layer_replication": null,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "loftq_config": {},
+  "lora_alpha": 16,
+  "lora_dropout": 0.05,
+  "megatron_config": null,
+  "megatron_core": "megatron.core",
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 32,
+  "rank_pattern": {},
+  "revision": null,
+  "target_modules": [
+    "gate_proj",
+    "down_proj",
+    "up_proj",
+    "k_proj",
+    "o_proj",
+    "q_proj",
+    "v_proj"
+  ],
+  "task_type": "CAUSAL_LM",
+  "use_dora": false,
+  "use_rslora": false
+}

last-checkpoint/adapter_model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:956a775cce4e0817fb05c3e94c008317fe45239e2ad939de2b12820a1a131f37
+size 147770496

last-checkpoint/added_tokens.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "<|PAD_TOKEN|>": 151646,
+  "<|endoftext|>": 151643,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644
+}

last-checkpoint/merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

last-checkpoint/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:972424a27200b020b492e1670c33c87369045956814394ab7be7a11c878882ab
+size 295765866

last-checkpoint/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:131b04e6fa924334fcbdbeb4e0417e3f97f0f4272108e20020154aa15c726f16
+size 14244

last-checkpoint/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f6330992f3d79b7069f5bdf0d2b0e9f69d09b4b6de394987f5fc463a70456f18
+size 1064

last-checkpoint/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,20 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "eos_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|PAD_TOKEN|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

last-checkpoint/tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9479047c22047670077878de944c696032b1a81049beeb6e99fbda7fb93e395a
+size 11418456

last-checkpoint/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,52 @@

+{
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|PAD_TOKEN|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "bos_token": null,
+  "chat_template": "{% if not add_generation_prompt is defined %}{% set add_generation_prompt = false %}{% endif %}{% set loop_messages = messages %}{% for message in loop_messages %}{% set content = '<|start_header_id|>' + message['role'] + '<|end_header_id|>\n\n'+ message['content'] | trim + '<|eot_id|>' %}{% if loop.index0 == 0 %}{% set content = bos_token + content %}{% endif %}{{ content }}{% endfor %}{% if add_generation_prompt %}{{ '<|start_header_id|>assistant<|end_header_id|>\n\n' }}{% endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|endoftext|>",
+  "errors": "replace",
+  "model_max_length": 32768,
+  "pad_token": "<|PAD_TOKEN|>",
+  "padding_side": "left",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

last-checkpoint/trainer_state.json ADDED Viewed

	@@ -0,0 +1,2274 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.9984350547730829,
+  "eval_steps": 500,
+  "global_step": 319,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.003129890453834116,
+      "grad_norm": NaN,
+      "learning_rate": 1e-05,
+      "loss": 0.0,
+      "step": 1
+    },
+    {
+      "epoch": 0.006259780907668232,
+      "grad_norm": NaN,
+      "learning_rate": 2e-05,
+      "loss": 0.0,
+      "step": 2
+    },
+    {
+      "epoch": 0.009389671361502348,
+      "grad_norm": NaN,
+      "learning_rate": 3e-05,
+      "loss": 0.0,
+      "step": 3
+    },
+    {
+      "epoch": 0.012519561815336464,
+      "grad_norm": NaN,
+      "learning_rate": 4e-05,
+      "loss": 0.0,
+      "step": 4
+    },
+    {
+      "epoch": 0.01564945226917058,
+      "grad_norm": NaN,
+      "learning_rate": 5e-05,
+      "loss": 0.0,
+      "step": 5
+    },
+    {
+      "epoch": 0.018779342723004695,
+      "grad_norm": NaN,
+      "learning_rate": 6e-05,
+      "loss": 0.0,
+      "step": 6
+    },
+    {
+      "epoch": 0.02190923317683881,
+      "grad_norm": NaN,
+      "learning_rate": 7e-05,
+      "loss": 0.0,
+      "step": 7
+    },
+    {
+      "epoch": 0.025039123630672927,
+      "grad_norm": NaN,
+      "learning_rate": 8e-05,
+      "loss": 0.0,
+      "step": 8
+    },
+    {
+      "epoch": 0.028169014084507043,
+      "grad_norm": NaN,
+      "learning_rate": 9e-05,
+      "loss": 0.0,
+      "step": 9
+    },
+    {
+      "epoch": 0.03129890453834116,
+      "grad_norm": NaN,
+      "learning_rate": 0.0001,
+      "loss": 0.0,
+      "step": 10
+    },
+    {
+      "epoch": 0.03442879499217527,
+      "grad_norm": NaN,
+      "learning_rate": 9.999972486908167e-05,
+      "loss": 0.0,
+      "step": 11
+    },
+    {
+      "epoch": 0.03755868544600939,
+      "grad_norm": NaN,
+      "learning_rate": 9.999889947935455e-05,
+      "loss": 0.0,
+      "step": 12
+    },
+    {
+      "epoch": 0.0406885758998435,
+      "grad_norm": NaN,
+      "learning_rate": 9.999752383990224e-05,
+      "loss": 0.0,
+      "step": 13
+    },
+    {
+      "epoch": 0.04381846635367762,
+      "grad_norm": NaN,
+      "learning_rate": 9.999559796586399e-05,
+      "loss": 0.0,
+      "step": 14
+    },
+    {
+      "epoch": 0.046948356807511735,
+      "grad_norm": NaN,
+      "learning_rate": 9.99931218784345e-05,
+      "loss": 0.0,
+      "step": 15
+    },
+    {
+      "epoch": 0.050078247261345854,
+      "grad_norm": NaN,
+      "learning_rate": 9.99900956048637e-05,
+      "loss": 0.0,
+      "step": 16
+    },
+    {
+      "epoch": 0.053208137715179966,
+      "grad_norm": NaN,
+      "learning_rate": 9.998651917845645e-05,
+      "loss": 0.0,
+      "step": 17
+    },
+    {
+      "epoch": 0.056338028169014086,
+      "grad_norm": NaN,
+      "learning_rate": 9.998239263857216e-05,
+      "loss": 0.0,
+      "step": 18
+    },
+    {
+      "epoch": 0.0594679186228482,
+      "grad_norm": NaN,
+      "learning_rate": 9.997771603062438e-05,
+      "loss": 0.0,
+      "step": 19
+    },
+    {
+      "epoch": 0.06259780907668232,
+      "grad_norm": NaN,
+      "learning_rate": 9.997248940608029e-05,
+      "loss": 0.0,
+      "step": 20
+    },
+    {
+      "epoch": 0.06572769953051644,
+      "grad_norm": NaN,
+      "learning_rate": 9.99667128224601e-05,
+      "loss": 0.0,
+      "step": 21
+    },
+    {
+      "epoch": 0.06885758998435054,
+      "grad_norm": NaN,
+      "learning_rate": 9.996038634333654e-05,
+      "loss": 0.0,
+      "step": 22
+    },
+    {
+      "epoch": 0.07198748043818466,
+      "grad_norm": NaN,
+      "learning_rate": 9.995351003833398e-05,
+      "loss": 0.0,
+      "step": 23
+    },
+    {
+      "epoch": 0.07511737089201878,
+      "grad_norm": NaN,
+      "learning_rate": 9.994608398312777e-05,
+      "loss": 0.0,
+      "step": 24
+    },
+    {
+      "epoch": 0.0782472613458529,
+      "grad_norm": NaN,
+      "learning_rate": 9.993810825944343e-05,
+      "loss": 0.0,
+      "step": 25
+    },
+    {
+      "epoch": 0.081377151799687,
+      "grad_norm": NaN,
+      "learning_rate": 9.992958295505567e-05,
+      "loss": 0.0,
+      "step": 26
+    },
+    {
+      "epoch": 0.08450704225352113,
+      "grad_norm": NaN,
+      "learning_rate": 9.992050816378749e-05,
+      "loss": 0.0,
+      "step": 27
+    },
+    {
+      "epoch": 0.08763693270735524,
+      "grad_norm": NaN,
+      "learning_rate": 9.991088398550913e-05,
+      "loss": 0.0,
+      "step": 28
+    },
+    {
+      "epoch": 0.09076682316118936,
+      "grad_norm": NaN,
+      "learning_rate": 9.990071052613693e-05,
+      "loss": 0.0,
+      "step": 29
+    },
+    {
+      "epoch": 0.09389671361502347,
+      "grad_norm": NaN,
+      "learning_rate": 9.988998789763222e-05,
+      "loss": 0.0,
+      "step": 30
+    },
+    {
+      "epoch": 0.09702660406885759,
+      "grad_norm": NaN,
+      "learning_rate": 9.987871621800006e-05,
+      "loss": 0.0,
+      "step": 31
+    },
+    {
+      "epoch": 0.10015649452269171,
+      "grad_norm": NaN,
+      "learning_rate": 9.986689561128798e-05,
+      "loss": 0.0,
+      "step": 32
+    },
+    {
+      "epoch": 0.10328638497652583,
+      "grad_norm": NaN,
+      "learning_rate": 9.985452620758453e-05,
+      "loss": 0.0,
+      "step": 33
+    },
+    {
+      "epoch": 0.10641627543035993,
+      "grad_norm": NaN,
+      "learning_rate": 9.984160814301794e-05,
+      "loss": 0.0,
+      "step": 34
+    },
+    {
+      "epoch": 0.10954616588419405,
+      "grad_norm": NaN,
+      "learning_rate": 9.982814155975455e-05,
+      "loss": 0.0,
+      "step": 35
+    },
+    {
+      "epoch": 0.11267605633802817,
+      "grad_norm": NaN,
+      "learning_rate": 9.981412660599732e-05,
+      "loss": 0.0,
+      "step": 36
+    },
+    {
+      "epoch": 0.11580594679186229,
+      "grad_norm": NaN,
+      "learning_rate": 9.979956343598413e-05,
+      "loss": 0.0,
+      "step": 37
+    },
+    {
+      "epoch": 0.1189358372456964,
+      "grad_norm": NaN,
+      "learning_rate": 9.97844522099861e-05,
+      "loss": 0.0,
+      "step": 38
+    },
+    {
+      "epoch": 0.12206572769953052,
+      "grad_norm": NaN,
+      "learning_rate": 9.976879309430586e-05,
+      "loss": 0.0,
+      "step": 39
+    },
+    {
+      "epoch": 0.12519561815336464,
+      "grad_norm": NaN,
+      "learning_rate": 9.975258626127568e-05,
+      "loss": 0.0,
+      "step": 40
+    },
+    {
+      "epoch": 0.12832550860719874,
+      "grad_norm": NaN,
+      "learning_rate": 9.97358318892556e-05,
+      "loss": 0.0,
+      "step": 41
+    },
+    {
+      "epoch": 0.13145539906103287,
+      "grad_norm": NaN,
+      "learning_rate": 9.971853016263143e-05,
+      "loss": 0.0,
+      "step": 42
+    },
+    {
+      "epoch": 0.13458528951486698,
+      "grad_norm": NaN,
+      "learning_rate": 9.97006812718128e-05,
+      "loss": 0.0,
+      "step": 43
+    },
+    {
+      "epoch": 0.13771517996870108,
+      "grad_norm": NaN,
+      "learning_rate": 9.968228541323094e-05,
+      "loss": 0.0,
+      "step": 44
+    },
+    {
+      "epoch": 0.14084507042253522,
+      "grad_norm": NaN,
+      "learning_rate": 9.96633427893367e-05,
+      "loss": 0.0,
+      "step": 45
+    },
+    {
+      "epoch": 0.14397496087636932,
+      "grad_norm": NaN,
+      "learning_rate": 9.964385360859805e-05,
+      "loss": 0.0,
+      "step": 46
+    },
+    {
+      "epoch": 0.14710485133020346,
+      "grad_norm": NaN,
+      "learning_rate": 9.962381808549807e-05,
+      "loss": 0.0,
+      "step": 47
+    },
+    {
+      "epoch": 0.15023474178403756,
+      "grad_norm": NaN,
+      "learning_rate": 9.960323644053248e-05,
+      "loss": 0.0,
+      "step": 48
+    },
+    {
+      "epoch": 0.15336463223787167,
+      "grad_norm": NaN,
+      "learning_rate": 9.95821089002071e-05,
+      "loss": 0.0,
+      "step": 49
+    },
+    {
+      "epoch": 0.1564945226917058,
+      "grad_norm": NaN,
+      "learning_rate": 9.956043569703553e-05,
+      "loss": 0.0,
+      "step": 50
+    },
+    {
+      "epoch": 0.1596244131455399,
+      "grad_norm": NaN,
+      "learning_rate": 9.953821706953651e-05,
+      "loss": 0.0,
+      "step": 51
+    },
+    {
+      "epoch": 0.162754303599374,
+      "grad_norm": NaN,
+      "learning_rate": 9.951545326223128e-05,
+      "loss": 0.0,
+      "step": 52
+    },
+    {
+      "epoch": 0.16588419405320814,
+      "grad_norm": NaN,
+      "learning_rate": 9.949214452564096e-05,
+      "loss": 0.0,
+      "step": 53
+    },
+    {
+      "epoch": 0.16901408450704225,
+      "grad_norm": NaN,
+      "learning_rate": 9.946829111628367e-05,
+      "loss": 0.0,
+      "step": 54
+    },
+    {
+      "epoch": 0.17214397496087636,
+      "grad_norm": NaN,
+      "learning_rate": 9.944389329667187e-05,
+      "loss": 0.0,
+      "step": 55
+    },
+    {
+      "epoch": 0.1752738654147105,
+      "grad_norm": NaN,
+      "learning_rate": 9.941895133530929e-05,
+      "loss": 0.0,
+      "step": 56
+    },
+    {
+      "epoch": 0.1784037558685446,
+      "grad_norm": NaN,
+      "learning_rate": 9.939346550668817e-05,
+      "loss": 0.0,
+      "step": 57
+    },
+    {
+      "epoch": 0.18153364632237873,
+      "grad_norm": NaN,
+      "learning_rate": 9.936743609128607e-05,
+      "loss": 0.0,
+      "step": 58
+    },
+    {
+      "epoch": 0.18466353677621283,
+      "grad_norm": NaN,
+      "learning_rate": 9.934086337556285e-05,
+      "loss": 0.0,
+      "step": 59
+    },
+    {
+      "epoch": 0.18779342723004694,
+      "grad_norm": NaN,
+      "learning_rate": 9.931374765195756e-05,
+      "loss": 0.0,
+      "step": 60
+    },
+    {
+      "epoch": 0.19092331768388107,
+      "grad_norm": NaN,
+      "learning_rate": 9.928608921888514e-05,
+      "loss": 0.0,
+      "step": 61
+    },
+    {
+      "epoch": 0.19405320813771518,
+      "grad_norm": NaN,
+      "learning_rate": 9.925788838073322e-05,
+      "loss": 0.0,
+      "step": 62
+    },
+    {
+      "epoch": 0.19718309859154928,
+      "grad_norm": NaN,
+      "learning_rate": 9.922914544785867e-05,
+      "loss": 0.0,
+      "step": 63
+    },
+    {
+      "epoch": 0.20031298904538342,
+      "grad_norm": NaN,
+      "learning_rate": 9.919986073658429e-05,
+      "loss": 0.0,
+      "step": 64
+    },
+    {
+      "epoch": 0.20344287949921752,
+      "grad_norm": NaN,
+      "learning_rate": 9.917003456919524e-05,
+      "loss": 0.0,
+      "step": 65
+    },
+    {
+      "epoch": 0.20657276995305165,
+      "grad_norm": NaN,
+      "learning_rate": 9.913966727393558e-05,
+      "loss": 0.0,
+      "step": 66
+    },
+    {
+      "epoch": 0.20970266040688576,
+      "grad_norm": NaN,
+      "learning_rate": 9.910875918500456e-05,
+      "loss": 0.0,
+      "step": 67
+    },
+    {
+      "epoch": 0.21283255086071987,
+      "grad_norm": NaN,
+      "learning_rate": 9.907731064255304e-05,
+      "loss": 0.0,
+      "step": 68
+    },
+    {
+      "epoch": 0.215962441314554,
+      "grad_norm": NaN,
+      "learning_rate": 9.904532199267966e-05,
+      "loss": 0.0,
+      "step": 69
+    },
+    {
+      "epoch": 0.2190923317683881,
+      "grad_norm": NaN,
+      "learning_rate": 9.901279358742706e-05,
+      "loss": 0.0,
+      "step": 70
+    },
+    {
+      "epoch": 0.2222222222222222,
+      "grad_norm": NaN,
+      "learning_rate": 9.897972578477809e-05,
+      "loss": 0.0,
+      "step": 71
+    },
+    {
+      "epoch": 0.22535211267605634,
+      "grad_norm": NaN,
+      "learning_rate": 9.894611894865171e-05,
+      "loss": 0.0,
+      "step": 72
+    },
+    {
+      "epoch": 0.22848200312989045,
+      "grad_norm": NaN,
+      "learning_rate": 9.891197344889913e-05,
+      "loss": 0.0,
+      "step": 73
+    },
+    {
+      "epoch": 0.23161189358372458,
+      "grad_norm": NaN,
+      "learning_rate": 9.887728966129963e-05,
+      "loss": 0.0,
+      "step": 74
+    },
+    {
+      "epoch": 0.2347417840375587,
+      "grad_norm": NaN,
+      "learning_rate": 9.884206796755654e-05,
+      "loss": 0.0,
+      "step": 75
+    },
+    {
+      "epoch": 0.2378716744913928,
+      "grad_norm": NaN,
+      "learning_rate": 9.880630875529291e-05,
+      "loss": 0.0,
+      "step": 76
+    },
+    {
+      "epoch": 0.24100156494522693,
+      "grad_norm": NaN,
+      "learning_rate": 9.877001241804735e-05,
+      "loss": 0.0,
+      "step": 77
+    },
+    {
+      "epoch": 0.24413145539906103,
+      "grad_norm": NaN,
+      "learning_rate": 9.873317935526963e-05,
+      "loss": 0.0,
+      "step": 78
+    },
+    {
+      "epoch": 0.24726134585289514,
+      "grad_norm": NaN,
+      "learning_rate": 9.869580997231634e-05,
+      "loss": 0.0,
+      "step": 79
+    },
+    {
+      "epoch": 0.25039123630672927,
+      "grad_norm": NaN,
+      "learning_rate": 9.865790468044637e-05,
+      "loss": 0.0,
+      "step": 80
+    },
+    {
+      "epoch": 0.2535211267605634,
+      "grad_norm": NaN,
+      "learning_rate": 9.861946389681645e-05,
+      "loss": 0.0,
+      "step": 81
+    },
+    {
+      "epoch": 0.2566510172143975,
+      "grad_norm": NaN,
+      "learning_rate": 9.85804880444765e-05,
+      "loss": 0.0,
+      "step": 82
+    },
+    {
+      "epoch": 0.2597809076682316,
+      "grad_norm": NaN,
+      "learning_rate": 9.854097755236499e-05,
+      "loss": 0.0,
+      "step": 83
+    },
+    {
+      "epoch": 0.26291079812206575,
+      "grad_norm": NaN,
+      "learning_rate": 9.850093285530424e-05,
+      "loss": 0.0,
+      "step": 84
+    },
+    {
+      "epoch": 0.26604068857589985,
+      "grad_norm": NaN,
+      "learning_rate": 9.846035439399564e-05,
+      "loss": 0.0,
+      "step": 85
+    },
+    {
+      "epoch": 0.26917057902973396,
+      "grad_norm": NaN,
+      "learning_rate": 9.841924261501474e-05,
+      "loss": 0.0,
+      "step": 86
+    },
+    {
+      "epoch": 0.27230046948356806,
+      "grad_norm": NaN,
+      "learning_rate": 9.837759797080641e-05,
+      "loss": 0.0,
+      "step": 87
+    },
+    {
+      "epoch": 0.27543035993740217,
+      "grad_norm": NaN,
+      "learning_rate": 9.833542091967982e-05,
+      "loss": 0.0,
+      "step": 88
+    },
+    {
+      "epoch": 0.27856025039123633,
+      "grad_norm": NaN,
+      "learning_rate": 9.82927119258034e-05,
+      "loss": 0.0,
+      "step": 89
+    },
+    {
+      "epoch": 0.28169014084507044,
+      "grad_norm": NaN,
+      "learning_rate": 9.824947145919974e-05,
+      "loss": 0.0,
+      "step": 90
+    },
+    {
+      "epoch": 0.28482003129890454,
+      "grad_norm": NaN,
+      "learning_rate": 9.820569999574041e-05,
+      "loss": 0.0,
+      "step": 91
+    },
+    {
+      "epoch": 0.28794992175273865,
+      "grad_norm": NaN,
+      "learning_rate": 9.816139801714073e-05,
+      "loss": 0.0,
+      "step": 92
+    },
+    {
+      "epoch": 0.29107981220657275,
+      "grad_norm": NaN,
+      "learning_rate": 9.811656601095446e-05,
+      "loss": 0.0,
+      "step": 93
+    },
+    {
+      "epoch": 0.2942097026604069,
+      "grad_norm": NaN,
+      "learning_rate": 9.807120447056844e-05,
+      "loss": 0.0,
+      "step": 94
+    },
+    {
+      "epoch": 0.297339593114241,
+      "grad_norm": NaN,
+      "learning_rate": 9.802531389519716e-05,
+      "loss": 0.0,
+      "step": 95
+    },
+    {
+      "epoch": 0.3004694835680751,
+      "grad_norm": NaN,
+      "learning_rate": 9.797889478987727e-05,
+      "loss": 0.0,
+      "step": 96
+    },
+    {
+      "epoch": 0.30359937402190923,
+      "grad_norm": NaN,
+      "learning_rate": 9.793194766546201e-05,
+      "loss": 0.0,
+      "step": 97
+    },
+    {
+      "epoch": 0.30672926447574334,
+      "grad_norm": NaN,
+      "learning_rate": 9.78844730386156e-05,
+      "loss": 0.0,
+      "step": 98
+    },
+    {
+      "epoch": 0.30985915492957744,
+      "grad_norm": NaN,
+      "learning_rate": 9.783647143180754e-05,
+      "loss": 0.0,
+      "step": 99
+    },
+    {
+      "epoch": 0.3129890453834116,
+      "grad_norm": NaN,
+      "learning_rate": 9.77879433733069e-05,
+      "loss": 0.0,
+      "step": 100
+    },
+    {
+      "epoch": 0.3161189358372457,
+      "grad_norm": NaN,
+      "learning_rate": 9.773888939717641e-05,
+      "loss": 0.0,
+      "step": 101
+    },
+    {
+      "epoch": 0.3192488262910798,
+      "grad_norm": NaN,
+      "learning_rate": 9.768931004326674e-05,
+      "loss": 0.0,
+      "step": 102
+    },
+    {
+      "epoch": 0.3223787167449139,
+      "grad_norm": NaN,
+      "learning_rate": 9.763920585721037e-05,
+      "loss": 0.0,
+      "step": 103
+    },
+    {
+      "epoch": 0.325508607198748,
+      "grad_norm": NaN,
+      "learning_rate": 9.758857739041575e-05,
+      "loss": 0.0,
+      "step": 104
+    },
+    {
+      "epoch": 0.3286384976525822,
+      "grad_norm": NaN,
+      "learning_rate": 9.753742520006117e-05,
+      "loss": 0.0,
+      "step": 105
+    },
+    {
+      "epoch": 0.3317683881064163,
+      "grad_norm": NaN,
+      "learning_rate": 9.748574984908854e-05,
+      "loss": 0.0,
+      "step": 106
+    },
+    {
+      "epoch": 0.3348982785602504,
+      "grad_norm": NaN,
+      "learning_rate": 9.743355190619737e-05,
+      "loss": 0.0,
+      "step": 107
+    },
+    {
+      "epoch": 0.3380281690140845,
+      "grad_norm": NaN,
+      "learning_rate": 9.738083194583836e-05,
+      "loss": 0.0,
+      "step": 108
+    },
+    {
+      "epoch": 0.3411580594679186,
+      "grad_norm": NaN,
+      "learning_rate": 9.732759054820718e-05,
+      "loss": 0.0,
+      "step": 109
+    },
+    {
+      "epoch": 0.3442879499217527,
+      "grad_norm": NaN,
+      "learning_rate": 9.727382829923797e-05,
+      "loss": 0.0,
+      "step": 110
+    },
+    {
+      "epoch": 0.3474178403755869,
+      "grad_norm": NaN,
+      "learning_rate": 9.721954579059705e-05,
+      "loss": 0.0,
+      "step": 111
+    },
+    {
+      "epoch": 0.350547730829421,
+      "grad_norm": NaN,
+      "learning_rate": 9.716474361967625e-05,
+      "loss": 0.0,
+      "step": 112
+    },
+    {
+      "epoch": 0.3536776212832551,
+      "grad_norm": NaN,
+      "learning_rate": 9.710942238958645e-05,
+      "loss": 0.0,
+      "step": 113
+    },
+    {
+      "epoch": 0.3568075117370892,
+      "grad_norm": NaN,
+      "learning_rate": 9.705358270915086e-05,
+      "loss": 0.0,
+      "step": 114
+    },
+    {
+      "epoch": 0.3599374021909233,
+      "grad_norm": NaN,
+      "learning_rate": 9.699722519289843e-05,
+      "loss": 0.0,
+      "step": 115
+    },
+    {
+      "epoch": 0.36306729264475746,
+      "grad_norm": NaN,
+      "learning_rate": 9.694035046105693e-05,
+      "loss": 0.0,
+      "step": 116
+    },
+    {
+      "epoch": 0.36619718309859156,
+      "grad_norm": NaN,
+      "learning_rate": 9.688295913954625e-05,
+      "loss": 0.0,
+      "step": 117
+    },
+    {
+      "epoch": 0.36932707355242567,
+      "grad_norm": NaN,
+      "learning_rate": 9.68250518599715e-05,
+      "loss": 0.0,
+      "step": 118
+    },
+    {
+      "epoch": 0.37245696400625977,
+      "grad_norm": NaN,
+      "learning_rate": 9.676662925961595e-05,
+      "loss": 0.0,
+      "step": 119
+    },
+    {
+      "epoch": 0.3755868544600939,
+      "grad_norm": NaN,
+      "learning_rate": 9.670769198143418e-05,
+      "loss": 0.0,
+      "step": 120
+    },
+    {
+      "epoch": 0.37871674491392804,
+      "grad_norm": NaN,
+      "learning_rate": 9.66482406740449e-05,
+      "loss": 0.0,
+      "step": 121
+    },
+    {
+      "epoch": 0.38184663536776214,
+      "grad_norm": NaN,
+      "learning_rate": 9.65882759917238e-05,
+      "loss": 0.0,
+      "step": 122
+    },
+    {
+      "epoch": 0.38497652582159625,
+      "grad_norm": NaN,
+      "learning_rate": 9.65277985943964e-05,
+      "loss": 0.0,
+      "step": 123
+    },
+    {
+      "epoch": 0.38810641627543035,
+      "grad_norm": NaN,
+      "learning_rate": 9.64668091476308e-05,
+      "loss": 0.0,
+      "step": 124
+    },
+    {
+      "epoch": 0.39123630672926446,
+      "grad_norm": NaN,
+      "learning_rate": 9.640530832263027e-05,
+      "loss": 0.0,
+      "step": 125
+    },
+    {
+      "epoch": 0.39436619718309857,
+      "grad_norm": NaN,
+      "learning_rate": 9.634329679622598e-05,
+      "loss": 0.0,
+      "step": 126
+    },
+    {
+      "epoch": 0.3974960876369327,
+      "grad_norm": NaN,
+      "learning_rate": 9.628077525086942e-05,
+      "loss": 0.0,
+      "step": 127
+    },
+    {
+      "epoch": 0.40062597809076683,
+      "grad_norm": NaN,
+      "learning_rate": 9.621774437462503e-05,
+      "loss": 0.0,
+      "step": 128
+    },
+    {
+      "epoch": 0.40375586854460094,
+      "grad_norm": NaN,
+      "learning_rate": 9.615420486116251e-05,
+      "loss": 0.0,
+      "step": 129
+    },
+    {
+      "epoch": 0.40688575899843504,
+      "grad_norm": NaN,
+      "learning_rate": 9.609015740974925e-05,
+      "loss": 0.0,
+      "step": 130
+    },
+    {
+      "epoch": 0.41001564945226915,
+      "grad_norm": NaN,
+      "learning_rate": 9.602560272524263e-05,
+      "loss": 0.0,
+      "step": 131
+    },
+    {
+      "epoch": 0.4131455399061033,
+      "grad_norm": NaN,
+      "learning_rate": 9.596054151808222e-05,
+      "loss": 0.0,
+      "step": 132
+    },
+    {
+      "epoch": 0.4162754303599374,
+      "grad_norm": NaN,
+      "learning_rate": 9.5894974504282e-05,
+      "loss": 0.0,
+      "step": 133
+    },
+    {
+      "epoch": 0.4194053208137715,
+      "grad_norm": NaN,
+      "learning_rate": 9.582890240542249e-05,
+      "loss": 0.0,
+      "step": 134
+    },
+    {
+      "epoch": 0.4225352112676056,
+      "grad_norm": NaN,
+      "learning_rate": 9.576232594864277e-05,
+      "loss": 0.0,
+      "step": 135
+    },
+    {
+      "epoch": 0.42566510172143973,
+      "grad_norm": NaN,
+      "learning_rate": 9.569524586663253e-05,
+      "loss": 0.0,
+      "step": 136
+    },
+    {
+      "epoch": 0.4287949921752739,
+      "grad_norm": NaN,
+      "learning_rate": 9.562766289762392e-05,
+      "loss": 0.0,
+      "step": 137
+    },
+    {
+      "epoch": 0.431924882629108,
+      "grad_norm": NaN,
+      "learning_rate": 9.555957778538354e-05,
+      "loss": 0.0,
+      "step": 138
+    },
+    {
+      "epoch": 0.4350547730829421,
+      "grad_norm": NaN,
+      "learning_rate": 9.549099127920414e-05,
+      "loss": 0.0,
+      "step": 139
+    },
+    {
+      "epoch": 0.4381846635367762,
+      "grad_norm": NaN,
+      "learning_rate": 9.542190413389649e-05,
+      "loss": 0.0,
+      "step": 140
+    },
+    {
+      "epoch": 0.4413145539906103,
+      "grad_norm": NaN,
+      "learning_rate": 9.535231710978097e-05,
+      "loss": 0.0,
+      "step": 141
+    },
+    {
+      "epoch": 0.4444444444444444,
+      "grad_norm": NaN,
+      "learning_rate": 9.528223097267924e-05,
+      "loss": 0.0,
+      "step": 142
+    },
+    {
+      "epoch": 0.4475743348982786,
+      "grad_norm": NaN,
+      "learning_rate": 9.521164649390585e-05,
+      "loss": 0.0,
+      "step": 143
+    },
+    {
+      "epoch": 0.4507042253521127,
+      "grad_norm": NaN,
+      "learning_rate": 9.514056445025967e-05,
+      "loss": 0.0,
+      "step": 144
+    },
+    {
+      "epoch": 0.4538341158059468,
+      "grad_norm": NaN,
+      "learning_rate": 9.506898562401545e-05,
+      "loss": 0.0,
+      "step": 145
+    },
+    {
+      "epoch": 0.4569640062597809,
+      "grad_norm": NaN,
+      "learning_rate": 9.499691080291511e-05,
+      "loss": 0.0,
+      "step": 146
+    },
+    {
+      "epoch": 0.460093896713615,
+      "grad_norm": NaN,
+      "learning_rate": 9.492434078015911e-05,
+      "loss": 0.0,
+      "step": 147
+    },
+    {
+      "epoch": 0.46322378716744916,
+      "grad_norm": NaN,
+      "learning_rate": 9.485127635439772e-05,
+      "loss": 0.0,
+      "step": 148
+    },
+    {
+      "epoch": 0.46635367762128327,
+      "grad_norm": NaN,
+      "learning_rate": 9.477771832972226e-05,
+      "loss": 0.0,
+      "step": 149
+    },
+    {
+      "epoch": 0.4694835680751174,
+      "grad_norm": NaN,
+      "learning_rate": 9.47036675156562e-05,
+      "loss": 0.0,
+      "step": 150
+    },
+    {
+      "epoch": 0.4726134585289515,
+      "grad_norm": NaN,
+      "learning_rate": 9.462912472714627e-05,
+      "loss": 0.0,
+      "step": 151
+    },
+    {
+      "epoch": 0.4757433489827856,
+      "grad_norm": NaN,
+      "learning_rate": 9.455409078455353e-05,
+      "loss": 0.0,
+      "step": 152
+    },
+    {
+      "epoch": 0.4788732394366197,
+      "grad_norm": NaN,
+      "learning_rate": 9.447856651364426e-05,
+      "loss": 0.0,
+      "step": 153
+    },
+    {
+      "epoch": 0.48200312989045385,
+      "grad_norm": NaN,
+      "learning_rate": 9.440255274558094e-05,
+      "loss": 0.0,
+      "step": 154
+    },
+    {
+      "epoch": 0.48513302034428796,
+      "grad_norm": NaN,
+      "learning_rate": 9.432605031691309e-05,
+      "loss": 0.0,
+      "step": 155
+    },
+    {
+      "epoch": 0.48826291079812206,
+      "grad_norm": NaN,
+      "learning_rate": 9.424906006956805e-05,
+      "loss": 0.0,
+      "step": 156
+    },
+    {
+      "epoch": 0.49139280125195617,
+      "grad_norm": NaN,
+      "learning_rate": 9.41715828508417e-05,
+      "loss": 0.0,
+      "step": 157
+    },
+    {
+      "epoch": 0.4945226917057903,
+      "grad_norm": NaN,
+      "learning_rate": 9.40936195133892e-05,
+      "loss": 0.0,
+      "step": 158
+    },
+    {
+      "epoch": 0.49765258215962443,
+      "grad_norm": NaN,
+      "learning_rate": 9.401517091521553e-05,
+      "loss": 0.0,
+      "step": 159
+    },
+    {
+      "epoch": 0.5007824726134585,
+      "grad_norm": NaN,
+      "learning_rate": 9.393623791966607e-05,
+      "loss": 0.0,
+      "step": 160
+    },
+    {
+      "epoch": 0.5039123630672926,
+      "grad_norm": NaN,
+      "learning_rate": 9.385682139541713e-05,
+      "loss": 0.0,
+      "step": 161
+    },
+    {
+      "epoch": 0.5070422535211268,
+      "grad_norm": NaN,
+      "learning_rate": 9.377692221646635e-05,
+      "loss": 0.0,
+      "step": 162
+    },
+    {
+      "epoch": 0.5101721439749609,
+      "grad_norm": NaN,
+      "learning_rate": 9.369654126212313e-05,
+      "loss": 0.0,
+      "step": 163
+    },
+    {
+      "epoch": 0.513302034428795,
+      "grad_norm": NaN,
+      "learning_rate": 9.361567941699889e-05,
+      "loss": 0.0,
+      "step": 164
+    },
+    {
+      "epoch": 0.5164319248826291,
+      "grad_norm": NaN,
+      "learning_rate": 9.353433757099736e-05,
+      "loss": 0.0,
+      "step": 165
+    },
+    {
+      "epoch": 0.5195618153364632,
+      "grad_norm": NaN,
+      "learning_rate": 9.345251661930486e-05,
+      "loss": 0.0,
+      "step": 166
+    },
+    {
+      "epoch": 0.5226917057902973,
+      "grad_norm": NaN,
+      "learning_rate": 9.337021746238028e-05,
+      "loss": 0.0,
+      "step": 167
+    },
+    {
+      "epoch": 0.5258215962441315,
+      "grad_norm": NaN,
+      "learning_rate": 9.328744100594535e-05,
+      "loss": 0.0,
+      "step": 168
+    },
+    {
+      "epoch": 0.5289514866979655,
+      "grad_norm": NaN,
+      "learning_rate": 9.320418816097456e-05,
+      "loss": 0.0,
+      "step": 169
+    },
+    {
+      "epoch": 0.5320813771517997,
+      "grad_norm": NaN,
+      "learning_rate": 9.31204598436852e-05,
+      "loss": 0.0,
+      "step": 170
+    },
+    {
+      "epoch": 0.5352112676056338,
+      "grad_norm": NaN,
+      "learning_rate": 9.303625697552721e-05,
+      "loss": 0.0,
+      "step": 171
+    },
+    {
+      "epoch": 0.5383411580594679,
+      "grad_norm": NaN,
+      "learning_rate": 9.295158048317307e-05,
+      "loss": 0.0,
+      "step": 172
+    },
+    {
+      "epoch": 0.5414710485133021,
+      "grad_norm": NaN,
+      "learning_rate": 9.286643129850765e-05,
+      "loss": 0.0,
+      "step": 173
+    },
+    {
+      "epoch": 0.5446009389671361,
+      "grad_norm": NaN,
+      "learning_rate": 9.278081035861787e-05,
+      "loss": 0.0,
+      "step": 174
+    },
+    {
+      "epoch": 0.5477308294209703,
+      "grad_norm": NaN,
+      "learning_rate": 9.269471860578245e-05,
+      "loss": 0.0,
+      "step": 175
+    },
+    {
+      "epoch": 0.5508607198748043,
+      "grad_norm": NaN,
+      "learning_rate": 9.26081569874615e-05,
+      "loss": 0.0,
+      "step": 176
+    },
+    {
+      "epoch": 0.5539906103286385,
+      "grad_norm": NaN,
+      "learning_rate": 9.252112645628615e-05,
+      "loss": 0.0,
+      "step": 177
+    },
+    {
+      "epoch": 0.5571205007824727,
+      "grad_norm": NaN,
+      "learning_rate": 9.243362797004795e-05,
+      "loss": 0.0,
+      "step": 178
+    },
+    {
+      "epoch": 0.5602503912363067,
+      "grad_norm": NaN,
+      "learning_rate": 9.23456624916885e-05,
+      "loss": 0.0,
+      "step": 179
+    },
+    {
+      "epoch": 0.5633802816901409,
+      "grad_norm": NaN,
+      "learning_rate": 9.225723098928869e-05,
+      "loss": 0.0,
+      "step": 180
+    },
+    {
+      "epoch": 0.5665101721439749,
+      "grad_norm": NaN,
+      "learning_rate": 9.216833443605814e-05,
+      "loss": 0.0,
+      "step": 181
+    },
+    {
+      "epoch": 0.5696400625978091,
+      "grad_norm": NaN,
+      "learning_rate": 9.207897381032449e-05,
+      "loss": 0.0,
+      "step": 182
+    },
+    {
+      "epoch": 0.5727699530516432,
+      "grad_norm": NaN,
+      "learning_rate": 9.198915009552253e-05,
+      "loss": 0.0,
+      "step": 183
+    },
+    {
+      "epoch": 0.5758998435054773,
+      "grad_norm": NaN,
+      "learning_rate": 9.189886428018355e-05,
+      "loss": 0.0,
+      "step": 184
+    },
+    {
+      "epoch": 0.5790297339593115,
+      "grad_norm": NaN,
+      "learning_rate": 9.180811735792431e-05,
+      "loss": 0.0,
+      "step": 185
+    },
+    {
+      "epoch": 0.5821596244131455,
+      "grad_norm": NaN,
+      "learning_rate": 9.171691032743615e-05,
+      "loss": 0.0,
+      "step": 186
+    },
+    {
+      "epoch": 0.5852895148669797,
+      "grad_norm": NaN,
+      "learning_rate": 9.162524419247407e-05,
+      "loss": 0.0,
+      "step": 187
+    },
+    {
+      "epoch": 0.5884194053208138,
+      "grad_norm": NaN,
+      "learning_rate": 9.153311996184557e-05,
+      "loss": 0.0,
+      "step": 188
+    },
+    {
+      "epoch": 0.5915492957746479,
+      "grad_norm": NaN,
+      "learning_rate": 9.144053864939958e-05,
+      "loss": 0.0,
+      "step": 189
+    },
+    {
+      "epoch": 0.594679186228482,
+      "grad_norm": NaN,
+      "learning_rate": 9.134750127401544e-05,
+      "loss": 0.0,
+      "step": 190
+    },
+    {
+      "epoch": 0.5978090766823161,
+      "grad_norm": NaN,
+      "learning_rate": 9.125400885959141e-05,
+      "loss": 0.0,
+      "step": 191
+    },
+    {
+      "epoch": 0.6009389671361502,
+      "grad_norm": NaN,
+      "learning_rate": 9.11600624350337e-05,
+      "loss": 0.0,
+      "step": 192
+    },
+    {
+      "epoch": 0.6040688575899843,
+      "grad_norm": NaN,
+      "learning_rate": 9.106566303424492e-05,
+      "loss": 0.0,
+      "step": 193
+    },
+    {
+      "epoch": 0.6071987480438185,
+      "grad_norm": NaN,
+      "learning_rate": 9.097081169611283e-05,
+      "loss": 0.0,
+      "step": 194
+    },
+    {
+      "epoch": 0.6103286384976526,
+      "grad_norm": NaN,
+      "learning_rate": 9.087550946449888e-05,
+      "loss": 0.0,
+      "step": 195
+    },
+    {
+      "epoch": 0.6134585289514867,
+      "grad_norm": NaN,
+      "learning_rate": 9.077975738822666e-05,
+      "loss": 0.0,
+      "step": 196
+    },
+    {
+      "epoch": 0.6165884194053208,
+      "grad_norm": NaN,
+      "learning_rate": 9.068355652107045e-05,
+      "loss": 0.0,
+      "step": 197
+    },
+    {
+      "epoch": 0.6197183098591549,
+      "grad_norm": NaN,
+      "learning_rate": 9.058690792174358e-05,
+      "loss": 0.0,
+      "step": 198
+    },
+    {
+      "epoch": 0.622848200312989,
+      "grad_norm": NaN,
+      "learning_rate": 9.048981265388676e-05,
+      "loss": 0.0,
+      "step": 199
+    },
+    {
+      "epoch": 0.6259780907668232,
+      "grad_norm": NaN,
+      "learning_rate": 9.039227178605639e-05,
+      "loss": 0.0,
+      "step": 200
+    },
+    {
+      "epoch": 0.6291079812206573,
+      "grad_norm": NaN,
+      "learning_rate": 9.029428639171281e-05,
+      "loss": 0.0,
+      "step": 201
+    },
+    {
+      "epoch": 0.6322378716744914,
+      "grad_norm": NaN,
+      "learning_rate": 9.019585754920847e-05,
+      "loss": 0.0,
+      "step": 202
+    },
+    {
+      "epoch": 0.6353677621283255,
+      "grad_norm": NaN,
+      "learning_rate": 9.009698634177613e-05,
+      "loss": 0.0,
+      "step": 203
+    },
+    {
+      "epoch": 0.6384976525821596,
+      "grad_norm": NaN,
+      "learning_rate": 8.999767385751678e-05,
+      "loss": 0.0,
+      "step": 204
+    },
+    {
+      "epoch": 0.6416275430359938,
+      "grad_norm": NaN,
+      "learning_rate": 8.989792118938784e-05,
+      "loss": 0.0,
+      "step": 205
+    },
+    {
+      "epoch": 0.6447574334898278,
+      "grad_norm": NaN,
+      "learning_rate": 8.979772943519106e-05,
+      "loss": 0.0,
+      "step": 206
+    },
+    {
+      "epoch": 0.647887323943662,
+      "grad_norm": NaN,
+      "learning_rate": 8.96970996975604e-05,
+      "loss": 0.0,
+      "step": 207
+    },
+    {
+      "epoch": 0.651017214397496,
+      "grad_norm": NaN,
+      "learning_rate": 8.959603308394991e-05,
+      "loss": 0.0,
+      "step": 208
+    },
+    {
+      "epoch": 0.6541471048513302,
+      "grad_norm": NaN,
+      "learning_rate": 8.949453070662165e-05,
+      "loss": 0.0,
+      "step": 209
+    },
+    {
+      "epoch": 0.6572769953051644,
+      "grad_norm": NaN,
+      "learning_rate": 8.939259368263329e-05,
+      "loss": 0.0,
+      "step": 210
+    },
+    {
+      "epoch": 0.6604068857589984,
+      "grad_norm": NaN,
+      "learning_rate": 8.929022313382589e-05,
+      "loss": 0.0,
+      "step": 211
+    },
+    {
+      "epoch": 0.6635367762128326,
+      "grad_norm": NaN,
+      "learning_rate": 8.918742018681161e-05,
+      "loss": 0.0,
+      "step": 212
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": NaN,
+      "learning_rate": 8.90841859729612e-05,
+      "loss": 0.0,
+      "step": 213
+    },
+    {
+      "epoch": 0.6697965571205008,
+      "grad_norm": NaN,
+      "learning_rate": 8.898052162839162e-05,
+      "loss": 0.0,
+      "step": 214
+    },
+    {
+      "epoch": 0.672926447574335,
+      "grad_norm": NaN,
+      "learning_rate": 8.887642829395353e-05,
+      "loss": 0.0,
+      "step": 215
+    },
+    {
+      "epoch": 0.676056338028169,
+      "grad_norm": NaN,
+      "learning_rate": 8.877190711521872e-05,
+      "loss": 0.0,
+      "step": 216
+    },
+    {
+      "epoch": 0.6791862284820032,
+      "grad_norm": NaN,
+      "learning_rate": 8.86669592424675e-05,
+      "loss": 0.0,
+      "step": 217
+    },
+    {
+      "epoch": 0.6823161189358372,
+      "grad_norm": NaN,
+      "learning_rate": 8.856158583067607e-05,
+      "loss": 0.0,
+      "step": 218
+    },
+    {
+      "epoch": 0.6854460093896714,
+      "grad_norm": NaN,
+      "learning_rate": 8.845578803950373e-05,
+      "loss": 0.0,
+      "step": 219
+    },
+    {
+      "epoch": 0.6885758998435054,
+      "grad_norm": NaN,
+      "learning_rate": 8.834956703328026e-05,
+      "loss": 0.0,
+      "step": 220
+    },
+    {
+      "epoch": 0.6917057902973396,
+      "grad_norm": NaN,
+      "learning_rate": 8.824292398099298e-05,
+      "loss": 0.0,
+      "step": 221
+    },
+    {
+      "epoch": 0.6948356807511737,
+      "grad_norm": NaN,
+      "learning_rate": 8.813586005627389e-05,
+      "loss": 0.0,
+      "step": 222
+    },
+    {
+      "epoch": 0.6979655712050078,
+      "grad_norm": NaN,
+      "learning_rate": 8.802837643738686e-05,
+      "loss": 0.0,
+      "step": 223
+    },
+    {
+      "epoch": 0.701095461658842,
+      "grad_norm": NaN,
+      "learning_rate": 8.792047430721456e-05,
+      "loss": 0.0,
+      "step": 224
+    },
+    {
+      "epoch": 0.704225352112676,
+      "grad_norm": NaN,
+      "learning_rate": 8.781215485324544e-05,
+      "loss": 0.0,
+      "step": 225
+    },
+    {
+      "epoch": 0.7073552425665102,
+      "grad_norm": NaN,
+      "learning_rate": 8.770341926756078e-05,
+      "loss": 0.0,
+      "step": 226
+    },
+    {
+      "epoch": 0.7104851330203443,
+      "grad_norm": NaN,
+      "learning_rate": 8.759426874682142e-05,
+      "loss": 0.0,
+      "step": 227
+    },
+    {
+      "epoch": 0.7136150234741784,
+      "grad_norm": NaN,
+      "learning_rate": 8.748470449225467e-05,
+      "loss": 0.0,
+      "step": 228
+    },
+    {
+      "epoch": 0.7167449139280125,
+      "grad_norm": NaN,
+      "learning_rate": 8.737472770964112e-05,
+      "loss": 0.0,
+      "step": 229
+    },
+    {
+      "epoch": 0.7198748043818466,
+      "grad_norm": NaN,
+      "learning_rate": 8.726433960930126e-05,
+      "loss": 0.0,
+      "step": 230
+    },
+    {
+      "epoch": 0.7230046948356808,
+      "grad_norm": NaN,
+      "learning_rate": 8.715354140608229e-05,
+      "loss": 0.0,
+      "step": 231
+    },
+    {
+      "epoch": 0.7261345852895149,
+      "grad_norm": NaN,
+      "learning_rate": 8.704233431934468e-05,
+      "loss": 0.0,
+      "step": 232
+    },
+    {
+      "epoch": 0.729264475743349,
+      "grad_norm": NaN,
+      "learning_rate": 8.693071957294871e-05,
+      "loss": 0.0,
+      "step": 233
+    },
+    {
+      "epoch": 0.7323943661971831,
+      "grad_norm": NaN,
+      "learning_rate": 8.68186983952411e-05,
+      "loss": 0.0,
+      "step": 234
+    },
+    {
+      "epoch": 0.7355242566510172,
+      "grad_norm": NaN,
+      "learning_rate": 8.670627201904144e-05,
+      "loss": 0.0,
+      "step": 235
+    },
+    {
+      "epoch": 0.7386541471048513,
+      "grad_norm": NaN,
+      "learning_rate": 8.659344168162861e-05,
+      "loss": 0.0,
+      "step": 236
+    },
+    {
+      "epoch": 0.7417840375586855,
+      "grad_norm": NaN,
+      "learning_rate": 8.64802086247272e-05,
+      "loss": 0.0,
+      "step": 237
+    },
+    {
+      "epoch": 0.7449139280125195,
+      "grad_norm": NaN,
+      "learning_rate": 8.636657409449378e-05,
+      "loss": 0.0,
+      "step": 238
+    },
+    {
+      "epoch": 0.7480438184663537,
+      "grad_norm": NaN,
+      "learning_rate": 8.625253934150328e-05,
+      "loss": 0.0,
+      "step": 239
+    },
+    {
+      "epoch": 0.7511737089201878,
+      "grad_norm": NaN,
+      "learning_rate": 8.613810562073512e-05,
+      "loss": 0.0,
+      "step": 240
+    },
+    {
+      "epoch": 0.7543035993740219,
+      "grad_norm": NaN,
+      "learning_rate": 8.602327419155951e-05,
+      "loss": 0.0,
+      "step": 241
+    },
+    {
+      "epoch": 0.7574334898278561,
+      "grad_norm": NaN,
+      "learning_rate": 8.590804631772352e-05,
+      "loss": 0.0,
+      "step": 242
+    },
+    {
+      "epoch": 0.7605633802816901,
+      "grad_norm": NaN,
+      "learning_rate": 8.579242326733716e-05,
+      "loss": 0.0,
+      "step": 243
+    },
+    {
+      "epoch": 0.7636932707355243,
+      "grad_norm": NaN,
+      "learning_rate": 8.56764063128595e-05,
+      "loss": 0.0,
+      "step": 244
+    },
+    {
+      "epoch": 0.7668231611893583,
+      "grad_norm": NaN,
+      "learning_rate": 8.555999673108455e-05,
+      "loss": 0.0,
+      "step": 245
+    },
+    {
+      "epoch": 0.7699530516431925,
+      "grad_norm": NaN,
+      "learning_rate": 8.544319580312734e-05,
+      "loss": 0.0,
+      "step": 246
+    },
+    {
+      "epoch": 0.7730829420970265,
+      "grad_norm": NaN,
+      "learning_rate": 8.532600481440974e-05,
+      "loss": 0.0,
+      "step": 247
+    },
+    {
+      "epoch": 0.7762128325508607,
+      "grad_norm": NaN,
+      "learning_rate": 8.52084250546463e-05,
+      "loss": 0.0,
+      "step": 248
+    },
+    {
+      "epoch": 0.7793427230046949,
+      "grad_norm": NaN,
+      "learning_rate": 8.509045781783011e-05,
+      "loss": 0.0,
+      "step": 249
+    },
+    {
+      "epoch": 0.7824726134585289,
+      "grad_norm": NaN,
+      "learning_rate": 8.497210440221857e-05,
+      "loss": 0.0,
+      "step": 250
+    },
+    {
+      "epoch": 0.7856025039123631,
+      "grad_norm": NaN,
+      "learning_rate": 8.485336611031902e-05,
+      "loss": 0.0,
+      "step": 251
+    },
+    {
+      "epoch": 0.7887323943661971,
+      "grad_norm": NaN,
+      "learning_rate": 8.473424424887447e-05,
+      "loss": 0.0,
+      "step": 252
+    },
+    {
+      "epoch": 0.7918622848200313,
+      "grad_norm": NaN,
+      "learning_rate": 8.46147401288492e-05,
+      "loss": 0.0,
+      "step": 253
+    },
+    {
+      "epoch": 0.7949921752738655,
+      "grad_norm": NaN,
+      "learning_rate": 8.449485506541434e-05,
+      "loss": 0.0,
+      "step": 254
+    },
+    {
+      "epoch": 0.7981220657276995,
+      "grad_norm": NaN,
+      "learning_rate": 8.437459037793342e-05,
+      "loss": 0.0,
+      "step": 255
+    },
+    {
+      "epoch": 0.8012519561815337,
+      "grad_norm": NaN,
+      "learning_rate": 8.425394738994776e-05,
+      "loss": 0.0,
+      "step": 256
+    },
+    {
+      "epoch": 0.8043818466353677,
+      "grad_norm": NaN,
+      "learning_rate": 8.413292742916203e-05,
+      "loss": 0.0,
+      "step": 257
+    },
+    {
+      "epoch": 0.8075117370892019,
+      "grad_norm": NaN,
+      "learning_rate": 8.401153182742954e-05,
+      "loss": 0.0,
+      "step": 258
+    },
+    {
+      "epoch": 0.810641627543036,
+      "grad_norm": NaN,
+      "learning_rate": 8.388976192073761e-05,
+      "loss": 0.0,
+      "step": 259
+    },
+    {
+      "epoch": 0.8137715179968701,
+      "grad_norm": NaN,
+      "learning_rate": 8.376761904919293e-05,
+      "loss": 0.0,
+      "step": 260
+    },
+    {
+      "epoch": 0.8169014084507042,
+      "grad_norm": NaN,
+      "learning_rate": 8.364510455700666e-05,
+      "loss": 0.0,
+      "step": 261
+    },
+    {
+      "epoch": 0.8200312989045383,
+      "grad_norm": NaN,
+      "learning_rate": 8.352221979247983e-05,
+      "loss": 0.0,
+      "step": 262
+    },
+    {
+      "epoch": 0.8231611893583725,
+      "grad_norm": NaN,
+      "learning_rate": 8.339896610798836e-05,
+      "loss": 0.0,
+      "step": 263
+    },
+    {
+      "epoch": 0.8262910798122066,
+      "grad_norm": NaN,
+      "learning_rate": 8.327534485996822e-05,
+      "loss": 0.0,
+      "step": 264
+    },
+    {
+      "epoch": 0.8294209702660407,
+      "grad_norm": NaN,
+      "learning_rate": 8.315135740890052e-05,
+      "loss": 0.0,
+      "step": 265
+    },
+    {
+      "epoch": 0.8325508607198748,
+      "grad_norm": NaN,
+      "learning_rate": 8.302700511929648e-05,
+      "loss": 0.0,
+      "step": 266
+    },
+    {
+      "epoch": 0.8356807511737089,
+      "grad_norm": NaN,
+      "learning_rate": 8.290228935968252e-05,
+      "loss": 0.0,
+      "step": 267
+    },
+    {
+      "epoch": 0.838810641627543,
+      "grad_norm": NaN,
+      "learning_rate": 8.277721150258508e-05,
+      "loss": 0.0,
+      "step": 268
+    },
+    {
+      "epoch": 0.8419405320813772,
+      "grad_norm": NaN,
+      "learning_rate": 8.265177292451562e-05,
+      "loss": 0.0,
+      "step": 269
+    },
+    {
+      "epoch": 0.8450704225352113,
+      "grad_norm": NaN,
+      "learning_rate": 8.252597500595534e-05,
+      "loss": 0.0,
+      "step": 270
+    },
+    {
+      "epoch": 0.8482003129890454,
+      "grad_norm": NaN,
+      "learning_rate": 8.239981913134012e-05,
+      "loss": 0.0,
+      "step": 271
+    },
+    {
+      "epoch": 0.8513302034428795,
+      "grad_norm": NaN,
+      "learning_rate": 8.227330668904527e-05,
+      "loss": 0.0,
+      "step": 272
+    },
+    {
+      "epoch": 0.8544600938967136,
+      "grad_norm": NaN,
+      "learning_rate": 8.214643907137012e-05,
+      "loss": 0.0,
+      "step": 273
+    },
+    {
+      "epoch": 0.8575899843505478,
+      "grad_norm": NaN,
+      "learning_rate": 8.201921767452286e-05,
+      "loss": 0.0,
+      "step": 274
+    },
+    {
+      "epoch": 0.8607198748043818,
+      "grad_norm": NaN,
+      "learning_rate": 8.189164389860507e-05,
+      "loss": 0.0,
+      "step": 275
+    },
+    {
+      "epoch": 0.863849765258216,
+      "grad_norm": NaN,
+      "learning_rate": 8.176371914759635e-05,
+      "loss": 0.0,
+      "step": 276
+    },
+    {
+      "epoch": 0.86697965571205,
+      "grad_norm": NaN,
+      "learning_rate": 8.163544482933888e-05,
+      "loss": 0.0,
+      "step": 277
+    },
+    {
+      "epoch": 0.8701095461658842,
+      "grad_norm": NaN,
+      "learning_rate": 8.150682235552191e-05,
+      "loss": 0.0,
+      "step": 278
+    },
+    {
+      "epoch": 0.8732394366197183,
+      "grad_norm": NaN,
+      "learning_rate": 8.137785314166619e-05,
+      "loss": 0.0,
+      "step": 279
+    },
+    {
+      "epoch": 0.8763693270735524,
+      "grad_norm": NaN,
+      "learning_rate": 8.124853860710846e-05,
+      "loss": 0.0,
+      "step": 280
+    },
+    {
+      "epoch": 0.8794992175273866,
+      "grad_norm": NaN,
+      "learning_rate": 8.111888017498578e-05,
+      "loss": 0.0,
+      "step": 281
+    },
+    {
+      "epoch": 0.8826291079812206,
+      "grad_norm": NaN,
+      "learning_rate": 8.098887927221993e-05,
+      "loss": 0.0,
+      "step": 282
+    },
+    {
+      "epoch": 0.8857589984350548,
+      "grad_norm": NaN,
+      "learning_rate": 8.085853732950155e-05,
+      "loss": 0.0,
+      "step": 283
+    },
+    {
+      "epoch": 0.8888888888888888,
+      "grad_norm": NaN,
+      "learning_rate": 8.072785578127462e-05,
+      "loss": 0.0,
+      "step": 284
+    },
+    {
+      "epoch": 0.892018779342723,
+      "grad_norm": NaN,
+      "learning_rate": 8.059683606572053e-05,
+      "loss": 0.0,
+      "step": 285
+    },
+    {
+      "epoch": 0.8951486697965572,
+      "grad_norm": NaN,
+      "learning_rate": 8.046547962474221e-05,
+      "loss": 0.0,
+      "step": 286
+    },
+    {
+      "epoch": 0.8982785602503912,
+      "grad_norm": NaN,
+      "learning_rate": 8.033378790394843e-05,
+      "loss": 0.0,
+      "step": 287
+    },
+    {
+      "epoch": 0.9014084507042254,
+      "grad_norm": NaN,
+      "learning_rate": 8.020176235263776e-05,
+      "loss": 0.0,
+      "step": 288
+    },
+    {
+      "epoch": 0.9045383411580594,
+      "grad_norm": NaN,
+      "learning_rate": 8.006940442378264e-05,
+      "loss": 0.0,
+      "step": 289
+    },
+    {
+      "epoch": 0.9076682316118936,
+      "grad_norm": NaN,
+      "learning_rate": 7.993671557401339e-05,
+      "loss": 0.0,
+      "step": 290
+    },
+    {
+      "epoch": 0.9107981220657277,
+      "grad_norm": NaN,
+      "learning_rate": 7.980369726360224e-05,
+      "loss": 0.0,
+      "step": 291
+    },
+    {
+      "epoch": 0.9139280125195618,
+      "grad_norm": NaN,
+      "learning_rate": 7.967035095644716e-05,
+      "loss": 0.0,
+      "step": 292
+    },
+    {
+      "epoch": 0.917057902973396,
+      "grad_norm": NaN,
+      "learning_rate": 7.953667812005584e-05,
+      "loss": 0.0,
+      "step": 293
+    },
+    {
+      "epoch": 0.92018779342723,
+      "grad_norm": NaN,
+      "learning_rate": 7.94026802255295e-05,
+      "loss": 0.0,
+      "step": 294
+    },
+    {
+      "epoch": 0.9233176838810642,
+      "grad_norm": NaN,
+      "learning_rate": 7.926835874754668e-05,
+      "loss": 0.0,
+      "step": 295
+    },
+    {
+      "epoch": 0.9264475743348983,
+      "grad_norm": NaN,
+      "learning_rate": 7.913371516434704e-05,
+      "loss": 0.0,
+      "step": 296
+    },
+    {
+      "epoch": 0.9295774647887324,
+      "grad_norm": NaN,
+      "learning_rate": 7.89987509577151e-05,
+      "loss": 0.0,
+      "step": 297
+    },
+    {
+      "epoch": 0.9327073552425665,
+      "grad_norm": NaN,
+      "learning_rate": 7.886346761296389e-05,
+      "loss": 0.0,
+      "step": 298
+    },
+    {
+      "epoch": 0.9358372456964006,
+      "grad_norm": NaN,
+      "learning_rate": 7.872786661891866e-05,
+      "loss": 0.0,
+      "step": 299
+    },
+    {
+      "epoch": 0.9389671361502347,
+      "grad_norm": NaN,
+      "learning_rate": 7.859194946790043e-05,
+      "loss": 0.0,
+      "step": 300
+    },
+    {
+      "epoch": 0.9420970266040689,
+      "grad_norm": NaN,
+      "learning_rate": 7.845571765570966e-05,
+      "loss": 0.0,
+      "step": 301
+    },
+    {
+      "epoch": 0.945226917057903,
+      "grad_norm": NaN,
+      "learning_rate": 7.831917268160966e-05,
+      "loss": 0.0,
+      "step": 302
+    },
+    {
+      "epoch": 0.9483568075117371,
+      "grad_norm": NaN,
+      "learning_rate": 7.81823160483102e-05,
+      "loss": 0.0,
+      "step": 303
+    },
+    {
+      "epoch": 0.9514866979655712,
+      "grad_norm": NaN,
+      "learning_rate": 7.804514926195093e-05,
+      "loss": 0.0,
+      "step": 304
+    },
+    {
+      "epoch": 0.9546165884194053,
+      "grad_norm": NaN,
+      "learning_rate": 7.790767383208481e-05,
+      "loss": 0.0,
+      "step": 305
+    },
+    {
+      "epoch": 0.9577464788732394,
+      "grad_norm": NaN,
+      "learning_rate": 7.77698912716615e-05,
+      "loss": 0.0,
+      "step": 306
+    },
+    {
+      "epoch": 0.9608763693270735,
+      "grad_norm": NaN,
+      "learning_rate": 7.763180309701068e-05,
+      "loss": 0.0,
+      "step": 307
+    },
+    {
+      "epoch": 0.9640062597809077,
+      "grad_norm": NaN,
+      "learning_rate": 7.74934108278254e-05,
+      "loss": 0.0,
+      "step": 308
+    },
+    {
+      "epoch": 0.9671361502347418,
+      "grad_norm": NaN,
+      "learning_rate": 7.735471598714535e-05,
+      "loss": 0.0,
+      "step": 309
+    },
+    {
+      "epoch": 0.9702660406885759,
+      "grad_norm": NaN,
+      "learning_rate": 7.72157201013401e-05,
+      "loss": 0.0,
+      "step": 310
+    },
+    {
+      "epoch": 0.97339593114241,
+      "grad_norm": NaN,
+      "learning_rate": 7.707642470009227e-05,
+      "loss": 0.0,
+      "step": 311
+    },
+    {
+      "epoch": 0.9765258215962441,
+      "grad_norm": NaN,
+      "learning_rate": 7.69368313163807e-05,
+      "loss": 0.0,
+      "step": 312
+    },
+    {
+      "epoch": 0.9796557120500783,
+      "grad_norm": NaN,
+      "learning_rate": 7.679694148646366e-05,
+      "loss": 0.0,
+      "step": 313
+    },
+    {
+      "epoch": 0.9827856025039123,
+      "grad_norm": NaN,
+      "learning_rate": 7.665675674986181e-05,
+      "loss": 0.0,
+      "step": 314
+    },
+    {
+      "epoch": 0.9859154929577465,
+      "grad_norm": NaN,
+      "learning_rate": 7.65162786493414e-05,
+      "loss": 0.0,
+      "step": 315
+    },
+    {
+      "epoch": 0.9890453834115805,
+      "grad_norm": NaN,
+      "learning_rate": 7.637550873089718e-05,
+      "loss": 0.0,
+      "step": 316
+    },
+    {
+      "epoch": 0.9921752738654147,
+      "grad_norm": NaN,
+      "learning_rate": 7.623444854373539e-05,
+      "loss": 0.0,
+      "step": 317
+    },
+    {
+      "epoch": 0.9953051643192489,
+      "grad_norm": NaN,
+      "learning_rate": 7.609309964025681e-05,
+      "loss": 0.0,
+      "step": 318
+    },
+    {
+      "epoch": 0.9984350547730829,
+      "grad_norm": NaN,
+      "learning_rate": 7.595146357603958e-05,
+      "loss": 0.0,
+      "step": 319
+    },
+    {
+      "epoch": 0.9984350547730829,
+      "eval_loss": NaN,
+      "eval_runtime": 15.1685,
+      "eval_samples_per_second": 35.534,
+      "eval_steps_per_second": 8.9,
+      "step": 319
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 957,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 8.462218863889613e+16,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

last-checkpoint/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f7e1e04d467ca1f3be5d8b54c0c9dcab76f3a1464f686b67b8fd9104287d7c22
+size 6776

last-checkpoint/vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff