ryanhe commited on Nov 1, 2024

Commit

0ff26c4

verified ·

1 Parent(s): 8b437cf

Model save

Browse files

Files changed (33) hide show

.gitattributes +1 -0
README.md +70 -0
all_results.json +9 -0
config.json +37 -0
generation_config.json +9 -0
model-00001-of-00004.safetensors +3 -0
model-00002-of-00004.safetensors +3 -0
model-00003-of-00004.safetensors +3 -0
model-00004-of-00004.safetensors +3 -0
model.safetensors.index.json +298 -0
runs/Nov01_13-16-41_tinkywinky.edc.iee.ucsb.edu/events.out.tfevents.1730492223.tinkywinky.edc.iee.ucsb.edu.4146304.0 +3 -0
runs/Nov01_13-19-35_tinkywinky.edc.iee.ucsb.edu/events.out.tfevents.1730492404.tinkywinky.edc.iee.ucsb.edu.4148420.0 +3 -0
runs/Nov01_13-20-51_tinkywinky.edc.iee.ucsb.edu/events.out.tfevents.1730492469.tinkywinky.edc.iee.ucsb.edu.4150009.0 +3 -0
runs/Nov01_13-21-54_tinkywinky.edc.iee.ucsb.edu/events.out.tfevents.1730492535.tinkywinky.edc.iee.ucsb.edu.4151098.0 +3 -0
runs/Nov01_13-23-28_tinkywinky.edc.iee.ucsb.edu/events.out.tfevents.1730492626.tinkywinky.edc.iee.ucsb.edu.4152364.0 +3 -0
runs/Nov01_13-24-50_tinkywinky.edc.iee.ucsb.edu/events.out.tfevents.1730492711.tinkywinky.edc.iee.ucsb.edu.4153402.0 +3 -0
runs/Nov01_13-26-08_tinkywinky.edc.iee.ucsb.edu/events.out.tfevents.1730492791.tinkywinky.edc.iee.ucsb.edu.4154505.0 +3 -0
runs/Nov01_14-29-13_tinkywinky.edc.iee.ucsb.edu/events.out.tfevents.1730496618.tinkywinky.edc.iee.ucsb.edu.4189774.0 +3 -0
runs/Nov01_14-36-15_tinkywinky.edc.iee.ucsb.edu/events.out.tfevents.1730497028.tinkywinky.edc.iee.ucsb.edu.4194104.0 +3 -0
runs/Nov01_14-38-57_tinkywinky.edc.iee.ucsb.edu/events.out.tfevents.1730497188.tinkywinky.edc.iee.ucsb.edu.2771.0 +3 -0
runs/Nov01_14-46-03_tinkywinky.edc.iee.ucsb.edu/events.out.tfevents.1730497618.tinkywinky.edc.iee.ucsb.edu.5526.0 +3 -0
runs/Nov01_14-49-16_tinkywinky.edc.iee.ucsb.edu/events.out.tfevents.1730497810.tinkywinky.edc.iee.ucsb.edu.8030.0 +3 -0
runs/Nov01_15-01-21_tinkywinky.edc.iee.ucsb.edu/events.out.tfevents.1730498501.tinkywinky.edc.iee.ucsb.edu.14958.0 +3 -0
runs/Nov01_15-03-30_tinkywinky.edc.iee.ucsb.edu/events.out.tfevents.1730498664.tinkywinky.edc.iee.ucsb.edu.16685.0 +3 -0
runs/Oct30_00-48-24_tinkywinky.edc.iee.ucsb.edu/events.out.tfevents.1730274904.tinkywinky.edc.iee.ucsb.edu.2188016.0 +3 -0
runs/Oct30_01-05-51_tinkywinky.edc.iee.ucsb.edu/events.out.tfevents.1730275570.tinkywinky.edc.iee.ucsb.edu.2203333.0 +3 -0
runs/Oct30_01-08-27_tinkywinky.edc.iee.ucsb.edu/events.out.tfevents.1730275725.tinkywinky.edc.iee.ucsb.edu.2205754.0 +3 -0
special_tokens_map.json +28 -0
tokenizer.json +3 -0
tokenizer_config.json +70 -0
train_results.json +9 -0
trainer_state.json +605 -0
training_args.bin +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,70 @@

+---
+library_name: transformers
+license: llama3.1
+base_model: meta-llama/Llama-3.1-8B-Instruct
+tags:
+- trl
+- sft
+- generated_from_trainer
+datasets:
+- generator
+model-index:
+- name: zephyr-7b-gemma-sft
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# zephyr-7b-gemma-sft
+This model is a fine-tuned version of [meta-llama/Llama-3.1-8B-Instruct](https://huggingface.co/meta-llama/Llama-3.1-8B-Instruct) on the generator dataset.
+It achieves the following results on the evaluation set:
+- Loss: 1.9131
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 2e-05
+- train_batch_size: 1
+- eval_batch_size: 1
+- seed: 42
+- distributed_type: multi-GPU
+- num_devices: 8
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 16
+- total_eval_batch_size: 8
+- optimizer: Use adamw_torch with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 3
+### Training results
+| Training Loss | Epoch | Step | Validation Loss |
+|:-------------:|:-----:|:----:|:---------------:|
+| 2.1477        | 1.0   | 127  | 2.1500          |
+| 1.7855        | 2.0   | 254  | 1.8473          |
+| 1.1423        | 3.0   | 381  | 1.9131          |
+### Framework versions
+- Transformers 4.46.0
+- Pytorch 2.1.2
+- Datasets 3.0.2
+- Tokenizers 0.20.1

all_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.0,
+    "total_flos": 14587822080000.0,
+    "train_loss": 2.4270567033547428,
+    "train_runtime": 1375.9881,
+    "train_samples": 2023,
+    "train_samples_per_second": 4.426,
+    "train_steps_per_second": 0.277
+}

config.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "_name_or_path": "meta-llama/Llama-3.1-8B-Instruct",
+  "architectures": [
+    "LlamaForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 106,
+  "eos_token_id": 107,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 4096,
+  "initializer_range": 0.02,
+  "intermediate_size": 14336,
+  "max_position_embeddings": 131072,
+  "mlp_bias": false,
+  "model_type": "llama",
+  "num_attention_heads": 32,
+  "num_hidden_layers": 32,
+  "num_key_value_heads": 8,
+  "pad_token_id": 107,
+  "pretraining_tp": 1,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": {
+    "factor": 8.0,
+    "high_freq_factor": 4.0,
+    "low_freq_factor": 1.0,
+    "original_max_position_embeddings": 8192,
+    "rope_type": "llama3"
+  },
+  "rope_theta": 500000.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.46.0",
+  "use_cache": false,
+  "vocab_size": 256000
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+  "bos_token_id": 106,
+  "do_sample": true,
+  "eos_token_id": 107,
+  "pad_token_id": 107,
+  "temperature": 0.6,
+  "top_p": 0.9,
+  "transformers_version": "4.46.0"
+}

model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c15217e098f0d661b7b0adcd17ff003eac90be2bf488c6484de881d614185d8c
+size 4915829568

model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:29b218ffff442230c32048393054a692f905b1060c420d2332413be0f6ab0b1c
+size 4915916144

model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d97086a8e9888bbc6f2630325b41488b62068a0d3975a040bbe489a869802097
+size 4999819336

model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:38768216e492398d912a6da84859cb2c48b0e9678e15489d6a70155e98a7a4c4
+size 3321949016

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,298 @@

+{
+  "metadata": {
+    "total_size": 18153480192
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00004-of-00004.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.28.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.29.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.29.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.29.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.29.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.29.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.29.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.30.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.30.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.30.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.30.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.30.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.30.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.30.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.30.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.30.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.input_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.mlp.down_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.mlp.gate_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.mlp.up_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.post_attention_layernorm.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.self_attn.k_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.self_attn.o_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.self_attn.q_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.31.self_attn.v_proj.weight": "model-00004-of-00004.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.norm.weight": "model-00004-of-00004.safetensors"
+  }
+}

runs/Nov01_13-16-41_tinkywinky.edc.iee.ucsb.edu/events.out.tfevents.1730492223.tinkywinky.edc.iee.ucsb.edu.4146304.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ff253cd633f6885104d344d2200a5dd4145479cb6139cecc2a3ccdbd11b5b538
+size 6034

runs/Nov01_13-19-35_tinkywinky.edc.iee.ucsb.edu/events.out.tfevents.1730492404.tinkywinky.edc.iee.ucsb.edu.4148420.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:df61886eab0a3f61dcbdcec3abba67d9ce1d4dc6b4f0c76bdb444ad65238d8ca
+size 6034

runs/Nov01_13-20-51_tinkywinky.edc.iee.ucsb.edu/events.out.tfevents.1730492469.tinkywinky.edc.iee.ucsb.edu.4150009.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f2d084f6409a3003e96eeeea76975f88e134323e272953aa81af11d1e5067f1a
+size 6034

runs/Nov01_13-21-54_tinkywinky.edc.iee.ucsb.edu/events.out.tfevents.1730492535.tinkywinky.edc.iee.ucsb.edu.4151098.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f7008419d4aae66e5c2b5a9f8923d190ece7719c3ffdf831e147d3f75b43bcc
+size 6034

runs/Nov01_13-23-28_tinkywinky.edc.iee.ucsb.edu/events.out.tfevents.1730492626.tinkywinky.edc.iee.ucsb.edu.4152364.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7f47f38a7c56a1387898596c02e13d276e35bcd27d2990edd96628b24536ed64
+size 6034

runs/Nov01_13-24-50_tinkywinky.edc.iee.ucsb.edu/events.out.tfevents.1730492711.tinkywinky.edc.iee.ucsb.edu.4153402.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e9188e2f3ca185f73daa30bae7ea298b37c39afa46fbb2e66d9120b7fabc5958
+size 6034

runs/Nov01_13-26-08_tinkywinky.edc.iee.ucsb.edu/events.out.tfevents.1730492791.tinkywinky.edc.iee.ucsb.edu.4154505.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d6600de54fa68382dce863c7910fc974bde81092abe4ecfb85ce6bb8d6b86f38
+size 6034

runs/Nov01_14-29-13_tinkywinky.edc.iee.ucsb.edu/events.out.tfevents.1730496618.tinkywinky.edc.iee.ucsb.edu.4189774.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:80b10af33bc1aed820fde44a8387cb754ed376c129f8769eea56f8121dbed5a0
+size 5801

runs/Nov01_14-36-15_tinkywinky.edc.iee.ucsb.edu/events.out.tfevents.1730497028.tinkywinky.edc.iee.ucsb.edu.4194104.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1a9a97f54f8a62d09f1f4012e0a5a6c8eb29b201438b6114209d5595a1ef4909
+size 5801

runs/Nov01_14-38-57_tinkywinky.edc.iee.ucsb.edu/events.out.tfevents.1730497188.tinkywinky.edc.iee.ucsb.edu.2771.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:42512ddb0b34bed62f37fa17c60190c318d86faa6bc183755712bb3e7568d180
+size 5801

runs/Nov01_14-46-03_tinkywinky.edc.iee.ucsb.edu/events.out.tfevents.1730497618.tinkywinky.edc.iee.ucsb.edu.5526.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5ff6a82d23ae61c6502618bb5ce3bdeb2bc50a99d7a73c299d170b462ff3104b
+size 6629

runs/Nov01_14-49-16_tinkywinky.edc.iee.ucsb.edu/events.out.tfevents.1730497810.tinkywinky.edc.iee.ucsb.edu.8030.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7594b88a5c66f071fa79b5ba1ffa13adae6880bdea19f31646e28ef5c693681f
+size 10828

runs/Nov01_15-01-21_tinkywinky.edc.iee.ucsb.edu/events.out.tfevents.1730498501.tinkywinky.edc.iee.ucsb.edu.14958.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d201ccafacff217a6d41bdc83f92605a630c2cddc2ae7b9c9c5dc0a83b6c4690
+size 6034

runs/Nov01_15-03-30_tinkywinky.edc.iee.ucsb.edu/events.out.tfevents.1730498664.tinkywinky.edc.iee.ucsb.edu.16685.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f35861ac88b813b0cab3fe2dc33162034fb33bd15af966b7ddf9070a23578d21
+size 23106

runs/Oct30_00-48-24_tinkywinky.edc.iee.ucsb.edu/events.out.tfevents.1730274904.tinkywinky.edc.iee.ucsb.edu.2188016.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8144b54c01a638ff4a8b45b0cc0d5ad80440d40936ae3e23d787ae3d879bf7aa
+size 6034

runs/Oct30_01-05-51_tinkywinky.edc.iee.ucsb.edu/events.out.tfevents.1730275570.tinkywinky.edc.iee.ucsb.edu.2203333.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7dce97206d46f991a4aca18c89e971092a3cbde2abf2791f704378461cad6259
+size 6034

runs/Oct30_01-08-27_tinkywinky.edc.iee.ucsb.edu/events.out.tfevents.1730275725.tinkywinky.edc.iee.ucsb.edu.2205754.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bdc2b160abd2726dccd52ba5e27978cd7719925026486a3fab0df258e74bc504
+size 6034

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "additional_special_tokens": [
+    {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    }
+  ],
+  "bos_token": "<|im_start|>",
+  "eos_token": "<|im_end|>",
+  "pad_token": "<|im_end|>",
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c644094fa37d155fce4eccae9d5a12bb1723fe4439b0b6a2ebbe173755b2c218
+size 34315017

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,70 @@

+{
+  "add_bos_token": false,
+  "add_eos_token": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<eos>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "<bos>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "106": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "107": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>"
+  ],
+  "bos_token": "<|im_start|>",
+  "chat_template": "{% for message in messages %}{{'<|im_start|>' + message['role'] + '\n' + message['content'] + '<|im_end|>' + '\n'}}{% endfor %}{% if add_generation_prompt %}{{ '<|im_start|>assistant\n' }}{% endif %}",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "legacy": null,
+  "model_max_length": 2048,
+  "pad_token": "<|im_end|>",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "tokenizer_class": "GemmaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.0,
+    "total_flos": 14587822080000.0,
+    "train_loss": 2.4270567033547428,
+    "train_runtime": 1375.9881,
+    "train_samples": 2023,
+    "train_samples_per_second": 4.426,
+    "train_steps_per_second": 0.277
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,605 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 381,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.007874015748031496,
+      "grad_norm": 97.86459103253922,
+      "learning_rate": 5.128205128205128e-07,
+      "loss": 10.8466,
+      "step": 1
+    },
+    {
+      "epoch": 0.03937007874015748,
+      "grad_norm": 51.400005997600886,
+      "learning_rate": 2.564102564102564e-06,
+      "loss": 10.5913,
+      "step": 5
+    },
+    {
+      "epoch": 0.07874015748031496,
+      "grad_norm": 18.973044788046785,
+      "learning_rate": 5.128205128205128e-06,
+      "loss": 9.5728,
+      "step": 10
+    },
+    {
+      "epoch": 0.11811023622047244,
+      "grad_norm": 18.974754241662772,
+      "learning_rate": 7.692307692307694e-06,
+      "loss": 8.6008,
+      "step": 15
+    },
+    {
+      "epoch": 0.15748031496062992,
+      "grad_norm": 16.264940537929053,
+      "learning_rate": 1.0256410256410256e-05,
+      "loss": 7.6501,
+      "step": 20
+    },
+    {
+      "epoch": 0.1968503937007874,
+      "grad_norm": 13.83260251756727,
+      "learning_rate": 1.2820512820512823e-05,
+      "loss": 6.519,
+      "step": 25
+    },
+    {
+      "epoch": 0.23622047244094488,
+      "grad_norm": 11.83126275501012,
+      "learning_rate": 1.5384615384615387e-05,
+      "loss": 5.9682,
+      "step": 30
+    },
+    {
+      "epoch": 0.2755905511811024,
+      "grad_norm": 11.5143365026344,
+      "learning_rate": 1.794871794871795e-05,
+      "loss": 5.3936,
+      "step": 35
+    },
+    {
+      "epoch": 0.31496062992125984,
+      "grad_norm": 12.072390547814743,
+      "learning_rate": 1.9999578095183126e-05,
+      "loss": 4.7938,
+      "step": 40
+    },
+    {
+      "epoch": 0.3543307086614173,
+      "grad_norm": 11.243881904676005,
+      "learning_rate": 1.9984815164333163e-05,
+      "loss": 4.3308,
+      "step": 45
+    },
+    {
+      "epoch": 0.3937007874015748,
+      "grad_norm": 11.150844255163953,
+      "learning_rate": 1.9948992579873538e-05,
+      "loss": 3.8431,
+      "step": 50
+    },
+    {
+      "epoch": 0.4330708661417323,
+      "grad_norm": 9.63318982358096,
+      "learning_rate": 1.989218589765658e-05,
+      "loss": 3.5038,
+      "step": 55
+    },
+    {
+      "epoch": 0.47244094488188976,
+      "grad_norm": 8.283345964506,
+      "learning_rate": 1.981451493252418e-05,
+      "loss": 3.2468,
+      "step": 60
+    },
+    {
+      "epoch": 0.5118110236220472,
+      "grad_norm": 7.133949874571078,
+      "learning_rate": 1.971614350559814e-05,
+      "loss": 2.9607,
+      "step": 65
+    },
+    {
+      "epoch": 0.5511811023622047,
+      "grad_norm": 12.013998534508621,
+      "learning_rate": 1.9597279098753893e-05,
+      "loss": 2.9499,
+      "step": 70
+    },
+    {
+      "epoch": 0.5905511811023622,
+      "grad_norm": 14.00843961898459,
+      "learning_rate": 1.9458172417006347e-05,
+      "loss": 2.8118,
+      "step": 75
+    },
+    {
+      "epoch": 0.6299212598425197,
+      "grad_norm": 4.942733823635868,
+      "learning_rate": 1.929911685973088e-05,
+      "loss": 2.7099,
+      "step": 80
+    },
+    {
+      "epoch": 0.6692913385826772,
+      "grad_norm": 4.505148495160888,
+      "learning_rate": 1.9120447901834708e-05,
+      "loss": 2.6232,
+      "step": 85
+    },
+    {
+      "epoch": 0.7086614173228346,
+      "grad_norm": 4.482679636836862,
+      "learning_rate": 1.8922542386183942e-05,
+      "loss": 2.5165,
+      "step": 90
+    },
+    {
+      "epoch": 0.7480314960629921,
+      "grad_norm": 4.421296731369613,
+      "learning_rate": 1.8705817728778626e-05,
+      "loss": 2.5159,
+      "step": 95
+    },
+    {
+      "epoch": 0.7874015748031497,
+      "grad_norm": 4.031128786638602,
+      "learning_rate": 1.847073103835222e-05,
+      "loss": 2.432,
+      "step": 100
+    },
+    {
+      "epoch": 0.8267716535433071,
+      "grad_norm": 3.8222494747123665,
+      "learning_rate": 1.821777815225245e-05,
+      "loss": 2.322,
+      "step": 105
+    },
+    {
+      "epoch": 0.8661417322834646,
+      "grad_norm": 3.0512683342688938,
+      "learning_rate": 1.7947492590636998e-05,
+      "loss": 2.3086,
+      "step": 110
+    },
+    {
+      "epoch": 0.905511811023622,
+      "grad_norm": 3.487728646307278,
+      "learning_rate": 1.766044443118978e-05,
+      "loss": 2.2626,
+      "step": 115
+    },
+    {
+      "epoch": 0.9448818897637795,
+      "grad_norm": 3.429390931093978,
+      "learning_rate": 1.735723910673132e-05,
+      "loss": 2.2276,
+      "step": 120
+    },
+    {
+      "epoch": 0.984251968503937,
+      "grad_norm": 3.0101351501349285,
+      "learning_rate": 1.7038516128259118e-05,
+      "loss": 2.1477,
+      "step": 125
+    },
+    {
+      "epoch": 1.0,
+      "eval_loss": 2.1499931812286377,
+      "eval_runtime": 9.2946,
+      "eval_samples_per_second": 26.682,
+      "eval_steps_per_second": 3.335,
+      "step": 127
+    },
+    {
+      "epoch": 1.0236220472440944,
+      "grad_norm": 2.951694006526968,
+      "learning_rate": 1.670494773611149e-05,
+      "loss": 1.975,
+      "step": 130
+    },
+    {
+      "epoch": 1.0629921259842519,
+      "grad_norm": 4.048795878335224,
+      "learning_rate": 1.6357237482099682e-05,
+      "loss": 2.0001,
+      "step": 135
+    },
+    {
+      "epoch": 1.1023622047244095,
+      "grad_norm": 3.297695818798186,
+      "learning_rate": 1.5996118745598817e-05,
+      "loss": 1.9234,
+      "step": 140
+    },
+    {
+      "epoch": 1.141732283464567,
+      "grad_norm": 3.038860034781639,
+      "learning_rate": 1.5622353186727542e-05,
+      "loss": 1.9526,
+      "step": 145
+    },
+    {
+      "epoch": 1.1811023622047245,
+      "grad_norm": 3.066625145980664,
+      "learning_rate": 1.523672913987878e-05,
+      "loss": 1.9514,
+      "step": 150
+    },
+    {
+      "epoch": 1.220472440944882,
+      "grad_norm": 2.8503120369521238,
+      "learning_rate": 1.4840059950989992e-05,
+      "loss": 1.8463,
+      "step": 155
+    },
+    {
+      "epoch": 1.2598425196850394,
+      "grad_norm": 2.879622274636194,
+      "learning_rate": 1.4433182262059861e-05,
+      "loss": 1.9393,
+      "step": 160
+    },
+    {
+      "epoch": 1.2992125984251968,
+      "grad_norm": 2.865024409867327,
+      "learning_rate": 1.4016954246529697e-05,
+      "loss": 1.8229,
+      "step": 165
+    },
+    {
+      "epoch": 1.3385826771653544,
+      "grad_norm": 3.0018089829005796,
+      "learning_rate": 1.3592253799251377e-05,
+      "loss": 1.9101,
+      "step": 170
+    },
+    {
+      "epoch": 1.3779527559055118,
+      "grad_norm": 2.6200297090547564,
+      "learning_rate": 1.3159976684859528e-05,
+      "loss": 1.8719,
+      "step": 175
+    },
+    {
+      "epoch": 1.4173228346456692,
+      "grad_norm": 3.2482197763587703,
+      "learning_rate": 1.2721034648453353e-05,
+      "loss": 1.8663,
+      "step": 180
+    },
+    {
+      "epoch": 1.4566929133858268,
+      "grad_norm": 2.509202477142822,
+      "learning_rate": 1.2276353492572937e-05,
+      "loss": 1.8042,
+      "step": 185
+    },
+    {
+      "epoch": 1.4960629921259843,
+      "grad_norm": 2.3022341616451265,
+      "learning_rate": 1.1826871124526072e-05,
+      "loss": 1.8121,
+      "step": 190
+    },
+    {
+      "epoch": 1.5354330708661417,
+      "grad_norm": 3.1813641245330238,
+      "learning_rate": 1.1373535578184083e-05,
+      "loss": 1.8176,
+      "step": 195
+    },
+    {
+      "epoch": 1.574803149606299,
+      "grad_norm": 2.6018779161783914,
+      "learning_rate": 1.0917303014419036e-05,
+      "loss": 1.8582,
+      "step": 200
+    },
+    {
+      "epoch": 1.6141732283464567,
+      "grad_norm": 2.477600344836676,
+      "learning_rate": 1.045913570439972e-05,
+      "loss": 1.8783,
+      "step": 205
+    },
+    {
+      "epoch": 1.6535433070866141,
+      "grad_norm": 2.4376336894838335,
+      "learning_rate": 1e-05,
+      "loss": 1.7568,
+      "step": 210
+    },
+    {
+      "epoch": 1.6929133858267718,
+      "grad_norm": 2.5393277649924046,
+      "learning_rate": 9.540864295600282e-06,
+      "loss": 1.7657,
+      "step": 215
+    },
+    {
+      "epoch": 1.7322834645669292,
+      "grad_norm": 2.558708403448478,
+      "learning_rate": 9.082696985580964e-06,
+      "loss": 1.7453,
+      "step": 220
+    },
+    {
+      "epoch": 1.7716535433070866,
+      "grad_norm": 2.6628644142413984,
+      "learning_rate": 8.626464421815919e-06,
+      "loss": 1.8246,
+      "step": 225
+    },
+    {
+      "epoch": 1.811023622047244,
+      "grad_norm": 2.4749331824893046,
+      "learning_rate": 8.173128875473933e-06,
+      "loss": 1.7386,
+      "step": 230
+    },
+    {
+      "epoch": 1.8503937007874016,
+      "grad_norm": 2.4118889944549817,
+      "learning_rate": 7.72364650742707e-06,
+      "loss": 1.744,
+      "step": 235
+    },
+    {
+      "epoch": 1.889763779527559,
+      "grad_norm": 2.1983857820686485,
+      "learning_rate": 7.278965351546648e-06,
+      "loss": 1.7167,
+      "step": 240
+    },
+    {
+      "epoch": 1.9291338582677167,
+      "grad_norm": 2.3266205479938664,
+      "learning_rate": 6.840023315140476e-06,
+      "loss": 1.7168,
+      "step": 245
+    },
+    {
+      "epoch": 1.968503937007874,
+      "grad_norm": 2.6053794749618344,
+      "learning_rate": 6.407746200748628e-06,
+      "loss": 1.7855,
+      "step": 250
+    },
+    {
+      "epoch": 2.0,
+      "eval_loss": 1.8472861051559448,
+      "eval_runtime": 9.2247,
+      "eval_samples_per_second": 26.884,
+      "eval_steps_per_second": 3.361,
+      "step": 254
+    },
+    {
+      "epoch": 2.0078740157480315,
+      "grad_norm": 4.344086351254557,
+      "learning_rate": 5.983045753470308e-06,
+      "loss": 1.6109,
+      "step": 255
+    },
+    {
+      "epoch": 2.047244094488189,
+      "grad_norm": 4.783883169799299,
+      "learning_rate": 5.566817737940142e-06,
+      "loss": 1.3618,
+      "step": 260
+    },
+    {
+      "epoch": 2.0866141732283463,
+      "grad_norm": 3.518842708372338,
+      "learning_rate": 5.159940049010015e-06,
+      "loss": 1.3088,
+      "step": 265
+    },
+    {
+      "epoch": 2.1259842519685037,
+      "grad_norm": 3.1090620552580006,
+      "learning_rate": 4.763270860121222e-06,
+      "loss": 1.2353,
+      "step": 270
+    },
+    {
+      "epoch": 2.1653543307086616,
+      "grad_norm": 3.11493213597681,
+      "learning_rate": 4.3776468132724605e-06,
+      "loss": 1.2021,
+      "step": 275
+    },
+    {
+      "epoch": 2.204724409448819,
+      "grad_norm": 5.279030916691569,
+      "learning_rate": 4.003881254401183e-06,
+      "loss": 1.2297,
+      "step": 280
+    },
+    {
+      "epoch": 2.2440944881889764,
+      "grad_norm": 3.199352297712251,
+      "learning_rate": 3.6427625179003223e-06,
+      "loss": 1.2056,
+      "step": 285
+    },
+    {
+      "epoch": 2.283464566929134,
+      "grad_norm": 3.320605244796421,
+      "learning_rate": 3.2950522638885106e-06,
+      "loss": 1.2402,
+      "step": 290
+    },
+    {
+      "epoch": 2.322834645669291,
+      "grad_norm": 3.376499709728643,
+      "learning_rate": 2.9614838717408866e-06,
+      "loss": 1.2743,
+      "step": 295
+    },
+    {
+      "epoch": 2.362204724409449,
+      "grad_norm": 3.0517704287796397,
+      "learning_rate": 2.642760893268684e-06,
+      "loss": 1.206,
+      "step": 300
+    },
+    {
+      "epoch": 2.4015748031496065,
+      "grad_norm": 3.0861115081810517,
+      "learning_rate": 2.339555568810221e-06,
+      "loss": 1.1712,
+      "step": 305
+    },
+    {
+      "epoch": 2.440944881889764,
+      "grad_norm": 3.181141612142621,
+      "learning_rate": 2.052507409363004e-06,
+      "loss": 1.1674,
+      "step": 310
+    },
+    {
+      "epoch": 2.4803149606299213,
+      "grad_norm": 3.296777400430187,
+      "learning_rate": 1.7822218477475496e-06,
+      "loss": 1.1969,
+      "step": 315
+    },
+    {
+      "epoch": 2.5196850393700787,
+      "grad_norm": 3.0166358743310386,
+      "learning_rate": 1.5292689616477808e-06,
+      "loss": 1.1863,
+      "step": 320
+    },
+    {
+      "epoch": 2.559055118110236,
+      "grad_norm": 3.1695663564175343,
+      "learning_rate": 1.294182271221377e-06,
+      "loss": 1.1468,
+      "step": 325
+    },
+    {
+      "epoch": 2.5984251968503935,
+      "grad_norm": 3.1650310230949374,
+      "learning_rate": 1.0774576138160596e-06,
+      "loss": 1.2172,
+      "step": 330
+    },
+    {
+      "epoch": 2.637795275590551,
+      "grad_norm": 3.130799463981766,
+      "learning_rate": 8.79552098165296e-07,
+      "loss": 1.2009,
+      "step": 335
+    },
+    {
+      "epoch": 2.677165354330709,
+      "grad_norm": 3.3222405034526297,
+      "learning_rate": 7.00883140269123e-07,
+      "loss": 1.2493,
+      "step": 340
+    },
+    {
+      "epoch": 2.716535433070866,
+      "grad_norm": 3.2043683266572915,
+      "learning_rate": 5.418275829936537e-07,
+      "loss": 1.1749,
+      "step": 345
+    },
+    {
+      "epoch": 2.7559055118110236,
+      "grad_norm": 3.18928929645315,
+      "learning_rate": 4.0272090124611086e-07,
+      "loss": 1.1584,
+      "step": 350
+    },
+    {
+      "epoch": 2.795275590551181,
+      "grad_norm": 3.169825614669709,
+      "learning_rate": 2.838564944018618e-07,
+      "loss": 1.1369,
+      "step": 355
+    },
+    {
+      "epoch": 2.8346456692913384,
+      "grad_norm": 3.196801372855951,
+      "learning_rate": 1.854850674758213e-07,
+      "loss": 1.1763,
+      "step": 360
+    },
+    {
+      "epoch": 2.8740157480314963,
+      "grad_norm": 3.1501989250825013,
+      "learning_rate": 1.0781410234342093e-07,
+      "loss": 1.1612,
+      "step": 365
+    },
+    {
+      "epoch": 2.9133858267716537,
+      "grad_norm": 3.2335057860947454,
+      "learning_rate": 5.10074201264632e-08,
+      "loss": 1.2047,
+      "step": 370
+    },
+    {
+      "epoch": 2.952755905511811,
+      "grad_norm": 3.139504284825472,
+      "learning_rate": 1.518483566683826e-08,
+      "loss": 1.2345,
+      "step": 375
+    },
+    {
+      "epoch": 2.9921259842519685,
+      "grad_norm": 3.172440172340041,
+      "learning_rate": 4.2190481687631736e-10,
+      "loss": 1.1423,
+      "step": 380
+    },
+    {
+      "epoch": 3.0,
+      "eval_loss": 1.9131228923797607,
+      "eval_runtime": 9.2288,
+      "eval_samples_per_second": 26.872,
+      "eval_steps_per_second": 3.359,
+      "step": 381
+    },
+    {
+      "epoch": 3.0,
+      "step": 381,
+      "total_flos": 14587822080000.0,
+      "train_loss": 2.4270567033547428,
+      "train_runtime": 1375.9881,
+      "train_samples_per_second": 4.426,
+      "train_steps_per_second": 0.277
+    }
+  ],
+  "logging_steps": 5,
+  "max_steps": 381,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": false,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 14587822080000.0,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e2512d062282b1f8192644ae2b2d4bc3390f5989c305b284a8d1a20279dbab6f
+size 6968