chaoscodes commited on 16 days ago

Commit

3bdeb58

verified ·

1 Parent(s): c2739de

Upload folder using huggingface_hub

Browse files

Files changed (23) hide show

.gitattributes +1 -0
added_tokens.json +28 -0
all_results.json +12 -0
config.json +30 -0
eval_results.json +7 -0
generation_config.json +6 -0
merges.txt +0 -0
model-00001-of-00004.safetensors +3 -0
model-00002-of-00004.safetensors +3 -0
model-00003-of-00004.safetensors +3 -0
model-00004-of-00004.safetensors +3 -0
model.safetensors.index.json +346 -0
runs/Jan14_05-59-41_p2-r29-n4.bluevela.rmf.ibm.com/events.out.tfevents.1736834420.p2-r29-n4.bluevela.rmf.ibm.com.2195431.0 +3 -0
runs/Jan14_05-59-41_p2-r29-n4.bluevela.rmf.ibm.com/events.out.tfevents.1736836188.p2-r29-n4.bluevela.rmf.ibm.com.2195431.1 +3 -0
special_tokens_map.json +59 -0
tokenizer.json +3 -0
tokenizer_config.json +244 -0
train_results.json +8 -0
trainer_log.jsonl +47 -0
trainer_state.json +364 -0
training_args.bin +3 -0
training_loss.png +0 -0
vocab.json +0 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+tokenizer.json filter=lfs diff=lfs merge=lfs -text

added_tokens.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "</tool_call>": 151658,
+  "<tool_call>": 151657,
+  "<|explore|>": 151667,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|continue|>": 151665,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|mask|>": 151668,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|reflect|>": 151666,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 1.9957356076759063,
+    "eval_loss": 0.10283510386943817,
+    "eval_runtime": 1.4278,
+    "eval_samples_per_second": 21.011,
+    "eval_steps_per_second": 0.7,
+    "total_flos": 140358569164800.0,
+    "train_loss": 0.10031582892705233,
+    "train_runtime": 1756.1076,
+    "train_samples_per_second": 34.132,
+    "train_steps_per_second": 0.266
+}

config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "_name_or_path": "/proj/long-multi/zfchen/LLaMA-Factory/Qwen2.5-Math-7B",
+  "architectures": [
+    "Qwen2ForCausalLM"
+  ],
+  "attention_dropout": 0.0,
+  "bos_token_id": 151643,
+  "eos_token_id": 151643,
+  "hidden_act": "silu",
+  "hidden_size": 3584,
+  "initializer_range": 0.02,
+  "intermediate_size": 18944,
+  "max_position_embeddings": 4096,
+  "max_window_layers": 28,
+  "model_type": "qwen2",
+  "num_attention_heads": 28,
+  "num_hidden_layers": 28,
+  "num_key_value_heads": 4,
+  "rms_norm_eps": 1e-06,
+  "rope_scaling": null,
+  "rope_theta": 10000,
+  "sliding_window": null,
+  "tie_word_embeddings": false,
+  "torch_dtype": "bfloat16",
+  "transformers_version": "4.45.2",
+  "use_cache": false,
+  "use_mrope": false,
+  "use_sliding_window": false,
+  "vocab_size": 152064
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 1.9957356076759063,
+    "eval_loss": 0.10283510386943817,
+    "eval_runtime": 1.4278,
+    "eval_samples_per_second": 21.011,
+    "eval_steps_per_second": 0.7
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "bos_token_id": 151643,
+  "eos_token_id": 151643,
+  "max_new_tokens": 2048,
+  "transformers_version": "4.45.2"
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

model-00001-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:39861c992e6e2bb326bbf65f44e935cb85ff8413151445e0a3b7b07ac00411c1
+size 4877660776

model-00002-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8e145b303e260dfbf90e2d24ec21de98a5d65883f9a8f67e3b1357d4cc7073fd
+size 4932751008

model-00003-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8025346c348530a5fa576db5af4347ae7d6d6d1889a1b63e394acc7a0ac6975b
+size 4330865200

model-00004-of-00004.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc6a54e2493a7f3eccc17558ac13ed09464692cacde2a9acf1ba9f2e0b415bd7
+size 1089994880

model.safetensors.index.json ADDED Viewed

	@@ -0,0 +1,346 @@

+{
+  "metadata": {
+    "total_size": 15231233024
+  },
+  "weight_map": {
+    "lm_head.weight": "model-00004-of-00004.safetensors",
+    "model.embed_tokens.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.0.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.1.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.10.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.10.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.11.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.12.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.13.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.14.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.15.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.16.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.17.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.18.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.19.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.19.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.2.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.2.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.20.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.20.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.21.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.22.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.23.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.24.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.25.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.26.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.input_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.down_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.gate_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.mlp.up_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.post_attention_layernorm.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.k_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.o_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.q_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.bias": "model-00003-of-00004.safetensors",
+    "model.layers.27.self_attn.v_proj.weight": "model-00003-of-00004.safetensors",
+    "model.layers.3.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.3.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.4.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.5.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.6.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.input_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.down_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.gate_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.mlp.up_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.post_attention_layernorm.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.7.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.k_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.o_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.q_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.bias": "model-00001-of-00004.safetensors",
+    "model.layers.8.self_attn.v_proj.weight": "model-00001-of-00004.safetensors",
+    "model.layers.9.input_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.down_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.gate_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.mlp.up_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.post_attention_layernorm.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.k_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.o_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.q_proj.weight": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.bias": "model-00002-of-00004.safetensors",
+    "model.layers.9.self_attn.v_proj.weight": "model-00002-of-00004.safetensors",
+    "model.norm.weight": "model-00003-of-00004.safetensors"
+  }
+}

runs/Jan14_05-59-41_p2-r29-n4.bluevela.rmf.ibm.com/events.out.tfevents.1736834420.p2-r29-n4.bluevela.rmf.ibm.com.2195431.0 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9ae3524e5ef561874bfa2bf5834dc09bf64521abb4cafc5144a539438280fa21
+size 15534

runs/Jan14_05-59-41_p2-r29-n4.bluevela.rmf.ibm.com/events.out.tfevents.1736836188.p2-r29-n4.bluevela.rmf.ibm.com.2195431.1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:41057b99e391fda3325944d5331442dba2943b38ecfee0de133a67dd65c95348
+size 359

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,59 @@

+{
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>",
+    {
+      "content": "<|continue|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<|reflect|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<|explore|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<|mask|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    }
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0d90f2533b7aa12be533c50cc84ccdb70bc17a72a9c81167e602e78c72f1393c
+size 11422646

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,244 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<|continue|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151666": {
+      "content": "<|reflect|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151667": {
+      "content": "<|explore|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151668": {
+      "content": "<|mask|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>",
+    "<|continue|>",
+    "<|reflect|>",
+    "<|explore|>",
+    "<|mask|>"
+  ],
+  "bos_token": null,
+  "chat_template": "{%- if tools %}\n    {{- '<|im_start|>system\\n' }}\n    {%- if messages[0]['role'] == 'system' %}\n        {{- messages[0]['content'] }}\n    {%- else %}\n        {{- 'Please reason step by step, and put your final answer within \\\\boxed{}.' }}\n    {%- endif %}\n    {{- \"\\n\\n# Tools\\n\\nYou may call one or more functions to assist with the user query.\\n\\nYou are provided with function signatures within <tools></tools> XML tags:\\n<tools>\" }}\n    {%- for tool in tools %}\n        {{- \"\\n\" }}\n        {{- tool | tojson }}\n    {%- endfor %}\n    {{- \"\\n</tools>\\n\\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\\n<tool_call>\\n{\\\"name\\\": <function-name>, \\\"arguments\\\": <args-json-object>}\\n</tool_call><|im_end|>\\n\" }}\n{%- else %}\n    {%- if messages[0]['role'] == 'system' %}\n        {{- '<|im_start|>system\\n' + messages[0]['content'] + '<|im_end|>\\n' }}\n    {%- else %}\n        {{- '<|im_start|>system\\nPlease reason step by step, and put your final answer within \\\\boxed{}.<|im_end|>\\n' }}\n    {%- endif %}\n{%- endif %}\n{%- for message in messages %}\n    {%- if (message.role == \"user\") or (message.role == \"system\" and not loop.first) or (message.role == \"assistant\" and not message.tool_calls) %}\n        {{- '<|im_start|>' + message.role + '\\n' + message.content + '<|im_end|>' + '\\n' }}\n    {%- elif message.role == \"assistant\" %}\n        {{- '<|im_start|>' + message.role }}\n        {%- if message.content %}\n            {{- '\\n' + message.content }}\n        {%- endif %}\n        {%- for tool_call in message.tool_calls %}\n            {%- if tool_call.function is defined %}\n                {%- set tool_call = tool_call.function %}\n            {%- endif %}\n            {{- '\\n<tool_call>\\n{\"name\": \"' }}\n            {{- tool_call.name }}\n            {{- '\", \"arguments\": ' }}\n            {{- tool_call.arguments | tojson }}\n            {{- '}\\n</tool_call>' }}\n        {%- endfor %}\n        {{- '<|im_end|>\\n' }}\n    {%- elif message.role == \"tool\" %}\n        {%- if (loop.index0 == 0) or (messages[loop.index0 - 1].role != \"tool\") %}\n            {{- '<|im_start|>user' }}\n        {%- endif %}\n        {{- '\\n<tool_response>\\n' }}\n        {{- message.content }}\n        {{- '\\n</tool_response>' }}\n        {%- if loop.last or (messages[loop.index0 + 1].role != \"tool\") %}\n            {{- '<|im_end|>\\n' }}\n        {%- endif %}\n    {%- endif %}\n{%- endfor %}\n{%- if add_generation_prompt %}\n    {{- '<|im_start|>assistant\\n' }}\n{%- endif %}\n",
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "padding_side": "right",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 1.9957356076759063,
+    "total_flos": 140358569164800.0,
+    "train_loss": 0.10031582892705233,
+    "train_runtime": 1756.1076,
+    "train_samples_per_second": 34.132,
+    "train_steps_per_second": 0.266
+}

trainer_log.jsonl ADDED Viewed

	@@ -0,0 +1,47 @@

+{"current_steps": 10, "total_steps": 468, "loss": 0.432, "learning_rate": 1.3333333333333333e-05, "epoch": 0.042643923240938165, "percentage": 2.14, "elapsed_time": "0:00:46", "remaining_time": "0:35:16"}
+{"current_steps": 20, "total_steps": 468, "loss": 0.266, "learning_rate": 1.999398868012663e-05, "epoch": 0.08528784648187633, "percentage": 4.27, "elapsed_time": "0:01:24", "remaining_time": "0:31:30"}
+{"current_steps": 30, "total_steps": 468, "loss": 0.189, "learning_rate": 1.9945941475610623e-05, "epoch": 0.1279317697228145, "percentage": 6.41, "elapsed_time": "0:02:03", "remaining_time": "0:29:56"}
+{"current_steps": 40, "total_steps": 468, "loss": 0.1405, "learning_rate": 1.9850078058821615e-05, "epoch": 0.17057569296375266, "percentage": 8.55, "elapsed_time": "0:02:41", "remaining_time": "0:28:52"}
+{"current_steps": 50, "total_steps": 468, "loss": 0.1352, "learning_rate": 1.970685930372489e-05, "epoch": 0.21321961620469082, "percentage": 10.68, "elapsed_time": "0:03:21", "remaining_time": "0:28:01"}
+{"current_steps": 60, "total_steps": 468, "loss": 0.1311, "learning_rate": 1.951697375030553e-05, "epoch": 0.255863539445629, "percentage": 12.82, "elapsed_time": "0:03:58", "remaining_time": "0:26:59"}
+{"current_steps": 70, "total_steps": 468, "loss": 0.1211, "learning_rate": 1.9281334294336364e-05, "epoch": 0.29850746268656714, "percentage": 14.96, "elapsed_time": "0:04:39", "remaining_time": "0:26:28"}
+{"current_steps": 80, "total_steps": 468, "loss": 0.1204, "learning_rate": 1.90010737985307e-05, "epoch": 0.3411513859275053, "percentage": 17.09, "elapsed_time": "0:05:18", "remaining_time": "0:25:46"}
+{"current_steps": 90, "total_steps": 468, "loss": 0.1216, "learning_rate": 1.8677539646179706e-05, "epoch": 0.3837953091684435, "percentage": 19.23, "elapsed_time": "0:05:55", "remaining_time": "0:24:52"}
+{"current_steps": 100, "total_steps": 468, "loss": 0.1187, "learning_rate": 1.831228726345841e-05, "epoch": 0.42643923240938164, "percentage": 21.37, "elapsed_time": "0:06:32", "remaining_time": "0:24:05"}
+{"current_steps": 110, "total_steps": 468, "loss": 0.1147, "learning_rate": 1.7907072641542527e-05, "epoch": 0.4690831556503198, "percentage": 23.5, "elapsed_time": "0:07:11", "remaining_time": "0:23:23"}
+{"current_steps": 120, "total_steps": 468, "loss": 0.1123, "learning_rate": 1.746384389448694e-05, "epoch": 0.511727078891258, "percentage": 25.64, "elapsed_time": "0:07:50", "remaining_time": "0:22:44"}
+{"current_steps": 130, "total_steps": 468, "loss": 0.1122, "learning_rate": 1.6984731893452174e-05, "epoch": 0.5543710021321961, "percentage": 27.78, "elapsed_time": "0:08:29", "remaining_time": "0:22:03"}
+{"current_steps": 140, "total_steps": 468, "loss": 0.1104, "learning_rate": 1.647204002230594e-05, "epoch": 0.5970149253731343, "percentage": 29.91, "elapsed_time": "0:09:06", "remaining_time": "0:21:20"}
+{"current_steps": 150, "total_steps": 468, "loss": 0.1112, "learning_rate": 1.592823310385073e-05, "epoch": 0.6396588486140725, "percentage": 32.05, "elapsed_time": "0:09:46", "remaining_time": "0:20:43"}
+{"current_steps": 160, "total_steps": 468, "loss": 0.1124, "learning_rate": 1.5355925549915943e-05, "epoch": 0.6823027718550106, "percentage": 34.19, "elapsed_time": "0:10:26", "remaining_time": "0:20:05"}
+{"current_steps": 170, "total_steps": 468, "loss": 0.1137, "learning_rate": 1.4757868792284231e-05, "epoch": 0.7249466950959488, "percentage": 36.32, "elapsed_time": "0:11:04", "remaining_time": "0:19:24"}
+{"current_steps": 180, "total_steps": 468, "loss": 0.1097, "learning_rate": 1.4136938054879284e-05, "epoch": 0.767590618336887, "percentage": 38.46, "elapsed_time": "0:11:41", "remaining_time": "0:18:42"}
+{"current_steps": 190, "total_steps": 468, "loss": 0.112, "learning_rate": 1.3496118530809195e-05, "epoch": 0.8102345415778252, "percentage": 40.6, "elapsed_time": "0:12:19", "remaining_time": "0:18:02"}
+{"current_steps": 200, "total_steps": 468, "loss": 0.1079, "learning_rate": 1.2838491030720882e-05, "epoch": 0.8528784648187633, "percentage": 42.74, "elapsed_time": "0:12:58", "remaining_time": "0:17:23"}
+{"current_steps": 210, "total_steps": 468, "loss": 0.1087, "learning_rate": 1.2167217171462566e-05, "epoch": 0.8955223880597015, "percentage": 44.87, "elapsed_time": "0:13:39", "remaining_time": "0:16:46"}
+{"current_steps": 220, "total_steps": 468, "loss": 0.1115, "learning_rate": 1.148552417626157e-05, "epoch": 0.9381663113006397, "percentage": 47.01, "elapsed_time": "0:14:17", "remaining_time": "0:16:07"}
+{"current_steps": 230, "total_steps": 468, "loss": 0.108, "learning_rate": 1.0796689359492154e-05, "epoch": 0.9808102345415778, "percentage": 49.15, "elapsed_time": "0:14:49", "remaining_time": "0:15:20"}
+{"current_steps": 240, "total_steps": 468, "loss": 0.0849, "learning_rate": 1.0104024370624644e-05, "epoch": 1.023454157782516, "percentage": 51.28, "elapsed_time": "0:15:27", "remaining_time": "0:14:41"}
+{"current_steps": 250, "total_steps": 468, "loss": 0.0661, "learning_rate": 9.410859273104823e-06, "epoch": 1.0660980810234542, "percentage": 53.42, "elapsed_time": "0:16:05", "remaining_time": "0:14:02"}
+{"current_steps": 260, "total_steps": 468, "loss": 0.0642, "learning_rate": 8.720526534706052e-06, "epoch": 1.1087420042643923, "percentage": 55.56, "elapsed_time": "0:16:41", "remaining_time": "0:13:21"}
+{"current_steps": 270, "total_steps": 468, "loss": 0.0645, "learning_rate": 8.036345006322358e-06, "epoch": 1.1513859275053304, "percentage": 57.69, "elapsed_time": "0:17:19", "remaining_time": "0:12:42"}
+{"current_steps": 280, "total_steps": 468, "loss": 0.0621, "learning_rate": 7.361603966226165e-06, "epoch": 1.1940298507462686, "percentage": 59.83, "elapsed_time": "0:17:54", "remaining_time": "0:12:01"}
+{"current_steps": 290, "total_steps": 468, "loss": 0.0595, "learning_rate": 6.6995473064996455e-06, "epoch": 1.236673773987207, "percentage": 61.97, "elapsed_time": "0:18:35", "remaining_time": "0:11:24"}
+{"current_steps": 300, "total_steps": 468, "loss": 0.0622, "learning_rate": 6.053357937665237e-06, "epoch": 1.279317697228145, "percentage": 64.1, "elapsed_time": "0:19:09", "remaining_time": "0:10:43"}
+{"current_steps": 310, "total_steps": 468, "loss": 0.0608, "learning_rate": 5.4261424864917075e-06, "epoch": 1.3219616204690832, "percentage": 66.24, "elapsed_time": "0:19:45", "remaining_time": "0:10:04"}
+{"current_steps": 320, "total_steps": 468, "loss": 0.061, "learning_rate": 4.82091636054281e-06, "epoch": 1.3646055437100213, "percentage": 68.38, "elapsed_time": "0:20:22", "remaining_time": "0:09:25"}
+{"current_steps": 330, "total_steps": 468, "loss": 0.0605, "learning_rate": 4.240589251272342e-06, "epoch": 1.4072494669509594, "percentage": 70.51, "elapsed_time": "0:20:58", "remaining_time": "0:08:46"}
+{"current_steps": 340, "total_steps": 468, "loss": 0.0631, "learning_rate": 3.687951145361073e-06, "epoch": 1.4498933901918978, "percentage": 72.65, "elapsed_time": "0:21:35", "remaining_time": "0:08:07"}
+{"current_steps": 350, "total_steps": 468, "loss": 0.06, "learning_rate": 3.165658911547592e-06, "epoch": 1.4925373134328357, "percentage": 74.79, "elapsed_time": "0:22:10", "remaining_time": "0:07:28"}
+{"current_steps": 360, "total_steps": 468, "loss": 0.0612, "learning_rate": 2.6762235274383775e-06, "epoch": 1.535181236673774, "percentage": 76.92, "elapsed_time": "0:22:49", "remaining_time": "0:06:50"}
+{"current_steps": 370, "total_steps": 468, "loss": 0.0616, "learning_rate": 2.2219980077055756e-06, "epoch": 1.5778251599147122, "percentage": 79.06, "elapsed_time": "0:23:22", "remaining_time": "0:06:11"}
+{"current_steps": 380, "total_steps": 468, "loss": 0.0593, "learning_rate": 1.8051660917090718e-06, "epoch": 1.6204690831556503, "percentage": 81.2, "elapsed_time": "0:23:57", "remaining_time": "0:05:32"}
+{"current_steps": 390, "total_steps": 468, "loss": 0.0608, "learning_rate": 1.4277317449282834e-06, "epoch": 1.6631130063965884, "percentage": 83.33, "elapsed_time": "0:24:31", "remaining_time": "0:04:54"}
+{"current_steps": 400, "total_steps": 468, "loss": 0.0603, "learning_rate": 1.0915095246767692e-06, "epoch": 1.7057569296375266, "percentage": 85.47, "elapsed_time": "0:25:07", "remaining_time": "0:04:16"}
+{"current_steps": 410, "total_steps": 468, "loss": 0.0607, "learning_rate": 7.981158564175074e-07, "epoch": 1.748400852878465, "percentage": 87.61, "elapsed_time": "0:25:40", "remaining_time": "0:03:37"}
+{"current_steps": 420, "total_steps": 468, "loss": 0.0569, "learning_rate": 5.489612626189245e-07, "epoch": 1.7910447761194028, "percentage": 89.74, "elapsed_time": "0:26:12", "remaining_time": "0:02:59"}
+{"current_steps": 430, "total_steps": 468, "loss": 0.0604, "learning_rate": 3.452435815123323e-07, "epoch": 1.8336886993603412, "percentage": 91.88, "elapsed_time": "0:26:46", "remaining_time": "0:02:21"}
+{"current_steps": 440, "total_steps": 468, "loss": 0.0609, "learning_rate": 1.8794220835231413e-07, "epoch": 1.8763326226012793, "percentage": 94.02, "elapsed_time": "0:27:19", "remaining_time": "0:01:44"}
+{"current_steps": 450, "total_steps": 468, "loss": 0.0597, "learning_rate": 7.781338686584928e-08, "epoch": 1.9189765458422174, "percentage": 96.15, "elapsed_time": "0:27:52", "remaining_time": "0:01:06"}
+{"current_steps": 460, "total_steps": 468, "loss": 0.0618, "learning_rate": 1.5386573527067516e-08, "epoch": 1.9616204690831558, "percentage": 98.29, "elapsed_time": "0:28:25", "remaining_time": "0:00:29"}
+{"current_steps": 468, "total_steps": 468, "epoch": 1.9957356076759063, "percentage": 100.0, "elapsed_time": "0:29:09", "remaining_time": "0:00:00"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,364 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 1.9957356076759063,
+  "eval_steps": 1000,
+  "global_step": 468,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.042643923240938165,
+      "grad_norm": 3.179123776279851,
+      "learning_rate": 1.3333333333333333e-05,
+      "loss": 0.432,
+      "step": 10
+    },
+    {
+      "epoch": 0.08528784648187633,
+      "grad_norm": 2.0834838340230113,
+      "learning_rate": 1.999398868012663e-05,
+      "loss": 0.266,
+      "step": 20
+    },
+    {
+      "epoch": 0.1279317697228145,
+      "grad_norm": 1.839885995199569,
+      "learning_rate": 1.9945941475610623e-05,
+      "loss": 0.189,
+      "step": 30
+    },
+    {
+      "epoch": 0.17057569296375266,
+      "grad_norm": 0.3374452319668954,
+      "learning_rate": 1.9850078058821615e-05,
+      "loss": 0.1405,
+      "step": 40
+    },
+    {
+      "epoch": 0.21321961620469082,
+      "grad_norm": 0.35572662705742497,
+      "learning_rate": 1.970685930372489e-05,
+      "loss": 0.1352,
+      "step": 50
+    },
+    {
+      "epoch": 0.255863539445629,
+      "grad_norm": 0.34732501425850515,
+      "learning_rate": 1.951697375030553e-05,
+      "loss": 0.1311,
+      "step": 60
+    },
+    {
+      "epoch": 0.29850746268656714,
+      "grad_norm": 0.29120729702844944,
+      "learning_rate": 1.9281334294336364e-05,
+      "loss": 0.1211,
+      "step": 70
+    },
+    {
+      "epoch": 0.3411513859275053,
+      "grad_norm": 0.2548677782780123,
+      "learning_rate": 1.90010737985307e-05,
+      "loss": 0.1204,
+      "step": 80
+    },
+    {
+      "epoch": 0.3837953091684435,
+      "grad_norm": 0.23124279128247788,
+      "learning_rate": 1.8677539646179706e-05,
+      "loss": 0.1216,
+      "step": 90
+    },
+    {
+      "epoch": 0.42643923240938164,
+      "grad_norm": 0.2233543638243816,
+      "learning_rate": 1.831228726345841e-05,
+      "loss": 0.1187,
+      "step": 100
+    },
+    {
+      "epoch": 0.4690831556503198,
+      "grad_norm": 0.21228773844702403,
+      "learning_rate": 1.7907072641542527e-05,
+      "loss": 0.1147,
+      "step": 110
+    },
+    {
+      "epoch": 0.511727078891258,
+      "grad_norm": 0.21240166483768347,
+      "learning_rate": 1.746384389448694e-05,
+      "loss": 0.1123,
+      "step": 120
+    },
+    {
+      "epoch": 0.5543710021321961,
+      "grad_norm": 0.22092994006720384,
+      "learning_rate": 1.6984731893452174e-05,
+      "loss": 0.1122,
+      "step": 130
+    },
+    {
+      "epoch": 0.5970149253731343,
+      "grad_norm": 0.2146266283518355,
+      "learning_rate": 1.647204002230594e-05,
+      "loss": 0.1104,
+      "step": 140
+    },
+    {
+      "epoch": 0.6396588486140725,
+      "grad_norm": 0.20918171426009047,
+      "learning_rate": 1.592823310385073e-05,
+      "loss": 0.1112,
+      "step": 150
+    },
+    {
+      "epoch": 0.6823027718550106,
+      "grad_norm": 0.1967909221104072,
+      "learning_rate": 1.5355925549915943e-05,
+      "loss": 0.1124,
+      "step": 160
+    },
+    {
+      "epoch": 0.7249466950959488,
+      "grad_norm": 0.2240605099251795,
+      "learning_rate": 1.4757868792284231e-05,
+      "loss": 0.1137,
+      "step": 170
+    },
+    {
+      "epoch": 0.767590618336887,
+      "grad_norm": 0.20377236444556038,
+      "learning_rate": 1.4136938054879284e-05,
+      "loss": 0.1097,
+      "step": 180
+    },
+    {
+      "epoch": 0.8102345415778252,
+      "grad_norm": 0.2106109081511342,
+      "learning_rate": 1.3496118530809195e-05,
+      "loss": 0.112,
+      "step": 190
+    },
+    {
+      "epoch": 0.8528784648187633,
+      "grad_norm": 0.18132699922626352,
+      "learning_rate": 1.2838491030720882e-05,
+      "loss": 0.1079,
+      "step": 200
+    },
+    {
+      "epoch": 0.8955223880597015,
+      "grad_norm": 0.1926837140760371,
+      "learning_rate": 1.2167217171462566e-05,
+      "loss": 0.1087,
+      "step": 210
+    },
+    {
+      "epoch": 0.9381663113006397,
+      "grad_norm": 0.19627892114205173,
+      "learning_rate": 1.148552417626157e-05,
+      "loss": 0.1115,
+      "step": 220
+    },
+    {
+      "epoch": 0.9808102345415778,
+      "grad_norm": 0.19029596670392074,
+      "learning_rate": 1.0796689359492154e-05,
+      "loss": 0.108,
+      "step": 230
+    },
+    {
+      "epoch": 1.023454157782516,
+      "grad_norm": 0.18044861833183792,
+      "learning_rate": 1.0104024370624644e-05,
+      "loss": 0.0849,
+      "step": 240
+    },
+    {
+      "epoch": 1.0660980810234542,
+      "grad_norm": 0.19142738031135273,
+      "learning_rate": 9.410859273104823e-06,
+      "loss": 0.0661,
+      "step": 250
+    },
+    {
+      "epoch": 1.1087420042643923,
+      "grad_norm": 0.17150102289558444,
+      "learning_rate": 8.720526534706052e-06,
+      "loss": 0.0642,
+      "step": 260
+    },
+    {
+      "epoch": 1.1513859275053304,
+      "grad_norm": 0.2442559352462789,
+      "learning_rate": 8.036345006322358e-06,
+      "loss": 0.0645,
+      "step": 270
+    },
+    {
+      "epoch": 1.1940298507462686,
+      "grad_norm": 0.17495312344390224,
+      "learning_rate": 7.361603966226165e-06,
+      "loss": 0.0621,
+      "step": 280
+    },
+    {
+      "epoch": 1.236673773987207,
+      "grad_norm": 0.16258359858243326,
+      "learning_rate": 6.6995473064996455e-06,
+      "loss": 0.0595,
+      "step": 290
+    },
+    {
+      "epoch": 1.279317697228145,
+      "grad_norm": 0.17596476037955336,
+      "learning_rate": 6.053357937665237e-06,
+      "loss": 0.0622,
+      "step": 300
+    },
+    {
+      "epoch": 1.3219616204690832,
+      "grad_norm": 0.158017144205196,
+      "learning_rate": 5.4261424864917075e-06,
+      "loss": 0.0608,
+      "step": 310
+    },
+    {
+      "epoch": 1.3646055437100213,
+      "grad_norm": 0.17821374662840944,
+      "learning_rate": 4.82091636054281e-06,
+      "loss": 0.061,
+      "step": 320
+    },
+    {
+      "epoch": 1.4072494669509594,
+      "grad_norm": 0.1909778433139327,
+      "learning_rate": 4.240589251272342e-06,
+      "loss": 0.0605,
+      "step": 330
+    },
+    {
+      "epoch": 1.4498933901918978,
+      "grad_norm": 0.18171746562096064,
+      "learning_rate": 3.687951145361073e-06,
+      "loss": 0.0631,
+      "step": 340
+    },
+    {
+      "epoch": 1.4925373134328357,
+      "grad_norm": 0.17460796522473127,
+      "learning_rate": 3.165658911547592e-06,
+      "loss": 0.06,
+      "step": 350
+    },
+    {
+      "epoch": 1.535181236673774,
+      "grad_norm": 0.1810617961103566,
+      "learning_rate": 2.6762235274383775e-06,
+      "loss": 0.0612,
+      "step": 360
+    },
+    {
+      "epoch": 1.5778251599147122,
+      "grad_norm": 0.15880550118378636,
+      "learning_rate": 2.2219980077055756e-06,
+      "loss": 0.0616,
+      "step": 370
+    },
+    {
+      "epoch": 1.6204690831556503,
+      "grad_norm": 0.17610380896685834,
+      "learning_rate": 1.8051660917090718e-06,
+      "loss": 0.0593,
+      "step": 380
+    },
+    {
+      "epoch": 1.6631130063965884,
+      "grad_norm": 0.1852362138493889,
+      "learning_rate": 1.4277317449282834e-06,
+      "loss": 0.0608,
+      "step": 390
+    },
+    {
+      "epoch": 1.7057569296375266,
+      "grad_norm": 0.18397811408680578,
+      "learning_rate": 1.0915095246767692e-06,
+      "loss": 0.0603,
+      "step": 400
+    },
+    {
+      "epoch": 1.748400852878465,
+      "grad_norm": 0.18777942289827937,
+      "learning_rate": 7.981158564175074e-07,
+      "loss": 0.0607,
+      "step": 410
+    },
+    {
+      "epoch": 1.7910447761194028,
+      "grad_norm": 0.1785060533694166,
+      "learning_rate": 5.489612626189245e-07,
+      "loss": 0.0569,
+      "step": 420
+    },
+    {
+      "epoch": 1.8336886993603412,
+      "grad_norm": 0.17603977808158508,
+      "learning_rate": 3.452435815123323e-07,
+      "loss": 0.0604,
+      "step": 430
+    },
+    {
+      "epoch": 1.8763326226012793,
+      "grad_norm": 0.18882098153064591,
+      "learning_rate": 1.8794220835231413e-07,
+      "loss": 0.0609,
+      "step": 440
+    },
+    {
+      "epoch": 1.9189765458422174,
+      "grad_norm": 0.1838499771403163,
+      "learning_rate": 7.781338686584928e-08,
+      "loss": 0.0597,
+      "step": 450
+    },
+    {
+      "epoch": 1.9616204690831558,
+      "grad_norm": 0.17454958184966676,
+      "learning_rate": 1.5386573527067516e-08,
+      "loss": 0.0618,
+      "step": 460
+    },
+    {
+      "epoch": 1.9957356076759063,
+      "step": 468,
+      "total_flos": 140358569164800.0,
+      "train_loss": 0.10031582892705233,
+      "train_runtime": 1756.1076,
+      "train_samples_per_second": 34.132,
+      "train_steps_per_second": 0.266
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 468,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 2,
+  "save_steps": 5000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 140358569164800.0,
+  "train_batch_size": 4,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:510ddc93588b392157a63e5b685e9b9ea6b8128b4f88959648a77df98a71be60
+size 7224

training_loss.png ADDED Viewed

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff