Training in progress, step 500

Files changed (5) hide show

config.json ADDED Viewed

+{
+  "architectures": [
+    "Llama4ForCausalLM"
+  ],
+  "attention_bias": false,
+  "attention_chunk_size": 8192,
+  "attention_dropout": 0.0,
+  "attn_scale": 0.1,
+  "attn_temperature_tuning": true,
+  "bos_token_id": 4,
+  "eos_token_id": 5,
+  "floor_scale": 8192,
+  "head_dim": 128,
+  "hidden_act": "silu",
+  "hidden_size": 512,
+  "initializer_range": 0.02,
+  "interleave_moe_layer_step": 1,
+  "intermediate_size": 2048,
+  "intermediate_size_mlp": 16384,
+  "layer_types": [
+    "chunked_attention",
+    "chunked_attention",
+    "chunked_attention",
+    "full_attention",
+    "chunked_attention",
+    "chunked_attention",
+    "chunked_attention",
+    "full_attention"
+  ],
+  "max_position_embeddings": 2048,
+  "model_type": "llama4_text",
+  "moe_layers": [
+    0,
+    1,
+    2,
+    3,
+    4,
+    5,
+    6,
+    7
+  ],
+  "no_rope_layers": [
+    1,
+    1,
+    1,
+    0,
+    1,
+    1,
+    1,
+    0
+  ],
+  "num_attention_heads": 8,
+  "num_experts_per_tok": 1,
+  "num_hidden_layers": 8,
+  "num_key_value_heads": 8,
+  "num_local_experts": 16,
+  "output_router_logits": false,
+  "pad_token_id": 0,
+  "rms_norm_eps": 1e-05,
+  "rope_scaling": null,
+  "rope_theta": 500000,
+  "router_aux_loss_coef": 0.001,
+  "router_jitter_noise": 0.0,
+  "tie_word_embeddings": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.53.2",
+  "use_cache": true,
+  "use_qk_norm": true,
+  "vocab_size": 1065
+}

model.safetensors ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:d34244aa23affa7866cc41ec6c17c21dae049f6d456609362ac440ceda749613
+size 1783055976

runs/Jul17_15-02-42_f523c4bc5fb7/events.out.tfevents.1752764564.f523c4bc5fb7.9633.0 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:beee5ae0f9f1cb607bfa99d3f39a30e4da2dcafed8db11fae2116bbf94fb37bf
+size 5771

runs/Jul17_15-36-57_f523c4bc5fb7/events.out.tfevents.1752766619.f523c4bc5fb7.19217.0 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:72a9c45d4e209b99c431e2f353c961634d654119a42c8b3864f8349d2539e6cc
+size 8144

training_args.bin ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:65986360466587c8fea248a9270c0a0a84e47ac9bbbbc82defb00c4a4dc06b45
+size 5432