Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

adapter_config.json +5 -5
adapter_model.safetensors +2 -2
optimizer.pt +2 -2
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +195 -33
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -12,21 +12,21 @@
   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
-  "lora_alpha": 256,
   "lora_bias": false,
   "lora_dropout": 0.0001,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
-  "r": 128,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "down_proj",
     "o_proj",
-    "gate_up_proj",
-    "qkv_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "layers_pattern": null,
   "layers_to_transform": null,
   "loftq_config": {},
+  "lora_alpha": 64,
   "lora_bias": false,
   "lora_dropout": 0.0001,
   "megatron_config": null,
   "megatron_core": "megatron.core",
   "modules_to_save": null,
   "peft_type": "LORA",
+  "r": 32,
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
     "o_proj",
+    "qkv_proj",
+    "down_proj",
+    "gate_up_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d64777516b5921ef8d744b5ebd508a3756f6ad1854cd4f846edc778151c52cea
-size 805341552

 version https://git-lfs.github.com/spec/v1
+oid sha256:722e0d11c18df2484130fccf458fb994d57d4dee4423f6ff233ab20595ac5492
+size 201361312

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b026fc64ffcd926472bc17624cbfe986d3a3db1c0cb76db198da37defead598a
-size 1610828538

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ef9fd6ce3475d48ab32d6a7526e8f236b02b149d6e84fd712103775f348a974
+size 402868986

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b3e64dac40ba173bacca43da1c2f8d06bd604cd010c45a36fa0bb45c3bacdc23
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:dde5f077a5393538b5aed42dc077f2c26a3ecb3009a6cd8323a0963c172eeafe
 size 14244

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0fe414f5049a6513e25a7549fe53863c7bf47a5a8dee1e296c2165e39af671b8
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a16bc59ca2ad7c9d866e071897b87e0c2309c5def808c0078c92b1caa75df182
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,72 +1,234 @@
 {
-  "best_global_step": 27,
-  "best_metric": 0.5784786939620972,
-  "best_model_checkpoint": "//outputs/task7_microsoft/Phi-3.5-mini-instruct/checkpoint-27",
-  "epoch": 3.0,
   "eval_steps": 500,
-  "global_step": 27,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.5882352941176471,
-      "grad_norm": 0.38448742032051086,
-      "learning_rate": 0.0001,
-      "loss": 0.7574,
       "step": 5
     },
     {
       "epoch": 1.0,
-      "eval_loss": 0.6299339532852173,
-      "eval_runtime": 3.415,
-      "eval_samples_per_second": 4.392,
-      "eval_steps_per_second": 0.586,
       "step": 9
     },
     {
       "epoch": 1.1176470588235294,
-      "grad_norm": 0.339433491230011,
-      "learning_rate": 9.931806517013612e-05,
-      "loss": 0.6323,
       "step": 10
     },
     {
       "epoch": 1.7058823529411766,
-      "grad_norm": 0.32222846150398254,
-      "learning_rate": 9.729086208503174e-05,
-      "loss": 0.5438,
       "step": 15
     },
     {
       "epoch": 2.0,
-      "eval_loss": 0.5842064619064331,
-      "eval_runtime": 3.4146,
-      "eval_samples_per_second": 4.393,
-      "eval_steps_per_second": 0.586,
       "step": 18
     },
     {
       "epoch": 2.235294117647059,
-      "grad_norm": 0.26292550563812256,
-      "learning_rate": 9.397368756032445e-05,
-      "loss": 0.4495,
       "step": 20
     },
     {
       "epoch": 2.8235294117647056,
-      "grad_norm": 0.28129199147224426,
-      "learning_rate": 8.945702546981969e-05,
-      "loss": 0.3702,
       "step": 25
     },
     {
       "epoch": 3.0,
-      "eval_loss": 0.5784786939620972,
-      "eval_runtime": 3.4121,
-      "eval_samples_per_second": 4.396,
-      "eval_steps_per_second": 0.586,
       "step": 27
     }
   ],
   "logging_steps": 5,
@@ -86,7 +248,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.4777106488322048e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 99,
+  "best_metric": 0.6646606922149658,
+  "best_model_checkpoint": "//outputs/task7_microsoft/Phi-3.5-mini-instruct/checkpoint-99",
+  "epoch": 11.0,
   "eval_steps": 500,
+  "global_step": 99,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.5882352941176471,
+      "grad_norm": 0.5897260308265686,
+      "learning_rate": 1e-05,
+      "loss": 0.8043,
       "step": 5
     },
     {
       "epoch": 1.0,
+      "eval_loss": 0.7620137929916382,
+      "eval_runtime": 3.3723,
+      "eval_samples_per_second": 4.448,
+      "eval_steps_per_second": 0.593,
       "step": 9
     },
     {
       "epoch": 1.1176470588235294,
+      "grad_norm": 0.5304206609725952,
+      "learning_rate": 9.931806517013612e-06,
+      "loss": 0.7621,
       "step": 10
     },
     {
       "epoch": 1.7058823529411766,
+      "grad_norm": 0.3766116499900818,
+      "learning_rate": 9.729086208503174e-06,
+      "loss": 0.7587,
       "step": 15
     },
     {
       "epoch": 2.0,
+      "eval_loss": 0.7274001240730286,
+      "eval_runtime": 3.3712,
+      "eval_samples_per_second": 4.449,
+      "eval_steps_per_second": 0.593,
       "step": 18
     },
     {
       "epoch": 2.235294117647059,
+      "grad_norm": 0.2997392416000366,
+      "learning_rate": 9.397368756032445e-06,
+      "loss": 0.7073,
       "step": 20
     },
     {
       "epoch": 2.8235294117647056,
+      "grad_norm": 0.2789791226387024,
+      "learning_rate": 8.94570254698197e-06,
+      "loss": 0.6531,
       "step": 25
     },
     {
       "epoch": 3.0,
+      "eval_loss": 0.7077590823173523,
+      "eval_runtime": 3.3715,
+      "eval_samples_per_second": 4.449,
+      "eval_steps_per_second": 0.593,
       "step": 27
+    },
+    {
+      "epoch": 3.3529411764705883,
+      "grad_norm": 0.28947126865386963,
+      "learning_rate": 8.386407858128707e-06,
+      "loss": 0.7029,
+      "step": 30
+    },
+    {
+      "epoch": 3.9411764705882355,
+      "grad_norm": 0.2775668799877167,
+      "learning_rate": 7.734740790612137e-06,
+      "loss": 0.6033,
+      "step": 35
+    },
+    {
+      "epoch": 4.0,
+      "eval_loss": 0.6937279105186462,
+      "eval_runtime": 3.3722,
+      "eval_samples_per_second": 4.448,
+      "eval_steps_per_second": 0.593,
+      "step": 36
+    },
+    {
+      "epoch": 4.470588235294118,
+      "grad_norm": 0.24069756269454956,
+      "learning_rate": 7.008477123264849e-06,
+      "loss": 0.6549,
+      "step": 40
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 0.31259897351264954,
+      "learning_rate": 6.227427435703997e-06,
+      "loss": 0.694,
+      "step": 45
+    },
+    {
+      "epoch": 5.0,
+      "eval_loss": 0.6824610829353333,
+      "eval_runtime": 3.3719,
+      "eval_samples_per_second": 4.449,
+      "eval_steps_per_second": 0.593,
+      "step": 45
+    },
+    {
+      "epoch": 5.588235294117647,
+      "grad_norm": 0.25407281517982483,
+      "learning_rate": 5.412896727361663e-06,
+      "loss": 0.6865,
+      "step": 50
+    },
+    {
+      "epoch": 6.0,
+      "eval_loss": 0.6763660311698914,
+      "eval_runtime": 3.3717,
+      "eval_samples_per_second": 4.449,
+      "eval_steps_per_second": 0.593,
+      "step": 54
+    },
+    {
+      "epoch": 6.117647058823529,
+      "grad_norm": 0.2767919600009918,
+      "learning_rate": 4.587103272638339e-06,
+      "loss": 0.6081,
+      "step": 55
+    },
+    {
+      "epoch": 6.705882352941177,
+      "grad_norm": 0.24282197654247284,
+      "learning_rate": 3.7725725642960047e-06,
+      "loss": 0.6577,
+      "step": 60
+    },
+    {
+      "epoch": 7.0,
+      "eval_loss": 0.6713435649871826,
+      "eval_runtime": 3.3715,
+      "eval_samples_per_second": 4.449,
+      "eval_steps_per_second": 0.593,
+      "step": 63
+    },
+    {
+      "epoch": 7.235294117647059,
+      "grad_norm": 0.1744387447834015,
+      "learning_rate": 2.991522876735154e-06,
+      "loss": 0.5941,
+      "step": 65
+    },
+    {
+      "epoch": 7.823529411764706,
+      "grad_norm": 0.20212271809577942,
+      "learning_rate": 2.265259209387867e-06,
+      "loss": 0.6509,
+      "step": 70
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 0.6677358150482178,
+      "eval_runtime": 3.3723,
+      "eval_samples_per_second": 4.448,
+      "eval_steps_per_second": 0.593,
+      "step": 72
+    },
+    {
+      "epoch": 8.352941176470589,
+      "grad_norm": 0.16120634973049164,
+      "learning_rate": 1.6135921418712959e-06,
+      "loss": 0.5923,
+      "step": 75
+    },
+    {
+      "epoch": 8.941176470588236,
+      "grad_norm": 0.2318679690361023,
+      "learning_rate": 1.0542974530180327e-06,
+      "loss": 0.6438,
+      "step": 80
+    },
+    {
+      "epoch": 9.0,
+      "eval_loss": 0.6655252575874329,
+      "eval_runtime": 3.3713,
+      "eval_samples_per_second": 4.449,
+      "eval_steps_per_second": 0.593,
+      "step": 81
+    },
+    {
+      "epoch": 9.470588235294118,
+      "grad_norm": 0.19574101269245148,
+      "learning_rate": 6.026312439675553e-07,
+      "loss": 0.6359,
+      "step": 85
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 0.22642117738723755,
+      "learning_rate": 2.7091379149682683e-07,
+      "loss": 0.5741,
+      "step": 90
+    },
+    {
+      "epoch": 10.0,
+      "eval_loss": 0.6652756929397583,
+      "eval_runtime": 3.3709,
+      "eval_samples_per_second": 4.45,
+      "eval_steps_per_second": 0.593,
+      "step": 90
+    },
+    {
+      "epoch": 10.588235294117647,
+      "grad_norm": 0.2666153013706207,
+      "learning_rate": 6.819348298638839e-08,
+      "loss": 0.6734,
+      "step": 95
+    },
+    {
+      "epoch": 11.0,
+      "eval_loss": 0.6646606922149658,
+      "eval_runtime": 3.3717,
+      "eval_samples_per_second": 4.449,
+      "eval_steps_per_second": 0.593,
+      "step": 99
     }
   ],
   "logging_steps": 5,
       "attributes": {}
     }
   },
+  "total_flos": 5.180655973758566e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8d8619b2675a3aadf91623d77096e075400d78b3a6660267fb11439bce8f9586
 size 5624

 version https://git-lfs.github.com/spec/v1
+oid sha256:02dca0ceed349b196a13d4f3de83bdc1d637c3f4a599aaf1cc66d5744a87d6c3
 size 5624