End of training

Browse files

Files changed (6) hide show

README.md +14 -2
all_results.json +16 -0
eval_results.json +10 -0
tokenizer.json +1 -6
train_results.json +9 -0
trainer_state.json +358 -0

README.md CHANGED Viewed

@@ -3,11 +3,23 @@ license: other
 base_model: Qwen/Qwen1.5-4B
 tags:
 - generated_from_trainer
 metrics:
 - accuracy
 model-index:
 - name: lmind_nq_train6000_eval6489_v1_docidx_v3_Qwen_Qwen1.5-4B_lora2
-  results: []
 library_name: peft
 ---
@@ -16,7 +28,7 @@ should probably proofread and complete it, then remove this comment. -->
 # lmind_nq_train6000_eval6489_v1_docidx_v3_Qwen_Qwen1.5-4B_lora2
-This model is a fine-tuned version of [Qwen/Qwen1.5-4B](https://huggingface.co/Qwen/Qwen1.5-4B) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 4.5794
 - Accuracy: 0.4488

 base_model: Qwen/Qwen1.5-4B
 tags:
 - generated_from_trainer
+datasets:
+- tyzhu/lmind_nq_train6000_eval6489_v1_docidx_v3
 metrics:
 - accuracy
 model-index:
 - name: lmind_nq_train6000_eval6489_v1_docidx_v3_Qwen_Qwen1.5-4B_lora2
+  results:
+  - task:
+      name: Causal Language Modeling
+      type: text-generation
+    dataset:
+      name: tyzhu/lmind_nq_train6000_eval6489_v1_docidx_v3
+      type: tyzhu/lmind_nq_train6000_eval6489_v1_docidx_v3
+    metrics:
+    - name: Accuracy
+      type: accuracy
+      value: 0.44876923076923075
 library_name: peft
 ---
 # lmind_nq_train6000_eval6489_v1_docidx_v3_Qwen_Qwen1.5-4B_lora2
+This model is a fine-tuned version of [Qwen/Qwen1.5-4B](https://huggingface.co/Qwen/Qwen1.5-4B) on the tyzhu/lmind_nq_train6000_eval6489_v1_docidx_v3 dataset.
 It achieves the following results on the evaluation set:
 - Loss: 4.5794
 - Accuracy: 0.4488

all_results.json ADDED Viewed

	@@ -0,0 +1,16 @@

+{
+    "epoch": 9.985358711566619,
+    "eval_accuracy": 0.44876923076923075,
+    "eval_loss": 4.579395294189453,
+    "eval_runtime": 5.7694,
+    "eval_samples": 500,
+    "eval_samples_per_second": 86.664,
+    "eval_steps_per_second": 10.92,
+    "perplexity": 97.45544451167304,
+    "total_flos": 2.928245903951135e+17,
+    "train_loss": 1.2971285638221897,
+    "train_runtime": 7961.3414,
+    "train_samples": 10925,
+    "train_samples_per_second": 13.723,
+    "train_steps_per_second": 0.428
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "epoch": 9.985358711566619,
+    "eval_accuracy": 0.44876923076923075,
+    "eval_loss": 4.579395294189453,
+    "eval_runtime": 5.7694,
+    "eval_samples": 500,
+    "eval_samples_per_second": 86.664,
+    "eval_steps_per_second": 10.92,
+    "perplexity": 97.45544451167304
+}

tokenizer.json CHANGED Viewed

@@ -1,11 +1,6 @@
 {
   "version": "1.0",
-  "truncation": {
-    "direction": "Right",
-    "max_length": 1024,
-    "strategy": "LongestFirst",
-    "stride": 0
-  },
   "padding": null,
   "added_tokens": [
     {

 {
   "version": "1.0",
+  "truncation": null,
   "padding": null,
   "added_tokens": [
     {

train_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 9.985358711566619,
+    "total_flos": 2.928245903951135e+17,
+    "train_loss": 1.2971285638221897,
+    "train_runtime": 7961.3414,
+    "train_samples": 10925,
+    "train_samples_per_second": 13.723,
+    "train_steps_per_second": 0.428
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,358 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 9.985358711566619,
+  "eval_steps": 500,
+  "global_step": 3410,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.29282576866764276,
+      "grad_norm": 0.23606009781360626,
+      "learning_rate": 0.0001,
+      "loss": 1.9938,
+      "step": 100
+    },
+    {
+      "epoch": 0.5856515373352855,
+      "grad_norm": 0.22337330877780914,
+      "learning_rate": 0.0001,
+      "loss": 1.9531,
+      "step": 200
+    },
+    {
+      "epoch": 0.8784773060029283,
+      "grad_norm": 0.24150219559669495,
+      "learning_rate": 0.0001,
+      "loss": 1.9569,
+      "step": 300
+    },
+    {
+      "epoch": 0.9985358711566618,
+      "eval_accuracy": 0.4735897435897436,
+      "eval_loss": 3.029994249343872,
+      "eval_runtime": 6.0141,
+      "eval_samples_per_second": 83.138,
+      "eval_steps_per_second": 10.475,
+      "step": 341
+    },
+    {
+      "epoch": 1.171303074670571,
+      "grad_norm": 0.3368161618709564,
+      "learning_rate": 0.0001,
+      "loss": 1.9248,
+      "step": 400
+    },
+    {
+      "epoch": 1.4641288433382138,
+      "grad_norm": 0.35057055950164795,
+      "learning_rate": 0.0001,
+      "loss": 1.8673,
+      "step": 500
+    },
+    {
+      "epoch": 1.7569546120058566,
+      "grad_norm": 0.3612078130245209,
+      "learning_rate": 0.0001,
+      "loss": 1.8799,
+      "step": 600
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.468,
+      "eval_loss": 3.0993330478668213,
+      "eval_runtime": 5.7769,
+      "eval_samples_per_second": 86.552,
+      "eval_steps_per_second": 10.906,
+      "step": 683
+    },
+    {
+      "epoch": 2.049780380673499,
+      "grad_norm": 0.3790605664253235,
+      "learning_rate": 0.0001,
+      "loss": 1.8589,
+      "step": 700
+    },
+    {
+      "epoch": 2.342606149341142,
+      "grad_norm": 0.4730008542537689,
+      "learning_rate": 0.0001,
+      "loss": 1.7388,
+      "step": 800
+    },
+    {
+      "epoch": 2.6354319180087846,
+      "grad_norm": 0.5128541588783264,
+      "learning_rate": 0.0001,
+      "loss": 1.7602,
+      "step": 900
+    },
+    {
+      "epoch": 2.9282576866764276,
+      "grad_norm": 0.47732147574424744,
+      "learning_rate": 0.0001,
+      "loss": 1.7649,
+      "step": 1000
+    },
+    {
+      "epoch": 2.998535871156662,
+      "eval_accuracy": 0.46497435897435896,
+      "eval_loss": 3.2749927043914795,
+      "eval_runtime": 5.9485,
+      "eval_samples_per_second": 84.055,
+      "eval_steps_per_second": 10.591,
+      "step": 1024
+    },
+    {
+      "epoch": 3.22108345534407,
+      "grad_norm": 0.5486996173858643,
+      "learning_rate": 0.0001,
+      "loss": 1.6253,
+      "step": 1100
+    },
+    {
+      "epoch": 3.513909224011713,
+      "grad_norm": 0.5881295800209045,
+      "learning_rate": 0.0001,
+      "loss": 1.5814,
+      "step": 1200
+    },
+    {
+      "epoch": 3.8067349926793557,
+      "grad_norm": 0.6556105613708496,
+      "learning_rate": 0.0001,
+      "loss": 1.6077,
+      "step": 1300
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.4624615384615385,
+      "eval_loss": 3.44061017036438,
+      "eval_runtime": 6.0104,
+      "eval_samples_per_second": 83.189,
+      "eval_steps_per_second": 10.482,
+      "step": 1366
+    },
+    {
+      "epoch": 4.099560761346998,
+      "grad_norm": 0.7407939434051514,
+      "learning_rate": 0.0001,
+      "loss": 1.5353,
+      "step": 1400
+    },
+    {
+      "epoch": 4.392386530014641,
+      "grad_norm": 0.7361799478530884,
+      "learning_rate": 0.0001,
+      "loss": 1.4041,
+      "step": 1500
+    },
+    {
+      "epoch": 4.685212298682284,
+      "grad_norm": 0.8234521150588989,
+      "learning_rate": 0.0001,
+      "loss": 1.4094,
+      "step": 1600
+    },
+    {
+      "epoch": 4.978038067349927,
+      "grad_norm": 0.7719506621360779,
+      "learning_rate": 0.0001,
+      "loss": 1.4321,
+      "step": 1700
+    },
+    {
+      "epoch": 4.998535871156662,
+      "eval_accuracy": 0.4586153846153846,
+      "eval_loss": 3.649956464767456,
+      "eval_runtime": 6.0882,
+      "eval_samples_per_second": 82.126,
+      "eval_steps_per_second": 10.348,
+      "step": 1707
+    },
+    {
+      "epoch": 5.270863836017569,
+      "grad_norm": 0.9294306039810181,
+      "learning_rate": 0.0001,
+      "loss": 1.235,
+      "step": 1800
+    },
+    {
+      "epoch": 5.563689604685212,
+      "grad_norm": 0.9045848846435547,
+      "learning_rate": 0.0001,
+      "loss": 1.2176,
+      "step": 1900
+    },
+    {
+      "epoch": 5.856515373352855,
+      "grad_norm": 0.9663357734680176,
+      "learning_rate": 0.0001,
+      "loss": 1.2382,
+      "step": 2000
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 0.4562051282051282,
+      "eval_loss": 3.8597636222839355,
+      "eval_runtime": 5.8867,
+      "eval_samples_per_second": 84.938,
+      "eval_steps_per_second": 10.702,
+      "step": 2049
+    },
+    {
+      "epoch": 6.149341142020498,
+      "grad_norm": 1.1238723993301392,
+      "learning_rate": 0.0001,
+      "loss": 1.1124,
+      "step": 2100
+    },
+    {
+      "epoch": 6.44216691068814,
+      "grad_norm": 1.148653507232666,
+      "learning_rate": 0.0001,
+      "loss": 1.0179,
+      "step": 2200
+    },
+    {
+      "epoch": 6.734992679355783,
+      "grad_norm": 1.0516437292099,
+      "learning_rate": 0.0001,
+      "loss": 1.0525,
+      "step": 2300
+    },
+    {
+      "epoch": 6.998535871156662,
+      "eval_accuracy": 0.45405128205128203,
+      "eval_loss": 4.063765048980713,
+      "eval_runtime": 5.9001,
+      "eval_samples_per_second": 84.745,
+      "eval_steps_per_second": 10.678,
+      "step": 2390
+    },
+    {
+      "epoch": 7.027818448023426,
+      "grad_norm": 1.514868140220642,
+      "learning_rate": 0.0001,
+      "loss": 1.0228,
+      "step": 2400
+    },
+    {
+      "epoch": 7.320644216691068,
+      "grad_norm": 1.2208425998687744,
+      "learning_rate": 0.0001,
+      "loss": 0.8289,
+      "step": 2500
+    },
+    {
+      "epoch": 7.613469985358711,
+      "grad_norm": 1.30875825881958,
+      "learning_rate": 0.0001,
+      "loss": 0.8532,
+      "step": 2600
+    },
+    {
+      "epoch": 7.906295754026354,
+      "grad_norm": 1.1614426374435425,
+      "learning_rate": 0.0001,
+      "loss": 0.8607,
+      "step": 2700
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.4514871794871795,
+      "eval_loss": 4.238898277282715,
+      "eval_runtime": 5.692,
+      "eval_samples_per_second": 87.843,
+      "eval_steps_per_second": 11.068,
+      "step": 2732
+    },
+    {
+      "epoch": 8.199121522693996,
+      "grad_norm": 1.3075884580612183,
+      "learning_rate": 0.0001,
+      "loss": 0.7191,
+      "step": 2800
+    },
+    {
+      "epoch": 8.49194729136164,
+      "grad_norm": 1.3206127882003784,
+      "learning_rate": 0.0001,
+      "loss": 0.6764,
+      "step": 2900
+    },
+    {
+      "epoch": 8.784773060029282,
+      "grad_norm": 1.4475595951080322,
+      "learning_rate": 0.0001,
+      "loss": 0.7099,
+      "step": 3000
+    },
+    {
+      "epoch": 8.998535871156662,
+      "eval_accuracy": 0.4515897435897436,
+      "eval_loss": 4.348447322845459,
+      "eval_runtime": 5.9542,
+      "eval_samples_per_second": 83.974,
+      "eval_steps_per_second": 10.581,
+      "step": 3073
+    },
+    {
+      "epoch": 9.077598828696924,
+      "grad_norm": 1.4415100812911987,
+      "learning_rate": 0.0001,
+      "loss": 0.6599,
+      "step": 3100
+    },
+    {
+      "epoch": 9.370424597364568,
+      "grad_norm": 1.4340169429779053,
+      "learning_rate": 0.0001,
+      "loss": 0.5379,
+      "step": 3200
+    },
+    {
+      "epoch": 9.66325036603221,
+      "grad_norm": 1.393764853477478,
+      "learning_rate": 0.0001,
+      "loss": 0.553,
+      "step": 3300
+    },
+    {
+      "epoch": 9.956076134699854,
+      "grad_norm": 1.486255168914795,
+      "learning_rate": 0.0001,
+      "loss": 0.5823,
+      "step": 3400
+    },
+    {
+      "epoch": 9.985358711566619,
+      "eval_accuracy": 0.44876923076923075,
+      "eval_loss": 4.579395294189453,
+      "eval_runtime": 5.9861,
+      "eval_samples_per_second": 83.527,
+      "eval_steps_per_second": 10.524,
+      "step": 3410
+    },
+    {
+      "epoch": 9.985358711566619,
+      "step": 3410,
+      "total_flos": 2.928245903951135e+17,
+      "train_loss": 1.2971285638221897,
+      "train_runtime": 7961.3414,
+      "train_samples_per_second": 13.723,
+      "train_steps_per_second": 0.428
+    }
+  ],
+  "logging_steps": 100,
+  "max_steps": 3410,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "total_flos": 2.928245903951135e+17,
+  "train_batch_size": 1,
+  "trial_name": null,
+  "trial_params": null
+}