End of training

Browse files

Files changed (7) hide show

README.md +2 -1
all_results.json +12 -0
eval_results.json +7 -0
train_results.json +8 -0
trainer_state.json +535 -0
training_eval_loss.png +0 -0
training_loss.png +0 -0

README.md CHANGED Viewed

@@ -4,6 +4,7 @@ license: llama3.1
 base_model: meta-llama/Meta-Llama-3.1-8B
 tags:
 - llama-factory
 - generated_from_trainer
 model-index:
 - name: top_6_ranking_stackexchange
@@ -15,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 # top_6_ranking_stackexchange
-This model is a fine-tuned version of [meta-llama/Meta-Llama-3.1-8B](https://huggingface.co/meta-llama/Meta-Llama-3.1-8B) on an unknown dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.8030

 base_model: meta-llama/Meta-Llama-3.1-8B
 tags:
 - llama-factory
+- full
 - generated_from_trainer
 model-index:
 - name: top_6_ranking_stackexchange
 # top_6_ranking_stackexchange
+This model is a fine-tuned version of [meta-llama/Meta-Llama-3.1-8B](https://huggingface.co/meta-llama/Meta-Llama-3.1-8B) on the mlfoundations-dev/top_6_ranking_stackexchange dataset.
 It achieves the following results on the evaluation set:
 - Loss: 0.8030

all_results.json ADDED Viewed

	@@ -0,0 +1,12 @@

+{
+    "epoch": 2.998341625207297,
+    "eval_loss": 0.8029554486274719,
+    "eval_runtime": 243.1975,
+    "eval_samples_per_second": 25.045,
+    "eval_steps_per_second": 0.395,
+    "total_flos": 1135465872752640.0,
+    "train_loss": 0.7878002100637881,
+    "train_runtime": 40109.1493,
+    "train_samples_per_second": 8.655,
+    "train_steps_per_second": 0.017
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 2.998341625207297,
+    "eval_loss": 0.8029554486274719,
+    "eval_runtime": 243.1975,
+    "eval_samples_per_second": 25.045,
+    "eval_steps_per_second": 0.395
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 2.998341625207297,
+    "total_flos": 1135465872752640.0,
+    "train_loss": 0.7878002100637881,
+    "train_runtime": 40109.1493,
+    "train_samples_per_second": 8.655,
+    "train_steps_per_second": 0.017
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,535 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 2.998341625207297,
+  "eval_steps": 500,
+  "global_step": 678,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04422332780541736,
+      "grad_norm": 4.768859095801477,
+      "learning_rate": 5e-06,
+      "loss": 1.0593,
+      "step": 10
+    },
+    {
+      "epoch": 0.08844665561083472,
+      "grad_norm": 1.3638339705466873,
+      "learning_rate": 5e-06,
+      "loss": 0.9591,
+      "step": 20
+    },
+    {
+      "epoch": 0.13266998341625208,
+      "grad_norm": 1.0611235348657122,
+      "learning_rate": 5e-06,
+      "loss": 0.9174,
+      "step": 30
+    },
+    {
+      "epoch": 0.17689331122166943,
+      "grad_norm": 0.6554647557228966,
+      "learning_rate": 5e-06,
+      "loss": 0.8954,
+      "step": 40
+    },
+    {
+      "epoch": 0.22111663902708678,
+      "grad_norm": 0.7787822650243691,
+      "learning_rate": 5e-06,
+      "loss": 0.881,
+      "step": 50
+    },
+    {
+      "epoch": 0.26533996683250416,
+      "grad_norm": 0.6681358856747321,
+      "learning_rate": 5e-06,
+      "loss": 0.8691,
+      "step": 60
+    },
+    {
+      "epoch": 0.3095632946379215,
+      "grad_norm": 1.0207470923973838,
+      "learning_rate": 5e-06,
+      "loss": 0.8627,
+      "step": 70
+    },
+    {
+      "epoch": 0.35378662244333886,
+      "grad_norm": 0.5630540997498391,
+      "learning_rate": 5e-06,
+      "loss": 0.8535,
+      "step": 80
+    },
+    {
+      "epoch": 0.39800995024875624,
+      "grad_norm": 0.6693775258862074,
+      "learning_rate": 5e-06,
+      "loss": 0.8472,
+      "step": 90
+    },
+    {
+      "epoch": 0.44223327805417356,
+      "grad_norm": 0.5397901829615734,
+      "learning_rate": 5e-06,
+      "loss": 0.8402,
+      "step": 100
+    },
+    {
+      "epoch": 0.48645660585959094,
+      "grad_norm": 0.5446898861966208,
+      "learning_rate": 5e-06,
+      "loss": 0.8439,
+      "step": 110
+    },
+    {
+      "epoch": 0.5306799336650083,
+      "grad_norm": 0.6446977311812815,
+      "learning_rate": 5e-06,
+      "loss": 0.8352,
+      "step": 120
+    },
+    {
+      "epoch": 0.5749032614704257,
+      "grad_norm": 0.6555267255305577,
+      "learning_rate": 5e-06,
+      "loss": 0.8362,
+      "step": 130
+    },
+    {
+      "epoch": 0.619126589275843,
+      "grad_norm": 0.6071228645385814,
+      "learning_rate": 5e-06,
+      "loss": 0.8338,
+      "step": 140
+    },
+    {
+      "epoch": 0.6633499170812603,
+      "grad_norm": 0.6666164970527618,
+      "learning_rate": 5e-06,
+      "loss": 0.8325,
+      "step": 150
+    },
+    {
+      "epoch": 0.7075732448866777,
+      "grad_norm": 0.7405307770572969,
+      "learning_rate": 5e-06,
+      "loss": 0.8306,
+      "step": 160
+    },
+    {
+      "epoch": 0.7517965726920951,
+      "grad_norm": 0.648621377705099,
+      "learning_rate": 5e-06,
+      "loss": 0.825,
+      "step": 170
+    },
+    {
+      "epoch": 0.7960199004975125,
+      "grad_norm": 0.6174528630890239,
+      "learning_rate": 5e-06,
+      "loss": 0.825,
+      "step": 180
+    },
+    {
+      "epoch": 0.8402432283029297,
+      "grad_norm": 0.6096108788369824,
+      "learning_rate": 5e-06,
+      "loss": 0.828,
+      "step": 190
+    },
+    {
+      "epoch": 0.8844665561083471,
+      "grad_norm": 0.6233682672186589,
+      "learning_rate": 5e-06,
+      "loss": 0.8206,
+      "step": 200
+    },
+    {
+      "epoch": 0.9286898839137645,
+      "grad_norm": 0.5897392778466438,
+      "learning_rate": 5e-06,
+      "loss": 0.8194,
+      "step": 210
+    },
+    {
+      "epoch": 0.9729132117191819,
+      "grad_norm": 0.6364180631866845,
+      "learning_rate": 5e-06,
+      "loss": 0.8192,
+      "step": 220
+    },
+    {
+      "epoch": 0.9994472084024323,
+      "eval_loss": 0.8188642859458923,
+      "eval_runtime": 241.7814,
+      "eval_samples_per_second": 25.192,
+      "eval_steps_per_second": 0.397,
+      "step": 226
+    },
+    {
+      "epoch": 1.0171365395245993,
+      "grad_norm": 0.8401934760295878,
+      "learning_rate": 5e-06,
+      "loss": 0.8736,
+      "step": 230
+    },
+    {
+      "epoch": 1.0613598673300166,
+      "grad_norm": 0.6924217159522782,
+      "learning_rate": 5e-06,
+      "loss": 0.7791,
+      "step": 240
+    },
+    {
+      "epoch": 1.105583195135434,
+      "grad_norm": 0.6227073416365713,
+      "learning_rate": 5e-06,
+      "loss": 0.7727,
+      "step": 250
+    },
+    {
+      "epoch": 1.1498065229408514,
+      "grad_norm": 0.7235304668788265,
+      "learning_rate": 5e-06,
+      "loss": 0.7744,
+      "step": 260
+    },
+    {
+      "epoch": 1.1940298507462686,
+      "grad_norm": 0.746156478217497,
+      "learning_rate": 5e-06,
+      "loss": 0.7782,
+      "step": 270
+    },
+    {
+      "epoch": 1.238253178551686,
+      "grad_norm": 0.5017631392186541,
+      "learning_rate": 5e-06,
+      "loss": 0.7725,
+      "step": 280
+    },
+    {
+      "epoch": 1.2824765063571033,
+      "grad_norm": 0.6708233303272528,
+      "learning_rate": 5e-06,
+      "loss": 0.7743,
+      "step": 290
+    },
+    {
+      "epoch": 1.3266998341625207,
+      "grad_norm": 0.5095600106143972,
+      "learning_rate": 5e-06,
+      "loss": 0.7771,
+      "step": 300
+    },
+    {
+      "epoch": 1.370923161967938,
+      "grad_norm": 0.6143829597239137,
+      "learning_rate": 5e-06,
+      "loss": 0.7791,
+      "step": 310
+    },
+    {
+      "epoch": 1.4151464897733554,
+      "grad_norm": 0.5299695878772724,
+      "learning_rate": 5e-06,
+      "loss": 0.7701,
+      "step": 320
+    },
+    {
+      "epoch": 1.4593698175787728,
+      "grad_norm": 0.8961117085421567,
+      "learning_rate": 5e-06,
+      "loss": 0.7744,
+      "step": 330
+    },
+    {
+      "epoch": 1.5035931453841902,
+      "grad_norm": 0.6460013246109816,
+      "learning_rate": 5e-06,
+      "loss": 0.7742,
+      "step": 340
+    },
+    {
+      "epoch": 1.5478164731896076,
+      "grad_norm": 0.6046580452721985,
+      "learning_rate": 5e-06,
+      "loss": 0.7766,
+      "step": 350
+    },
+    {
+      "epoch": 1.5920398009950247,
+      "grad_norm": 0.498673310522,
+      "learning_rate": 5e-06,
+      "loss": 0.7655,
+      "step": 360
+    },
+    {
+      "epoch": 1.6362631288004423,
+      "grad_norm": 0.5756912477533281,
+      "learning_rate": 5e-06,
+      "loss": 0.7664,
+      "step": 370
+    },
+    {
+      "epoch": 1.6804864566058595,
+      "grad_norm": 0.5909938158386441,
+      "learning_rate": 5e-06,
+      "loss": 0.7734,
+      "step": 380
+    },
+    {
+      "epoch": 1.724709784411277,
+      "grad_norm": 0.5646794402196003,
+      "learning_rate": 5e-06,
+      "loss": 0.7697,
+      "step": 390
+    },
+    {
+      "epoch": 1.7689331122166942,
+      "grad_norm": 0.5696713148490632,
+      "learning_rate": 5e-06,
+      "loss": 0.7698,
+      "step": 400
+    },
+    {
+      "epoch": 1.8131564400221116,
+      "grad_norm": 0.5807215009462741,
+      "learning_rate": 5e-06,
+      "loss": 0.7701,
+      "step": 410
+    },
+    {
+      "epoch": 1.857379767827529,
+      "grad_norm": 0.8065550639927499,
+      "learning_rate": 5e-06,
+      "loss": 0.7673,
+      "step": 420
+    },
+    {
+      "epoch": 1.9016030956329464,
+      "grad_norm": 0.6987216787889214,
+      "learning_rate": 5e-06,
+      "loss": 0.7782,
+      "step": 430
+    },
+    {
+      "epoch": 1.9458264234383638,
+      "grad_norm": 0.5679466822853785,
+      "learning_rate": 5e-06,
+      "loss": 0.7657,
+      "step": 440
+    },
+    {
+      "epoch": 1.9900497512437811,
+      "grad_norm": 0.5468261025827943,
+      "learning_rate": 5e-06,
+      "loss": 0.773,
+      "step": 450
+    },
+    {
+      "epoch": 1.9988944168048646,
+      "eval_loss": 0.8043199181556702,
+      "eval_runtime": 241.2347,
+      "eval_samples_per_second": 25.249,
+      "eval_steps_per_second": 0.398,
+      "step": 452
+    },
+    {
+      "epoch": 2.0342730790491985,
+      "grad_norm": 0.758036640530355,
+      "learning_rate": 5e-06,
+      "loss": 0.8044,
+      "step": 460
+    },
+    {
+      "epoch": 2.0784964068546157,
+      "grad_norm": 0.6050643615983663,
+      "learning_rate": 5e-06,
+      "loss": 0.7156,
+      "step": 470
+    },
+    {
+      "epoch": 2.1227197346600333,
+      "grad_norm": 0.5568356769382555,
+      "learning_rate": 5e-06,
+      "loss": 0.7241,
+      "step": 480
+    },
+    {
+      "epoch": 2.1669430624654504,
+      "grad_norm": 0.6441077671065562,
+      "learning_rate": 5e-06,
+      "loss": 0.7254,
+      "step": 490
+    },
+    {
+      "epoch": 2.211166390270868,
+      "grad_norm": 0.6735974311090696,
+      "learning_rate": 5e-06,
+      "loss": 0.7226,
+      "step": 500
+    },
+    {
+      "epoch": 2.255389718076285,
+      "grad_norm": 0.5928676588586732,
+      "learning_rate": 5e-06,
+      "loss": 0.7249,
+      "step": 510
+    },
+    {
+      "epoch": 2.299613045881703,
+      "grad_norm": 0.8362718874140773,
+      "learning_rate": 5e-06,
+      "loss": 0.7238,
+      "step": 520
+    },
+    {
+      "epoch": 2.34383637368712,
+      "grad_norm": 0.7669800765607059,
+      "learning_rate": 5e-06,
+      "loss": 0.7293,
+      "step": 530
+    },
+    {
+      "epoch": 2.388059701492537,
+      "grad_norm": 0.5669209147388666,
+      "learning_rate": 5e-06,
+      "loss": 0.7265,
+      "step": 540
+    },
+    {
+      "epoch": 2.4322830292979547,
+      "grad_norm": 0.5555317635481833,
+      "learning_rate": 5e-06,
+      "loss": 0.728,
+      "step": 550
+    },
+    {
+      "epoch": 2.476506357103372,
+      "grad_norm": 0.608594953859089,
+      "learning_rate": 5e-06,
+      "loss": 0.7212,
+      "step": 560
+    },
+    {
+      "epoch": 2.5207296849087895,
+      "grad_norm": 0.5623090495310133,
+      "learning_rate": 5e-06,
+      "loss": 0.7272,
+      "step": 570
+    },
+    {
+      "epoch": 2.5649530127142066,
+      "grad_norm": 0.6506557308692492,
+      "learning_rate": 5e-06,
+      "loss": 0.7264,
+      "step": 580
+    },
+    {
+      "epoch": 2.609176340519624,
+      "grad_norm": 0.6848080616083779,
+      "learning_rate": 5e-06,
+      "loss": 0.7281,
+      "step": 590
+    },
+    {
+      "epoch": 2.6533996683250414,
+      "grad_norm": 0.6290583444604176,
+      "learning_rate": 5e-06,
+      "loss": 0.7267,
+      "step": 600
+    },
+    {
+      "epoch": 2.697622996130459,
+      "grad_norm": 0.5959171476986439,
+      "learning_rate": 5e-06,
+      "loss": 0.7288,
+      "step": 610
+    },
+    {
+      "epoch": 2.741846323935876,
+      "grad_norm": 0.6843601736199919,
+      "learning_rate": 5e-06,
+      "loss": 0.7281,
+      "step": 620
+    },
+    {
+      "epoch": 2.7860696517412933,
+      "grad_norm": 0.5676896598761424,
+      "learning_rate": 5e-06,
+      "loss": 0.7259,
+      "step": 630
+    },
+    {
+      "epoch": 2.830292979546711,
+      "grad_norm": 0.55881993358637,
+      "learning_rate": 5e-06,
+      "loss": 0.7244,
+      "step": 640
+    },
+    {
+      "epoch": 2.8745163073521285,
+      "grad_norm": 0.5804589184638674,
+      "learning_rate": 5e-06,
+      "loss": 0.7239,
+      "step": 650
+    },
+    {
+      "epoch": 2.9187396351575456,
+      "grad_norm": 0.5574889452683206,
+      "learning_rate": 5e-06,
+      "loss": 0.72,
+      "step": 660
+    },
+    {
+      "epoch": 2.962962962962963,
+      "grad_norm": 0.6685921469278409,
+      "learning_rate": 5e-06,
+      "loss": 0.7266,
+      "step": 670
+    },
+    {
+      "epoch": 2.998341625207297,
+      "eval_loss": 0.8029554486274719,
+      "eval_runtime": 242.4122,
+      "eval_samples_per_second": 25.127,
+      "eval_steps_per_second": 0.396,
+      "step": 678
+    },
+    {
+      "epoch": 2.998341625207297,
+      "step": 678,
+      "total_flos": 1135465872752640.0,
+      "train_loss": 0.7878002100637881,
+      "train_runtime": 40109.1493,
+      "train_samples_per_second": 8.655,
+      "train_steps_per_second": 0.017
+    }
+  ],
+  "logging_steps": 10,
+  "max_steps": 678,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1135465872752640.0,
+  "train_batch_size": 8,
+  "trial_name": null,
+  "trial_params": null
+}

training_eval_loss.png ADDED Viewed

training_loss.png ADDED Viewed