Upload folder using huggingface_hub

Browse files

Files changed (10) hide show

README.md +1 -1
adapter_config.json +5 -5
adapter_model.safetensors +2 -2
optimizer.pt +2 -2
scaler.pt +3 -0
special_tokens_map.json +3 -13
tokenizer.json +2 -2
tokenizer_config.json +0 -0
trainer_state.json +121 -121
training_args.bin +1 -1

README.md CHANGED Viewed

@@ -1,5 +1,5 @@
 ---
-base_model: unsloth/gemma-3-1b-it-unsloth-bnb-4bit
 library_name: peft
 ---

 ---
+base_model: unsloth/llama-3.2-1b-unsloth-bnb-4bit
 library_name: peft
 ---

adapter_config.json CHANGED Viewed

@@ -1,7 +1,7 @@
 {
   "alpha_pattern": {},
   "auto_mapping": null,
-  "base_model_name_or_path": "unsloth/gemma-3-1b-it-unsloth-bnb-4bit",
   "bias": "none",
   "corda_config": null,
   "eva_config": null,
@@ -26,11 +26,11 @@
   "target_modules": [
     "up_proj",
     "down_proj",
-    "k_proj",
-    "v_proj",
-    "o_proj",
     "gate_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "trainable_token_indices": null,

 {
   "alpha_pattern": {},
   "auto_mapping": null,
+  "base_model_name_or_path": "unsloth/llama-3.2-1b-unsloth-bnb-4bit",
   "bias": "none",
   "corda_config": null,
   "eva_config": null,
   "target_modules": [
     "up_proj",
     "down_proj",
+    "q_proj",
     "gate_proj",
+    "o_proj",
+    "k_proj",
+    "v_proj"
   ],
   "task_type": "CAUSAL_LM",
   "trainable_token_indices": null,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74bef3db54e6bac3c49f92460956081a498029372a38f71d4d5ab83bf672595f
-size 52231312

 version https://git-lfs.github.com/spec/v1
+oid sha256:007508438510a9993b504d83e86e9d2d5d4639861498df2b660b9a76fd582e8a
+size 45118424

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:43d6c1506146720c3840cb82ed1d8e4a9b1bc15ed2d95d45e25cf580ca4fd753
-size 26913540

 version https://git-lfs.github.com/spec/v1
+oid sha256:9173944cba49237a56c3639e7e239e47c013274d5737a3b3bb7c6e04773d7fde
+size 23159290

scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e519e08ca9fc888c2bda67757300232e2f905bac4423928f91bead1dc00c1c3b
+size 988

special_tokens_map.json CHANGED Viewed

@@ -1,30 +1,20 @@
 {
-  "boi_token": "<start_of_image>",
   "bos_token": {
-    "content": "<bos>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
-  "eoi_token": "<end_of_image>",
   "eos_token": {
-    "content": "<end_of_turn>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
-  "image_token": "<image_soft_token>",
   "pad_token": {
-    "content": "<pad>",
-    "lstrip": false,
-    "normalized": false,
-    "rstrip": false,
-    "single_word": false
-  },
-  "unk_token": {
-    "content": "<unk>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,

 {
   "bos_token": {
+    "content": "<|begin_of_text|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "eos_token": {
+    "content": "<|end_of_text|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,
     "single_word": false
   },
   "pad_token": {
+    "content": "<|finetune_right_pad_id|>",
     "lstrip": false,
     "normalized": false,
     "rstrip": false,

tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4667f2089529e8e7657cfb6d1c19910ae71ff5f28aa7ab2ff2763330affad795
-size 33384568

 version https://git-lfs.github.com/spec/v1
+oid sha256:6b9e4e7fb171f92fd137b777cc2714bf87d11576700a1dcd7a399e7bbe39537b
+size 17209920

tokenizer_config.json CHANGED Viewed

The diff for this file is too large to render. See raw diff

trainer_state.json CHANGED Viewed

@@ -11,422 +11,422 @@
   "log_history": [
     {
       "epoch": 0.0009274287039183863,
-      "grad_norm": 4.868922710418701,
       "learning_rate": 0.0,
-      "loss": 5.2325,
       "step": 1
     },
     {
       "epoch": 0.0018548574078367725,
-      "grad_norm": 5.811268329620361,
       "learning_rate": 5e-06,
-      "loss": 4.7512,
       "step": 2
     },
     {
       "epoch": 0.0027822861117551586,
-      "grad_norm": 1.8592679500579834,
       "learning_rate": 1e-05,
-      "loss": 3.6976,
       "step": 3
     },
     {
       "epoch": 0.003709714815673545,
-      "grad_norm": 3.553828001022339,
       "learning_rate": 1.5e-05,
-      "loss": 4.4847,
       "step": 4
     },
     {
       "epoch": 0.004637143519591932,
-      "grad_norm": 3.7580947875976562,
       "learning_rate": 2e-05,
-      "loss": 4.3681,
       "step": 5
     },
     {
       "epoch": 0.005564572223510317,
-      "grad_norm": 6.560013294219971,
       "learning_rate": 2.5e-05,
-      "loss": 5.4142,
       "step": 6
     },
     {
       "epoch": 0.006492000927428704,
-      "grad_norm": 5.0084710121154785,
       "learning_rate": 3e-05,
-      "loss": 4.8401,
       "step": 7
     },
     {
       "epoch": 0.00741942963134709,
-      "grad_norm": 2.0739693641662598,
       "learning_rate": 3.5e-05,
-      "loss": 3.9564,
       "step": 8
     },
     {
       "epoch": 0.008346858335265477,
-      "grad_norm": 5.008288383483887,
       "learning_rate": 4e-05,
-      "loss": 4.901,
       "step": 9
     },
     {
       "epoch": 0.009274287039183864,
-      "grad_norm": 1.2743533849716187,
       "learning_rate": 4.5e-05,
-      "loss": 3.7309,
       "step": 10
     },
     {
       "epoch": 0.010201715743102248,
-      "grad_norm": 1.1797062158584595,
       "learning_rate": 5e-05,
-      "loss": 3.56,
       "step": 11
     },
     {
       "epoch": 0.011129144447020635,
-      "grad_norm": 3.787964344024658,
       "learning_rate": 4.9e-05,
-      "loss": 5.1572,
       "step": 12
     },
     {
       "epoch": 0.012056573150939021,
-      "grad_norm": 1.1445714235305786,
       "learning_rate": 4.8e-05,
-      "loss": 3.5998,
       "step": 13
     },
     {
       "epoch": 0.012984001854857407,
-      "grad_norm": 1.2640348672866821,
       "learning_rate": 4.7e-05,
-      "loss": 3.6054,
       "step": 14
     },
     {
       "epoch": 0.013911430558775794,
-      "grad_norm": 0.9739102721214294,
       "learning_rate": 4.600000000000001e-05,
-      "loss": 3.4424,
       "step": 15
     },
     {
       "epoch": 0.01483885926269418,
-      "grad_norm": 3.6449685096740723,
       "learning_rate": 4.5e-05,
-      "loss": 5.1529,
       "step": 16
     },
     {
       "epoch": 0.015766287966612568,
-      "grad_norm": 1.0862540006637573,
       "learning_rate": 4.4000000000000006e-05,
-      "loss": 3.4454,
       "step": 17
     },
     {
       "epoch": 0.016693716670530954,
-      "grad_norm": 2.713123083114624,
       "learning_rate": 4.3e-05,
-      "loss": 4.4682,
       "step": 18
     },
     {
       "epoch": 0.01762114537444934,
-      "grad_norm": 1.0332715511322021,
       "learning_rate": 4.2e-05,
-      "loss": 3.3278,
       "step": 19
     },
     {
       "epoch": 0.018548574078367727,
-      "grad_norm": 1.1742037534713745,
       "learning_rate": 4.1e-05,
-      "loss": 3.5884,
       "step": 20
     },
     {
       "epoch": 0.01947600278228611,
-      "grad_norm": 1.1539186239242554,
       "learning_rate": 4e-05,
-      "loss": 3.6538,
       "step": 21
     },
     {
       "epoch": 0.020403431486204496,
-      "grad_norm": 1.303881287574768,
       "learning_rate": 3.9000000000000006e-05,
-      "loss": 3.387,
       "step": 22
     },
     {
       "epoch": 0.021330860190122883,
-      "grad_norm": 1.8081673383712769,
       "learning_rate": 3.8e-05,
-      "loss": 3.7469,
       "step": 23
     },
     {
       "epoch": 0.02225828889404127,
-      "grad_norm": 1.0129601955413818,
       "learning_rate": 3.7e-05,
-      "loss": 3.0917,
       "step": 24
     },
     {
       "epoch": 0.023185717597959656,
-      "grad_norm": 2.841965436935425,
       "learning_rate": 3.6e-05,
-      "loss": 3.6627,
       "step": 25
     },
     {
       "epoch": 0.024113146301878042,
-      "grad_norm": 2.4179654121398926,
       "learning_rate": 3.5e-05,
-      "loss": 3.8892,
       "step": 26
     },
     {
       "epoch": 0.025040575005796428,
-      "grad_norm": 1.5163795948028564,
       "learning_rate": 3.4000000000000007e-05,
-      "loss": 3.2586,
       "step": 27
     },
     {
       "epoch": 0.025968003709714815,
-      "grad_norm": 2.0588231086730957,
       "learning_rate": 3.3e-05,
-      "loss": 3.7464,
       "step": 28
     },
     {
       "epoch": 0.0268954324136332,
-      "grad_norm": 1.082326889038086,
       "learning_rate": 3.2000000000000005e-05,
-      "loss": 3.5218,
       "step": 29
     },
     {
       "epoch": 0.027822861117551587,
-      "grad_norm": 3.831888437271118,
       "learning_rate": 3.1e-05,
-      "loss": 4.0704,
       "step": 30
     },
     {
       "epoch": 0.028750289821469974,
-      "grad_norm": 1.2819643020629883,
       "learning_rate": 3e-05,
-      "loss": 3.5,
       "step": 31
     },
     {
       "epoch": 0.02967771852538836,
-      "grad_norm": 2.7546770572662354,
       "learning_rate": 2.9e-05,
-      "loss": 3.6709,
       "step": 32
     },
     {
       "epoch": 0.030605147229306746,
-      "grad_norm": 2.127004861831665,
       "learning_rate": 2.8000000000000003e-05,
-      "loss": 3.7116,
       "step": 33
     },
     {
       "epoch": 0.031532575933225136,
-      "grad_norm": 1.5426557064056396,
       "learning_rate": 2.7000000000000002e-05,
-      "loss": 3.7935,
       "step": 34
     },
     {
       "epoch": 0.03246000463714352,
-      "grad_norm": 1.4559600353240967,
       "learning_rate": 2.6000000000000002e-05,
-      "loss": 3.2505,
       "step": 35
     },
     {
       "epoch": 0.03338743334106191,
-      "grad_norm": 1.2187875509262085,
       "learning_rate": 2.5e-05,
-      "loss": 3.3403,
       "step": 36
     },
     {
       "epoch": 0.03431486204498029,
-      "grad_norm": 1.4153465032577515,
       "learning_rate": 2.4e-05,
-      "loss": 2.73,
       "step": 37
     },
     {
       "epoch": 0.03524229074889868,
-      "grad_norm": 1.2564786672592163,
       "learning_rate": 2.3000000000000003e-05,
-      "loss": 3.3627,
       "step": 38
     },
     {
       "epoch": 0.036169719452817065,
-      "grad_norm": 3.221158742904663,
       "learning_rate": 2.2000000000000003e-05,
-      "loss": 3.6366,
       "step": 39
     },
     {
       "epoch": 0.037097148156735454,
-      "grad_norm": 1.5206141471862793,
       "learning_rate": 2.1e-05,
-      "loss": 3.5083,
       "step": 40
     },
     {
       "epoch": 0.03802457686065384,
-      "grad_norm": 3.3207788467407227,
       "learning_rate": 2e-05,
-      "loss": 3.6526,
       "step": 41
     },
     {
       "epoch": 0.03895200556457222,
-      "grad_norm": 2.6947567462921143,
       "learning_rate": 1.9e-05,
-      "loss": 3.8998,
       "step": 42
     },
     {
       "epoch": 0.03987943426849061,
-      "grad_norm": 3.0442309379577637,
       "learning_rate": 1.8e-05,
-      "loss": 4.0098,
       "step": 43
     },
     {
       "epoch": 0.04080686297240899,
-      "grad_norm": 3.0149142742156982,
       "learning_rate": 1.7000000000000003e-05,
-      "loss": 3.6688,
       "step": 44
     },
     {
       "epoch": 0.04173429167632738,
-      "grad_norm": 2.458320140838623,
       "learning_rate": 1.6000000000000003e-05,
-      "loss": 3.7055,
       "step": 45
     },
     {
       "epoch": 0.042661720380245766,
-      "grad_norm": 1.5240652561187744,
       "learning_rate": 1.5e-05,
-      "loss": 3.2421,
       "step": 46
     },
     {
       "epoch": 0.043589149084164155,
-      "grad_norm": 5.896821975708008,
       "learning_rate": 1.4000000000000001e-05,
-      "loss": 4.7299,
       "step": 47
     },
     {
       "epoch": 0.04451657778808254,
-      "grad_norm": 1.3863835334777832,
       "learning_rate": 1.3000000000000001e-05,
-      "loss": 3.3415,
       "step": 48
     },
     {
       "epoch": 0.04544400649200093,
-      "grad_norm": 1.5955193042755127,
       "learning_rate": 1.2e-05,
-      "loss": 3.3076,
       "step": 49
     },
     {
       "epoch": 0.04637143519591931,
-      "grad_norm": 2.4756007194519043,
       "learning_rate": 1.1000000000000001e-05,
-      "loss": 3.8448,
       "step": 50
     },
     {
       "epoch": 0.0472988638998377,
-      "grad_norm": 1.1582512855529785,
       "learning_rate": 1e-05,
-      "loss": 3.2583,
       "step": 51
     },
     {
       "epoch": 0.048226292603756084,
-      "grad_norm": 2.394286632537842,
       "learning_rate": 9e-06,
-      "loss": 3.3061,
       "step": 52
     },
     {
       "epoch": 0.049153721307674474,
-      "grad_norm": 1.4328668117523193,
       "learning_rate": 8.000000000000001e-06,
-      "loss": 3.1576,
       "step": 53
     },
     {
       "epoch": 0.050081150011592857,
-      "grad_norm": 1.2915327548980713,
       "learning_rate": 7.000000000000001e-06,
-      "loss": 3.0897,
       "step": 54
     },
     {
       "epoch": 0.051008578715511246,
-      "grad_norm": 1.9309310913085938,
       "learning_rate": 6e-06,
-      "loss": 3.372,
       "step": 55
     },
     {
       "epoch": 0.05193600741942963,
-      "grad_norm": 3.784912586212158,
       "learning_rate": 5e-06,
-      "loss": 3.7925,
       "step": 56
     },
     {
       "epoch": 0.05286343612334802,
-      "grad_norm": 9.921348571777344,
       "learning_rate": 4.000000000000001e-06,
-      "loss": 5.3381,
       "step": 57
     },
     {
       "epoch": 0.0537908648272664,
-      "grad_norm": 1.3432551622390747,
       "learning_rate": 3e-06,
-      "loss": 3.543,
       "step": 58
     },
     {
       "epoch": 0.05471829353118479,
-      "grad_norm": 2.20005202293396,
       "learning_rate": 2.0000000000000003e-06,
-      "loss": 3.658,
       "step": 59
     },
     {
       "epoch": 0.055645722235103175,
-      "grad_norm": 1.4739794731140137,
       "learning_rate": 1.0000000000000002e-06,
-      "loss": 3.258,
       "step": 60
     }
   ],
@@ -447,7 +447,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 715238756384256.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

   "log_history": [
     {
       "epoch": 0.0009274287039183863,
+      "grad_norm": 1.411400556564331,
       "learning_rate": 0.0,
+      "loss": 4.3229,
       "step": 1
     },
     {
       "epoch": 0.0018548574078367725,
+      "grad_norm": 2.266972064971924,
       "learning_rate": 5e-06,
+      "loss": 4.4344,
       "step": 2
     },
     {
       "epoch": 0.0027822861117551586,
+      "grad_norm": 0.6068131923675537,
       "learning_rate": 1e-05,
+      "loss": 3.2018,
       "step": 3
     },
     {
       "epoch": 0.003709714815673545,
+      "grad_norm": 0.9275912642478943,
       "learning_rate": 1.5e-05,
+      "loss": 4.0208,
       "step": 4
     },
     {
       "epoch": 0.004637143519591932,
+      "grad_norm": 0.9753095507621765,
       "learning_rate": 2e-05,
+      "loss": 3.7113,
       "step": 5
     },
     {
       "epoch": 0.005564572223510317,
+      "grad_norm": 2.6469643115997314,
       "learning_rate": 2.5e-05,
+      "loss": 5.2115,
       "step": 6
     },
     {
       "epoch": 0.006492000927428704,
+      "grad_norm": 1.4554330110549927,
       "learning_rate": 3e-05,
+      "loss": 4.2436,
       "step": 7
     },
     {
       "epoch": 0.00741942963134709,
+      "grad_norm": 0.5066649913787842,
       "learning_rate": 3.5e-05,
+      "loss": 3.5398,
       "step": 8
     },
     {
       "epoch": 0.008346858335265477,
+      "grad_norm": 2.082305908203125,
       "learning_rate": 4e-05,
+      "loss": 4.8127,
       "step": 9
     },
     {
       "epoch": 0.009274287039183864,
+      "grad_norm": 0.4055868983268738,
       "learning_rate": 4.5e-05,
+      "loss": 3.3663,
       "step": 10
     },
     {
       "epoch": 0.010201715743102248,
+      "grad_norm": 0.363479882478714,
       "learning_rate": 5e-05,
+      "loss": 3.2632,
       "step": 11
     },
     {
       "epoch": 0.011129144447020635,
+      "grad_norm": 1.7619837522506714,
       "learning_rate": 4.9e-05,
+      "loss": 4.7703,
       "step": 12
     },
     {
       "epoch": 0.012056573150939021,
+      "grad_norm": 0.48136666417121887,
       "learning_rate": 4.8e-05,
+      "loss": 3.1614,
       "step": 13
     },
     {
       "epoch": 0.012984001854857407,
+      "grad_norm": 0.48472875356674194,
       "learning_rate": 4.7e-05,
+      "loss": 3.3447,
       "step": 14
     },
     {
       "epoch": 0.013911430558775794,
+      "grad_norm": 0.5840467214584351,
       "learning_rate": 4.600000000000001e-05,
+      "loss": 3.3037,
       "step": 15
     },
     {
       "epoch": 0.01483885926269418,
+      "grad_norm": 1.9077085256576538,
       "learning_rate": 4.5e-05,
+      "loss": 4.614,
       "step": 16
     },
     {
       "epoch": 0.015766287966612568,
+      "grad_norm": 0.5734739899635315,
       "learning_rate": 4.4000000000000006e-05,
+      "loss": 3.1754,
       "step": 17
     },
     {
       "epoch": 0.016693716670530954,
+      "grad_norm": 1.8598120212554932,
       "learning_rate": 4.3e-05,
+      "loss": 4.3064,
       "step": 18
     },
     {
       "epoch": 0.01762114537444934,
+      "grad_norm": 0.5264394283294678,
       "learning_rate": 4.2e-05,
+      "loss": 3.2004,
       "step": 19
     },
     {
       "epoch": 0.018548574078367727,
+      "grad_norm": 0.6078647375106812,
       "learning_rate": 4.1e-05,
+      "loss": 3.3305,
       "step": 20
     },
     {
       "epoch": 0.01947600278228611,
+      "grad_norm": 0.49842751026153564,
       "learning_rate": 4e-05,
+      "loss": 3.4103,
       "step": 21
     },
     {
       "epoch": 0.020403431486204496,
+      "grad_norm": 0.6825811862945557,
       "learning_rate": 3.9000000000000006e-05,
+      "loss": 3.4553,
       "step": 22
     },
     {
       "epoch": 0.021330860190122883,
+      "grad_norm": 1.0185341835021973,
       "learning_rate": 3.8e-05,
+      "loss": 3.6376,
       "step": 23
     },
     {
       "epoch": 0.02225828889404127,
+      "grad_norm": 0.3887212574481964,
       "learning_rate": 3.7e-05,
+      "loss": 2.9089,
       "step": 24
     },
     {
       "epoch": 0.023185717597959656,
+      "grad_norm": 1.5926904678344727,
       "learning_rate": 3.6e-05,
+      "loss": 3.6112,
       "step": 25
     },
     {
       "epoch": 0.024113146301878042,
+      "grad_norm": 1.4020466804504395,
       "learning_rate": 3.5e-05,
+      "loss": 3.8137,
       "step": 26
     },
     {
       "epoch": 0.025040575005796428,
+      "grad_norm": 0.8697665929794312,
       "learning_rate": 3.4000000000000007e-05,
+      "loss": 3.3651,
       "step": 27
     },
     {
       "epoch": 0.025968003709714815,
+      "grad_norm": 1.1937010288238525,
       "learning_rate": 3.3e-05,
+      "loss": 3.7935,
       "step": 28
     },
     {
       "epoch": 0.0268954324136332,
+      "grad_norm": 0.583304762840271,
       "learning_rate": 3.2000000000000005e-05,
+      "loss": 3.279,
       "step": 29
     },
     {
       "epoch": 0.027822861117551587,
+      "grad_norm": 2.1346917152404785,
       "learning_rate": 3.1e-05,
+      "loss": 4.1021,
       "step": 30
     },
     {
       "epoch": 0.028750289821469974,
+      "grad_norm": 0.7281085848808289,
       "learning_rate": 3e-05,
+      "loss": 3.3558,
       "step": 31
     },
     {
       "epoch": 0.02967771852538836,
+      "grad_norm": 1.7035914659500122,
       "learning_rate": 2.9e-05,
+      "loss": 3.5765,
       "step": 32
     },
     {
       "epoch": 0.030605147229306746,
+      "grad_norm": 1.3239504098892212,
       "learning_rate": 2.8000000000000003e-05,
+      "loss": 3.6181,
       "step": 33
     },
     {
       "epoch": 0.031532575933225136,
+      "grad_norm": 0.9565314650535583,
       "learning_rate": 2.7000000000000002e-05,
+      "loss": 3.5135,
       "step": 34
     },
     {
       "epoch": 0.03246000463714352,
+      "grad_norm": 1.0347371101379395,
       "learning_rate": 2.6000000000000002e-05,
+      "loss": 3.2434,
       "step": 35
     },
     {
       "epoch": 0.03338743334106191,
+      "grad_norm": 0.54816734790802,
       "learning_rate": 2.5e-05,
+      "loss": 3.1409,
       "step": 36
     },
     {
       "epoch": 0.03431486204498029,
+      "grad_norm": 0.4945932626724243,
       "learning_rate": 2.4e-05,
+      "loss": 2.9236,
       "step": 37
     },
     {
       "epoch": 0.03524229074889868,
+      "grad_norm": 0.48317691683769226,
       "learning_rate": 2.3000000000000003e-05,
+      "loss": 3.3575,
       "step": 38
     },
     {
       "epoch": 0.036169719452817065,
+      "grad_norm": 1.2033950090408325,
       "learning_rate": 2.2000000000000003e-05,
+      "loss": 3.6258,
       "step": 39
     },
     {
       "epoch": 0.037097148156735454,
+      "grad_norm": 1.137432336807251,
       "learning_rate": 2.1e-05,
+      "loss": 3.5354,
       "step": 40
     },
     {
       "epoch": 0.03802457686065384,
+      "grad_norm": 1.494925856590271,
       "learning_rate": 2e-05,
+      "loss": 3.6365,
       "step": 41
     },
     {
       "epoch": 0.03895200556457222,
+      "grad_norm": 1.1683684587478638,
       "learning_rate": 1.9e-05,
+      "loss": 3.7584,
       "step": 42
     },
     {
       "epoch": 0.03987943426849061,
+      "grad_norm": 1.5439304113388062,
       "learning_rate": 1.8e-05,
+      "loss": 3.7813,
       "step": 43
     },
     {
       "epoch": 0.04080686297240899,
+      "grad_norm": 1.4335922002792358,
       "learning_rate": 1.7000000000000003e-05,
+      "loss": 3.5158,
       "step": 44
     },
     {
       "epoch": 0.04173429167632738,
+      "grad_norm": 1.0030946731567383,
       "learning_rate": 1.6000000000000003e-05,
+      "loss": 3.4701,
       "step": 45
     },
     {
       "epoch": 0.042661720380245766,
+      "grad_norm": 0.8070414662361145,
       "learning_rate": 1.5e-05,
+      "loss": 3.259,
       "step": 46
     },
     {
       "epoch": 0.043589149084164155,
+      "grad_norm": 1.9914580583572388,
       "learning_rate": 1.4000000000000001e-05,
+      "loss": 4.3585,
       "step": 47
     },
     {
       "epoch": 0.04451657778808254,
+      "grad_norm": 0.6409067511558533,
       "learning_rate": 1.3000000000000001e-05,
+      "loss": 3.3393,
       "step": 48
     },
     {
       "epoch": 0.04544400649200093,
+      "grad_norm": 0.910348117351532,
       "learning_rate": 1.2e-05,
+      "loss": 3.4981,
       "step": 49
     },
     {
       "epoch": 0.04637143519591931,
+      "grad_norm": 1.3223044872283936,
       "learning_rate": 1.1000000000000001e-05,
+      "loss": 3.6996,
       "step": 50
     },
     {
       "epoch": 0.0472988638998377,
+      "grad_norm": 0.3819347620010376,
       "learning_rate": 1e-05,
+      "loss": 2.9741,
       "step": 51
     },
     {
       "epoch": 0.048226292603756084,
+      "grad_norm": 1.3223705291748047,
       "learning_rate": 9e-06,
+      "loss": 3.7789,
       "step": 52
     },
     {
       "epoch": 0.049153721307674474,
+      "grad_norm": 0.6920037865638733,
       "learning_rate": 8.000000000000001e-06,
+      "loss": 3.1836,
       "step": 53
     },
     {
       "epoch": 0.050081150011592857,
+      "grad_norm": 0.6605297923088074,
       "learning_rate": 7.000000000000001e-06,
+      "loss": 2.998,
       "step": 54
     },
     {
       "epoch": 0.051008578715511246,
+      "grad_norm": 0.8535223603248596,
       "learning_rate": 6e-06,
+      "loss": 3.1944,
       "step": 55
     },
     {
       "epoch": 0.05193600741942963,
+      "grad_norm": 1.4277936220169067,
       "learning_rate": 5e-06,
+      "loss": 3.6891,
       "step": 56
     },
     {
       "epoch": 0.05286343612334802,
+      "grad_norm": 3.182830572128296,
       "learning_rate": 4.000000000000001e-06,
+      "loss": 5.1859,
       "step": 57
     },
     {
       "epoch": 0.0537908648272664,
+      "grad_norm": 0.6000503301620483,
       "learning_rate": 3e-06,
+      "loss": 3.3717,
       "step": 58
     },
     {
       "epoch": 0.05471829353118479,
+      "grad_norm": 1.301562786102295,
       "learning_rate": 2.0000000000000003e-06,
+      "loss": 3.4226,
       "step": 59
     },
     {
       "epoch": 0.055645722235103175,
+      "grad_norm": 0.7561865448951721,
       "learning_rate": 1.0000000000000002e-06,
+      "loss": 3.0751,
       "step": 60
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 951810432098304.0,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c553330158f5669e0fd93f1ff21b7b08ba11a6a294989ca3ba92a564ae5ca241
 size 5560

 version https://git-lfs.github.com/spec/v1
+oid sha256:78092493866cfdb6e6800bbb6a7531765b620f13789e657a9469b94c1b6b0fc4
 size 5560