End of training

Browse files

Files changed (5) hide show

README.md +64 -34
adapter_config.json +2 -2
adapter_model.safetensors +1 -1
loss_plot.png +0 -0
training_args.bin +2 -2

README.md CHANGED Viewed

@@ -16,7 +16,7 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [deepseek-ai/deepseek-coder-1.3b-base](https://huggingface.co/deepseek-ai/deepseek-coder-1.3b-base) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.2570
 ## Model description
@@ -45,43 +45,73 @@ The following hyperparameters were used during training:
 - total_eval_batch_size: 16
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
-- num_epochs: 6
 - mixed_precision_training: Native AMP
 ### Training results
-| Training Loss | Epoch | Step  | Validation Loss |
-|:-------------:|:-----:|:-----:|:---------------:|
-| 0.4506        | 0.2   | 3094  | 0.4509          |
-| 0.4176        | 0.4   | 6188  | 0.4119          |
-| 0.4028        | 0.6   | 9282  | 0.4009          |
-| 0.3903        | 0.8   | 12376 | 0.3867          |
-| 0.3791        | 1.0   | 15470 | 0.3844          |
-| 0.3728        | 1.2   | 18564 | 0.3752          |
-| 0.3652        | 1.4   | 21658 | 0.3608          |
-| 0.3604        | 1.6   | 24752 | 0.3574          |
-| 0.3549        | 1.8   | 27846 | 0.3554          |
-| 0.3491        | 2.0   | 30940 | 0.3493          |
-| 0.3411        | 2.2   | 34034 | 0.3406          |
-| 0.3369        | 2.4   | 37128 | 0.3315          |
-| 0.3304        | 2.6   | 40222 | 0.3313          |
-| 0.3269        | 2.8   | 43316 | 0.3309          |
-| 0.3229        | 3.0   | 46410 | 0.3285          |
-| 0.3128        | 3.2   | 49504 | 0.3141          |
-| 0.3128        | 3.4   | 52598 | 0.3127          |
-| 0.3059        | 3.6   | 55692 | 0.3097          |
-| 0.3047        | 3.8   | 58786 | 0.3038          |
-| 0.3003        | 4.0   | 61880 | 0.2949          |
-| 0.2881        | 4.2   | 64974 | 0.2886          |
-| 0.2838        | 4.4   | 68068 | 0.2920          |
-| 0.2821        | 4.6   | 71162 | 0.2878          |
-| 0.2735        | 4.8   | 74256 | 0.2808          |
-| 0.2698        | 5.0   | 77350 | 0.2764          |
-| 0.2596        | 5.2   | 80444 | 0.2720          |
-| 0.2624        | 5.4   | 83538 | 0.2714          |
-| 0.2574        | 5.6   | 86632 | 0.2691          |
-| 0.2542        | 5.8   | 89726 | 0.2630          |
-| 0.2484        | 6.0   | 92820 | 0.2570          |
 ### Framework versions

 This model is a fine-tuned version of [deepseek-ai/deepseek-coder-1.3b-base](https://huggingface.co/deepseek-ai/deepseek-coder-1.3b-base) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.2261
 ## Model description
 - total_eval_batch_size: 16
 - optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
 - lr_scheduler_type: linear
+- num_epochs: 12
 - mixed_precision_training: Native AMP
 ### Training results
+| Training Loss | Epoch | Step   | Validation Loss |
+|:-------------:|:-----:|:------:|:---------------:|
+| 0.4519        | 0.2   | 3094   | 0.4528          |
+| 0.4192        | 0.4   | 6188   | 0.4162          |
+| 0.4051        | 0.6   | 9282   | 0.4043          |
+| 0.3928        | 0.8   | 12376  | 0.3904          |
+| 0.3846        | 1.0   | 15470  | 0.3827          |
+| 0.3797        | 1.2   | 18564  | 0.3772          |
+| 0.3744        | 1.4   | 21658  | 0.3697          |
+| 0.3697        | 1.6   | 24752  | 0.3640          |
+| 0.3643        | 1.8   | 27846  | 0.3624          |
+| 0.3614        | 2.0   | 30940  | 0.3526          |
+| 0.3546        | 2.2   | 34034  | 0.3512          |
+| 0.3503        | 2.4   | 37128  | 0.3487          |
+| 0.345         | 2.6   | 40222  | 0.3421          |
+| 0.3449        | 2.8   | 43316  | 0.3431          |
+| 0.3421        | 3.0   | 46410  | 0.3432          |
+| 0.335         | 3.2   | 49504  | 0.3359          |
+| 0.3351        | 3.4   | 52598  | 0.3336          |
+| 0.33          | 3.6   | 55692  | 0.3340          |
+| 0.3283        | 3.8   | 58786  | 0.3282          |
+| 0.3266        | 4.0   | 61880  | 0.3166          |
+| 0.317         | 4.2   | 64974  | 0.3149          |
+| 0.3122        | 4.4   | 68068  | 0.3149          |
+| 0.313         | 4.6   | 71162  | 0.3147          |
+| 0.3043        | 4.8   | 74256  | 0.3130          |
+| 0.3019        | 5.0   | 77350  | 0.3036          |
+| 0.2952        | 5.2   | 80444  | 0.3000          |
+| 0.2996        | 5.4   | 83538  | 0.3003          |
+| 0.2957        | 5.6   | 86632  | 0.2993          |
+| 0.2935        | 5.8   | 89726  | 0.3047          |
+| 0.2885        | 6.0   | 92820  | 0.2928          |
+| 0.2755        | 6.2   | 95914  | 0.2915          |
+| 0.2763        | 6.4   | 99008  | 0.2875          |
+| 0.2755        | 6.6   | 102102 | 0.2855          |
+| 0.2811        | 6.8   | 105196 | 0.2812          |
+| 0.2704        | 7.0   | 108290 | 0.2796          |
+| 0.26          | 7.2   | 111384 | 0.2776          |
+| 0.2564        | 7.4   | 114478 | 0.2691          |
+| 0.2613        | 7.6   | 117572 | 0.2702          |
+| 0.2568        | 7.8   | 120666 | 0.2684          |
+| 0.2579        | 8.0   | 123760 | 0.2643          |
+| 0.2422        | 8.2   | 126854 | 0.2624          |
+| 0.243         | 8.4   | 129948 | 0.2619          |
+| 0.2421        | 8.6   | 133042 | 0.2583          |
+| 0.2455        | 8.8   | 136136 | 0.2575          |
+| 0.2428        | 9.0   | 139230 | 0.2511          |
+| 0.2286        | 9.2   | 142324 | 0.2478          |
+| 0.227         | 9.4   | 145418 | 0.2507          |
+| 0.2246        | 9.6   | 148512 | 0.2474          |
+| 0.2273        | 9.8   | 151606 | 0.2452          |
+| 0.2211        | 10.0  | 154700 | 0.2432          |
+| 0.2117        | 10.2  | 157794 | 0.2434          |
+| 0.2098        | 10.4  | 160888 | 0.2377          |
+| 0.2092        | 10.6  | 163982 | 0.2376          |
+| 0.2073        | 10.8  | 167076 | 0.2355          |
+| 0.2051        | 11.0  | 170170 | 0.2303          |
+| 0.1966        | 11.2  | 173264 | 0.2321          |
+| 0.1923        | 11.4  | 176358 | 0.2294          |
+| 0.1913        | 11.6  | 179452 | 0.2275          |
+| 0.189         | 11.8  | 182546 | 0.2267          |
+| 0.1924        | 12.0  | 185640 | 0.2261          |
 ### Framework versions

adapter_config.json CHANGED Viewed

@@ -23,8 +23,8 @@
   "rank_pattern": {},
   "revision": null,
   "target_modules": [
-    "v_proj",
-    "q_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

   "rank_pattern": {},
   "revision": null,
   "target_modules": [
+    "q_proj",
+    "v_proj"
   ],
   "task_type": "CAUSAL_LM",
   "use_dora": false,

adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:308667600ebb9fd4fe2b2cd4523192f26254ad5366e4c3753bf37c0124ecceae
 size 268636736

 version https://git-lfs.github.com/spec/v1
+oid sha256:22253574595cd04088755a3c511c1b3722206ed2cdaf7dba620e1b61cdffcf5b
 size 268636736

loss_plot.png CHANGED Viewed

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5333ba3480d2d9eeb1f6cc9b990ec9d7d7599681ca30c253e6779c7cbb7010ba
-size 5496

 version https://git-lfs.github.com/spec/v1
+oid sha256:3476aecc2e7edfbf65feed98e3e459c9ff12870258371744a90a8e58d9761d2e
+size 5432