Zacktree's picture
Model save
b5e8753 verified
|
raw
history blame
7.4 kB
metadata
library_name: peft
license: gemma
base_model: google/codegemma-7b
tags:
  - trl
  - sft
  - generated_from_trainer
model-index:
  - name: code-bench-CodeGemma-7B-cgv1-ds_v3
    results: []

code-bench-CodeGemma-7B-cgv1-ds_v3

This model is a fine-tuned version of google/codegemma-7b on the None dataset. It achieves the following results on the evaluation set:

  • Loss: 0.0663

Model description

More information needed

Intended uses & limitations

More information needed

Training and evaluation data

More information needed

Training procedure

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 5e-05
  • train_batch_size: 1
  • eval_batch_size: 3
  • seed: 42
  • distributed_type: multi-GPU
  • gradient_accumulation_steps: 8
  • total_train_batch_size: 8
  • optimizer: Adam with betas=(0.9,0.999) and epsilon=1e-08
  • lr_scheduler_type: cosine
  • lr_scheduler_warmup_ratio: 0.03
  • num_epochs: 5
  • mixed_precision_training: Native AMP

Training results

Training Loss Epoch Step Validation Loss
0.7003 0.0530 50 0.6702
0.5467 0.1061 100 0.5399
0.4662 0.1591 150 0.4138
0.3608 0.2121 200 0.3042
0.3032 0.2652 250 0.2450
0.2313 0.3182 300 0.2067
0.1953 0.3713 350 0.1729
0.1701 0.4243 400 0.1495
0.1593 0.4773 450 0.1382
0.1491 0.5304 500 0.1334
0.1668 0.5834 550 0.1282
0.1433 0.6364 600 0.1259
0.1457 0.6895 650 0.1241
0.1476 0.7425 700 0.1215
0.139 0.7955 750 0.1176
0.1209 0.8486 800 0.1159
0.1365 0.9016 850 0.1148
0.1239 0.9547 900 0.1157
0.116 1.0077 950 0.1097
0.1145 1.0607 1000 0.1104
0.1187 1.1146 1050 0.1067
0.117 1.1676 1100 0.1069
0.1219 1.2206 1150 0.1059
0.1192 1.2737 1200 0.1052
0.1296 1.3267 1250 0.1023
0.1016 1.3797 1300 0.1016
0.1051 1.4328 1350 0.1011
0.1207 1.4858 1400 0.1016
0.1132 1.5388 1450 0.1031
0.1143 1.5919 1500 0.0997
0.1089 1.6449 1550 0.0988
0.1164 1.6980 1600 0.0966
0.1092 1.7510 1650 0.0961
0.1056 1.8040 1700 0.0957
0.1072 1.8571 1750 0.0948
0.1029 1.9101 1800 0.0942
0.1117 1.9631 1850 0.0931
0.1126 2.0162 1900 0.0931
0.104 2.0700 1950 0.0944
0.1094 2.1230 2000 0.0925
0.1044 2.1761 2050 0.0944
0.0981 2.2291 2100 0.0926
0.1031 2.2822 2150 0.0915
0.0933 2.3352 2200 0.0919
0.1085 2.3882 2250 0.0917
0.1106 2.4413 2300 0.0905
0.0988 2.4943 2350 0.0897
0.0909 2.5473 2400 0.0883
0.1025 2.6004 2450 0.0874
0.1016 2.6534 2500 0.0873
0.0927 2.7064 2550 0.0860
0.0942 2.7595 2600 0.0854
0.0888 2.8125 2650 0.0859
0.091 2.8656 2700 0.0851
0.0922 2.9186 2750 0.0855
0.0949 2.9716 2800 0.0839
0.0855 3.0247 2850 0.0841
0.0955 3.0777 2900 0.0831
0.0831 3.1307 2950 0.0817
0.0843 3.1838 3000 0.0814
0.0756 3.2368 3050 0.0812
0.0893 3.2898 3100 0.0806
0.0787 3.3429 3150 0.0827
0.0842 3.3959 3200 0.0790
0.079 3.4490 3250 0.0791
0.0797 3.5020 3300 0.0773
0.0774 3.5550 3350 0.0777
0.0751 3.6081 3400 0.0779
0.079 3.6611 3450 0.0781
0.0849 3.7141 3500 0.0762
0.0852 3.7672 3550 0.0759
0.0742 3.8202 3600 0.0770
0.0719 3.8732 3650 0.0755
0.07 3.9263 3700 0.0757
0.0778 3.9793 3750 0.0759
0.0792 4.0324 3800 0.0751
0.0705 4.0854 3850 0.0745
0.0679 4.1384 3900 0.0741
0.0619 4.1915 3950 0.0734
0.0689 4.2445 4000 0.0731
0.0653 4.2975 4050 0.0732
0.0678 4.3506 4100 0.0733
0.07 4.4036 4150 0.0719
0.0656 4.4566 4200 0.0739
0.062 4.5097 4250 0.0732
0.0676 4.5627 4300 0.0718
0.0668 4.6158 4350 0.0722
0.0701 4.6688 4400 0.0718
0.067 4.7218 4450 0.0709
0.0686 4.7749 4500 0.0722
0.0649 4.8279 4550 0.0751
0.0711 4.8809 4600 0.0708
0.0747 4.9340 4650 0.0711
0.0622 4.9870 4700 0.0700
0.0634 5.0400 4750 0.0695
0.0714 5.0931 4800 0.0756
0.0615 5.1461 4850 0.0732
0.0612 5.1992 4900 0.0704
0.0599 5.2522 4950 0.0686
0.0567 5.3052 5000 0.0679
0.0593 5.3583 5050 0.0673
0.0576 5.4113 5100 0.0675
0.0628 5.4643 5150 0.0664
0.0572 5.5174 5200 0.0660
0.06 5.5704 5250 0.0659
0.0568 5.6234 5300 0.0660
0.058 5.6765 5350 0.0656
0.0559 5.7295 5400 0.0650
0.0549 5.7826 5450 0.0652
0.0605 5.8356 5500 0.0649
0.0539 5.8886 5550 0.0641
0.0567 5.9417 5600 0.0637
0.057 5.9947 5650 0.0654
0.0482 6.0477 5700 0.0663

Framework versions

  • PEFT 0.12.0
  • Transformers 4.44.2
  • Pytorch 2.5.1+cu121
  • Datasets 2.21.0
  • Tokenizers 0.19.1