YAML Metadata Warning: empty or missing yaml metadata in repo card (https://huggingface.co/docs/hub/model-cards#model-card-metadata)

train set

TRAIN_DATASET = "sayakpaul/hf-codegen-v2" TRAIN_BASE_MODEL = "meta-llama/Llama-3.2-1B"

TRAIN_MODEL_HUB_NAME = "steve329" TRAIN_TUNED_MODEL_NAME = "test_fine_llama3_qlora_all_5" TRAIN_PEFT_LAYERS = "q_proj,k_proj,v_proj,o_proj,gate_proj,up_proj,down_proj" TRAIN_LORA_ALPHA = 16 TRAIN_LORA_DROPOUT = 0.05 TRAIN_LORA_R = 8

TRAIN_SAMPLES = 1000 TRAIN_VAL_SAMPLES = 10 # about 30 steps per val sample TRAIN_SEQ_LEN = 1024 TRAIN_MAX_STEPS = 2000 TRAIN_VAL_STEPS = 80 TRAIN_SAVE_STEPS = 1000 TRAIN_LOG_STEPS = 10 TRAIN_TRAIN_BSIZE = 1 TRAIN_VAL_BSIZE = 1 TRAIN_LR = 5e-5 TRAIN_LR_TYPE = "cosine" TRAIN_WARMUP_STEPS = 0 TRAIN_FP16 = True TRAIN_BF16 = False TRAIN_ACCU_STEPS = 1 TRAIN_WEIGHT_DECAY = 0.01

test set

TEST_NUM_SAMPLES_PER_TASK = 15 TEST_NUM_TASK_IDS = 50 TEST_MAX_NEW_TOEKNS = 512

TEST_TEMPERATURE = 0.2 TEST_TOP_K = 50 TEST_TOP_P = 0.95 TEST_DO_SAMPLE = True TEST_REPETITION_PENALTY = 1.0

--- tuning --- trainable params: 5,636,096 || all params: 1,241,450,496 || trainable%: 0.4540 Resolving data files: 100%|███████████████████████████████████████████████████████████████████| 103/103 [00:00<00:00, 337.50it/s] max_steps is given, it will override any value given in num_train_epochs 0%| | 0/2000 [00:00<?, ?it/s]The input hidden states seems to be silently casted in float32, this might be related to the fact you have upcasted embedding or layer norm layers in float32. We will cast back the input in torch.float16. {'loss': 1.8217, 'grad_norm': 1.2364692687988281, 'learning_rate': 4.999691581204152e-05, 'epoch': 0.01}
{'loss': 1.2142, 'grad_norm': 1.027155876159668, 'learning_rate': 4.998766400914329e-05, 'epoch': 0.01}
{'loss': 1.0983, 'grad_norm': 1.7237998247146606, 'learning_rate': 4.9972246874049254e-05, 'epoch': 0.01}
{'loss': 1.0418, 'grad_norm': 2.20603346824646, 'learning_rate': 4.995066821070679e-05, 'epoch': 0.02}
{'loss': 1.4738, 'grad_norm': 2.804164171218872, 'learning_rate': 4.99229333433282e-05, 'epoch': 0.03}
{'loss': 1.9299, 'grad_norm': 1.991493582725525, 'learning_rate': 4.9889049115077005e-05, 'epoch': 0.03}
{'loss': 1.4834, 'grad_norm': 2.3042757511138916, 'learning_rate': 4.98490238863795e-05, 'epoch': 0.04}
{'loss': 1.0455, 'grad_norm': 2.4188148975372314, 'learning_rate': 4.980286753286195e-05, 'epoch': 0.04}
4%|███▌ | 80/2000 [01:09<27:11, 1.18it/s]Token indices sequence length is longer than the specified maximum sequence length for this model (199878 > 131072). Running this sequence through the model will result in indexing errors {'eval_loss': 1.306898593902588, 'eval_runtime': 151.4882, 'eval_samples_per_second': 3.386, 'eval_steps_per_second': 3.386, 'epoch': 0.04} {'loss': 1.7114, 'grad_norm': 2.0744075775146484, 'learning_rate': 4.975059144291394e-05, 'epoch': 0.04}
{'loss': 1.8482, 'grad_norm': 2.2669174671173096, 'learning_rate': 4.9692208514878444e-05, 'epoch': 0.05}
{'loss': 1.1181, 'grad_norm': 1.8862106800079346, 'learning_rate': 4.962773315386935e-05, 'epoch': 0.06}
{'loss': 0.6042, 'grad_norm': 1.6765773296356201, 'learning_rate': 4.9557181268217227e-05, 'epoch': 0.06}
{'loss': 0.6017, 'grad_norm': 2.021040201187134, 'learning_rate': 4.9480570265544144e-05, 'epoch': 0.07}
{'loss': 1.7222, 'grad_norm': 2.8480818271636963, 'learning_rate': 4.939791904846869e-05, 'epoch': 0.07}
{'loss': 1.2333, 'grad_norm': 3.717226266860962, 'learning_rate': 4.9309248009941914e-05, 'epoch': 0.07}
{'loss': 1.2039, 'grad_norm': 2.6201348304748535, 'learning_rate': 4.9214579028215776e-05, 'epoch': 0.08}
{'eval_loss': 1.0910555124282837, 'eval_runtime': 151.7073, 'eval_samples_per_second': 3.382, 'eval_steps_per_second': 3.382, 'epoch': 0.08} {'loss': 0.4619, 'grad_norm': 2.2859530448913574, 'learning_rate': 4.9113935461444955e-05, 'epoch': 0.09}
{'loss': 1.0805, 'grad_norm': 3.0825440883636475, 'learning_rate': 4.900734214192358e-05, 'epoch': 0.09}
{'loss': 1.1052, 'grad_norm': 2.699371337890625, 'learning_rate': 4.8894825369958255e-05, 'epoch': 0.1}
{'loss': 1.161, 'grad_norm': 2.971571445465088, 'learning_rate': 4.877641290737884e-05, 'epoch': 0.1}
{'loss': 1.0242, 'grad_norm': 2.5026087760925293, 'learning_rate': 4.8652133970688636e-05, 'epoch': 0.1}
{'loss': 1.0989, 'grad_norm': 3.1187713146209717, 'learning_rate': 4.8535292406284924e-05, 'epoch': 0.11}
{'loss': 0.8403, 'grad_norm': 2.1705496311187744, 'learning_rate': 4.83999528382545e-05, 'epoch': 0.12}
{'loss': 0.2965, 'grad_norm': 1.2464995384216309, 'learning_rate': 4.827320982792339e-05, 'epoch': 0.12}
{'eval_loss': 0.9748319983482361, 'eval_runtime': 151.9027, 'eval_samples_per_second': 3.377, 'eval_steps_per_second': 3.377, 'epoch': 0.12} {'loss': 0.993, 'grad_norm': 2.7791121006011963, 'learning_rate': 4.812693017086145e-05, 'epoch': 0.12}
{'loss': 0.945, 'grad_norm': 2.4673960208892822, 'learning_rate': 4.797494428983553e-05, 'epoch': 0.13}
{'loss': 1.1082, 'grad_norm': 2.5295281410217285, 'learning_rate': 4.7817289685087577e-05, 'epoch': 0.14}
{'loss': 0.7185, 'grad_norm': 2.1598997116088867, 'learning_rate': 4.7654005255532244e-05, 'epoch': 0.14}
{'loss': 1.0133, 'grad_norm': 3.047793388366699, 'learning_rate': 4.7485131289159276e-05, 'epoch': 0.14}
{'loss': 0.968, 'grad_norm': 2.5459063053131104, 'learning_rate': 4.731070945309295e-05, 'epoch': 0.15}
{'loss': 1.4692, 'grad_norm': 2.5321528911590576, 'learning_rate': 4.713078278331138e-05, 'epoch': 0.15}
{'loss': 1.1307, 'grad_norm': 1.7924824953079224, 'learning_rate': 4.6945395674028046e-05, 'epoch': 0.16}
{'eval_loss': 0.895815372467041, 'eval_runtime': 152.0125, 'eval_samples_per_second': 3.375, 'eval_steps_per_second': 3.375, 'epoch': 0.16} {'loss': 0.1995, 'grad_norm': 1.706705927848816, 'learning_rate': 4.675459386673815e-05, 'epoch': 0.17}
{'loss': 0.2662, 'grad_norm': 1.423366904258728, 'learning_rate': 4.65584244389326e-05, 'epoch': 0.17}
{'loss': 0.1644, 'grad_norm': 1.2543377876281738, 'learning_rate': 4.635693579248238e-05, 'epoch': 0.17}
{'loss': 0.2225, 'grad_norm': 1.1791726350784302, 'learning_rate': 4.6150177641696055e-05, 'epoch': 0.18}
{'loss': 0.9926, 'grad_norm': 3.319575309753418, 'learning_rate': 4.593820100105355e-05, 'epoch': 0.18}
{'loss': 0.9731, 'grad_norm': 1.8062406778335571, 'learning_rate': 4.572105817261905e-05, 'epoch': 0.19}
{'loss': 0.5924, 'grad_norm': 1.333991289138794, 'learning_rate': 4.549880273313631e-05, 'epoch': 0.2}
{'loss': 0.7874, 'grad_norm': 3.0109357833862305, 'learning_rate': 4.527148952080934e-05, 'epoch': 0.2}
{'eval_loss': 0.9552626609802246, 'eval_runtime': 152.84, 'eval_samples_per_second': 3.356, 'eval_steps_per_second': 3.356, 'epoch': 0.2} {'loss': 1.1305, 'grad_norm': 3.3073043823242188, 'learning_rate': 4.503917462177192e-05, 'epoch': 0.2}
{'loss': 1.4048, 'grad_norm': 2.646367073059082, 'learning_rate': 4.480191535624918e-05, 'epoch': 0.21}
{'loss': 1.1025, 'grad_norm': 2.4946696758270264, 'learning_rate': 4.45597702644147e-05, 'epoch': 0.21}
{'loss': 0.932, 'grad_norm': 1.7684117555618286, 'learning_rate': 4.433771165539808e-05, 'epoch': 0.22}
{'loss': 0.9563, 'grad_norm': 6.080071926116943, 'learning_rate': 4.408644907738964e-05, 'epoch': 0.23}
{'loss': 0.8665, 'grad_norm': 1.7676212787628174, 'learning_rate': 4.3830477203668005e-05, 'epoch': 0.23}
{'loss': 0.6666, 'grad_norm': 1.8592491149902344, 'learning_rate': 4.3569859191462845e-05, 'epoch': 0.23}
{'loss': 1.105, 'grad_norm': 2.5992932319641113, 'learning_rate': 4.330465934436896e-05, 'epoch': 0.24}
{'eval_loss': 0.9085632562637329, 'eval_runtime': 152.2816, 'eval_samples_per_second': 3.369, 'eval_steps_per_second': 3.369, 'epoch': 0.24} {'loss': 1.0457, 'grad_norm': 2.8087618350982666, 'learning_rate': 4.3034943096480354e-05, 'epoch': 0.24}
{'loss': 1.3074, 'grad_norm': 2.314378023147583, 'learning_rate': 4.2760776996245336e-05, 'epoch': 0.25}
{'loss': 0.9791, 'grad_norm': 1.8774917125701904, 'learning_rate': 4.248222869004671e-05, 'epoch': 0.26}
{'loss': 0.8995, 'grad_norm': 1.60409414768219, 'learning_rate': 4.219936690551101e-05, 'epoch': 0.26}
{'loss': 1.6597, 'grad_norm': 2.295637845993042, 'learning_rate': 4.191226143455103e-05, 'epoch': 0.27}
{'loss': 1.5761, 'grad_norm': 2.5251376628875732, 'learning_rate': 4.162098311614567e-05, 'epoch': 0.27}
{'loss': 1.0876, 'grad_norm': 1.5463417768478394, 'learning_rate': 4.132560381886152e-05, 'epoch': 0.28}
{'loss': 1.0013, 'grad_norm': 3.0507397651672363, 'learning_rate': 4.102619642312031e-05, 'epoch': 0.28}
{'eval_loss': 0.9030677080154419, 'eval_runtime': 152.6609, 'eval_samples_per_second': 3.36, 'eval_steps_per_second': 3.36, 'epoch': 0.28} {'loss': 0.9835, 'grad_norm': 1.5485265254974365, 'learning_rate': 4.0722834803216836e-05, 'epoch': 0.28}
{'loss': 1.1712, 'grad_norm': 2.5300521850585938, 'learning_rate': 4.0415593809091476e-05, 'epoch': 0.29}
{'loss': 1.0923, 'grad_norm': 2.1976983547210693, 'learning_rate': 4.010454924786222e-05, 'epoch': 0.29}
{'loss': 0.6903, 'grad_norm': 1.5420632362365723, 'learning_rate': 3.978977786512026e-05, 'epoch': 0.3}
{'loss': 0.9475, 'grad_norm': 2.550802230834961, 'learning_rate': 3.947135732599428e-05, 'epoch': 0.3}
{'loss': 1.5188, 'grad_norm': 2.1106972694396973, 'learning_rate': 3.914936619598769e-05, 'epoch': 0.31}
{'loss': 0.9989, 'grad_norm': 1.9515721797943115, 'learning_rate': 3.8823883921593754e-05, 'epoch': 0.32}
{'loss': 1.4656, 'grad_norm': 3.5712242126464844, 'learning_rate': 3.8494990810693366e-05, 'epoch': 0.32}
{'eval_loss': 0.9052026867866516, 'eval_runtime': 151.8524, 'eval_samples_per_second': 3.378, 'eval_steps_per_second': 3.378, 'epoch': 0.32} {'loss': 1.3938, 'grad_norm': 1.8591293096542358, 'learning_rate': 3.816276801274032e-05, 'epoch': 0.33}
{'loss': 0.82, 'grad_norm': 1.5407472848892212, 'learning_rate': 3.7827297498738876e-05, 'epoch': 0.33}
{'loss': 0.9833, 'grad_norm': 1.4446436166763306, 'learning_rate': 3.7488662041018575e-05, 'epoch': 0.34}
{'loss': 0.886, 'grad_norm': 1.5457675457000732, 'learning_rate': 3.714694519281152e-05, 'epoch': 0.34}
{'loss': 1.5436, 'grad_norm': 2.6968576908111572, 'learning_rate': 3.680223126763677e-05, 'epoch': 0.34}
{'loss': 2.0023, 'grad_norm': 2.6286091804504395, 'learning_rate': 3.6454605318497326e-05, 'epoch': 0.35}
{'loss': 1.4566, 'grad_norm': 2.219050407409668, 'learning_rate': 3.610415311689447e-05, 'epoch': 0.35}
{'loss': 1.2586, 'grad_norm': 2.287696599960327, 'learning_rate': 3.5750961131665034e-05, 'epoch': 0.36}
{'eval_loss': 0.9246538281440735, 'eval_runtime': 152.9675, 'eval_samples_per_second': 3.354, 'eval_steps_per_second': 3.354, 'epoch': 0.36} {'loss': 1.4281, 'grad_norm': 2.713931083679199, 'learning_rate': 3.5395116507646435e-05, 'epoch': 0.36}
{'loss': 0.8705, 'grad_norm': 2.1734156608581543, 'learning_rate': 3.5036707044175054e-05, 'epoch': 0.37}
{'loss': 1.074, 'grad_norm': 2.33604097366333, 'learning_rate': 3.4675821173422984e-05, 'epoch': 0.38}
{'loss': 1.2138, 'grad_norm': 3.4721531867980957, 'learning_rate': 3.43125479385788e-05, 'epoch': 0.38}
{'loss': 1.0241, 'grad_norm': 1.788787841796875, 'learning_rate': 3.394697697187741e-05, 'epoch': 0.39}
{'loss': 1.1102, 'grad_norm': 1.8591779470443726, 'learning_rate': 3.357919847248471e-05, 'epoch': 0.39}
{'loss': 1.0462, 'grad_norm': 2.8364994525909424, 'learning_rate': 3.320930318424221e-05, 'epoch': 0.4}
{'loss': 1.171, 'grad_norm': 1.603366732597351, 'learning_rate': 3.2837382373277454e-05, 'epoch': 0.4}
{'eval_loss': 0.884009063243866, 'eval_runtime': 152.0266, 'eval_samples_per_second': 3.374, 'eval_steps_per_second': 3.374, 'epoch': 0.4} {'loss': 1.5351, 'grad_norm': 2.198542833328247, 'learning_rate': 3.2463527805485364e-05, 'epoch': 0.41}
{'loss': 0.7152, 'grad_norm': 2.084487199783325, 'learning_rate': 3.2087831723886425e-05, 'epoch': 0.41}
{'loss': 0.9761, 'grad_norm': 1.652078628540039, 'learning_rate': 3.1710386825867114e-05, 'epoch': 0.41}
{'loss': 0.8757, 'grad_norm': 2.373016119003296, 'learning_rate': 3.1331286240308205e-05, 'epoch': 0.42}
{'loss': 0.7374, 'grad_norm': 1.1827094554901123, 'learning_rate': 3.095062350460656e-05, 'epoch': 0.42}
{'loss': 0.7313, 'grad_norm': 1.3222441673278809, 'learning_rate': 3.0568492541596257e-05, 'epoch': 0.43}
{'loss': 0.859, 'grad_norm': 2.9041402339935303, 'learning_rate': 3.018498763637445e-05, 'epoch': 0.43}
{'loss': 1.6774, 'grad_norm': 2.3312883377075195, 'learning_rate': 2.9800203413038003e-05, 'epoch': 0.44}
{'eval_loss': 0.9206366539001465, 'eval_runtime': 152.6722, 'eval_samples_per_second': 3.36, 'eval_steps_per_second': 3.36, 'epoch': 0.44} {'loss': 1.2469, 'grad_norm': 2.528280735015869, 'learning_rate': 2.9414234811336377e-05, 'epoch': 0.45}
{'loss': 1.0723, 'grad_norm': 2.2675719261169434, 'learning_rate': 2.9027177063246662e-05, 'epoch': 0.45}
{'loss': 0.675, 'grad_norm': 1.4620213508605957, 'learning_rate': 2.8639125669476542e-05, 'epoch': 0.46}
{'loss': 0.9794, 'grad_norm': 2.4921534061431885, 'learning_rate': 2.8250176375900876e-05, 'epoch': 0.46}
{'loss': 1.0461, 'grad_norm': 2.2592153549194336, 'learning_rate': 2.7860425149937896e-05, 'epoch': 0.47}
{'loss': 1.3719, 'grad_norm': 2.7071692943573, 'learning_rate': 2.7469968156870622e-05, 'epoch': 0.47}
{'loss': 1.5974, 'grad_norm': 4.221904277801514, 'learning_rate': 2.7078901736119582e-05, 'epoch': 0.47}
{'loss': 0.9886, 'grad_norm': 1.508450984954834, 'learning_rate': 2.6687322377472418e-05, 'epoch': 0.48}
{'eval_loss': 0.8991759419441223, 'eval_runtime': 152.6751, 'eval_samples_per_second': 3.36, 'eval_steps_per_second': 3.36, 'epoch': 0.48} {'loss': 0.4559, 'grad_norm': 1.2275032997131348, 'learning_rate': 2.6295326697276563e-05, 'epoch': 0.48}
{'loss': 0.4991, 'grad_norm': 1.697818636894226, 'learning_rate': 2.5903011414600536e-05, 'epoch': 0.49}
{'loss': 1.4197, 'grad_norm': 3.0284199714660645, 'learning_rate': 2.5510473327370016e-05, 'epoch': 0.49}
{'loss': 2.0418, 'grad_norm': 2.651405096054077, 'learning_rate': 2.5117809288484334e-05, 'epoch': 0.5}
{'loss': 1.9261, 'grad_norm': 2.60146427154541, 'learning_rate': 2.472511618191955e-05, 'epoch': 0.51}
{'loss': 1.3623, 'grad_norm': 2.320786476135254, 'learning_rate': 2.4332490898823697e-05, 'epoch': 0.51}
{'loss': 1.33, 'grad_norm': 2.2501637935638428, 'learning_rate': 2.3940030313610405e-05, 'epoch': 0.52}
{'loss': 1.3143, 'grad_norm': 2.2697243690490723, 'learning_rate': 2.3547831260056557e-05, 'epoch': 0.52}
{'eval_loss': 0.9189299941062927, 'eval_runtime': 152.8415, 'eval_samples_per_second': 3.356, 'eval_steps_per_second': 3.356, 'epoch': 0.52} {'loss': 0.9892, 'grad_norm': 1.7722361087799072, 'learning_rate': 2.3155990507410035e-05, 'epoch': 0.53}
{'loss': 0.9684, 'grad_norm': 2.8249940872192383, 'learning_rate': 2.276460473651329e-05, 'epoch': 0.53}
{'loss': 0.9683, 'grad_norm': 2.429725408554077, 'learning_rate': 2.2373770515948883e-05, 'epoch': 0.54}
{'loss': 1.0761, 'grad_norm': 2.2777299880981445, 'learning_rate': 2.1983584278212542e-05, 'epoch': 0.54}
{'loss': 1.067, 'grad_norm': 2.420156955718994, 'learning_rate': 2.159414229591996e-05, 'epoch': 0.55}
{'loss': 0.8997, 'grad_norm': 1.517594575881958, 'learning_rate': 2.1205540658052912e-05, 'epoch': 0.55}
{'loss': 1.0498, 'grad_norm': 2.5387120246887207, 'learning_rate': 2.0817875246250785e-05, 'epoch': 0.56}
{'loss': 1.2498, 'grad_norm': 2.8884220123291016, 'learning_rate': 2.0431241711153166e-05, 'epoch': 0.56}
{'eval_loss': 0.8606665134429932, 'eval_runtime': 152.8497, 'eval_samples_per_second': 3.356, 'eval_steps_per_second': 3.356, 'epoch': 0.56} {'loss': 1.047, 'grad_norm': 2.596529245376587, 'learning_rate': 2.004573544879952e-05, 'epoch': 0.56}
{'loss': 1.0461, 'grad_norm': 3.0878331661224365, 'learning_rate': 1.9661451577091632e-05, 'epoch': 0.57}
{'loss': 1.0944, 'grad_norm': 2.621818780899048, 'learning_rate': 1.9278484912324678e-05, 'epoch': 0.57}
{'loss': 1.0046, 'grad_norm': 2.1848816871643066, 'learning_rate': 1.8896929945792745e-05, 'epoch': 0.58}
{'loss': 0.9344, 'grad_norm': 2.988144874572754, 'learning_rate': 1.8516880820474488e-05, 'epoch': 0.58}
{'loss': 0.9929, 'grad_norm': 2.768815279006958, 'learning_rate': 1.817620161206687e-05, 'epoch': 0.59}
{'loss': 1.0599, 'grad_norm': 3.1108460426330566, 'learning_rate': 1.779927159963078e-05, 'epoch': 0.59}
{'loss': 1.1219, 'grad_norm': 2.0560524463653564, 'learning_rate': 1.7424118259180654e-05, 'epoch': 0.6}
{'eval_loss': 0.8613618016242981, 'eval_runtime': 152.1851, 'eval_samples_per_second': 3.371, 'eval_steps_per_second': 3.371, 'epoch': 0.6} {'loss': 0.825, 'grad_norm': 1.763521671295166, 'learning_rate': 1.7050834154189733e-05, 'epoch': 0.6}
{'loss': 1.0036, 'grad_norm': 1.5329749584197998, 'learning_rate': 1.6679511386925337e-05, 'epoch': 0.61}
{'loss': 0.9776, 'grad_norm': 2.1503257751464844, 'learning_rate': 1.6310241575724077e-05, 'epoch': 0.61}
{'loss': 1.103, 'grad_norm': 2.5305418968200684, 'learning_rate': 1.594311583238636e-05, 'epoch': 0.62}
{'loss': 0.7262, 'grad_norm': 2.5605080127716064, 'learning_rate': 1.5578224739695938e-05, 'epoch': 0.62}
{'loss': 0.8873, 'grad_norm': 1.912288784980774, 'learning_rate': 1.521565832906994e-05, 'epoch': 0.63}
{'loss': 1.4601, 'grad_norm': 3.8784608840942383, 'learning_rate': 1.4855506058345003e-05, 'epoch': 0.64}
{'loss': 0.5864, 'grad_norm': 2.2937872409820557, 'learning_rate': 1.4497856789704844e-05, 'epoch': 0.64}
{'eval_loss': 0.8629576563835144, 'eval_runtime': 152.1767, 'eval_samples_per_second': 3.371, 'eval_steps_per_second': 3.371, 'epoch': 0.64} {'loss': 0.5175, 'grad_norm': 1.61623215675354, 'learning_rate': 1.4142798767754886e-05, 'epoch': 0.65}
{'loss': 0.6033, 'grad_norm': 1.4896459579467773, 'learning_rate': 1.3790419597749199e-05, 'epoch': 0.65}
{'loss': 1.4841, 'grad_norm': 2.457730293273926, 'learning_rate': 1.3440806223975211e-05, 'epoch': 0.66}
{'loss': 1.0496, 'grad_norm': 2.337935447692871, 'learning_rate': 1.309404490830152e-05, 'epoch': 0.66}
{'loss': 0.6382, 'grad_norm': 1.158054232597351, 'learning_rate': 1.2750221208894086e-05, 'epoch': 0.67}
{'loss': 0.9123, 'grad_norm': 1.8274441957473755, 'learning_rate': 1.2409419959105981e-05, 'epoch': 0.67}
{'loss': 1.0484, 'grad_norm': 2.2876508235931396, 'learning_rate': 1.2071725246546073e-05, 'epoch': 0.68}
{'loss': 1.0296, 'grad_norm': 1.9425606727600098, 'learning_rate': 1.1737220392331644e-05, 'epoch': 0.68}
{'eval_loss': 0.84572833776474, 'eval_runtime': 152.5294, 'eval_samples_per_second': 3.363, 'eval_steps_per_second': 3.363, 'epoch': 0.68} {'loss': 1.4579, 'grad_norm': 2.5138022899627686, 'learning_rate': 1.1405987930530184e-05, 'epoch': 0.69}
{'loss': 0.8274, 'grad_norm': 1.9770779609680176, 'learning_rate': 1.107810958779531e-05, 'epoch': 0.69}
{'loss': 1.137, 'grad_norm': 2.3665575981140137, 'learning_rate': 1.0753666263201906e-05, 'epoch': 0.69}
{'loss': 0.8668, 'grad_norm': 3.4530446529388428, 'learning_rate': 1.0432738008285603e-05, 'epoch': 0.7}
{'loss': 0.8818, 'grad_norm': 4.444015979766846, 'learning_rate': 1.0115404007291132e-05, 'epoch': 0.7}
{'loss': 0.6297, 'grad_norm': 1.8283281326293945, 'learning_rate': 9.801742557634872e-06, 'epoch': 0.71}
{'loss': 0.6493, 'grad_norm': 1.6948795318603516, 'learning_rate': 9.491831050586108e-06, 'epoch': 0.71}
{'loss': 1.3481, 'grad_norm': 2.282780408859253, 'learning_rate': 9.18574595217189e-06, 'epoch': 0.72}
{'eval_loss': 0.8232991695404053, 'eval_runtime': 153.4635, 'eval_samples_per_second': 3.343, 'eval_steps_per_second': 3.343, 'epoch': 0.72} {'loss': 0.9214, 'grad_norm': 5.76939582824707, 'learning_rate': 8.88356278431022e-06, 'epoch': 0.72}
{'loss': 1.4221, 'grad_norm': 2.9073567390441895, 'learning_rate': 8.585356106176094e-06, 'epoch': 0.73}
{'loss': 1.098, 'grad_norm': 1.9859180450439453, 'learning_rate': 8.29119949580518e-06, 'epoch': 0.73}
{'loss': 1.0445, 'grad_norm': 2.876953363418579, 'learning_rate': 8.00116553193952e-06, 'epoch': 0.74}
{'loss': 1.4479, 'grad_norm': 3.211521625518799, 'learning_rate': 7.715325776119842e-06, 'epoch': 0.74}
{'loss': 1.3467, 'grad_norm': 2.197300910949707, 'learning_rate': 7.433750755028773e-06, 'epoch': 0.75}
{'loss': 1.2087, 'grad_norm': 2.145267963409424, 'learning_rate': 7.156509943089471e-06, 'epoch': 0.76}
{'loss': 1.1982, 'grad_norm': 2.3548624515533447, 'learning_rate': 6.883671745323833e-06, 'epoch': 0.76}
{'eval_loss': 0.8325499892234802, 'eval_runtime': 152.8486, 'eval_samples_per_second': 3.356, 'eval_steps_per_second': 3.356, 'epoch': 0.76} {'loss': 0.7547, 'grad_norm': 1.716307520866394, 'learning_rate': 6.615303480474603e-06, 'epoch': 0.77}
{'loss': 0.9012, 'grad_norm': 2.4860448837280273, 'learning_rate': 6.3514713643954475e-06, 'epoch': 0.77}
{'loss': 1.1138, 'grad_norm': 1.8815244436264038, 'learning_rate': 6.092240493713205e-06, 'epoch': 0.78}
{'loss': 1.0731, 'grad_norm': 2.2672464847564697, 'learning_rate': 5.837674829766257e-06, 'epoch': 0.78}
{'loss': 0.694, 'grad_norm': 2.4804887771606445, 'learning_rate': 5.587837182823033e-06, 'epoch': 0.79}
{'loss': 0.6888, 'grad_norm': 2.4744796752929688, 'learning_rate': 5.342789196584527e-06, 'epoch': 0.79}
{'loss': 0.6884, 'grad_norm': 3.000366687774658, 'learning_rate': 5.102591332974604e-06, 'epoch': 0.8}
{'loss': 0.6123, 'grad_norm': 2.9794154167175293, 'learning_rate': 4.867302857221953e-06, 'epoch': 0.8}
{'eval_loss': 0.8424550294876099, 'eval_runtime': 152.8823, 'eval_samples_per_second': 3.356, 'eval_steps_per_second': 3.356, 'epoch': 0.8} {'loss': 0.8329, 'grad_norm': 1.7908827066421509, 'learning_rate': 4.636981823237263e-06, 'epoch': 0.81}
{'loss': 0.7987, 'grad_norm': 2.4418954849243164, 'learning_rate': 4.411685059289314e-06, 'epoch': 0.81}
{'loss': 0.6692, 'grad_norm': 1.700442910194397, 'learning_rate': 4.191468153983419e-06, 'epoch': 0.81}
{'loss': 0.6935, 'grad_norm': 4.818665504455566, 'learning_rate': 3.976385442545774e-06, 'epoch': 0.82}
{'loss': 0.473, 'grad_norm': 1.81159245967865, 'learning_rate': 3.766489993417088e-06, 'epoch': 0.82}
{'loss': 0.3716, 'grad_norm': 2.6682369709014893, 'learning_rate': 3.561833595158698e-06, 'epoch': 0.83}
{'loss': 0.3713, 'grad_norm': 1.311950445175171, 'learning_rate': 3.3624667436745306e-06, 'epoch': 0.83}
{'loss': 0.7305, 'grad_norm': 2.3471803665161133, 'learning_rate': 3.168438629752002e-06, 'epoch': 0.84}
{'eval_loss': 0.8480635285377502, 'eval_runtime': 152.6186, 'eval_samples_per_second': 3.361, 'eval_steps_per_second': 3.361, 'epoch': 0.84} {'loss': 0.451, 'grad_norm': 2.1167027950286865, 'learning_rate': 2.97979712692491e-06, 'epoch': 0.84}
{'loss': 0.3784, 'grad_norm': 2.139535903930664, 'learning_rate': 2.7965887796613884e-06, 'epoch': 0.85}
{'loss': 0.3639, 'grad_norm': 4.419914245605469, 'learning_rate': 2.6188587918797108e-06, 'epoch': 0.85}
{'loss': 0.3833, 'grad_norm': 1.4533271789550781, 'learning_rate': 2.446651015794932e-06, 'epoch': 0.86}
{'loss': 0.4509, 'grad_norm': 1.225738763809204, 'learning_rate': 2.2800079410989966e-06, 'epoch': 0.86}
{'loss': 0.4411, 'grad_norm': 1.3290767669677734, 'learning_rate': 2.118970684477062e-06, 'epoch': 0.87}
{'loss': 0.4021, 'grad_norm': 2.648968458175659, 'learning_rate': 1.9635789794625408e-06, 'epoch': 0.88}
{'loss': 0.3372, 'grad_norm': 2.4032764434814453, 'learning_rate': 1.8138711666334685e-06, 'epoch': 0.88}
{'eval_loss': 0.8487935662269592, 'eval_runtime': 153.0027, 'eval_samples_per_second': 3.353, 'eval_steps_per_second': 3.353, 'epoch': 0.88} {'loss': 0.2484, 'grad_norm': 2.927894115447998, 'learning_rate': 1.6698841841525342e-06, 'epoch': 0.89}
{'loss': 0.5709, 'grad_norm': 2.355232000350952, 'learning_rate': 1.5316535586531483e-06, 'epoch': 0.89}
{'loss': 0.4864, 'grad_norm': 2.8979344367980957, 'learning_rate': 1.3992133964737586e-06, 'epoch': 0.9}
{'loss': 0.7171, 'grad_norm': 1.4555788040161133, 'learning_rate': 1.2725963752426379e-06, 'epoch': 0.9}
{'loss': 0.5614, 'grad_norm': 5.875434398651123, 'learning_rate': 1.1518337358151638e-06, 'epoch': 0.91}
{'loss': 0.8766, 'grad_norm': 1.8882566690444946, 'learning_rate': 1.0369552745656013e-06, 'epoch': 0.91}
{'loss': 0.4303, 'grad_norm': 5.298729419708252, 'learning_rate': 9.279893360353092e-07, 'epoch': 0.92}
{'loss': 0.5339, 'grad_norm': 3.5902140140533447, 'learning_rate': 8.249628059391251e-07, 'epoch': 0.92}
{'eval_loss': 0.8472644686698914, 'eval_runtime': 153.4731, 'eval_samples_per_second': 3.343, 'eval_steps_per_second': 3.343, 'epoch': 0.92} {'loss': 0.5847, 'grad_norm': 2.7120273113250732, 'learning_rate': 7.279011045317252e-07, 'epoch': 0.93}
{'loss': 0.4502, 'grad_norm': 2.649909734725952, 'learning_rate': 6.368281803355691e-07, 'epoch': 0.93}
{'loss': 0.4612, 'grad_norm': 2.368468761444092, 'learning_rate': 5.517665042319541e-07, 'epoch': 0.94}
{'loss': 0.3823, 'grad_norm': 3.267984390258789, 'learning_rate': 4.727370639166506e-07, 'epoch': 0.94}
{'loss': 0.3348, 'grad_norm': 2.2772085666656494, 'learning_rate': 3.997593587215076e-07, 'epoch': 0.94}
{'loss': 0.3926, 'grad_norm': 1.226403832435608, 'learning_rate': 3.328513948032991e-07, 'epoch': 0.95}
{'loss': 0.4391, 'grad_norm': 1.6423338651657104, 'learning_rate': 2.720296807009554e-07, 'epoch': 0.95}
{'loss': 0.3769, 'grad_norm': 1.6767317056655884, 'learning_rate': 2.1730922326233803e-07, 'epoch': 0.96}
{'eval_loss': 0.8487095832824707, 'eval_runtime': 152.9678, 'eval_samples_per_second': 3.354, 'eval_steps_per_second': 3.354, 'epoch': 0.96} {'loss': 0.3416, 'grad_norm': 3.6863131523132324, 'learning_rate': 1.6870352394151578e-07, 'epoch': 0.96}
{'loss': 0.3904, 'grad_norm': 2.686345100402832, 'learning_rate': 1.2622457546749567e-07, 'epoch': 0.97}
{'loss': 0.3232, 'grad_norm': 1.793562412261963, 'learning_rate': 8.988285888519022e-08, 'epoch': 0.97}
{'loss': 0.7084, 'grad_norm': 1.964917540550232, 'learning_rate': 5.968734096936935e-08, 'epoch': 0.98}
{'loss': 0.3624, 'grad_norm': 4.811785697937012, 'learning_rate': 3.5645472012257874e-08, 'epoch': 0.98}
{'loss': 0.3096, 'grad_norm': 1.5749515295028687, 'learning_rate': 1.7763183985269883e-08, 'epoch': 0.99}
{'loss': 0.4264, 'grad_norm': 3.172187566757202, 'learning_rate': 6.044889075398907e-09, 'epoch': 0.99}
{'loss': 0.3051, 'grad_norm': 1.0893181562423706, 'learning_rate': 4.934785965721167e-10, 'epoch': 1.0}
{'eval_loss': 0.8490237593650818, 'eval_runtime': 153.1285, 'eval_samples_per_second': 3.35, 'eval_steps_per_second': 3.35, 'epoch': 1.0} {'train_runtime': 5539.1936, 'train_samples_per_second': 0.361, 'train_steps_per_second': 0.361, 'train_tokens_per_second': 369.729, 'train_loss': 0.9433220010995865, 'epoch': 1.0} 100%|██████████████████████████████████████████████████████████████████████████████████████| 2000/2000 [1:32:19<00:00, 2.77s/it] --- total: 5557.670423984528 s --- evaluation --- eval_problem_0 eval_problem_1 eval_problem_2 eval_problem_3 eval_problem_4 eval_problem_5 eval_problem_6 eval_problem_7 eval_problem_8 eval_problem_9 eval_problem_10 eval_problem_11 eval_problem_12 eval_problem_13 eval_problem_14 eval_problem_15 eval_problem_16 eval_problem_17 eval_problem_18 eval_problem_19 eval_problem_20 eval_problem_21 eval_problem_22 eval_problem_23 eval_problem_24 eval_problem_25 eval_problem_26 eval_problem_27 eval_problem_28 eval_problem_29 eval_problem_30 eval_problem_31 eval_problem_32 eval_problem_33 eval_problem_34 eval_problem_35 eval_problem_36 eval_problem_37 eval_problem_38 eval_problem_39 eval_problem_40 eval_problem_41 eval_problem_42 eval_problem_43 eval_problem_44 eval_problem_45 eval_problem_46 eval_problem_47 eval_problem_48 eval_problem_49 --- total: 3817.531834125519 s

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support