Training in progress, step 1350, checkpoint

93ddded verified 7 days ago

26 kB

	{
	"best_metric": 1.877977728843689,
	"best_model_checkpoint": "./output/checkpoint-450",
	"epoch": 0.14511447920025797,
	"eval_steps": 150,
	"global_step": 1350,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.001074922068150059,
	"grad_norm": 43.13871765136719,
	"learning_rate": 4.125e-06,
	"loss": 2.2922,
	"step": 10
	},
	{
	"epoch": 0.002149844136300118,
	"grad_norm": 26.323883056640625,
	"learning_rate": 8.25e-06,
	"loss": 2.1328,
	"step": 20
	},
	{
	"epoch": 0.0032247662044501773,
	"grad_norm": 17.629505157470703,
	"learning_rate": 1.2375e-05,
	"loss": 2.036,
	"step": 30
	},
	{
	"epoch": 0.004299688272600236,
	"grad_norm": 10.648378372192383,
	"learning_rate": 1.65e-05,
	"loss": 1.851,
	"step": 40
	},
	{
	"epoch": 0.005374610340750295,
	"grad_norm": 17.73092269897461,
	"learning_rate": 2.0625e-05,
	"loss": 1.8746,
	"step": 50
	},
	{
	"epoch": 0.0064495324089003546,
	"grad_norm": 6.716779708862305,
	"learning_rate": 2.475e-05,
	"loss": 1.8512,
	"step": 60
	},
	{
	"epoch": 0.007524454477050414,
	"grad_norm": 15.877828598022461,
	"learning_rate": 2.8874999999999997e-05,
	"loss": 1.9416,
	"step": 70
	},
	{
	"epoch": 0.008599376545200472,
	"grad_norm": 14.675684928894043,
	"learning_rate": 3.3e-05,
	"loss": 1.8581,
	"step": 80
	},
	{
	"epoch": 0.009674298613350531,
	"grad_norm": 11.489137649536133,
	"learning_rate": 3.7125e-05,
	"loss": 1.9017,
	"step": 90
	},
	{
	"epoch": 0.01074922068150059,
	"grad_norm": 7.483497619628906,
	"learning_rate": 4.125e-05,
	"loss": 1.9335,
	"step": 100
	},
	{
	"epoch": 0.01182414274965065,
	"grad_norm": 9.6410551071167,
	"learning_rate": 4.12495760935163e-05,
	"loss": 1.7841,
	"step": 110
	},
	{
	"epoch": 0.012899064817800709,
	"grad_norm": 7.8748979568481445,
	"learning_rate": 4.1248304391490334e-05,
	"loss": 1.8529,
	"step": 120
	},
	{
	"epoch": 0.013973986885950768,
	"grad_norm": 9.455327987670898,
	"learning_rate": 4.1246184946196796e-05,
	"loss": 1.9366,
	"step": 130
	},
	{
	"epoch": 0.015048908954100828,
	"grad_norm": 8.64035701751709,
	"learning_rate": 4.124321784475777e-05,
	"loss": 1.8501,
	"step": 140
	},
	{
	"epoch": 0.016123831022250887,
	"grad_norm": 13.220332145690918,
	"learning_rate": 4.123940320913919e-05,
	"loss": 1.9095,
	"step": 150
	},
	{
	"epoch": 0.016123831022250887,
	"eval_loss": 1.8831839561462402,
	"eval_runtime": 61.5136,
	"eval_samples_per_second": 8.128,
	"eval_steps_per_second": 8.128,
	"step": 150
	},
	{
	"epoch": 0.017198753090400944,
	"grad_norm": 8.182404518127441,
	"learning_rate": 4.123474119614577e-05,
	"loss": 1.8163,
	"step": 160
	},
	{
	"epoch": 0.018273675158551005,
	"grad_norm": 12.389548301696777,
	"learning_rate": 4.1229231997414614e-05,
	"loss": 1.8781,
	"step": 170
	},
	{
	"epoch": 0.019348597226701063,
	"grad_norm": 8.600774765014648,
	"learning_rate": 4.1222875839407306e-05,
	"loss": 1.8206,
	"step": 180
	},
	{
	"epoch": 0.020423519294851124,
	"grad_norm": 7.161348819732666,
	"learning_rate": 4.121567298340059e-05,
	"loss": 1.8117,
	"step": 190
	},
	{
	"epoch": 0.02149844136300118,
	"grad_norm": 7.655135631561279,
	"learning_rate": 4.120762372547569e-05,
	"loss": 1.794,
	"step": 200
	},
	{
	"epoch": 0.022573363431151242,
	"grad_norm": 10.144853591918945,
	"learning_rate": 4.119872839650605e-05,
	"loss": 1.8959,
	"step": 210
	},
	{
	"epoch": 0.0236482854993013,
	"grad_norm": 8.557960510253906,
	"learning_rate": 4.118898736214381e-05,
	"loss": 1.8676,
	"step": 220
	},
	{
	"epoch": 0.02472320756745136,
	"grad_norm": 11.726237297058105,
	"learning_rate": 4.117840102280475e-05,
	"loss": 1.7744,
	"step": 230
	},
	{
	"epoch": 0.025798129635601418,
	"grad_norm": 8.739320755004883,
	"learning_rate": 4.116696981365181e-05,
	"loss": 1.8178,
	"step": 240
	},
	{
	"epoch": 0.02687305170375148,
	"grad_norm": 6.433278560638428,
	"learning_rate": 4.115469420457721e-05,
	"loss": 1.7578,
	"step": 250
	},
	{
	"epoch": 0.027947973771901537,
	"grad_norm": 6.021564960479736,
	"learning_rate": 4.1141574700183186e-05,
	"loss": 1.8376,
	"step": 260
	},
	{
	"epoch": 0.029022895840051598,
	"grad_norm": 8.607327461242676,
	"learning_rate": 4.1127611839761155e-05,
	"loss": 1.7681,
	"step": 270
	},
	{
	"epoch": 0.030097817908201655,
	"grad_norm": 9.417404174804688,
	"learning_rate": 4.111280619726964e-05,
	"loss": 1.8459,
	"step": 280
	},
	{
	"epoch": 0.031172739976351716,
	"grad_norm": 11.03150749206543,
	"learning_rate": 4.109715838131059e-05,
	"loss": 1.8467,
	"step": 290
	},
	{
	"epoch": 0.032247662044501774,
	"grad_norm": 7.549683570861816,
	"learning_rate": 4.108066903510445e-05,
	"loss": 1.8979,
	"step": 300
	},
	{
	"epoch": 0.032247662044501774,
	"eval_loss": 1.8808292150497437,
	"eval_runtime": 60.731,
	"eval_samples_per_second": 8.233,
	"eval_steps_per_second": 8.233,
	"step": 300
	},
	{
	"epoch": 0.033322584112651835,
	"grad_norm": 7.343403339385986,
	"learning_rate": 4.106333883646366e-05,
	"loss": 1.8544,
	"step": 310
	},
	{
	"epoch": 0.03439750618080189,
	"grad_norm": 6.203611850738525,
	"learning_rate": 4.104516849776479e-05,
	"loss": 1.8245,
	"step": 320
	},
	{
	"epoch": 0.03547242824895195,
	"grad_norm": 8.674558639526367,
	"learning_rate": 4.1026158765919306e-05,
	"loss": 1.8058,
	"step": 330
	},
	{
	"epoch": 0.03654735031710201,
	"grad_norm": 9.196893692016602,
	"learning_rate": 4.100631042234283e-05,
	"loss": 1.8813,
	"step": 340
	},
	{
	"epoch": 0.03762227238525207,
	"grad_norm": 10.656414985656738,
	"learning_rate": 4.098562428292304e-05,
	"loss": 1.7876,
	"step": 350
	},
	{
	"epoch": 0.038697194453402126,
	"grad_norm": 6.581936836242676,
	"learning_rate": 4.096410119798607e-05,
	"loss": 1.8134,
	"step": 360
	},
	{
	"epoch": 0.03977211652155219,
	"grad_norm": 9.650823593139648,
	"learning_rate": 4.094174205226167e-05,
	"loss": 1.7727,
	"step": 370
	},
	{
	"epoch": 0.04084703858970225,
	"grad_norm": 10.17803955078125,
	"learning_rate": 4.0918547764846736e-05,
	"loss": 1.7945,
	"step": 380
	},
	{
	"epoch": 0.04192196065785231,
	"grad_norm": 8.77602481842041,
	"learning_rate": 4.089451928916758e-05,
	"loss": 1.9062,
	"step": 390
	},
	{
	"epoch": 0.04299688272600236,
	"grad_norm": 6.488632678985596,
	"learning_rate": 4.0869657612940723e-05,
	"loss": 1.774,
	"step": 400
	},
	{
	"epoch": 0.044071804794152424,
	"grad_norm": 10.849347114562988,
	"learning_rate": 4.08439637581323e-05,
	"loss": 1.8497,
	"step": 410
	},
	{
	"epoch": 0.045146726862302484,
	"grad_norm": 6.79919958114624,
	"learning_rate": 4.081743878091604e-05,
	"loss": 1.9205,
	"step": 420
	},
	{
	"epoch": 0.046221648930452545,
	"grad_norm": 10.169675827026367,
	"learning_rate": 4.079008377162988e-05,
	"loss": 1.8459,
	"step": 430
	},
	{
	"epoch": 0.0472965709986026,
	"grad_norm": 6.641557216644287,
	"learning_rate": 4.0761899854731085e-05,
	"loss": 1.867,
	"step": 440
	},
	{
	"epoch": 0.04837149306675266,
	"grad_norm": 10.017315864562988,
	"learning_rate": 4.073288818875011e-05,
	"loss": 1.8095,
	"step": 450
	},
	{
	"epoch": 0.04837149306675266,
	"eval_loss": 1.877977728843689,
	"eval_runtime": 60.8543,
	"eval_samples_per_second": 8.216,
	"eval_steps_per_second": 8.216,
	"step": 450
	},
	{
	"epoch": 0.04944641513490272,
	"grad_norm": 7.070505619049072,
	"learning_rate": 4.070304996624291e-05,
	"loss": 1.8261,
	"step": 460
	},
	{
	"epoch": 0.050521337203052775,
	"grad_norm": 7.832033157348633,
	"learning_rate": 4.067238641374194e-05,
	"loss": 1.8129,
	"step": 470
	},
	{
	"epoch": 0.051596259271202836,
	"grad_norm": 8.640854835510254,
	"learning_rate": 4.0640898791705745e-05,
	"loss": 1.8887,
	"step": 480
	},
	{
	"epoch": 0.0526711813393529,
	"grad_norm": 8.050338745117188,
	"learning_rate": 4.060858839446713e-05,
	"loss": 1.8551,
	"step": 490
	},
	{
	"epoch": 0.05374610340750296,
	"grad_norm": 5.903382778167725,
	"learning_rate": 4.057545655017998e-05,
	"loss": 1.7708,
	"step": 500
	},
	{
	"epoch": 0.05482102547565301,
	"grad_norm": 6.558720111846924,
	"learning_rate": 4.054150462076465e-05,
	"loss": 1.8277,
	"step": 510
	},
	{
	"epoch": 0.05589594754380307,
	"grad_norm": 9.94021224975586,
	"learning_rate": 4.0506734001851976e-05,
	"loss": 1.8834,
	"step": 520
	},
	{
	"epoch": 0.056970869611953134,
	"grad_norm": 11.147041320800781,
	"learning_rate": 4.0471146122725904e-05,
	"loss": 1.8697,
	"step": 530
	},
	{
	"epoch": 0.058045791680103195,
	"grad_norm": 7.040550708770752,
	"learning_rate": 4.043474244626477e-05,
	"loss": 1.8605,
	"step": 540
	},
	{
	"epoch": 0.05912071374825325,
	"grad_norm": 8.166383743286133,
	"learning_rate": 4.0397524468881125e-05,
	"loss": 1.8772,
	"step": 550
	},
	{
	"epoch": 0.06019563581640331,
	"grad_norm": 6.262266159057617,
	"learning_rate": 4.0359493720460244e-05,
	"loss": 1.8334,
	"step": 560
	},
	{
	"epoch": 0.06127055788455337,
	"grad_norm": 6.04037618637085,
	"learning_rate": 4.032065176429724e-05,
	"loss": 1.8355,
	"step": 570
	},
	{
	"epoch": 0.06234547995270343,
	"grad_norm": 6.709385871887207,
	"learning_rate": 4.0281000197032795e-05,
	"loss": 1.8567,
	"step": 580
	},
	{
	"epoch": 0.06342040202085349,
	"grad_norm": 6.928658962249756,
	"learning_rate": 4.0240540648587546e-05,
	"loss": 1.8503,
	"step": 590
	},
	{
	"epoch": 0.06449532408900355,
	"grad_norm": 5.788703918457031,
	"learning_rate": 4.019927478209504e-05,
	"loss": 1.8522,
	"step": 600
	},
	{
	"epoch": 0.06449532408900355,
	"eval_loss": 1.8825602531433105,
	"eval_runtime": 60.165,
	"eval_samples_per_second": 8.31,
	"eval_steps_per_second": 8.31,
	"step": 600
	},
	{
	"epoch": 0.06557024615715361,
	"grad_norm": 9.176572799682617,
	"learning_rate": 4.015720429383344e-05,
	"loss": 1.8688,
	"step": 610
	},
	{
	"epoch": 0.06664516822530367,
	"grad_norm": 7.160205841064453,
	"learning_rate": 4.0114330913155726e-05,
	"loss": 1.8031,
	"step": 620
	},
	{
	"epoch": 0.06772009029345373,
	"grad_norm": 9.988216400146484,
	"learning_rate": 4.007065640241867e-05,
	"loss": 1.8262,
	"step": 630
	},
	{
	"epoch": 0.06879501236160378,
	"grad_norm": 9.315797805786133,
	"learning_rate": 4.002618255691033e-05,
	"loss": 1.8542,
	"step": 640
	},
	{
	"epoch": 0.06986993442975384,
	"grad_norm": 7.385815143585205,
	"learning_rate": 3.9980911204776306e-05,
	"loss": 1.8328,
	"step": 650
	},
	{
	"epoch": 0.0709448564979039,
	"grad_norm": 7.70832633972168,
	"learning_rate": 3.993484420694458e-05,
	"loss": 1.9542,
	"step": 660
	},
	{
	"epoch": 0.07201977856605396,
	"grad_norm": 10.131119728088379,
	"learning_rate": 3.988798345704899e-05,
	"loss": 1.8389,
	"step": 670
	},
	{
	"epoch": 0.07309470063420402,
	"grad_norm": 6.0609354972839355,
	"learning_rate": 3.984033088135143e-05,
	"loss": 1.8653,
	"step": 680
	},
	{
	"epoch": 0.07416962270235408,
	"grad_norm": 9.173294067382812,
	"learning_rate": 3.979188843866263e-05,
	"loss": 1.8558,
	"step": 690
	},
	{
	"epoch": 0.07524454477050414,
	"grad_norm": 5.944100856781006,
	"learning_rate": 3.97426581202617e-05,
	"loss": 1.922,
	"step": 700
	},
	{
	"epoch": 0.0763194668386542,
	"grad_norm": 7.453153133392334,
	"learning_rate": 3.969264194981418e-05,
	"loss": 1.8524,
	"step": 710
	},
	{
	"epoch": 0.07739438890680425,
	"grad_norm": 6.75320291519165,
	"learning_rate": 3.9641841983288953e-05,
	"loss": 1.8699,
	"step": 720
	},
	{
	"epoch": 0.07846931097495431,
	"grad_norm": 6.539112567901611,
	"learning_rate": 3.959026030887367e-05,
	"loss": 1.7784,
	"step": 730
	},
	{
	"epoch": 0.07954423304310437,
	"grad_norm": 7.794706344604492,
	"learning_rate": 3.953789904688893e-05,
	"loss": 1.8222,
	"step": 740
	},
	{
	"epoch": 0.08061915511125443,
	"grad_norm": 7.376310348510742,
	"learning_rate": 3.948476034970113e-05,
	"loss": 1.7985,
	"step": 750
	},
	{
	"epoch": 0.08061915511125443,
	"eval_loss": 1.8882893323898315,
	"eval_runtime": 60.264,
	"eval_samples_per_second": 8.297,
	"eval_steps_per_second": 8.297,
	"step": 750
	},
	{
	"epoch": 0.0816940771794045,
	"grad_norm": 8.657331466674805,
	"learning_rate": 3.943084640163398e-05,
	"loss": 1.7983,
	"step": 760
	},
	{
	"epoch": 0.08276899924755456,
	"grad_norm": 5.748507976531982,
	"learning_rate": 3.937615941887873e-05,
	"loss": 1.884,
	"step": 770
	},
	{
	"epoch": 0.08384392131570462,
	"grad_norm": 6.509608745574951,
	"learning_rate": 3.932070164940304e-05,
	"loss": 1.891,
	"step": 780
	},
	{
	"epoch": 0.08491884338385466,
	"grad_norm": 6.634593486785889,
	"learning_rate": 3.926447537285859e-05,
	"loss": 1.776,
	"step": 790
	},
	{
	"epoch": 0.08599376545200473,
	"grad_norm": 9.289311408996582,
	"learning_rate": 3.920748290048739e-05,
	"loss": 1.7806,
	"step": 800
	},
	{
	"epoch": 0.08706868752015479,
	"grad_norm": 7.693164348602295,
	"learning_rate": 3.914972657502677e-05,
	"loss": 1.8428,
	"step": 810
	},
	{
	"epoch": 0.08814360958830485,
	"grad_norm": 5.920309066772461,
	"learning_rate": 3.9091208770613036e-05,
	"loss": 1.8048,
	"step": 820
	},
	{
	"epoch": 0.08921853165645491,
	"grad_norm": 7.512606143951416,
	"learning_rate": 3.9031931892683937e-05,
	"loss": 1.848,
	"step": 830
	},
	{
	"epoch": 0.09029345372460497,
	"grad_norm": 8.341816902160645,
	"learning_rate": 3.897189837787975e-05,
	"loss": 1.7995,
	"step": 840
	},
	{
	"epoch": 0.09136837579275503,
	"grad_norm": 7.76444149017334,
	"learning_rate": 3.891111069394313e-05,
	"loss": 1.7587,
	"step": 850
	},
	{
	"epoch": 0.09244329786090509,
	"grad_norm": 8.347227096557617,
	"learning_rate": 3.884957133961768e-05,
	"loss": 1.8215,
	"step": 860
	},
	{
	"epoch": 0.09351821992905514,
	"grad_norm": 7.596982955932617,
	"learning_rate": 3.878728284454522e-05,
	"loss": 1.8831,
	"step": 870
	},
	{
	"epoch": 0.0945931419972052,
	"grad_norm": 7.217879295349121,
	"learning_rate": 3.872424776916183e-05,
	"loss": 1.9871,
	"step": 880
	},
	{
	"epoch": 0.09566806406535526,
	"grad_norm": 6.474759101867676,
	"learning_rate": 3.866046870459253e-05,
	"loss": 1.8137,
	"step": 890
	},
	{
	"epoch": 0.09674298613350532,
	"grad_norm": 7.693883419036865,
	"learning_rate": 3.8595948272544905e-05,
	"loss": 1.884,
	"step": 900
	},
	{
	"epoch": 0.09674298613350532,
	"eval_loss": 1.8837863206863403,
	"eval_runtime": 61.2639,
	"eval_samples_per_second": 8.161,
	"eval_steps_per_second": 8.161,
	"step": 900
	},
	{
	"epoch": 0.09781790820165538,
	"grad_norm": 7.503582954406738,
	"learning_rate": 3.8530689125201184e-05,
	"loss": 1.8213,
	"step": 910
	},
	{
	"epoch": 0.09889283026980544,
	"grad_norm": 7.769185543060303,
	"learning_rate": 3.8464693945109305e-05,
	"loss": 1.8505,
	"step": 920
	},
	{
	"epoch": 0.0999677523379555,
	"grad_norm": 7.26152229309082,
	"learning_rate": 3.839796544507265e-05,
	"loss": 1.8225,
	"step": 930
	},
	{
	"epoch": 0.10104267440610555,
	"grad_norm": 7.977392673492432,
	"learning_rate": 3.833050636803849e-05,
	"loss": 1.8483,
	"step": 940
	},
	{
	"epoch": 0.10211759647425561,
	"grad_norm": 8.005775451660156,
	"learning_rate": 3.826231948698527e-05,
	"loss": 1.9364,
	"step": 950
	},
	{
	"epoch": 0.10319251854240567,
	"grad_norm": 6.598343849182129,
	"learning_rate": 3.819340760480859e-05,
	"loss": 1.8967,
	"step": 960
	},
	{
	"epoch": 0.10426744061055573,
	"grad_norm": 8.264419555664062,
	"learning_rate": 3.812377355420602e-05,
	"loss": 1.791,
	"step": 970
	},
	{
	"epoch": 0.1053423626787058,
	"grad_norm": 7.987963676452637,
	"learning_rate": 3.805342019756065e-05,
	"loss": 1.8654,
	"step": 980
	},
	{
	"epoch": 0.10641728474685586,
	"grad_norm": 8.105964660644531,
	"learning_rate": 3.7982350426823406e-05,
	"loss": 1.854,
	"step": 990
	},
	{
	"epoch": 0.10749220681500592,
	"grad_norm": 8.088004112243652,
	"learning_rate": 3.791056716339421e-05,
	"loss": 1.8123,
	"step": 1000
	},
	{
	"epoch": 0.10856712888315598,
	"grad_norm": 9.775269508361816,
	"learning_rate": 3.783807335800187e-05,
	"loss": 1.8431,
	"step": 1010
	},
	{
	"epoch": 0.10964205095130602,
	"grad_norm": 6.646794319152832,
	"learning_rate": 3.776487199058277e-05,
	"loss": 1.8865,
	"step": 1020
	},
	{
	"epoch": 0.11071697301945609,
	"grad_norm": 7.902348041534424,
	"learning_rate": 3.769096607015843e-05,
	"loss": 1.8599,
	"step": 1030
	},
	{
	"epoch": 0.11179189508760615,
	"grad_norm": 6.932212829589844,
	"learning_rate": 3.761635863471175e-05,
	"loss": 1.8696,
	"step": 1040
	},
	{
	"epoch": 0.11286681715575621,
	"grad_norm": 8.541101455688477,
	"learning_rate": 3.754105275106222e-05,
	"loss": 1.7824,
	"step": 1050
	},
	{
	"epoch": 0.11286681715575621,
	"eval_loss": 1.8909525871276855,
	"eval_runtime": 60.951,
	"eval_samples_per_second": 8.203,
	"eval_steps_per_second": 8.203,
	"step": 1050
	},
	{
	"epoch": 0.11394173922390627,
	"grad_norm": 6.613965034484863,
	"learning_rate": 3.746505151473972e-05,
	"loss": 1.8719,
	"step": 1060
	},
	{
	"epoch": 0.11501666129205633,
	"grad_norm": 7.055614948272705,
	"learning_rate": 3.738835804985743e-05,
	"loss": 1.8533,
	"step": 1070
	},
	{
	"epoch": 0.11609158336020639,
	"grad_norm": 8.038810729980469,
	"learning_rate": 3.731097550898329e-05,
	"loss": 1.8067,
	"step": 1080
	},
	{
	"epoch": 0.11716650542835644,
	"grad_norm": 6.726877689361572,
	"learning_rate": 3.723290707301047e-05,
	"loss": 1.8871,
	"step": 1090
	},
	{
	"epoch": 0.1182414274965065,
	"grad_norm": 7.802327632904053,
	"learning_rate": 3.7154155951026605e-05,
	"loss": 2.0685,
	"step": 1100
	},
	{
	"epoch": 0.11931634956465656,
	"grad_norm": 8.144506454467773,
	"learning_rate": 3.707472538018187e-05,
	"loss": 1.9074,
	"step": 1110
	},
	{
	"epoch": 0.12039127163280662,
	"grad_norm": 11.114158630371094,
	"learning_rate": 3.6994618625555925e-05,
	"loss": 1.8036,
	"step": 1120
	},
	{
	"epoch": 0.12146619370095668,
	"grad_norm": 8.913481712341309,
	"learning_rate": 3.691383898002368e-05,
	"loss": 1.8411,
	"step": 1130
	},
	{
	"epoch": 0.12254111576910674,
	"grad_norm": 7.231012344360352,
	"learning_rate": 3.683238976412e-05,
	"loss": 1.838,
	"step": 1140
	},
	{
	"epoch": 0.1236160378372568,
	"grad_norm": 7.460425853729248,
	"learning_rate": 3.675027432590312e-05,
	"loss": 1.907,
	"step": 1150
	},
	{
	"epoch": 0.12469095990540686,
	"grad_norm": 6.360142230987549,
	"learning_rate": 3.666749604081707e-05,
	"loss": 1.8568,
	"step": 1160
	},
	{
	"epoch": 0.12576588197355693,
	"grad_norm": 8.225682258605957,
	"learning_rate": 3.6584058311552954e-05,
	"loss": 1.8473,
	"step": 1170
	},
	{
	"epoch": 0.12684080404170697,
	"grad_norm": 8.119696617126465,
	"learning_rate": 3.6499964567909e-05,
	"loss": 1.7953,
	"step": 1180
	},
	{
	"epoch": 0.12791572610985705,
	"grad_norm": 7.61316442489624,
	"learning_rate": 3.641521826664964e-05,
	"loss": 1.7599,
	"step": 1190
	},
	{
	"epoch": 0.1289906481780071,
	"grad_norm": 7.965550422668457,
	"learning_rate": 3.63298228913634e-05,
	"loss": 1.8461,
	"step": 1200
	},
	{
	"epoch": 0.1289906481780071,
	"eval_loss": 1.8840419054031372,
	"eval_runtime": 62.5093,
	"eval_samples_per_second": 7.999,
	"eval_steps_per_second": 7.999,
	"step": 1200
	},
	{
	"epoch": 0.13006557024615714,
	"grad_norm": 5.871341228485107,
	"learning_rate": 3.624378195231967e-05,
	"loss": 1.8397,
	"step": 1210
	},
	{
	"epoch": 0.13114049231430722,
	"grad_norm": 18.254127502441406,
	"learning_rate": 3.615709898632448e-05,
	"loss": 1.8295,
	"step": 1220
	},
	{
	"epoch": 0.13221541438245726,
	"grad_norm": 8.392979621887207,
	"learning_rate": 3.606977755657502e-05,
	"loss": 1.8058,
	"step": 1230
	},
	{
	"epoch": 0.13329033645060734,
	"grad_norm": 10.364768981933594,
	"learning_rate": 3.5981821252513274e-05,
	"loss": 1.8656,
	"step": 1240
	},
	{
	"epoch": 0.13436525851875739,
	"grad_norm": 6.204119682312012,
	"learning_rate": 3.5893233689678384e-05,
	"loss": 1.8201,
	"step": 1250
	},
	{
	"epoch": 0.13544018058690746,
	"grad_norm": 8.470161437988281,
	"learning_rate": 3.5804018509558095e-05,
	"loss": 1.8629,
	"step": 1260
	},
	{
	"epoch": 0.1365151026550575,
	"grad_norm": 7.885449409484863,
	"learning_rate": 3.571417937943903e-05,
	"loss": 1.9337,
	"step": 1270
	},
	{
	"epoch": 0.13759002472320755,
	"grad_norm": 6.3673996925354,
	"learning_rate": 3.562371999225594e-05,
	"loss": 1.8661,
	"step": 1280
	},
	{
	"epoch": 0.13866494679135763,
	"grad_norm": 9.29290771484375,
	"learning_rate": 3.553264406643995e-05,
	"loss": 1.7597,
	"step": 1290
	},
	{
	"epoch": 0.13973986885950768,
	"grad_norm": 6.828396320343018,
	"learning_rate": 3.544095534576563e-05,
	"loss": 1.8641,
	"step": 1300
	},
	{
	"epoch": 0.14081479092765775,
	"grad_norm": 9.610004425048828,
	"learning_rate": 3.534865759919718e-05,
	"loss": 1.8846,
	"step": 1310
	},
	{
	"epoch": 0.1418897129958078,
	"grad_norm": 7.615134239196777,
	"learning_rate": 3.525575462073344e-05,
	"loss": 1.885,
	"step": 1320
	},
	{
	"epoch": 0.14296463506395787,
	"grad_norm": 7.668911933898926,
	"learning_rate": 3.516225022925199e-05,
	"loss": 1.79,
	"step": 1330
	},
	{
	"epoch": 0.14403955713210792,
	"grad_norm": 7.5038042068481445,
	"learning_rate": 3.5068148268352135e-05,
	"loss": 1.8394,
	"step": 1340
	},
	{
	"epoch": 0.14511447920025797,
	"grad_norm": 7.994359970092773,
	"learning_rate": 3.497345260619691e-05,
	"loss": 1.8393,
	"step": 1350
	},
	{
	"epoch": 0.14511447920025797,
	"eval_loss": 1.8796833753585815,
	"eval_runtime": 57.9394,
	"eval_samples_per_second": 8.63,
	"eval_steps_per_second": 8.63,
	"step": 1350
	}
	],
	"logging_steps": 10,
	"max_steps": 5000,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 150,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 3.751283405814497e+17,
	"train_batch_size": 8,
	"trial_name": null,
	"trial_params": null
	}