so100_test7-27uf0d4pij / trainer_state.json

Upload trainer_state.json with huggingface_hub

770b7bc verified 3 months ago

48.5 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 5.0,
	"eval_steps": 500,
	"global_step": 2735,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.018281535648994516,
	"grad_norm": 16.712358474731445,
	"learning_rate": 1.45985401459854e-05,
	"loss": 1.4822,
	"step": 10
	},
	{
	"epoch": 0.03656307129798903,
	"grad_norm": 7.676208019256592,
	"learning_rate": 2.91970802919708e-05,
	"loss": 0.7397,
	"step": 20
	},
	{
	"epoch": 0.054844606946983544,
	"grad_norm": 2.2206971645355225,
	"learning_rate": 4.379562043795621e-05,
	"loss": 0.4701,
	"step": 30
	},
	{
	"epoch": 0.07312614259597806,
	"grad_norm": 1.7638039588928223,
	"learning_rate": 5.83941605839416e-05,
	"loss": 0.2966,
	"step": 40
	},
	{
	"epoch": 0.09140767824497258,
	"grad_norm": 1.6052724123001099,
	"learning_rate": 7.299270072992701e-05,
	"loss": 0.2162,
	"step": 50
	},
	{
	"epoch": 0.10968921389396709,
	"grad_norm": 2.617760181427002,
	"learning_rate": 8.759124087591242e-05,
	"loss": 0.2019,
	"step": 60
	},
	{
	"epoch": 0.12797074954296161,
	"grad_norm": 1.7860541343688965,
	"learning_rate": 0.00010218978102189782,
	"loss": 0.1457,
	"step": 70
	},
	{
	"epoch": 0.14625228519195613,
	"grad_norm": 1.4474908113479614,
	"learning_rate": 0.0001167883211678832,
	"loss": 0.1387,
	"step": 80
	},
	{
	"epoch": 0.16453382084095064,
	"grad_norm": 1.5035394430160522,
	"learning_rate": 0.0001313868613138686,
	"loss": 0.1363,
	"step": 90
	},
	{
	"epoch": 0.18281535648994515,
	"grad_norm": 1.4598884582519531,
	"learning_rate": 0.00014598540145985403,
	"loss": 0.1124,
	"step": 100
	},
	{
	"epoch": 0.20109689213893966,
	"grad_norm": 1.7308577299118042,
	"learning_rate": 0.00016058394160583942,
	"loss": 0.1215,
	"step": 110
	},
	{
	"epoch": 0.21937842778793418,
	"grad_norm": 1.5704491138458252,
	"learning_rate": 0.00017518248175182484,
	"loss": 0.1332,
	"step": 120
	},
	{
	"epoch": 0.2376599634369287,
	"grad_norm": 0.7519080638885498,
	"learning_rate": 0.00018978102189781023,
	"loss": 0.1015,
	"step": 130
	},
	{
	"epoch": 0.25594149908592323,
	"grad_norm": 1.0302314758300781,
	"learning_rate": 0.00019999934198849153,
	"loss": 0.1043,
	"step": 140
	},
	{
	"epoch": 0.2742230347349177,
	"grad_norm": 1.1439878940582275,
	"learning_rate": 0.00019998764424701714,
	"loss": 0.1105,
	"step": 150
	},
	{
	"epoch": 0.29250457038391225,
	"grad_norm": 0.8649179935455322,
	"learning_rate": 0.00019996132599641746,
	"loss": 0.0969,
	"step": 160
	},
	{
	"epoch": 0.31078610603290674,
	"grad_norm": 0.9194239377975464,
	"learning_rate": 0.00019992039108503024,
	"loss": 0.097,
	"step": 170
	},
	{
	"epoch": 0.3290676416819013,
	"grad_norm": 0.6259992718696594,
	"learning_rate": 0.00019986484549848745,
	"loss": 0.0853,
	"step": 180
	},
	{
	"epoch": 0.3473491773308958,
	"grad_norm": 1.0033239126205444,
	"learning_rate": 0.00019979469735884026,
	"loss": 0.0944,
	"step": 190
	},
	{
	"epoch": 0.3656307129798903,
	"grad_norm": 1.261385440826416,
	"learning_rate": 0.00019970995692337114,
	"loss": 0.1078,
	"step": 200
	},
	{
	"epoch": 0.38391224862888484,
	"grad_norm": 0.9231658577919006,
	"learning_rate": 0.00019961063658309418,
	"loss": 0.0821,
	"step": 210
	},
	{
	"epoch": 0.40219378427787933,
	"grad_norm": 0.996103048324585,
	"learning_rate": 0.00019949675086094326,
	"loss": 0.0911,
	"step": 220
	},
	{
	"epoch": 0.42047531992687387,
	"grad_norm": 0.9832742810249329,
	"learning_rate": 0.0001993683164096483,
	"loss": 0.0692,
	"step": 230
	},
	{
	"epoch": 0.43875685557586835,
	"grad_norm": 0.6472922563552856,
	"learning_rate": 0.00019922535200930046,
	"loss": 0.0706,
	"step": 240
	},
	{
	"epoch": 0.4570383912248629,
	"grad_norm": 0.5999054312705994,
	"learning_rate": 0.00019906787856460581,
	"loss": 0.0731,
	"step": 250
	},
	{
	"epoch": 0.4753199268738574,
	"grad_norm": 0.667738139629364,
	"learning_rate": 0.00019889591910182876,
	"loss": 0.0708,
	"step": 260
	},
	{
	"epoch": 0.4936014625228519,
	"grad_norm": 0.554964542388916,
	"learning_rate": 0.0001987094987654251,
	"loss": 0.0591,
	"step": 270
	},
	{
	"epoch": 0.5118829981718465,
	"grad_norm": 1.1600011587142944,
	"learning_rate": 0.00019850864481436514,
	"loss": 0.0795,
	"step": 280
	},
	{
	"epoch": 0.5301645338208409,
	"grad_norm": 0.6419970393180847,
	"learning_rate": 0.00019829338661814797,
	"loss": 0.0659,
	"step": 290
	},
	{
	"epoch": 0.5484460694698354,
	"grad_norm": 0.735856831073761,
	"learning_rate": 0.00019806375565250685,
	"loss": 0.0724,
	"step": 300
	},
	{
	"epoch": 0.56672760511883,
	"grad_norm": 0.5395373106002808,
	"learning_rate": 0.00019781978549480682,
	"loss": 0.0626,
	"step": 310
	},
	{
	"epoch": 0.5850091407678245,
	"grad_norm": 0.8947715759277344,
	"learning_rate": 0.00019756151181913483,
	"loss": 0.0601,
	"step": 320
	},
	{
	"epoch": 0.603290676416819,
	"grad_norm": 0.5075414180755615,
	"learning_rate": 0.00019728897239108342,
	"loss": 0.0691,
	"step": 330
	},
	{
	"epoch": 0.6215722120658135,
	"grad_norm": 1.3236219882965088,
	"learning_rate": 0.00019700220706222858,
	"loss": 0.0488,
	"step": 340
	},
	{
	"epoch": 0.6398537477148081,
	"grad_norm": 0.9153704047203064,
	"learning_rate": 0.00019670125776430228,
	"loss": 0.0622,
	"step": 350
	},
	{
	"epoch": 0.6581352833638026,
	"grad_norm": 0.6496918797492981,
	"learning_rate": 0.00019638616850306133,
	"loss": 0.0572,
	"step": 360
	},
	{
	"epoch": 0.676416819012797,
	"grad_norm": 0.6905117034912109,
	"learning_rate": 0.00019605698535185266,
	"loss": 0.0506,
	"step": 370
	},
	{
	"epoch": 0.6946983546617916,
	"grad_norm": 0.6502402424812317,
	"learning_rate": 0.00019571375644487625,
	"loss": 0.0528,
	"step": 380
	},
	{
	"epoch": 0.7129798903107861,
	"grad_norm": 0.7400691509246826,
	"learning_rate": 0.0001953565319701469,
	"loss": 0.0674,
	"step": 390
	},
	{
	"epoch": 0.7312614259597806,
	"grad_norm": 0.5896055698394775,
	"learning_rate": 0.0001949853641621555,
	"loss": 0.0471,
	"step": 400
	},
	{
	"epoch": 0.7495429616087751,
	"grad_norm": 0.4026470482349396,
	"learning_rate": 0.00019460030729423114,
	"loss": 0.0512,
	"step": 410
	},
	{
	"epoch": 0.7678244972577697,
	"grad_norm": 0.47957828640937805,
	"learning_rate": 0.0001942014176706052,
	"loss": 0.0629,
	"step": 420
	},
	{
	"epoch": 0.7861060329067642,
	"grad_norm": 0.4520862400531769,
	"learning_rate": 0.00019378875361817817,
	"loss": 0.0533,
	"step": 430
	},
	{
	"epoch": 0.8043875685557587,
	"grad_norm": 0.4732885956764221,
	"learning_rate": 0.00019336237547799108,
	"loss": 0.058,
	"step": 440
	},
	{
	"epoch": 0.8226691042047533,
	"grad_norm": 0.7703008651733398,
	"learning_rate": 0.0001929223455964022,
	"loss": 0.0532,
	"step": 450
	},
	{
	"epoch": 0.8409506398537477,
	"grad_norm": 0.45097994804382324,
	"learning_rate": 0.00019246872831597055,
	"loss": 0.0465,
	"step": 460
	},
	{
	"epoch": 0.8592321755027422,
	"grad_norm": 0.5736098289489746,
	"learning_rate": 0.00019200158996604753,
	"loss": 0.0487,
	"step": 470
	},
	{
	"epoch": 0.8775137111517367,
	"grad_norm": 0.7237376570701599,
	"learning_rate": 0.0001915209988530779,
	"loss": 0.0551,
	"step": 480
	},
	{
	"epoch": 0.8957952468007313,
	"grad_norm": 0.4645770192146301,
	"learning_rate": 0.00019102702525061207,
	"loss": 0.0495,
	"step": 490
	},
	{
	"epoch": 0.9140767824497258,
	"grad_norm": 0.5169672966003418,
	"learning_rate": 0.00019051974138903027,
	"loss": 0.0433,
	"step": 500
	},
	{
	"epoch": 0.9323583180987203,
	"grad_norm": 0.7457365989685059,
	"learning_rate": 0.00018999922144498084,
	"loss": 0.0518,
	"step": 510
	},
	{
	"epoch": 0.9506398537477148,
	"grad_norm": 0.5059699416160583,
	"learning_rate": 0.00018946554153053395,
	"loss": 0.0474,
	"step": 520
	},
	{
	"epoch": 0.9689213893967094,
	"grad_norm": 0.8174113035202026,
	"learning_rate": 0.00018891877968205213,
	"loss": 0.0517,
	"step": 530
	},
	{
	"epoch": 0.9872029250457038,
	"grad_norm": 0.5508332252502441,
	"learning_rate": 0.00018835901584877973,
	"loss": 0.0709,
	"step": 540
	},
	{
	"epoch": 1.0054844606946984,
	"grad_norm": 0.5709052681922913,
	"learning_rate": 0.00018778633188115223,
	"loss": 0.0484,
	"step": 550
	},
	{
	"epoch": 1.023765996343693,
	"grad_norm": 0.4354308247566223,
	"learning_rate": 0.0001872008115188281,
	"loss": 0.0544,
	"step": 560
	},
	{
	"epoch": 1.0420475319926874,
	"grad_norm": 0.535977303981781,
	"learning_rate": 0.00018660254037844388,
	"loss": 0.0562,
	"step": 570
	},
	{
	"epoch": 1.0603290676416819,
	"grad_norm": 0.2939574420452118,
	"learning_rate": 0.00018599160594109522,
	"loss": 0.0489,
	"step": 580
	},
	{
	"epoch": 1.0786106032906764,
	"grad_norm": 0.3677907884120941,
	"learning_rate": 0.000185368097539545,
	"loss": 0.0358,
	"step": 590
	},
	{
	"epoch": 1.0968921389396709,
	"grad_norm": 0.5382636785507202,
	"learning_rate": 0.0001847321063451609,
	"loss": 0.0395,
	"step": 600
	},
	{
	"epoch": 1.1151736745886653,
	"grad_norm": 0.457963764667511,
	"learning_rate": 0.00018408372535458397,
	"loss": 0.0523,
	"step": 610
	},
	{
	"epoch": 1.13345521023766,
	"grad_norm": 0.5560534000396729,
	"learning_rate": 0.00018342304937613032,
	"loss": 0.0531,
	"step": 620
	},
	{
	"epoch": 1.1517367458866545,
	"grad_norm": 0.6328279376029968,
	"learning_rate": 0.00018275017501592818,
	"loss": 0.0452,
	"step": 630
	},
	{
	"epoch": 1.170018281535649,
	"grad_norm": 0.45685553550720215,
	"learning_rate": 0.0001820652006637915,
	"loss": 0.0402,
	"step": 640
	},
	{
	"epoch": 1.1882998171846435,
	"grad_norm": 0.21566231548786163,
	"learning_rate": 0.0001813682264788334,
	"loss": 0.0401,
	"step": 650
	},
	{
	"epoch": 1.206581352833638,
	"grad_norm": 0.36770665645599365,
	"learning_rate": 0.00018065935437482037,
	"loss": 0.04,
	"step": 660
	},
	{
	"epoch": 1.2248628884826325,
	"grad_norm": 0.4096185863018036,
	"learning_rate": 0.0001799386880052703,
	"loss": 0.0352,
	"step": 670
	},
	{
	"epoch": 1.2431444241316272,
	"grad_norm": 0.4246453642845154,
	"learning_rate": 0.00017920633274829575,
	"loss": 0.045,
	"step": 680
	},
	{
	"epoch": 1.2614259597806217,
	"grad_norm": 0.4160013496875763,
	"learning_rate": 0.00017846239569119528,
	"loss": 0.0357,
	"step": 690
	},
	{
	"epoch": 1.2797074954296161,
	"grad_norm": 0.5409733653068542,
	"learning_rate": 0.00017770698561479496,
	"loss": 0.0376,
	"step": 700
	},
	{
	"epoch": 1.2979890310786106,
	"grad_norm": 0.22224466502666473,
	"learning_rate": 0.00017694021297754188,
	"loss": 0.041,
	"step": 710
	},
	{
	"epoch": 1.3162705667276051,
	"grad_norm": 0.5606803894042969,
	"learning_rate": 0.00017616218989935272,
	"loss": 0.0367,
	"step": 720
	},
	{
	"epoch": 1.3345521023765996,
	"grad_norm": 0.3131175935268402,
	"learning_rate": 0.00017537303014521918,
	"loss": 0.0466,
	"step": 730
	},
	{
	"epoch": 1.352833638025594,
	"grad_norm": 0.37444230914115906,
	"learning_rate": 0.0001745728491085728,
	"loss": 0.0401,
	"step": 740
	},
	{
	"epoch": 1.3711151736745886,
	"grad_norm": 0.6337727308273315,
	"learning_rate": 0.0001737617637944119,
	"loss": 0.0505,
	"step": 750
	},
	{
	"epoch": 1.389396709323583,
	"grad_norm": 0.5669440627098083,
	"learning_rate": 0.00017293989280219274,
	"loss": 0.0372,
	"step": 760
	},
	{
	"epoch": 1.4076782449725778,
	"grad_norm": 0.388346791267395,
	"learning_rate": 0.00017210735630848745,
	"loss": 0.035,
	"step": 770
	},
	{
	"epoch": 1.4259597806215722,
	"grad_norm": 0.5280373096466064,
	"learning_rate": 0.00017126427604941148,
	"loss": 0.0466,
	"step": 780
	},
	{
	"epoch": 1.4442413162705667,
	"grad_norm": 0.565298855304718,
	"learning_rate": 0.00017041077530282294,
	"loss": 0.0365,
	"step": 790
	},
	{
	"epoch": 1.4625228519195612,
	"grad_norm": 0.35680803656578064,
	"learning_rate": 0.00016954697887029655,
	"loss": 0.0383,
	"step": 800
	},
	{
	"epoch": 1.4808043875685557,
	"grad_norm": 0.42788997292518616,
	"learning_rate": 0.00016867301305887474,
	"loss": 0.0337,
	"step": 810
	},
	{
	"epoch": 1.4990859232175504,
	"grad_norm": 0.43233945965766907,
	"learning_rate": 0.00016778900566259865,
	"loss": 0.0505,
	"step": 820
	},
	{
	"epoch": 1.517367458866545,
	"grad_norm": 0.4589940905570984,
	"learning_rate": 0.0001668950859438216,
	"loss": 0.0438,
	"step": 830
	},
	{
	"epoch": 1.5356489945155394,
	"grad_norm": 0.48594310879707336,
	"learning_rate": 0.00016599138461430814,
	"loss": 0.0323,
	"step": 840
	},
	{
	"epoch": 1.5539305301645339,
	"grad_norm": 0.31333279609680176,
	"learning_rate": 0.00016507803381612076,
	"loss": 0.0393,
	"step": 850
	},
	{
	"epoch": 1.5722120658135283,
	"grad_norm": 0.49847719073295593,
	"learning_rate": 0.00016415516710229766,
	"loss": 0.0453,
	"step": 860
	},
	{
	"epoch": 1.5904936014625228,
	"grad_norm": 0.4276566505432129,
	"learning_rate": 0.00016322291941732442,
	"loss": 0.0362,
	"step": 870
	},
	{
	"epoch": 1.6087751371115173,
	"grad_norm": 0.47734275460243225,
	"learning_rate": 0.0001622814270774018,
	"loss": 0.0349,
	"step": 880
	},
	{
	"epoch": 1.6270566727605118,
	"grad_norm": 0.24307364225387573,
	"learning_rate": 0.00016133082775051313,
	"loss": 0.0365,
	"step": 890
	},
	{
	"epoch": 1.6453382084095063,
	"grad_norm": 0.4327755272388458,
	"learning_rate": 0.00016037126043629422,
	"loss": 0.0318,
	"step": 900
	},
	{
	"epoch": 1.6636197440585008,
	"grad_norm": 0.2253831923007965,
	"learning_rate": 0.0001594028654457083,
	"loss": 0.0324,
	"step": 910
	},
	{
	"epoch": 1.6819012797074955,
	"grad_norm": 0.42007511854171753,
	"learning_rate": 0.0001584257843805293,
	"loss": 0.0387,
	"step": 920
	},
	{
	"epoch": 1.70018281535649,
	"grad_norm": 0.5654010772705078,
	"learning_rate": 0.00015744016011263638,
	"loss": 0.0461,
	"step": 930
	},
	{
	"epoch": 1.7184643510054844,
	"grad_norm": 0.5979740619659424,
	"learning_rate": 0.00015644613676312288,
	"loss": 0.0288,
	"step": 940
	},
	{
	"epoch": 1.736745886654479,
	"grad_norm": 0.6250779628753662,
	"learning_rate": 0.00015544385968122227,
	"loss": 0.0339,
	"step": 950
	},
	{
	"epoch": 1.7550274223034736,
	"grad_norm": 0.4420310854911804,
	"learning_rate": 0.00015443347542305484,
	"loss": 0.0446,
	"step": 960
	},
	{
	"epoch": 1.7733089579524681,
	"grad_norm": 0.4242953956127167,
	"learning_rate": 0.0001534151317301979,
	"loss": 0.0402,
	"step": 970
	},
	{
	"epoch": 1.7915904936014626,
	"grad_norm": 0.2853521406650543,
	"learning_rate": 0.00015238897750808242,
	"loss": 0.0367,
	"step": 980
	},
	{
	"epoch": 1.809872029250457,
	"grad_norm": 0.5415486693382263,
	"learning_rate": 0.00015135516280421945,
	"loss": 0.0312,
	"step": 990
	},
	{
	"epoch": 1.8281535648994516,
	"grad_norm": 0.3944428265094757,
	"learning_rate": 0.00015031383878626016,
	"loss": 0.0293,
	"step": 1000
	},
	{
	"epoch": 1.846435100548446,
	"grad_norm": 0.42964455485343933,
	"learning_rate": 0.00014926515771989104,
	"loss": 0.0462,
	"step": 1010
	},
	{
	"epoch": 1.8647166361974405,
	"grad_norm": 0.3574308454990387,
	"learning_rate": 0.00014820927294656973,
	"loss": 0.0358,
	"step": 1020
	},
	{
	"epoch": 1.882998171846435,
	"grad_norm": 0.38193315267562866,
	"learning_rate": 0.00014714633886110242,
	"loss": 0.0393,
	"step": 1030
	},
	{
	"epoch": 1.9012797074954295,
	"grad_norm": 0.4956030249595642,
	"learning_rate": 0.00014607651088906809,
	"loss": 0.0312,
	"step": 1040
	},
	{
	"epoch": 1.919561243144424,
	"grad_norm": 0.4244064688682556,
	"learning_rate": 0.00014499994546409152,
	"loss": 0.031,
	"step": 1050
	},
	{
	"epoch": 1.9378427787934185,
	"grad_norm": 0.46385011076927185,
	"learning_rate": 0.00014391680000496932,
	"loss": 0.0424,
	"step": 1060
	},
	{
	"epoch": 1.9561243144424132,
	"grad_norm": 0.5440361499786377,
	"learning_rate": 0.0001428272328926512,
	"loss": 0.0328,
	"step": 1070
	},
	{
	"epoch": 1.9744058500914077,
	"grad_norm": 0.3221015930175781,
	"learning_rate": 0.00014173140344708152,
	"loss": 0.0424,
	"step": 1080
	},
	{
	"epoch": 1.9926873857404022,
	"grad_norm": 0.520367443561554,
	"learning_rate": 0.00014062947190390262,
	"loss": 0.0396,
	"step": 1090
	},
	{
	"epoch": 2.010968921389397,
	"grad_norm": 0.29480573534965515,
	"learning_rate": 0.0001395215993910249,
	"loss": 0.0351,
	"step": 1100
	},
	{
	"epoch": 2.0292504570383914,
	"grad_norm": 0.35179761052131653,
	"learning_rate": 0.00013840794790506616,
	"loss": 0.0271,
	"step": 1110
	},
	{
	"epoch": 2.047531992687386,
	"grad_norm": 0.377270370721817,
	"learning_rate": 0.00013728868028766377,
	"loss": 0.0311,
	"step": 1120
	},
	{
	"epoch": 2.0658135283363803,
	"grad_norm": 0.4772701859474182,
	"learning_rate": 0.0001361639602016637,
	"loss": 0.0372,
	"step": 1130
	},
	{
	"epoch": 2.084095063985375,
	"grad_norm": 0.30298906564712524,
	"learning_rate": 0.000135033952107189,
	"loss": 0.0255,
	"step": 1140
	},
	{
	"epoch": 2.1023765996343693,
	"grad_norm": 0.39370113611221313,
	"learning_rate": 0.00013389882123759206,
	"loss": 0.0327,
	"step": 1150
	},
	{
	"epoch": 2.1206581352833638,
	"grad_norm": 0.2912181317806244,
	"learning_rate": 0.00013275873357529368,
	"loss": 0.0268,
	"step": 1160
	},
	{
	"epoch": 2.1389396709323583,
	"grad_norm": 0.29357820749282837,
	"learning_rate": 0.00013161385582751247,
	"loss": 0.0273,
	"step": 1170
	},
	{
	"epoch": 2.1572212065813527,
	"grad_norm": 0.3242945075035095,
	"learning_rate": 0.00013046435540188848,
	"loss": 0.0296,
	"step": 1180
	},
	{
	"epoch": 2.1755027422303472,
	"grad_norm": 1.168150544166565,
	"learning_rate": 0.00012931040038200435,
	"loss": 0.0416,
	"step": 1190
	},
	{
	"epoch": 2.1937842778793417,
	"grad_norm": 0.3501128852367401,
	"learning_rate": 0.00012815215950280753,
	"loss": 0.0379,
	"step": 1200
	},
	{
	"epoch": 2.212065813528336,
	"grad_norm": 0.46127256751060486,
	"learning_rate": 0.0001269898021259373,
	"loss": 0.0372,
	"step": 1210
	},
	{
	"epoch": 2.2303473491773307,
	"grad_norm": 0.4480052888393402,
	"learning_rate": 0.0001258234982149604,
	"loss": 0.0366,
	"step": 1220
	},
	{
	"epoch": 2.2486288848263256,
	"grad_norm": 0.38535383343696594,
	"learning_rate": 0.0001246534183105181,
	"loss": 0.0289,
	"step": 1230
	},
	{
	"epoch": 2.26691042047532,
	"grad_norm": 0.39918404817581177,
	"learning_rate": 0.00012347973350538936,
	"loss": 0.029,
	"step": 1240
	},
	{
	"epoch": 2.2851919561243146,
	"grad_norm": 0.27928563952445984,
	"learning_rate": 0.00012230261541947316,
	"loss": 0.0262,
	"step": 1250
	},
	{
	"epoch": 2.303473491773309,
	"grad_norm": 0.43867453932762146,
	"learning_rate": 0.00012112223617469372,
	"loss": 0.0227,
	"step": 1260
	},
	{
	"epoch": 2.3217550274223036,
	"grad_norm": 0.3848976194858551,
	"learning_rate": 0.00011993876836983198,
	"loss": 0.0251,
	"step": 1270
	},
	{
	"epoch": 2.340036563071298,
	"grad_norm": 0.3365519046783447,
	"learning_rate": 0.0001187523850552881,
	"loss": 0.0345,
	"step": 1280
	},
	{
	"epoch": 2.3583180987202925,
	"grad_norm": 0.3406737446784973,
	"learning_rate": 0.00011756325970777717,
	"loss": 0.0273,
	"step": 1290
	},
	{
	"epoch": 2.376599634369287,
	"grad_norm": 0.28142690658569336,
	"learning_rate": 0.00011637156620496308,
	"loss": 0.0275,
	"step": 1300
	},
	{
	"epoch": 2.3948811700182815,
	"grad_norm": 0.36976391077041626,
	"learning_rate": 0.00011517747880003335,
	"loss": 0.0243,
	"step": 1310
	},
	{
	"epoch": 2.413162705667276,
	"grad_norm": 0.22825664281845093,
	"learning_rate": 0.00011398117209621966,
	"loss": 0.0278,
	"step": 1320
	},
	{
	"epoch": 2.4314442413162705,
	"grad_norm": 0.3394540548324585,
	"learning_rate": 0.00011278282102126633,
	"loss": 0.0357,
	"step": 1330
	},
	{
	"epoch": 2.449725776965265,
	"grad_norm": 0.26682886481285095,
	"learning_rate": 0.00011158260080185226,
	"loss": 0.0407,
	"step": 1340
	},
	{
	"epoch": 2.4680073126142594,
	"grad_norm": 0.23459388315677643,
	"learning_rate": 0.00011038068693796846,
	"loss": 0.0263,
	"step": 1350
	},
	{
	"epoch": 2.4862888482632544,
	"grad_norm": 0.32797005772590637,
	"learning_rate": 0.00010917725517725608,
	"loss": 0.0354,
	"step": 1360
	},
	{
	"epoch": 2.504570383912249,
	"grad_norm": 0.2672847509384155,
	"learning_rate": 0.00010797248148930783,
	"loss": 0.0203,
	"step": 1370
	},
	{
	"epoch": 2.5228519195612433,
	"grad_norm": 0.34542036056518555,
	"learning_rate": 0.00010676654203993732,
	"loss": 0.0246,
	"step": 1380
	},
	{
	"epoch": 2.541133455210238,
	"grad_norm": 0.5064176321029663,
	"learning_rate": 0.00010555961316541946,
	"loss": 0.0276,
	"step": 1390
	},
	{
	"epoch": 2.5594149908592323,
	"grad_norm": 0.34542617201805115,
	"learning_rate": 0.00010435187134670607,
	"loss": 0.0238,
	"step": 1400
	},
	{
	"epoch": 2.577696526508227,
	"grad_norm": 0.3336438238620758,
	"learning_rate": 0.00010314349318362015,
	"loss": 0.0353,
	"step": 1410
	},
	{
	"epoch": 2.5959780621572213,
	"grad_norm": 0.22887752950191498,
	"learning_rate": 0.00010193465536903307,
	"loss": 0.028,
	"step": 1420
	},
	{
	"epoch": 2.6142595978062158,
	"grad_norm": 0.1399448662996292,
	"learning_rate": 0.00010072553466302784,
	"loss": 0.028,
	"step": 1430
	},
	{
	"epoch": 2.6325411334552102,
	"grad_norm": 0.36335644125938416,
	"learning_rate": 9.951630786705279e-05,
	"loss": 0.0196,
	"step": 1440
	},
	{
	"epoch": 2.6508226691042047,
	"grad_norm": 0.22947153449058533,
	"learning_rate": 9.830715179806905e-05,
	"loss": 0.0275,
	"step": 1450
	},
	{
	"epoch": 2.669104204753199,
	"grad_norm": 0.21563003957271576,
	"learning_rate": 9.709824326269576e-05,
	"loss": 0.0216,
	"step": 1460
	},
	{
	"epoch": 2.6873857404021937,
	"grad_norm": 0.3260309100151062,
	"learning_rate": 9.5889759031357e-05,
	"loss": 0.018,
	"step": 1470
	},
	{
	"epoch": 2.705667276051188,
	"grad_norm": 0.15418443083763123,
	"learning_rate": 9.468187581243378e-05,
	"loss": 0.0244,
	"step": 1480
	},
	{
	"epoch": 2.7239488117001827,
	"grad_norm": 0.2873231768608093,
	"learning_rate": 9.347477022642503e-05,
	"loss": 0.0186,
	"step": 1490
	},
	{
	"epoch": 2.742230347349177,
	"grad_norm": 0.2715139091014862,
	"learning_rate": 9.226861878012197e-05,
	"loss": 0.0273,
	"step": 1500
	},
	{
	"epoch": 2.7605118829981716,
	"grad_norm": 0.17074620723724365,
	"learning_rate": 9.106359784079832e-05,
	"loss": 0.0174,
	"step": 1510
	},
	{
	"epoch": 2.778793418647166,
	"grad_norm": 0.2897492051124573,
	"learning_rate": 8.985988361042153e-05,
	"loss": 0.0283,
	"step": 1520
	},
	{
	"epoch": 2.797074954296161,
	"grad_norm": 0.5155644416809082,
	"learning_rate": 8.8657652099888e-05,
	"loss": 0.0216,
	"step": 1530
	},
	{
	"epoch": 2.8153564899451555,
	"grad_norm": 0.33276352286338806,
	"learning_rate": 8.745707910328615e-05,
	"loss": 0.0245,
	"step": 1540
	},
	{
	"epoch": 2.83363802559415,
	"grad_norm": 0.4756206274032593,
	"learning_rate": 8.625834017219113e-05,
	"loss": 0.0303,
	"step": 1550
	},
	{
	"epoch": 2.8519195612431445,
	"grad_norm": 0.2755451202392578,
	"learning_rate": 8.506161058999541e-05,
	"loss": 0.0199,
	"step": 1560
	},
	{
	"epoch": 2.870201096892139,
	"grad_norm": 0.26369351148605347,
	"learning_rate": 8.386706534627805e-05,
	"loss": 0.0204,
	"step": 1570
	},
	{
	"epoch": 2.8884826325411335,
	"grad_norm": 0.2358650118112564,
	"learning_rate": 8.267487911121715e-05,
	"loss": 0.0211,
	"step": 1580
	},
	{
	"epoch": 2.906764168190128,
	"grad_norm": 0.22182169556617737,
	"learning_rate": 8.148522621004926e-05,
	"loss": 0.0233,
	"step": 1590
	},
	{
	"epoch": 2.9250457038391224,
	"grad_norm": 0.30960527062416077,
	"learning_rate": 8.029828059757875e-05,
	"loss": 0.0243,
	"step": 1600
	},
	{
	"epoch": 2.943327239488117,
	"grad_norm": 0.38207757472991943,
	"learning_rate": 7.91142158327417e-05,
	"loss": 0.0295,
	"step": 1610
	},
	{
	"epoch": 2.9616087751371114,
	"grad_norm": 0.24521781504154205,
	"learning_rate": 7.793320505322761e-05,
	"loss": 0.0206,
	"step": 1620
	},
	{
	"epoch": 2.979890310786106,
	"grad_norm": 0.3253994286060333,
	"learning_rate": 7.675542095016256e-05,
	"loss": 0.026,
	"step": 1630
	},
	{
	"epoch": 2.998171846435101,
	"grad_norm": 0.3253840208053589,
	"learning_rate": 7.558103574285779e-05,
	"loss": 0.0219,
	"step": 1640
	},
	{
	"epoch": 3.016453382084095,
	"grad_norm": 0.2342890352010727,
	"learning_rate": 7.441022115362729e-05,
	"loss": 0.0181,
	"step": 1650
	},
	{
	"epoch": 3.03473491773309,
	"grad_norm": 0.2249564677476883,
	"learning_rate": 7.324314838267796e-05,
	"loss": 0.0228,
	"step": 1660
	},
	{
	"epoch": 3.0530164533820843,
	"grad_norm": 0.24722999334335327,
	"learning_rate": 7.207998808307628e-05,
	"loss": 0.018,
	"step": 1670
	},
	{
	"epoch": 3.0712979890310788,
	"grad_norm": 0.22779327630996704,
	"learning_rate": 7.092091033579475e-05,
	"loss": 0.0193,
	"step": 1680
	},
	{
	"epoch": 3.0895795246800732,
	"grad_norm": 0.34452179074287415,
	"learning_rate": 6.976608462484226e-05,
	"loss": 0.0327,
	"step": 1690
	},
	{
	"epoch": 3.1078610603290677,
	"grad_norm": 0.30508124828338623,
	"learning_rate": 6.861567981248142e-05,
	"loss": 0.0261,
	"step": 1700
	},
	{
	"epoch": 3.126142595978062,
	"grad_norm": 0.319670706987381,
	"learning_rate": 6.746986411453717e-05,
	"loss": 0.0189,
	"step": 1710
	},
	{
	"epoch": 3.1444241316270567,
	"grad_norm": 0.35580283403396606,
	"learning_rate": 6.632880507579957e-05,
	"loss": 0.0242,
	"step": 1720
	},
	{
	"epoch": 3.162705667276051,
	"grad_norm": 0.3020285964012146,
	"learning_rate": 6.519266954552502e-05,
	"loss": 0.0176,
	"step": 1730
	},
	{
	"epoch": 3.1809872029250457,
	"grad_norm": 0.27105554938316345,
	"learning_rate": 6.406162365303882e-05,
	"loss": 0.0268,
	"step": 1740
	},
	{
	"epoch": 3.19926873857404,
	"grad_norm": 0.20928241312503815,
	"learning_rate": 6.293583278344361e-05,
	"loss": 0.0206,
	"step": 1750
	},
	{
	"epoch": 3.2175502742230346,
	"grad_norm": 0.2314785271883011,
	"learning_rate": 6.181546155343579e-05,
	"loss": 0.0198,
	"step": 1760
	},
	{
	"epoch": 3.235831809872029,
	"grad_norm": 0.2732461988925934,
	"learning_rate": 6.070067378723501e-05,
	"loss": 0.0177,
	"step": 1770
	},
	{
	"epoch": 3.2541133455210236,
	"grad_norm": 0.17697979509830475,
	"learning_rate": 5.959163249262913e-05,
	"loss": 0.0155,
	"step": 1780
	},
	{
	"epoch": 3.272394881170018,
	"grad_norm": 0.24429567158222198,
	"learning_rate": 5.848849983713894e-05,
	"loss": 0.0212,
	"step": 1790
	},
	{
	"epoch": 3.2906764168190126,
	"grad_norm": 0.36660096049308777,
	"learning_rate": 5.739143712430521e-05,
	"loss": 0.0281,
	"step": 1800
	},
	{
	"epoch": 3.3089579524680075,
	"grad_norm": 0.2895634174346924,
	"learning_rate": 5.630060477010253e-05,
	"loss": 0.018,
	"step": 1810
	},
	{
	"epoch": 3.327239488117002,
	"grad_norm": 0.3412606418132782,
	"learning_rate": 5.5216162279482964e-05,
	"loss": 0.0134,
	"step": 1820
	},
	{
	"epoch": 3.3455210237659965,
	"grad_norm": 0.22716091573238373,
	"learning_rate": 5.4138268223052326e-05,
	"loss": 0.016,
	"step": 1830
	},
	{
	"epoch": 3.363802559414991,
	"grad_norm": 0.24945920705795288,
	"learning_rate": 5.306708021388378e-05,
	"loss": 0.0208,
	"step": 1840
	},
	{
	"epoch": 3.3820840950639854,
	"grad_norm": 0.24487105011940002,
	"learning_rate": 5.200275488447104e-05,
	"loss": 0.018,
	"step": 1850
	},
	{
	"epoch": 3.40036563071298,
	"grad_norm": 0.24816852807998657,
	"learning_rate": 5.094544786382522e-05,
	"loss": 0.0159,
	"step": 1860
	},
	{
	"epoch": 3.4186471663619744,
	"grad_norm": 0.1848219782114029,
	"learning_rate": 4.989531375471805e-05,
	"loss": 0.0142,
	"step": 1870
	},
	{
	"epoch": 3.436928702010969,
	"grad_norm": 0.19923894107341766,
	"learning_rate": 4.885250611107558e-05,
	"loss": 0.0214,
	"step": 1880
	},
	{
	"epoch": 3.4552102376599634,
	"grad_norm": 0.1752861738204956,
	"learning_rate": 4.7817177415524796e-05,
	"loss": 0.0198,
	"step": 1890
	},
	{
	"epoch": 3.473491773308958,
	"grad_norm": 0.3053307831287384,
	"learning_rate": 4.678947905709744e-05,
	"loss": 0.0225,
	"step": 1900
	},
	{
	"epoch": 3.4917733089579523,
	"grad_norm": 0.19800381362438202,
	"learning_rate": 4.576956130909317e-05,
	"loss": 0.016,
	"step": 1910
	},
	{
	"epoch": 3.510054844606947,
	"grad_norm": 0.1873503029346466,
	"learning_rate": 4.475757330710621e-05,
	"loss": 0.0144,
	"step": 1920
	},
	{
	"epoch": 3.5283363802559418,
	"grad_norm": 0.23367895185947418,
	"learning_rate": 4.375366302721825e-05,
	"loss": 0.0161,
	"step": 1930
	},
	{
	"epoch": 3.5466179159049362,
	"grad_norm": 0.17103944718837738,
	"learning_rate": 4.2757977264361046e-05,
	"loss": 0.0146,
	"step": 1940
	},
	{
	"epoch": 3.5648994515539307,
	"grad_norm": 0.2473006546497345,
	"learning_rate": 4.177066161085148e-05,
	"loss": 0.0184,
	"step": 1950
	},
	{
	"epoch": 3.583180987202925,
	"grad_norm": 0.31398236751556396,
	"learning_rate": 4.0791860435102524e-05,
	"loss": 0.0146,
	"step": 1960
	},
	{
	"epoch": 3.6014625228519197,
	"grad_norm": 0.33835136890411377,
	"learning_rate": 3.982171686051334e-05,
	"loss": 0.021,
	"step": 1970
	},
	{
	"epoch": 3.619744058500914,
	"grad_norm": 0.16258537769317627,
	"learning_rate": 3.8860372744541407e-05,
	"loss": 0.0196,
	"step": 1980
	},
	{
	"epoch": 3.6380255941499087,
	"grad_norm": 0.3083174228668213,
	"learning_rate": 3.790796865795947e-05,
	"loss": 0.0152,
	"step": 1990
	},
	{
	"epoch": 3.656307129798903,
	"grad_norm": 0.21282333135604858,
	"learning_rate": 3.696464386430093e-05,
	"loss": 0.0215,
	"step": 2000
	},
	{
	"epoch": 3.6745886654478976,
	"grad_norm": 0.20800185203552246,
	"learning_rate": 3.6030536299496395e-05,
	"loss": 0.0155,
	"step": 2010
	},
	{
	"epoch": 3.692870201096892,
	"grad_norm": 0.251663476228714,
	"learning_rate": 3.5105782551704145e-05,
	"loss": 0.0222,
	"step": 2020
	},
	{
	"epoch": 3.7111517367458866,
	"grad_norm": 0.24097998440265656,
	"learning_rate": 3.419051784133773e-05,
	"loss": 0.0142,
	"step": 2030
	},
	{
	"epoch": 3.729433272394881,
	"grad_norm": 0.18417520821094513,
	"learning_rate": 3.328487600129371e-05,
	"loss": 0.0147,
	"step": 2040
	},
	{
	"epoch": 3.7477148080438756,
	"grad_norm": 0.18106205761432648,
	"learning_rate": 3.2388989457382126e-05,
	"loss": 0.0125,
	"step": 2050
	},
	{
	"epoch": 3.76599634369287,
	"grad_norm": 0.14622414112091064,
	"learning_rate": 3.1502989208962855e-05,
	"loss": 0.0151,
	"step": 2060
	},
	{
	"epoch": 3.7842778793418645,
	"grad_norm": 0.29628556966781616,
	"learning_rate": 3.062700480979046e-05,
	"loss": 0.0206,
	"step": 2070
	},
	{
	"epoch": 3.802559414990859,
	"grad_norm": 0.26881730556488037,
	"learning_rate": 2.9761164349070315e-05,
	"loss": 0.0176,
	"step": 2080
	},
	{
	"epoch": 3.8208409506398535,
	"grad_norm": 0.4180646240711212,
	"learning_rate": 2.8905594432729055e-05,
	"loss": 0.0179,
	"step": 2090
	},
	{
	"epoch": 3.839122486288848,
	"grad_norm": 0.25500163435935974,
	"learning_rate": 2.8060420164902012e-05,
	"loss": 0.0142,
	"step": 2100
	},
	{
	"epoch": 3.857404021937843,
	"grad_norm": 0.21968974173069,
	"learning_rate": 2.7225765129639836e-05,
	"loss": 0.0161,
	"step": 2110
	},
	{
	"epoch": 3.8756855575868374,
	"grad_norm": 0.24668078124523163,
	"learning_rate": 2.6401751372837813e-05,
	"loss": 0.0217,
	"step": 2120
	},
	{
	"epoch": 3.893967093235832,
	"grad_norm": 0.2258848249912262,
	"learning_rate": 2.5588499384389865e-05,
	"loss": 0.0178,
	"step": 2130
	},
	{
	"epoch": 3.9122486288848264,
	"grad_norm": 0.1784961074590683,
	"learning_rate": 2.478612808057018e-05,
	"loss": 0.0114,
	"step": 2140
	},
	{
	"epoch": 3.930530164533821,
	"grad_norm": 0.28832298517227173,
	"learning_rate": 2.3994754786644923e-05,
	"loss": 0.0109,
	"step": 2150
	},
	{
	"epoch": 3.9488117001828154,
	"grad_norm": 0.12029292434453964,
	"learning_rate": 2.3214495219716436e-05,
	"loss": 0.0211,
	"step": 2160
	},
	{
	"epoch": 3.96709323583181,
	"grad_norm": 0.19231897592544556,
	"learning_rate": 2.2445463471802785e-05,
	"loss": 0.0098,
	"step": 2170
	},
	{
	"epoch": 3.9853747714808043,
	"grad_norm": 0.08982887864112854,
	"learning_rate": 2.1687771993155004e-05,
	"loss": 0.0077,
	"step": 2180
	},
	{
	"epoch": 4.003656307129799,
	"grad_norm": 0.21466206014156342,
	"learning_rate": 2.0941531575813988e-05,
	"loss": 0.0159,
	"step": 2190
	},
	{
	"epoch": 4.021937842778794,
	"grad_norm": 0.17917244136333466,
	"learning_rate": 2.0206851337410415e-05,
	"loss": 0.0139,
	"step": 2200
	},
	{
	"epoch": 4.040219378427788,
	"grad_norm": 0.08883915841579437,
	"learning_rate": 1.9483838705209012e-05,
	"loss": 0.0152,
	"step": 2210
	},
	{
	"epoch": 4.058500914076783,
	"grad_norm": 0.16674405336380005,
	"learning_rate": 1.8772599400400258e-05,
	"loss": 0.0196,
	"step": 2220
	},
	{
	"epoch": 4.076782449725777,
	"grad_norm": 0.10342701524496078,
	"learning_rate": 1.807323742264162e-05,
	"loss": 0.0161,
	"step": 2230
	},
	{
	"epoch": 4.095063985374772,
	"grad_norm": 0.1896440088748932,
	"learning_rate": 1.7385855034850184e-05,
	"loss": 0.0122,
	"step": 2240
	},
	{
	"epoch": 4.113345521023766,
	"grad_norm": 0.16498374938964844,
	"learning_rate": 1.6710552748249598e-05,
	"loss": 0.0133,
	"step": 2250
	},
	{
	"epoch": 4.131627056672761,
	"grad_norm": 0.17953291535377502,
	"learning_rate": 1.604742930767298e-05,
	"loss": 0.0219,
	"step": 2260
	},
	{
	"epoch": 4.149908592321755,
	"grad_norm": 0.18694134056568146,
	"learning_rate": 1.5396581677124124e-05,
	"loss": 0.0169,
	"step": 2270
	},
	{
	"epoch": 4.16819012797075,
	"grad_norm": 0.17348328232765198,
	"learning_rate": 1.4758105025599068e-05,
	"loss": 0.0159,
	"step": 2280
	},
	{
	"epoch": 4.186471663619744,
	"grad_norm": 0.16517849266529083,
	"learning_rate": 1.4132092713170242e-05,
	"loss": 0.0137,
	"step": 2290
	},
	{
	"epoch": 4.204753199268739,
	"grad_norm": 0.13645470142364502,
	"learning_rate": 1.3518636277335084e-05,
	"loss": 0.0149,
	"step": 2300
	},
	{
	"epoch": 4.223034734917733,
	"grad_norm": 0.14027458429336548,
	"learning_rate": 1.291782541963107e-05,
	"loss": 0.0147,
	"step": 2310
	},
	{
	"epoch": 4.2413162705667276,
	"grad_norm": 0.11632464081048965,
	"learning_rate": 1.2329747992519269e-05,
	"loss": 0.0137,
	"step": 2320
	},
	{
	"epoch": 4.259597806215722,
	"grad_norm": 0.2426212579011917,
	"learning_rate": 1.1754489986538419e-05,
	"loss": 0.0117,
	"step": 2330
	},
	{
	"epoch": 4.2778793418647165,
	"grad_norm": 0.20155277848243713,
	"learning_rate": 1.1192135517730884e-05,
	"loss": 0.0147,
	"step": 2340
	},
	{
	"epoch": 4.296160877513711,
	"grad_norm": 0.14590322971343994,
	"learning_rate": 1.0642766815343196e-05,
	"loss": 0.0119,
	"step": 2350
	},
	{
	"epoch": 4.3144424131627055,
	"grad_norm": 0.17194287478923798,
	"learning_rate": 1.0106464209802013e-05,
	"loss": 0.0115,
	"step": 2360
	},
	{
	"epoch": 4.3327239488117,
	"grad_norm": 0.243038609623909,
	"learning_rate": 9.583306120968072e-06,
	"loss": 0.0153,
	"step": 2370
	},
	{
	"epoch": 4.3510054844606945,
	"grad_norm": 0.29729005694389343,
	"learning_rate": 9.0733690466694e-06,
	"loss": 0.0136,
	"step": 2380
	},
	{
	"epoch": 4.369287020109689,
	"grad_norm": 0.1595577597618103,
	"learning_rate": 8.576727551515474e-06,
	"loss": 0.0156,
	"step": 2390
	},
	{
	"epoch": 4.387568555758683,
	"grad_norm": 0.12783007323741913,
	"learning_rate": 8.093454255994248e-06,
	"loss": 0.0122,
	"step": 2400
	},
	{
	"epoch": 4.405850091407678,
	"grad_norm": 0.26608356833457947,
	"learning_rate": 7.6236198258532675e-06,
	"loss": 0.0136,
	"step": 2410
	},
	{
	"epoch": 4.424131627056672,
	"grad_norm": 0.1889527142047882,
	"learning_rate": 7.167292961766725e-06,
	"loss": 0.015,
	"step": 2420
	},
	{
	"epoch": 4.442413162705667,
	"grad_norm": 0.2580418884754181,
	"learning_rate": 6.724540389289913e-06,
	"loss": 0.0132,
	"step": 2430
	},
	{
	"epoch": 4.460694698354661,
	"grad_norm": 0.22082190215587616,
	"learning_rate": 6.295426849102271e-06,
	"loss": 0.0113,
	"step": 2440
	},
	{
	"epoch": 4.478976234003657,
	"grad_norm": 0.11176195740699768,
	"learning_rate": 5.8800150875408574e-06,
	"loss": 0.0141,
	"step": 2450
	},
	{
	"epoch": 4.497257769652651,
	"grad_norm": 0.1779015064239502,
	"learning_rate": 5.478365847425449e-06,
	"loss": 0.0113,
	"step": 2460
	},
	{
	"epoch": 4.515539305301646,
	"grad_norm": 0.15661382675170898,
	"learning_rate": 5.090537859176425e-06,
	"loss": 0.0102,
	"step": 2470
	},
	{
	"epoch": 4.53382084095064,
	"grad_norm": 0.21932142972946167,
	"learning_rate": 4.716587832227071e-06,
	"loss": 0.0147,
	"step": 2480
	},
	{
	"epoch": 4.552102376599635,
	"grad_norm": 0.30200353264808655,
	"learning_rate": 4.356570446731356e-06,
	"loss": 0.0152,
	"step": 2490
	},
	{
	"epoch": 4.570383912248629,
	"grad_norm": 0.11431296914815903,
	"learning_rate": 4.010538345568371e-06,
	"loss": 0.017,
	"step": 2500
	},
	{
	"epoch": 4.588665447897624,
	"grad_norm": 0.2187824845314026,
	"learning_rate": 3.678542126644813e-06,
	"loss": 0.0168,
	"step": 2510
	},
	{
	"epoch": 4.606946983546618,
	"grad_norm": 0.12425347417593002,
	"learning_rate": 3.360630335496362e-06,
	"loss": 0.0113,
	"step": 2520
	},
	{
	"epoch": 4.625228519195613,
	"grad_norm": 0.17450736463069916,
	"learning_rate": 3.056849458189115e-06,
	"loss": 0.015,
	"step": 2530
	},
	{
	"epoch": 4.643510054844607,
	"grad_norm": 0.2220509946346283,
	"learning_rate": 2.7672439145223773e-06,
	"loss": 0.0196,
	"step": 2540
	},
	{
	"epoch": 4.661791590493602,
	"grad_norm": 0.2917903959751129,
	"learning_rate": 2.491856051533392e-06,
	"loss": 0.0165,
	"step": 2550
	},
	{
	"epoch": 4.680073126142596,
	"grad_norm": 0.22880949079990387,
	"learning_rate": 2.230726137305206e-06,
	"loss": 0.0165,
	"step": 2560
	},
	{
	"epoch": 4.698354661791591,
	"grad_norm": 0.2307160645723343,
	"learning_rate": 1.983892355078587e-06,
	"loss": 0.0129,
	"step": 2570
	},
	{
	"epoch": 4.716636197440585,
	"grad_norm": 0.1975175142288208,
	"learning_rate": 1.7513907976687283e-06,
	"loss": 0.016,
	"step": 2580
	},
	{
	"epoch": 4.7349177330895795,
	"grad_norm": 0.23436793684959412,
	"learning_rate": 1.533255462187666e-06,
	"loss": 0.0108,
	"step": 2590
	},
	{
	"epoch": 4.753199268738574,
	"grad_norm": 0.14805355668067932,
	"learning_rate": 1.329518245073047e-06,
	"loss": 0.0182,
	"step": 2600
	},
	{
	"epoch": 4.7714808043875685,
	"grad_norm": 0.1988326609134674,
	"learning_rate": 1.1402089374242365e-06,
	"loss": 0.0119,
	"step": 2610
	},
	{
	"epoch": 4.789762340036563,
	"grad_norm": 0.12207505851984024,
	"learning_rate": 9.65355220646036e-07,
	"loss": 0.0128,
	"step": 2620
	},
	{
	"epoch": 4.8080438756855575,
	"grad_norm": 0.1775001883506775,
	"learning_rate": 8.049826624011881e-07,
	"loss": 0.0166,
	"step": 2630
	},
	{
	"epoch": 4.826325411334552,
	"grad_norm": 0.2577812075614929,
	"learning_rate": 6.591147128716224e-07,
	"loss": 0.0191,
	"step": 2640
	},
	{
	"epoch": 4.844606946983546,
	"grad_norm": 0.1870380938053131,
	"learning_rate": 5.277727013296097e-07,
	"loss": 0.0125,
	"step": 2650
	},
	{
	"epoch": 4.862888482632541,
	"grad_norm": 0.22090613842010498,
	"learning_rate": 4.1097583301888954e-07,
	"loss": 0.009,
	"step": 2660
	},
	{
	"epoch": 4.881170018281535,
	"grad_norm": 0.25381821393966675,
	"learning_rate": 3.0874118634640626e-07,
	"loss": 0.0158,
	"step": 2670
	},
	{
	"epoch": 4.89945155393053,
	"grad_norm": 0.25577688217163086,
	"learning_rate": 2.210837103850949e-07,
	"loss": 0.0074,
	"step": 2680
	},
	{
	"epoch": 4.917733089579524,
	"grad_norm": 0.1378592997789383,
	"learning_rate": 1.4801622268791892e-07,
	"loss": 0.0104,
	"step": 2690
	},
	{
	"epoch": 4.936014625228519,
	"grad_norm": 0.1672651469707489,
	"learning_rate": 8.954940741369155e-08,
	"loss": 0.0126,
	"step": 2700
	},
	{
	"epoch": 4.954296160877513,
	"grad_norm": 0.10131768137216568,
	"learning_rate": 4.5691813764803247e-08,
	"loss": 0.0093,
	"step": 2710
	},
	{
	"epoch": 4.972577696526509,
	"grad_norm": 0.19686748087406158,
	"learning_rate": 1.644985473709948e-08,
	"loss": 0.0132,
	"step": 2720
	},
	{
	"epoch": 4.990859232175502,
	"grad_norm": 0.16079658269882202,
	"learning_rate": 1.8278061821863646e-09,
	"loss": 0.0096,
	"step": 2730
	},
	{
	"epoch": 5.0,
	"step": 2735,
	"total_flos": 9.752547304210464e+16,
	"train_loss": 0.045771664261164136,
	"train_runtime": 1237.486,
	"train_samples_per_second": 35.362,
	"train_steps_per_second": 2.21
	}
	],
	"logging_steps": 10,
	"max_steps": 2735,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 5,
	"save_steps": 500,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 9.752547304210464e+16,
	"train_batch_size": 16,
	"trial_name": null,
	"trial_params": null
	}