{"train/loss": 0.0342, "train/grad_norm": 0.5431602597236633, "train/learning_rate": 0.0, "train/epoch": 47.62, "train/global_step": 250, "_timestamp": 1711598477.9251833, "_runtime": 3770.4462053775787, "_step": 96, "eval/loss": 0.277138352394104, "eval/runtime": 6.743, "eval/samples_per_second": 4.597, "eval/steps_per_second": 0.89, "train/train_runtime": 3823.223, "train/train_samples_per_second": 1.582, "train/train_steps_per_second": 0.065, "train/total_flos": 3.688261026370176e+16, "train/train_loss": 0.4097081416845322}