{"train/loss": 0.0939, "train/grad_norm": 0.9342097043991089, "train/learning_rate": 8.064516129032258e-07, "train/epoch": 47.62, "train/global_step": 250, "_timestamp": 1712225395.8480313, "_runtime": 2556.9835171699524, "_step": 96, "eval/loss": 0.60386061668396, "eval/runtime": 5.1451, "eval/samples_per_second": 6.025, "eval/steps_per_second": 1.166, "train/train_runtime": 2571.6381, "train/train_samples_per_second": 2.353, "train/train_steps_per_second": 0.097, "train/total_flos": 1.891827745218432e+16, "train/train_loss": 0.47419850182533263}