diff --git "a/train.log" "b/train.log"
new file mode 100644--- /dev/null
+++ "b/train.log"
@@ -0,0 +1,5283 @@
+[2025-02-27 02:21:46,708] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2025-02-27 02:21:46,709] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2025-02-27 02:21:46,709] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2025-02-27 02:21:46,710] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2025-02-27 02:21:46,711] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2025-02-27 02:21:46,723] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+[2025-02-27 02:21:46,724] [INFO] [real_accelerator.py:222:get_accelerator] Setting ds_accelerator to cuda (auto detect)
+INFO 02-27 02:21:49 __init__.py:190] Automatically detected platform cuda.
+INFO 02-27 02:21:49 __init__.py:190] Automatically detected platform cuda.
+INFO 02-27 02:21:49 __init__.py:190] Automatically detected platform cuda.
+INFO 02-27 02:21:49 __init__.py:190] Automatically detected platform cuda.
+INFO 02-27 02:21:49 __init__.py:190] Automatically detected platform cuda.
+INFO 02-27 02:21:49 __init__.py:190] Automatically detected platform cuda.
+INFO 02-27 02:21:49 __init__.py:190] Automatically detected platform cuda.
+[2025-02-27 02:21:54,374] [INFO] [comm.py:652:init_distributed] cdb=None
+[2025-02-27 02:21:54,374] [INFO] [comm.py:652:init_distributed] cdb=None
+[2025-02-27 02:21:54,374] [INFO] [comm.py:652:init_distributed] cdb=None
+[2025-02-27 02:21:54,374] [INFO] [comm.py:652:init_distributed] cdb=None
+[2025-02-27 02:21:54,374] [INFO] [comm.py:683:init_distributed] Initializing TorchBackend in DeepSpeed with backend nccl
+[2025-02-27 02:21:54,374] [INFO] [comm.py:652:init_distributed] cdb=None
+[2025-02-27 02:21:54,374] [INFO] [comm.py:652:init_distributed] cdb=None
+[2025-02-27 02:21:54,375] [INFO] [comm.py:652:init_distributed] cdb=None
+Generating train split: 0 examples [00:00, ? examples/s]Generating train split: 60000 examples [00:00, 139532.62 examples/s]Generating train split: 60000 examples [00:00, 136478.17 examples/s]
+Map:   0%|          | 0/60000 [00:00<?, ? examples/s]Map:   0%|          | 0/60000 [00:00<?, ? examples/s]Map:   0%|          | 0/60000 [00:00<?, ? examples/s]Map:   2%|▏         | 1379/60000 [00:00<00:04, 13702.72 examples/s]Map:   2%|▏         | 1062/60000 [00:00<00:05, 10468.36 examples/s]Map:   2%|▏         | 1031/60000 [00:00<00:05, 10096.04 examples/s]Map:   5%|▍         | 2828/60000 [00:00<00:04, 14040.03 examples/s]Map:   4%|▍         | 2445/60000 [00:00<00:04, 12432.03 examples/s]Map:   4%|▍         | 2427/60000 [00:00<00:04, 12348.96 examples/s]Map:   6%|▋         | 3820/60000 [00:00<00:04, 13027.75 examples/s]Map:   6%|▋         | 3807/60000 [00:00<00:04, 12959.76 examples/s]Map:   8%|▊         | 4850/60000 [00:00<00:04, 13724.57 examples/s]Map:  10%|▉         | 5798/60000 [00:00<00:04, 13074.69 examples/s]Map:  10%|▉         | 5811/60000 [00:00<00:04, 13069.21 examples/s]Map:  13%|█▎        | 7809/60000 [00:00<00:03, 13142.89 examples/s]Map:  13%|█▎        | 7824/60000 [00:00<00:03, 13174.28 examples/s]Map:  12%|█▏        | 6934/60000 [00:00<00:06, 8535.34 examples/s] Map:  16%|█▋        | 9812/60000 [00:00<00:03, 13180.13 examples/s]Map:  16%|█▋        | 9819/60000 [00:00<00:03, 13023.49 examples/s]Map:  14%|█▎        | 8149/60000 [00:00<00:05, 9280.71 examples/s]Map:  16%|█▌        | 9574/60000 [00:00<00:04, 10411.70 examples/s]Map:  20%|█▉        | 11811/60000 [00:00<00:03, 13057.65 examples/s]Map:  20%|█▉        | 11820/60000 [00:00<00:03, 13103.00 examples/s]Map:  18%|█▊        | 11000/60000 [00:01<00:04, 11006.19 examples/s]Map:  23%|██▎       | 13817/60000 [00:01<00:03, 13146.20 examples/s]Map:  22%|██▏       | 13445/60000 [00:01<00:03, 12357.11 examples/s]Map:  21%|██        | 12426/60000 [00:01<00:04, 11830.24 examples/s]Map:  25%|██▍       | 14811/60000 [00:01<00:03, 12660.89 examples/s]Map:  23%|██▎       | 13881/60000 [00:01<00:03, 12552.54 examples/s]Map:  26%|██▋       | 15836/60000 [00:01<00:03, 13245.01 examples/s]Map:  28%|██▊       | 16831/60000 [00:01<00:03, 12929.32 examples/s]Map:  27%|██▋       | 15944/60000 [00:01<00:03, 12983.50 examples/s]Map:  30%|██▉       | 17860/60000 [00:01<00:03, 13319.44 examples/s]Map:  31%|███▏      | 18849/60000 [00:01<00:03, 13095.48 examples/s]Map:  30%|██▉       | 17996/60000 [00:01<00:03, 13218.92 examples/s]Map:  33%|███▎      | 19893/60000 [00:01<00:02, 13388.84 examples/s]Map:  35%|███▍      | 20862/60000 [00:01<00:02, 13196.27 examples/s]Map:  33%|███▎      | 20000/60000 [00:01<00:03, 13001.54 examples/s]Map:  37%|███▋      | 21916/60000 [00:01<00:02, 13415.24 examples/s]Map:  36%|███▌      | 21447/60000 [00:01<00:02, 13342.89 examples/s]Map:  38%|███▊      | 22810/60000 [00:01<00:02, 12941.47 examples/s]Map:  38%|███▊      | 22828/60000 [00:01<00:02, 13457.82 examples/s]Map:  40%|███▉      | 23844/60000 [00:02<00:03, 9590.97 examples/s] Map:  41%|████▏     | 24826/60000 [00:02<00:02, 13243.20 examples/s]Map:  42%|████▏     | 25000/60000 [00:02<00:03, 9911.42 examples/s]Map:  45%|████▍     | 26856/60000 [00:02<00:02, 13336.62 examples/s]Map:  44%|████▍     | 26405/60000 [00:02<00:03, 10730.22 examples/s]Map:  40%|████      | 24279/60000 [00:02<00:05, 6898.69 examples/s] Map:  46%|████▋     | 27809/60000 [00:02<00:02, 11458.68 examples/s]Map:  48%|████▊     | 28921/60000 [00:02<00:02, 13471.19 examples/s]Map:  43%|████▎     | 25823/60000 [00:02<00:04, 8018.43 examples/s]Map:  50%|████▉     | 29819/60000 [00:02<00:02, 12078.04 examples/s]Map:  52%|█████▏    | 30972/60000 [00:02<00:02, 13533.43 examples/s]Map:  45%|████▌     | 27000/60000 [00:02<00:03, 8644.87 examples/s]Map:  53%|█████▎    | 31836/60000 [00:02<00:02, 12503.48 examples/s]Map:  47%|████▋     | 28305/60000 [00:02<00:03, 9496.13 examples/s]Map:  55%|█████▌    | 33000/60000 [00:02<00:02, 13215.71 examples/s]Map:   0%|          | 0/60000 [00:00<?, ? examples/s]Map:  50%|████▉     | 29823/60000 [00:02<00:02, 10577.54 examples/s]Map:  57%|█████▋    | 34447/60000 [00:02<00:01, 13494.83 examples/s]Map:  56%|█████▋    | 33851/60000 [00:02<00:02, 12788.29 examples/s]Map:   2%|▏         | 1076/60000 [00:00<00:05, 10623.17 examples/s]Map:  60%|█████▉    | 35880/60000 [00:02<00:01, 13695.08 examples/s]Map:  53%|█████▎    | 31838/60000 [00:02<00:02, 11472.67 examples/s]Map:   4%|▍         | 2459/60000 [00:00<00:04, 12493.72 examples/s]Map:  60%|█████▉    | 35854/60000 [00:02<00:01, 12958.19 examples/s]Map:  63%|██████▎   | 37920/60000 [00:03<00:01, 13660.10 examples/s]Map:   6%|▋         | 3830/60000 [00:00<00:04, 13042.64 examples/s]Map:  56%|█████▋    | 33861/60000 [00:02<00:02, 12094.29 examples/s]Map:  63%|██████▎   | 37858/60000 [00:03<00:01, 13077.76 examples/s]Map:  67%|██████▋   | 39965/60000 [00:03<00:01, 13649.35 examples/s]Map:  10%|▉         | 5809/60000 [00:00<00:04, 13007.03 examples/s]Map:  60%|█████▉    | 35826/60000 [00:03<00:01, 12400.60 examples/s]Map:  66%|██████▋   | 39849/60000 [00:03<00:01, 13133.77 examples/s]Map:  13%|█▎        | 7811/60000 [00:00<00:03, 13136.44 examples/s]Map:  63%|██████▎   | 37836/60000 [00:03<00:01, 12701.11 examples/s]Map:  70%|██████▉   | 41838/60000 [00:03<00:01, 13170.52 examples/s]Map:  16%|█▋        | 9815/60000 [00:00<00:03, 13106.40 examples/s]Map:  66%|██████▋   | 39851/60000 [00:03<00:01, 12920.02 examples/s]Map:  70%|██████▉   | 41706/60000 [00:03<00:02, 8881.48 examples/s] Map:  73%|███████▎  | 43808/60000 [00:03<00:01, 13122.40 examples/s]Map:  72%|███████▏  | 43000/60000 [00:03<00:01, 9479.50 examples/s]Map:  20%|█▉        | 11813/60000 [00:00<00:03, 13139.59 examples/s]Map:  70%|██████▉   | 41863/60000 [00:03<00:01, 13065.85 examples/s]Map:  76%|███████▋  | 45808/60000 [00:03<00:01, 13155.89 examples/s]Map:  74%|███████▍  | 44432/60000 [00:03<00:01, 10423.97 examples/s]Map:  23%|██▎       | 13819/60000 [00:01<00:03, 13213.27 examples/s]Map:  73%|███████▎  | 43882/60000 [00:03<00:01, 13181.81 examples/s]Map:  76%|███████▋  | 45860/60000 [00:03<00:01, 11264.10 examples/s]Map:  80%|███████▉  | 47813/60000 [00:03<00:00, 13211.09 examples/s]Map:  26%|██▋       | 15817/60000 [00:01<00:03, 13237.53 examples/s]Map:  76%|███████▋  | 45776/60000 [00:03<00:01, 13011.39 examples/s]Map:  80%|███████▉  | 47877/60000 [00:03<00:01, 11957.35 examples/s]Map:  83%|████████▎ | 49812/60000 [00:03<00:00, 13230.53 examples/s]Map:  30%|██▉       | 17810/60000 [00:01<00:03, 13239.94 examples/s]Map:  79%|███████▉  | 47497/60000 [00:04<00:00, 12547.09 examples/s]Map:  83%|████████▎ | 49913/60000 [00:04<00:00, 12456.24 examples/s]Map:  86%|████████▋ | 51806/60000 [00:04<00:00, 13230.96 examples/s]Map:  82%|████████▏ | 48916/60000 [00:04<00:00, 12910.40 examples/s]Map:  33%|███▎      | 19819/60000 [00:01<00:03, 13277.47 examples/s]Map:  87%|████████▋ | 51948/60000 [00:04<00:00, 12795.88 examples/s]Map:  85%|████████▍ | 50942/60000 [00:04<00:00, 13101.13 examples/s]Map:  36%|███▋      | 21811/60000 [00:01<00:02, 13223.86 examples/s]Map:  90%|████████▉ | 53937/60000 [00:04<00:00, 12935.43 examples/s]Map:  90%|███��████▉ | 53882/60000 [00:04<00:00, 9791.30 examples/s] Map:  88%|████████▊ | 52948/60000 [00:04<00:00, 13184.73 examples/s]Map:  40%|███▉      | 23811/60000 [00:01<00:02, 13202.10 examples/s]Map:  92%|█████████▏| 55029/60000 [00:04<00:00, 10080.38 examples/s]Map:  93%|█████████▎| 55934/60000 [00:04<00:00, 13048.31 examples/s]Map:  94%|█████████▍| 56391/60000 [00:04<00:00, 10777.74 examples/s]Map:  97%|█████████▋| 57923/60000 [00:04<00:00, 13109.61 examples/s]Map:  96%|█████████▋| 57803/60000 [00:04<00:00, 11444.02 examples/s]Map: 100%|█████████▉| 59922/60000 [00:04<00:00, 13172.64 examples/s]Map: 100%|██████████| 60000/60000 [00:04<00:00, 12249.59 examples/s]
+Map:  43%|████▎     | 25817/60000 [00:02<00:03, 9287.96 examples/s] Map: 100%|█████████▉| 59809/60000 [00:04<00:00, 11977.99 examples/s]Map: 100%|██████████| 60000/60000 [00:04<00:00, 12179.69 examples/s]
+Map:  45%|████▌     | 27000/60000 [00:02<00:03, 9702.53 examples/s]Map:  91%|█████████ | 54457/60000 [00:04<00:00, 6915.04 examples/s] Map:  47%|████▋     | 28389/60000 [00:02<00:03, 10509.73 examples/s]Map:  93%|█████████▎| 55823/60000 [00:05<00:00, 7881.76 examples/s]Map:  50%|████▉     | 29820/60000 [00:02<00:02, 11299.56 examples/s]Map:  95%|█████████▌| 57005/60000 [00:05<00:00, 8550.48 examples/s]Map:  97%|█████████▋| 58419/60000 [00:05<00:00, 9641.50 examples/s]Map:  53%|█████▎    | 31845/60000 [00:02<00:02, 11992.96 examples/s]Map: 100%|█████████▉| 59838/60000 [00:05<00:00, 10633.51 examples/s]Map: 100%|██████████| 60000/60000 [00:05<00:00, 11117.27 examples/s]
+Map:  56%|█████▋    | 33872/60000 [00:02<00:02, 12465.09 examples/s]Map:  60%|█████▉    | 35896/60000 [00:02<00:01, 12777.95 examples/s][2025-02-27 02:22:01,214] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 7
+[2025-02-27 02:22:01,214] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 7
+[2025-02-27 02:22:01,214] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 7
+[2025-02-27 02:22:01,220] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 7
+You are attempting to use Flash Attention 2.0 without specifying a torch dtype. This might lead to unexpected behaviour
+You are attempting to use Flash Attention 2.0 without specifying a torch dtype. This might lead to unexpected behaviour
+You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
+You are attempting to use Flash Attention 2.0 without specifying a torch dtype. This might lead to unexpected behaviour
+You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
+You are attempting to use Flash Attention 2.0 without specifying a torch dtype. This might lead to unexpected behaviour
+You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
+You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
+Flash Attention 2.0 only supports torch.float16 and torch.bfloat16 dtypes, but the current dype in Qwen2VisionTransformerPretrainedModel is torch.float32. You should run training or inference using Automatic Mixed-Precision via the `with torch.autocast(device_type='torch_device'):` decorator, or load the model with the `torch_dtype` argument. Example: `model = AutoModel.from_pretrained("openai/whisper-tiny", attn_implementation="flash_attention_2", torch_dtype=torch.float16)`
+Flash Attention 2.0 only supports torch.float16 and torch.bfloat16 dtypes, but the current dype in Qwen2VisionTransformerPretrainedModel is torch.float32. You should run training or inference using Automatic Mixed-Precision via the `with torch.autocast(device_type='torch_device'):` decorator, or load the model with the `torch_dtype` argument. Example: `model = AutoModel.from_pretrained("openai/whisper-tiny", attn_implementation="flash_attention_2", torch_dtype=torch.float16)`
+Flash Attention 2.0 only supports torch.float16 and torch.bfloat16 dtypes, but the current dype in Qwen2VisionTransformerPretrainedModel is torch.float32. You should run training or inference using Automatic Mixed-Precision via the `with torch.autocast(device_type='torch_device'):` decorator, or load the model with the `torch_dtype` argument. Example: `model = AutoModel.from_pretrained("openai/whisper-tiny", attn_implementation="flash_attention_2", torch_dtype=torch.float16)`
+Flash Attention 2.0 only supports torch.float16 and torch.bfloat16 dtypes, but the current dype in Qwen2VisionTransformerPretrainedModel is torch.float32. You should run training or inference using Automatic Mixed-Precision via the `with torch.autocast(device_type='torch_device'):` decorator, or load the model with the `torch_dtype` argument. Example: `model = AutoModel.from_pretrained("openai/whisper-tiny", attn_implementation="flash_attention_2", torch_dtype=torch.float16)`
+[2025-02-27 02:22:01,244] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 7
+You are attempting to use Flash Attention 2.0 without specifying a torch dtype. This might lead to unexpected behaviour
+You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
+Flash Attention 2.0 only supports torch.float16 and torch.bfloat16 dtypes, but the current dype in Qwen2VisionTransformerPretrainedModel is torch.float32. You should run training or inference using Automatic Mixed-Precision via the `with torch.autocast(device_type='torch_device'):` decorator, or load the model with the `torch_dtype` argument. Example: `model = AutoModel.from_pretrained("openai/whisper-tiny", attn_implementation="flash_attention_2", torch_dtype=torch.float16)`
+[2025-02-27 02:22:01,256] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 7
+You are attempting to use Flash Attention 2.0 without specifying a torch dtype. This might lead to unexpected behaviour
+You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
+Flash Attention 2.0 only supports torch.float16 and torch.bfloat16 dtypes, but the current dype in Qwen2VisionTransformerPretrainedModel is torch.float32. You should run training or inference using Automatic Mixed-Precision via the `with torch.autocast(device_type='torch_device'):` decorator, or load the model with the `torch_dtype` argument. Example: `model = AutoModel.from_pretrained("openai/whisper-tiny", attn_implementation="flash_attention_2", torch_dtype=torch.float16)`
+Map:  63%|██████▎   | 37886/60000 [00:03<00:01, 12924.55 examples/s]p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3563487 [0] NCCL INFO NCCL_SOCKET_IFNAME set by environment to bond0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3563487 [0] NCCL INFO Bootstrap : Using bond0:10.9.200.117<0>
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3563487 [0] NCCL INFO cudaDriverVersion 12040
+NCCL version 2.21.5+cuda12.4
+Map:  66%|██████▋   | 39823/60000 [00:03<00:01, 12918.56 examples/s]p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3563492 [5] NCCL INFO cudaDriverVersion 12040
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3563490 [3] NCCL INFO cudaDriverVersion 12040
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3563492 [5] NCCL INFO NCCL_SOCKET_IFNAME set by environment to bond0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3563493 [6] NCCL INFO cudaDriverVersion 12040
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3563490 [3] NCCL INFO NCCL_SOCKET_IFNAME set by environment to bond0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3563489 [2] NCCL INFO cudaDriverVersion 12040
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3563493 [6] NCCL INFO NCCL_SOCKET_IFNAME set by environment to bond0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3563488 [1] NCCL INFO cudaDriverVersion 12040
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3563489 [2] NCCL INFO NCCL_SOCKET_IFNAME set by environment to bond0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3563488 [1] NCCL INFO NCCL_SOCKET_IFNAME set by environment to bond0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3563492 [5] NCCL INFO Bootstrap : Using bond0:10.9.200.117<0>
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3563490 [3] NCCL INFO Bootstrap : Using bond0:10.9.200.117<0>
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3563493 [6] NCCL INFO Bootstrap : Using bond0:10.9.200.117<0>
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3563488 [1] NCCL INFO Bootstrap : Using bond0:10.9.200.117<0>
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3563489 [2] NCCL INFO Bootstrap : Using bond0:10.9.200.117<0>
+Map:  70%|██████▉   | 41807/60000 [00:03<00:01, 12977.62 examples/s]p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Plugin Path : /opt/hpcx/nccl_rdma_sharp_plugin/lib/libnccl-net.so
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO P2P plugin IBext_v8
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO NCCL_SOCKET_IFNAME set by environment to bond0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Plugin Path : /opt/hpcx/nccl_rdma_sharp_plugin/lib/libnccl-net.so
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO P2P plugin IBext_v8
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO NCCL_SOCKET_IFNAME set by environment to bond0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Plugin Path : /opt/hpcx/nccl_rdma_sharp_plugin/lib/libnccl-net.so
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO P2P plugin IBext_v8
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO NCCL_SOCKET_IFNAME set by environment to bond0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Plugin Path : /opt/hpcx/nccl_rdma_sharp_plugin/lib/libnccl-net.so
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO P2P plugin IBext_v8
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Plugin Path : /opt/hpcx/nccl_rdma_sharp_plugin/lib/libnccl-net.so
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO P2P plugin IBext_v8
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO NCCL_SOCKET_IFNAME set by environment to bond0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO NCCL_SOCKET_IFNAME set by environment to bond0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Plugin Path : /opt/hpcx/nccl_rdma_sharp_plugin/lib/libnccl-net.so
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO P2P plugin IBext_v8
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO NCCL_SOCKET_IFNAME set by environment to bond0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO NET/IB : Using [0]mlx5_0:1/IB/SHARP [1]mlx5_1:1/IB/SHARP [RO]; OOB bond0:10.9.200.117<0>
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Using non-device net plugin version 0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Using network IBext_v8
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO NET/IB : Using [0]mlx5_0:1/IB/SHARP [1]mlx5_1:1/IB/SHARP [RO]; OOB bond0:10.9.200.117<0>
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Using non-device net plugin version 0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Using network IBext_v8
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO NET/IB : Using [0]mlx5_0:1/IB/SHARP [1]mlx5_1:1/IB/SHARP [RO]; OOB bond0:10.9.200.117<0>
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO NET/IB : Using [0]mlx5_0:1/IB/SHARP [1]mlx5_1:1/IB/SHARP [RO]; OOB bond0:10.9.200.117<0>
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Using non-device net plugin version 0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Using network IBext_v8
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Using non-device net plugin version 0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Using network IBext_v8
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO NET/IB : Using [0]mlx5_0:1/IB/SHARP [1]mlx5_1:1/IB/SHARP [RO]; OOB bond0:10.9.200.117<0>
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Using non-device net plugin version 0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Using network IBext_v8
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO NET/IB : Using [0]mlx5_0:1/IB/SHARP [1]mlx5_1:1/IB/SHARP [RO]; OOB bond0:10.9.200.117<0>
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Using non-device net plugin version 0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Using network IBext_v8
+Map:  73%|███████▎  | 43807/60000 [00:03<00:01, 12979.31 examples/s]Map:  76%|███████▋  | 45802/60000 [00:03<00:01, 13013.04 examples/s]Map:  80%|███████▉  | 47809/60000 [00:03<00:00, 13034.82 examples/s]Map:  83%|████████▎ | 49810/60000 [00:03<00:00, 13059.32 examples/s]Map:  86%|████████▋ | 51803/60000 [00:04<00:00, 13057.57 examples/s]Map:  90%|████████▉ | 53861/60000 [00:04<00:00, 9404.11 examples/s] Map:  92%|█████████▏| 55000/60000 [00:04<00:00, 9659.79 examples/s]Map:  94%|█████████▍| 56354/60000 [00:04<00:00, 10400.93 examples/s]Map:  96%|█████████▋| 57801/60000 [00:04<00:00, 11164.19 examples/s]Map: 100%|█████████▉| 59805/60000 [00:04<00:00, 11775.13 examples/s]Map: 100%|██████████| 60000/60000 [00:04<00:00, 12012.95 examples/s]
+[2025-02-27 02:22:03,214] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 7
+You are attempting to use Flash Attention 2.0 without specifying a torch dtype. This might lead to unexpected behaviour
+You are attempting to use Flash Attention 2.0 with a model not initialized on GPU. Make sure to move the model to GPU after initializing it on CPU with `model.to('cuda')`.
+Flash Attention 2.0 only supports torch.float16 and torch.bfloat16 dtypes, but the current dype in Qwen2VisionTransformerPretrainedModel is torch.float32. You should run training or inference using Automatic Mixed-Precision via the `with torch.autocast(device_type='torch_device'):` decorator, or load the model with the `torch_dtype` argument. Example: `model = AutoModel.from_pretrained("openai/whisper-tiny", attn_implementation="flash_attention_2", torch_dtype=torch.float16)`
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3563491 [4] NCCL INFO cudaDriverVersion 12040
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3563491 [4] NCCL INFO NCCL_SOCKET_IFNAME set by environment to bond0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3563491 [4] NCCL INFO Bootstrap : Using bond0:10.9.200.117<0>
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Plugin Path : /opt/hpcx/nccl_rdma_sharp_plugin/lib/libnccl-net.so
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO P2P plugin IBext_v8
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO NCCL_SOCKET_IFNAME set by environment to bond0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO NET/IB : Using [0]mlx5_0:1/IB/SHARP [1]mlx5_1:1/IB/SHARP [RO]; OOB bond0:10.9.200.117<0>
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Using non-device net plugin version 0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Using network IBext_v8
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO ncclCommInitRank comm 0x55a8bb6a7b70 rank 6 nranks 7 cudaDev 6 nvmlDev 6 busId bf000 commId 0xee3d66d5466655c4 - Init START
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO ncclCommInitRank comm 0x5587df75fb60 rank 0 nranks 7 cudaDev 0 nvmlDev 0 busId 27000 commId 0xee3d66d5466655c4 - Init START
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO ncclCommInitRank comm 0x56388b7bacf0 rank 4 nranks 7 cudaDev 4 nvmlDev 4 busId 8d000 commId 0xee3d66d5466655c4 - Init START
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO ncclCommInitRank comm 0x55bc157b6dc0 rank 5 nranks 7 cudaDev 5 nvmlDev 5 busId 92000 commId 0xee3d66d5466655c4 - Init START
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO ncclCommInitRank comm 0x55c52abc5000 rank 2 nranks 7 cudaDev 2 nvmlDev 2 busId 54000 commId 0xee3d66d5466655c4 - Init START
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO ncclCommInitRank comm 0x560eb401ff80 rank 3 nranks 7 cudaDev 3 nvmlDev 3 busId 59000 commId 0xee3d66d5466655c4 - Init START
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO ncclCommInitRank comm 0x56340ae19f60 rank 1 nranks 7 cudaDev 1 nvmlDev 1 busId 2d000 commId 0xee3d66d5466655c4 - Init START
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO NCCL_CUMEM_ENABLE set by environment to 0.
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO NCCL_CUMEM_ENABLE set by environment to 0.
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Setting affinity for GPU 3 to ffffffff,00000000,ffffffff
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO NVLS multicast support is not available on dev 3
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO NCCL_CUMEM_ENABLE set by environment to 0.
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Setting affinity for GPU 6 to ffffffff,00000000,ffffffff,00000000
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO NVLS multicast support is not available on dev 6
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO NCCL_CUMEM_ENABLE set by environment to 0.
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Setting affinity for GPU 5 to ffffffff,00000000,ffffffff,00000000
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO NVLS multicast support is not available on dev 5
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO NCCL_CUMEM_ENABLE set by environment to 0.
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Setting affinity for GPU 4 to ffffffff,00000000,ffffffff,00000000
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO NVLS multicast support is not available on dev 4
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Setting affinity for GPU 0 to ffffffff,00000000,ffffffff
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO NCCL_CUMEM_ENABLE set by environment to 0.
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Setting affinity for GPU 2 to ffffffff,00000000,ffffffff
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO NVLS multicast support is not available on dev 2
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO NVLS multicast support is not available on dev 0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO NCCL_CUMEM_ENABLE set by environment to 0.
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Setting affinity for GPU 1 to ffffffff,00000000,ffffffff
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO NVLS multicast support is not available on dev 1
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO comm 0x55bc157b6dc0 rank 5 nRanks 7 nNodes 1 localRanks 7 localRank 5 MNNVL 0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO comm 0x5587df75fb60 rank 0 nRanks 7 nNodes 1 localRanks 7 localRank 0 MNNVL 0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO comm 0x55c52abc5000 rank 2 nRanks 7 nNodes 1 localRanks 7 localRank 2 MNNVL 0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO comm 0x56388b7bacf0 rank 4 nRanks 7 nNodes 1 localRanks 7 localRank 4 MNNVL 0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO comm 0x55a8bb6a7b70 rank 6 nRanks 7 nNodes 1 localRanks 7 localRank 6 MNNVL 0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Trees [0] 6/-1/-1->5->4 [1] 6/-1/-1->5->4 [2] 6/-1/-1->5->4 [3] 6/-1/-1->5->4 [4] 6/-1/-1->5->4 [5] 6/-1/-1->5->4 [6] 6/-1/-1->5->4 [7] 6/-1/-1->5->4 [8] 6/-1/-1->5->4 [9] 6/-1/-1->5->4 [10] 6/-1/-1->5->4 [11] 6/-1/-1->5->4 [12] 6/-1/-1->5->4 [13] 6/-1/-1->5->4 [14] 6/-1/-1->5->4 [15] 6/-1/-1->5->4
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO P2P Chunksize set to 524288
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Trees [0] 5/-1/-1->4->3 [1] 5/-1/-1->4->3 [2] 5/-1/-1->4->3 [3] 5/-1/-1->4->3 [4] 5/-1/-1->4->3 [5] 5/-1/-1->4->3 [6] 5/-1/-1->4->3 [7] 5/-1/-1->4->3 [8] 5/-1/-1->4->3 [9] 5/-1/-1->4->3 [10] 5/-1/-1->4->3 [11] 5/-1/-1->4->3 [12] 5/-1/-1->4->3 [13] 5/-1/-1->4->3 [14] 5/-1/-1->4->3 [15] 5/-1/-1->4->3
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO P2P Chunksize set to 524288
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO comm 0x560eb401ff80 rank 3 nRanks 7 nNodes 1 localRanks 7 localRank 3 MNNVL 0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Channel 00/16 :    0   1   2   3   4   5   6
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Trees [0] 3/-1/-1->2->1 [1] 3/-1/-1->2->1 [2] 3/-1/-1->2->1 [3] 3/-1/-1->2->1 [4] 3/-1/-1->2->1 [5] 3/-1/-1->2->1 [6] 3/-1/-1->2->1 [7] 3/-1/-1->2->1 [8] 3/-1/-1->2->1 [9] 3/-1/-1->2->1 [10] 3/-1/-1->2->1 [11] 3/-1/-1->2->1 [12] 3/-1/-1->2->1 [13] 3/-1/-1->2->1 [14] 3/-1/-1->2->1 [15] 3/-1/-1->2->1
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Channel 01/16 :    0   1   2   3   4   5   6
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO P2P Chunksize set to 524288
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Trees [0] -1/-1/-1->6->5 [1] -1/-1/-1->6->5 [2] -1/-1/-1->6->5 [3] -1/-1/-1->6->5 [4] -1/-1/-1->6->5 [5] -1/-1/-1->6->5 [6] -1/-1/-1->6->5 [7] -1/-1/-1->6->5 [8] -1/-1/-1->6->5 [9] -1/-1/-1->6->5 [10] -1/-1/-1->6->5 [11] -1/-1/-1->6->5 [12] -1/-1/-1->6->5 [13] -1/-1/-1->6->5 [14] -1/-1/-1->6->5 [15] -1/-1/-1->6->5
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Channel 02/16 :    0   1   2   3   4   5   6
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO P2P Chunksize set to 524288
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO comm 0x56340ae19f60 rank 1 nRanks 7 nNodes 1 localRanks 7 localRank 1 MNNVL 0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Channel 03/16 :    0   1   2   3   4   5   6
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Channel 04/16 :    0   1   2   3   4   5   6
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Channel 05/16 :    0   1   2   3   4   5   6
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Channel 06/16 :    0   1   2   3   4   5   6
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Channel 07/16 :    0   1   2   3   4   5   6
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Channel 08/16 :    0   1   2   3   4   5   6
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Channel 09/16 :    0   1   2   3   4   5   6
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Trees [0] 4/-1/-1->3->2 [1] 4/-1/-1->3->2 [2] 4/-1/-1->3->2 [3] 4/-1/-1->3->2 [4] 4/-1/-1->3->2 [5] 4/-1/-1->3->2 [6] 4/-1/-1->3->2 [7] 4/-1/-1->3->2 [8] 4/-1/-1->3->2 [9] 4/-1/-1->3->2 [10] 4/-1/-1->3->2 [11] 4/-1/-1->3->2 [12] 4/-1/-1->3->2 [13] 4/-1/-1->3->2 [14] 4/-1/-1->3->2 [15] 4/-1/-1->3->2
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Channel 10/16 :    0   1   2   3   4   5   6
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO P2P Chunksize set to 524288
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Channel 11/16 :    0   1   2   3   4   5   6
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Channel 12/16 :    0   1   2   3   4   5   6
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Trees [0] 2/-1/-1->1->0 [1] 2/-1/-1->1->0 [2] 2/-1/-1->1->0 [3] 2/-1/-1->1->0 [4] 2/-1/-1->1->0 [5] 2/-1/-1->1->0 [6] 2/-1/-1->1->0 [7] 2/-1/-1->1->0 [8] 2/-1/-1->1->0 [9] 2/-1/-1->1->0 [10] 2/-1/-1->1->0 [11] 2/-1/-1->1->0 [12] 2/-1/-1->1->0 [13] 2/-1/-1->1->0 [14] 2/-1/-1->1->0 [15] 2/-1/-1->1->0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Channel 13/16 :    0   1   2   3   4   5   6
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO P2P Chunksize set to 524288
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Channel 14/16 :    0   1   2   3   4   5   6
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Channel 15/16 :    0   1   2   3   4   5   6
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Trees [0] 1/-1/-1->0->-1 [1] 1/-1/-1->0->-1 [2] 1/-1/-1->0->-1 [3] 1/-1/-1->0->-1 [4] 1/-1/-1->0->-1 [5] 1/-1/-1->0->-1 [6] 1/-1/-1->0->-1 [7] 1/-1/-1->0->-1 [8] 1/-1/-1->0->-1 [9] 1/-1/-1->0->-1 [10] 1/-1/-1->0->-1 [11] 1/-1/-1->0->-1 [12] 1/-1/-1->0->-1 [13] 1/-1/-1->0->-1 [14] 1/-1/-1->0->-1 [15] 1/-1/-1->0->-1
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO P2P Chunksize set to 524288
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Channel 00/0 : 5[5] -> 6[6] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Channel 01/0 : 5[5] -> 6[6] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Channel 00/0 : 6[6] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Channel 02/0 : 5[5] -> 6[6] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Channel 01/0 : 6[6] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Channel 00/0 : 4[4] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Channel 03/0 : 5[5] -> 6[6] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Channel 02/0 : 6[6] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Channel 01/0 : 4[4] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Channel 04/0 : 5[5] -> 6[6] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Channel 03/0 : 6[6] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Channel 00/0 : 2[2] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Channel 02/0 : 4[4] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Channel 05/0 : 5[5] -> 6[6] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Channel 04/0 : 6[6] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Channel 01/0 : 2[2] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Channel 06/0 : 5[5] -> 6[6] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Channel 03/0 : 4[4] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Channel 05/0 : 6[6] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Channel 00/0 : 1[1] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Channel 04/0 : 4[4] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Channel 07/0 : 5[5] -> 6[6] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Channel 00/0 : 0[0] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Channel 01/0 : 1[1] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Channel 05/0 : 4[4] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Channel 08/0 : 5[5] -> 6[6] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Channel 01/0 : 0[0] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Channel 02/0 : 1[1] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Channel 06/0 : 4[4] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Channel 09/0 : 5[5] -> 6[6] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Channel 02/0 : 0[0] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Channel 03/0 : 1[1] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Channel 10/0 : 5[5] -> 6[6] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Channel 07/0 : 4[4] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Channel 03/0 : 0[0] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Channel 04/0 : 1[1] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Channel 11/0 : 5[5] -> 6[6] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Channel 04/0 : 0[0] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Channel 08/0 : 4[4] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Channel 05/0 : 1[1] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Channel 12/0 : 5[5] -> 6[6] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Channel 00/0 : 3[3] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Channel 05/0 : 0[0] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Channel 06/0 : 1[1] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Channel 09/0 : 4[4] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Channel 13/0 : 5[5] -> 6[6] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Channel 01/0 : 3[3] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Channel 07/0 : 1[1] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Channel 06/0 : 0[0] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Channel 10/0 : 4[4] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Channel 02/0 : 2[2] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Channel 14/0 : 5[5] -> 6[6] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Channel 02/0 : 3[3] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Channel 08/0 : 1[1] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Channel 06/0 : 6[6] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Channel 07/0 : 0[0] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Channel 11/0 : 4[4] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Channel 03/0 : 2[2] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Channel 15/0 : 5[5] -> 6[6] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Channel 09/0 : 1[1] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Channel 07/0 : 6[6] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Channel 03/0 : 3[3] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Channel 08/0 : 0[0] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Channel 12/0 : 4[4] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Channel 04/0 : 2[2] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Channel 10/0 : 1[1] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Channel 08/0 : 6[6] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Channel 09/0 : 0[0] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Channel 04/0 : 3[3] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Channel 13/0 : 4[4] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Channel 05/0 : 2[2] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Channel 09/0 : 6[6] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Channel 11/0 : 1[1] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Channel 10/0 : 0[0] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Channel 05/0 : 3[3] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Channel 14/0 : 4[4] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Channel 06/0 : 2[2] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Channel 12/0 : 1[1] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Channel 10/0 : 6[6] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Channel 11/0 : 0[0] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Channel 06/0 : 3[3] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Channel 15/0 : 4[4] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Channel 13/0 : 1[1] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Channel 07/0 : 2[2] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Channel 11/0 : 6[6] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Channel 12/0 : 0[0] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Channel 07/0 : 3[3] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Channel 14/0 : 1[1] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Channel 12/0 : 6[6] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Channel 13/0 : 0[0] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Channel 08/0 : 2[2] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Channel 08/0 : 3[3] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Channel 15/0 : 1[1] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Channel 13/0 : 6[6] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Channel 14/0 : 0[0] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Channel 09/0 : 2[2] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Channel 09/0 : 3[3] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Channel 14/0 : 6[6] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Channel 15/0 : 0[0] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Channel 10/0 : 2[2] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Channel 10/0 : 3[3] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Channel 15/0 : 6[6] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Channel 11/0 : 2[2] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Channel 11/0 : 3[3] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Channel 12/0 : 2[2] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Channel 12/0 : 3[3] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Channel 13/0 : 2[2] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Channel 13/0 : 3[3] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Channel 14/0 : 2[2] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Channel 14/0 : 3[3] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Channel 15/0 : 2[2] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Channel 15/0 : 3[3] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Connected all rings
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Channel 00/0 : 6[6] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Channel 01/0 : 6[6] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Channel 02/0 : 6[6] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Channel 03/0 : 6[6] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Channel 04/0 : 6[6] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Connected all rings
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Connected all rings
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Connected all rings
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Connected all rings
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Connected all rings
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Connected all rings
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Channel 05/0 : 6[6] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Channel 06/0 : 6[6] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Channel 07/0 : 6[6] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Channel 08/0 : 6[6] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Channel 09/0 : 6[6] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Channel 10/0 : 6[6] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Channel 11/0 : 6[6] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Channel 12/0 : 6[6] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Channel 13/0 : 6[6] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Channel 14/0 : 6[6] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Channel 15/0 : 6[6] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Channel 00/0 : 1[1] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Channel 00/0 : 5[5] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Channel 00/0 : 4[4] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Channel 00/0 : 3[3] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Channel 00/0 : 2[2] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Channel 01/0 : 1[1] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Channel 01/0 : 4[4] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Channel 01/0 : 5[5] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Channel 01/0 : 3[3] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Channel 01/0 : 2[2] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Channel 02/0 : 4[4] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Channel 02/0 : 1[1] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Channel 02/0 : 5[5] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Channel 02/0 : 3[3] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Channel 02/0 : 2[2] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Channel 03/0 : 4[4] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Channel 03/0 : 1[1] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Channel 03/0 : 5[5] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Channel 03/0 : 3[3] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Channel 03/0 : 2[2] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Channel 04/0 : 4[4] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Channel 04/0 : 1[1] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Channel 04/0 : 5[5] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Channel 04/0 : 3[3] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Channel 04/0 : 2[2] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Channel 05/0 : 4[4] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Channel 05/0 : 1[1] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Channel 05/0 : 5[5] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Channel 05/0 : 3[3] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Channel 06/0 : 4[4] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Channel 05/0 : 2[2] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Channel 06/0 : 1[1] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Channel 06/0 : 5[5] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Channel 06/0 : 3[3] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Channel 07/0 : 1[1] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Channel 07/0 : 4[4] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Channel 07/0 : 5[5] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Channel 06/0 : 2[2] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Channel 07/0 : 3[3] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Channel 08/0 : 1[1] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Channel 08/0 : 4[4] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Channel 08/0 : 5[5] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Channel 07/0 : 2[2] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Channel 08/0 : 3[3] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Channel 09/0 : 1[1] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Channel 09/0 : 5[5] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Channel 09/0 : 4[4] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Channel 08/0 : 2[2] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Channel 09/0 : 3[3] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Channel 10/0 : 5[5] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Channel 10/0 : 1[1] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Channel 09/0 : 2[2] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Channel 10/0 : 4[4] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Channel 10/0 : 3[3] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Channel 11/0 : 1[1] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Channel 11/0 : 4[4] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Channel 11/0 : 5[5] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Channel 10/0 : 2[2] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Channel 11/0 : 3[3] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Channel 12/0 : 4[4] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Channel 12/0 : 5[5] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Channel 12/0 : 1[1] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Channel 11/0 : 2[2] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Channel 12/0 : 3[3] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Channel 13/0 : 4[4] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Channel 13/0 : 5[5] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Channel 13/0 : 1[1] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Channel 12/0 : 2[2] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Channel 13/0 : 3[3] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Channel 14/0 : 4[4] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Channel 14/0 : 5[5] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Channel 14/0 : 1[1] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Channel 13/0 : 2[2] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Channel 14/0 : 3[3] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Channel 15/0 : 4[4] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Channel 15/0 : 5[5] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Channel 15/0 : 1[1] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Channel 14/0 : 2[2] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Channel 15/0 : 3[3] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Channel 15/0 : 2[2] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO Connected all trees
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO threadThresholds 8/8/64 | 56/8/64 | 512 | 512
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO 16 coll channels, 16 collnet channels, 0 nvls channels, 16 p2p channels, 16 p2p channels per peer
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO Connected all trees
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO threadThresholds 8/8/64 | 56/8/64 | 512 | 512
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO 16 coll channels, 16 collnet channels, 0 nvls channels, 16 p2p channels, 16 p2p channels per peer
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO Connected all trees
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO Connected all trees
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO Connected all trees
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO threadThresholds 8/8/64 | 56/8/64 | 512 | 512
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO 16 coll channels, 16 collnet channels, 0 nvls channels, 16 p2p channels, 16 p2p channels per peer
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO threadThresholds 8/8/64 | 56/8/64 | 512 | 512
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO 16 coll channels, 16 collnet channels, 0 nvls channels, 16 p2p channels, 16 p2p channels per peer
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO Connected all trees
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO Connected all trees
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO threadThresholds 8/8/64 | 56/8/64 | 512 | 512
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO 16 coll channels, 16 collnet channels, 0 nvls channels, 16 p2p channels, 16 p2p channels per peer
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO threadThresholds 8/8/64 | 56/8/64 | 512 | 512
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO threadThresholds 8/8/64 | 56/8/64 | 512 | 512
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO 16 coll channels, 16 collnet channels, 0 nvls channels, 16 p2p channels, 16 p2p channels per peer
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO 16 coll channels, 16 collnet channels, 0 nvls channels, 16 p2p channels, 16 p2p channels per peer
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO TUNER/Plugin: Failed to find ncclTunerPlugin_v2, using internal tuner instead.
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO TUNER/Plugin: Failed to find ncclTunerPlugin_v2, using internal tuner instead.
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3564645 [4] NCCL INFO ncclCommInitRank comm 0x56388b7bacf0 rank 4 nranks 7 cudaDev 4 nvmlDev 4 busId 8d000 commId 0xee3d66d5466655c4 - Init COMPLETE
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3564533 [1] NCCL INFO ncclCommInitRank comm 0x56340ae19f60 rank 1 nranks 7 cudaDev 1 nvmlDev 1 busId 2d000 commId 0xee3d66d5466655c4 - Init COMPLETE
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO TUNER/Plugin: Failed to find ncclTunerPlugin_v2, using internal tuner instead.
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3564534 [3] NCCL INFO ncclCommInitRank comm 0x560eb401ff80 rank 3 nranks 7 cudaDev 3 nvmlDev 3 busId 59000 commId 0xee3d66d5466655c4 - Init COMPLETE
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO TUNER/Plugin: Failed to find ncclTunerPlugin_v2, using internal tuner instead.
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3564531 [5] NCCL INFO ncclCommInitRank comm 0x55bc157b6dc0 rank 5 nranks 7 cudaDev 5 nvmlDev 5 busId 92000 commId 0xee3d66d5466655c4 - Init COMPLETE
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO TUNER/Plugin: Failed to find ncclTunerPlugin_v2, using internal tuner instead.
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3564532 [2] NCCL INFO ncclCommInitRank comm 0x55c52abc5000 rank 2 nranks 7 cudaDev 2 nvmlDev 2 busId 54000 commId 0xee3d66d5466655c4 - Init COMPLETE
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO TUNER/Plugin: Failed to find ncclTunerPlugin_v2, using internal tuner instead.
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3564535 [6] NCCL INFO ncclCommInitRank comm 0x55a8bb6a7b70 rank 6 nranks 7 cudaDev 6 nvmlDev 6 busId bf000 commId 0xee3d66d5466655c4 - Init COMPLETE
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO TUNER/Plugin: Failed to find ncclTunerPlugin_v2, using internal tuner instead.
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3564525 [0] NCCL INFO ncclCommInitRank comm 0x5587df75fb60 rank 0 nranks 7 cudaDev 0 nvmlDev 0 busId 27000 commId 0xee3d66d5466655c4 - Init COMPLETE
+[2025-02-27 02:22:05,076] [INFO] [partition_parameters.py:348:__exit__] finished initializing model - num_params = 730, num_elems = 2.44B
+[2025-02-27 02:22:11,648] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 7
+[2025-02-27 02:22:11,648] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 7
+[2025-02-27 02:22:11,649] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 7
+[2025-02-27 02:22:11,649] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 7
+[2025-02-27 02:22:11,650] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 7
+[2025-02-27 02:22:11,651] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 7
+[2025-02-27 02:22:11,804] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 7
+[2025-02-27 02:22:12,100] [INFO] [partition_parameters.py:348:__exit__] finished initializing model - num_params = 1460, num_elems = 4.88B
+Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.48, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
+Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.48, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
+Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.48, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
+Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.48, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
+Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.48, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
+Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.48, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
+Using a slow image processor as `use_fast` is unset and a slow processor was saved with this model. `use_fast=True` will be the default behavior in v4.48, even if the model was saved with a slow processor. This will result in minor differences in outputs. You'll still be able to use a slow processor with `use_fast=False`.
+Detected kernel version 5.4.0, which is below the recommended minimum of 5.5.0; this can cause the process to hang. It is recommended to upgrade the kernel to the minimum version or higher.
+[2025-02-27 02:22:15,456] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 7
+[2025-02-27 02:22:15,457] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 7
+[2025-02-27 02:22:15,457] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 7
+[2025-02-27 02:22:15,457] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 7
+[2025-02-27 02:22:15,458] [INFO] [logging.py:128:log_dist] [Rank 0] DeepSpeed info: version=0.16.3, git-hash=unknown, git-branch=unknown
+[2025-02-27 02:22:15,458] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 7
+[2025-02-27 02:22:15,459] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 7
+[2025-02-27 02:22:15,459] [INFO] [config.py:733:__init__] Config mesh_device None world_size = 7
+[2025-02-27 02:22:15,476] [INFO] [logging.py:128:log_dist] [Rank 0] DeepSpeed Flops Profiler Enabled: False
+[2025-02-27 02:22:15,479] [INFO] [logging.py:128:log_dist] [Rank 0] Creating ZeRO Offload
+[2025-02-27 02:22:15,682] [INFO] [utils.py:781:see_memory_usage] DeepSpeedZeRoOffload initialize [begin]
+[2025-02-27 02:22:15,683] [INFO] [utils.py:782:see_memory_usage] MA 1.19 GB         Max_MA 2.49 GB         CA 3.09 GB         Max_CA 3 GB 
+[2025-02-27 02:22:15,683] [INFO] [utils.py:789:see_memory_usage] CPU Virtual Memory:  used = 57.69 GB, percent = 5.7%
+Parameter Offload: Total persistent parameters: 686592 in 401 params
+[2025-02-27 02:22:15,900] [INFO] [utils.py:781:see_memory_usage] DeepSpeedZeRoOffload initialize [end]
+[2025-02-27 02:22:15,901] [INFO] [utils.py:782:see_memory_usage] MA 1.19 GB         Max_MA 1.19 GB         CA 3.09 GB         Max_CA 3 GB 
+[2025-02-27 02:22:15,901] [INFO] [utils.py:789:see_memory_usage] CPU Virtual Memory:  used = 57.69 GB, percent = 5.7%
+[2025-02-27 02:22:15,902] [INFO] [config.py:999:print] DeepSpeedEngine configuration:
+[2025-02-27 02:22:15,903] [INFO] [config.py:1003:print]   activation_checkpointing_config  {
+    "partition_activations": false, 
+    "contiguous_memory_optimization": false, 
+    "cpu_checkpointing": false, 
+    "number_checkpoints": null, 
+    "synchronize_checkpoint_boundary": false, 
+    "profile": false
+}
+[2025-02-27 02:22:15,903] [INFO] [config.py:1003:print]   aio_config ................... {'block_size': 1048576, 'queue_depth': 8, 'thread_count': 1, 'single_submit': False, 'overlap_events': True, 'use_gds': False}
+[2025-02-27 02:22:15,903] [INFO] [config.py:1003:print]   amp_enabled .................. False
+[2025-02-27 02:22:15,903] [INFO] [config.py:1003:print]   amp_params ................... False
+[2025-02-27 02:22:15,903] [INFO] [config.py:1003:print]   autotuning_config ............ {
+    "enabled": false, 
+    "start_step": null, 
+    "end_step": null, 
+    "metric_path": null, 
+    "arg_mappings": null, 
+    "metric": "throughput", 
+    "model_info": null, 
+    "results_dir": "autotuning_results", 
+    "exps_dir": "autotuning_exps", 
+    "overwrite": true, 
+    "fast": true, 
+    "start_profile_step": 3, 
+    "end_profile_step": 5, 
+    "tuner_type": "gridsearch", 
+    "tuner_early_stopping": 5, 
+    "tuner_num_trials": 50, 
+    "model_info_path": null, 
+    "mp_size": 1, 
+    "max_train_batch_size": null, 
+    "min_train_batch_size": 1, 
+    "max_train_micro_batch_size_per_gpu": 1.024000e+03, 
+    "min_train_micro_batch_size_per_gpu": 1, 
+    "num_tuning_micro_batch_sizes": 3
+}
+[2025-02-27 02:22:15,903] [INFO] [config.py:1003:print]   bfloat16_enabled ............. True
+[2025-02-27 02:22:15,903] [INFO] [config.py:1003:print]   bfloat16_immediate_grad_update  False
+[2025-02-27 02:22:15,903] [INFO] [config.py:1003:print]   checkpoint_parallel_write_pipeline  False
+[2025-02-27 02:22:15,903] [INFO] [config.py:1003:print]   checkpoint_tag_validation_enabled  True
+[2025-02-27 02:22:15,903] [INFO] [config.py:1003:print]   checkpoint_tag_validation_fail  False
+[2025-02-27 02:22:15,903] [INFO] [config.py:1003:print]   comms_config ................. <deepspeed.comm.config.DeepSpeedCommsConfig object at 0x7fd7ddd44670>
+[2025-02-27 02:22:15,903] [INFO] [config.py:1003:print]   communication_data_type ...... None
+[2025-02-27 02:22:15,903] [INFO] [config.py:1003:print]   compression_config ........... {'weight_quantization': {'shared_parameters': {'enabled': False, 'quantizer_kernel': False, 'schedule_offset': 0, 'quantize_groups': 1, 'quantize_verbose': False, 'quantization_type': 'symmetric', 'quantize_weight_in_forward': False, 'rounding': 'nearest', 'fp16_mixed_quantize': False, 'quantize_change_ratio': 0.001}, 'different_groups': {}}, 'activation_quantization': {'shared_parameters': {'enabled': False, 'quantization_type': 'symmetric', 'range_calibration': 'dynamic', 'schedule_offset': 1000}, 'different_groups': {}}, 'sparse_pruning': {'shared_parameters': {'enabled': False, 'method': 'l1', 'schedule_offset': 1000}, 'different_groups': {}}, 'row_pruning': {'shared_parameters': {'enabled': False, 'method': 'l1', 'schedule_offset': 1000}, 'different_groups': {}}, 'head_pruning': {'shared_parameters': {'enabled': False, 'method': 'topk', 'schedule_offset': 1000}, 'different_groups': {}}, 'channel_pruning': {'shared_parameters': {'enabled': False, 'method': 'l1', 'schedule_offset': 1000}, 'different_groups': {}}, 'layer_reduction': {'enabled': False}}
+[2025-02-27 02:22:15,904] [INFO] [config.py:1003:print]   curriculum_enabled_legacy .... False
+[2025-02-27 02:22:15,904] [INFO] [config.py:1003:print]   curriculum_params_legacy ..... False
+[2025-02-27 02:22:15,904] [INFO] [config.py:1003:print]   data_efficiency_config ....... {'enabled': False, 'seed': 1234, 'data_sampling': {'enabled': False, 'num_epochs': 1000, 'num_workers': 0, 'curriculum_learning': {'enabled': False}}, 'data_routing': {'enabled': False, 'random_ltd': {'enabled': False, 'layer_token_lr_schedule': {'enabled': False}}}}
+[2025-02-27 02:22:15,904] [INFO] [config.py:1003:print]   data_efficiency_enabled ...... False
+[2025-02-27 02:22:15,904] [INFO] [config.py:1003:print]   dataloader_drop_last ......... False
+[2025-02-27 02:22:15,904] [INFO] [config.py:1003:print]   disable_allgather ............ False
+[2025-02-27 02:22:15,904] [INFO] [config.py:1003:print]   dump_state ................... False
+[2025-02-27 02:22:15,904] [INFO] [config.py:1003:print]   dynamic_loss_scale_args ...... None
+[2025-02-27 02:22:15,904] [INFO] [config.py:1003:print]   eigenvalue_enabled ........... False
+[2025-02-27 02:22:15,904] [INFO] [config.py:1003:print]   eigenvalue_gas_boundary_resolution  1
+[2025-02-27 02:22:15,904] [INFO] [config.py:1003:print]   eigenvalue_layer_name ........ bert.encoder.layer
+[2025-02-27 02:22:15,904] [INFO] [config.py:1003:print]   eigenvalue_layer_num ......... 0
+[2025-02-27 02:22:15,904] [INFO] [config.py:1003:print]   eigenvalue_max_iter .......... 100
+[2025-02-27 02:22:15,904] [INFO] [config.py:1003:print]   eigenvalue_stability ......... 1e-06
+[2025-02-27 02:22:15,904] [INFO] [config.py:1003:print]   eigenvalue_tol ............... 0.01
+[2025-02-27 02:22:15,904] [INFO] [config.py:1003:print]   eigenvalue_verbose ........... False
+[2025-02-27 02:22:15,904] [INFO] [config.py:1003:print]   elasticity_enabled ........... False
+[2025-02-27 02:22:15,904] [INFO] [config.py:1003:print]   flops_profiler_config ........ {
+    "enabled": false, 
+    "recompute_fwd_factor": 0.0, 
+    "profile_step": 1, 
+    "module_depth": -1, 
+    "top_modules": 1, 
+    "detailed": true, 
+    "output_file": null
+}
+[2025-02-27 02:22:15,904] [INFO] [config.py:1003:print]   fp16_auto_cast ............... None
+[2025-02-27 02:22:15,904] [INFO] [config.py:1003:print]   fp16_enabled ................. False
+[2025-02-27 02:22:15,905] [INFO] [config.py:1003:print]   fp16_master_weights_and_gradients  False
+[2025-02-27 02:22:15,905] [INFO] [config.py:1003:print]   global_rank .................. 0
+[2025-02-27 02:22:15,905] [INFO] [config.py:1003:print]   grad_accum_dtype ............. None
+[2025-02-27 02:22:15,905] [INFO] [config.py:1003:print]   gradient_accumulation_steps .. 2
+[2025-02-27 02:22:15,905] [INFO] [config.py:1003:print]   gradient_clipping ............ 1.0
+[2025-02-27 02:22:15,905] [INFO] [config.py:1003:print]   gradient_predivide_factor .... 1.0
+[2025-02-27 02:22:15,905] [INFO] [config.py:1003:print]   graph_harvesting ............. False
+[2025-02-27 02:22:15,905] [INFO] [config.py:1003:print]   hybrid_engine ................ enabled=False max_out_tokens=512 inference_tp_size=1 release_inference_cache=False pin_parameters=True tp_gather_partition_size=8
+[2025-02-27 02:22:15,905] [INFO] [config.py:1003:print]   initial_dynamic_scale ........ 1
+[2025-02-27 02:22:15,905] [INFO] [config.py:1003:print]   load_universal_checkpoint .... False
+[2025-02-27 02:22:15,905] [INFO] [config.py:1003:print]   loss_scale ................... 1.0
+[2025-02-27 02:22:15,905] [INFO] [config.py:1003:print]   memory_breakdown ............. False
+[2025-02-27 02:22:15,905] [INFO] [config.py:1003:print]   mics_hierarchial_params_gather  False
+[2025-02-27 02:22:15,905] [INFO] [config.py:1003:print]   mics_shard_size .............. -1
+[2025-02-27 02:22:15,905] [INFO] [config.py:1003:print]   monitor_config ............... tensorboard=TensorBoardConfig(enabled=False, output_path='', job_name='DeepSpeedJobName') comet=CometConfig(enabled=False, samples_log_interval=100, project=None, workspace=None, api_key=None, experiment_name=None, experiment_key=None, online=None, mode=None) wandb=WandbConfig(enabled=False, group=None, team=None, project='deepspeed') csv_monitor=CSVConfig(enabled=False, output_path='', job_name='DeepSpeedJobName')
+[2025-02-27 02:22:15,905] [INFO] [config.py:1003:print]   nebula_config ................ {
+    "enabled": false, 
+    "persistent_storage_path": null, 
+    "persistent_time_interval": 100, 
+    "num_of_version_in_retention": 2, 
+    "enable_nebula_load": true, 
+    "load_path": null
+}
+[2025-02-27 02:22:15,905] [INFO] [config.py:1003:print]   optimizer_legacy_fusion ...... False
+[2025-02-27 02:22:15,905] [INFO] [config.py:1003:print]   optimizer_name ............... None
+[2025-02-27 02:22:15,905] [INFO] [config.py:1003:print]   optimizer_params ............. None
+[2025-02-27 02:22:15,906] [INFO] [config.py:1003:print]   pipeline ..................... {'stages': 'auto', 'partition': 'best', 'seed_layers': False, 'activation_checkpoint_interval': 0, 'pipe_partitioned': True, 'grad_partitioned': True}
+[2025-02-27 02:22:15,906] [INFO] [config.py:1003:print]   pld_enabled .................. False
+[2025-02-27 02:22:15,906] [INFO] [config.py:1003:print]   pld_params ................... False
+[2025-02-27 02:22:15,906] [INFO] [config.py:1003:print]   prescale_gradients ........... False
+[2025-02-27 02:22:15,906] [INFO] [config.py:1003:print]   scheduler_name ............... None
+[2025-02-27 02:22:15,906] [INFO] [config.py:1003:print]   scheduler_params ............. None
+[2025-02-27 02:22:15,906] [INFO] [config.py:1003:print]   seq_parallel_communication_data_type  torch.float32
+[2025-02-27 02:22:15,906] [INFO] [config.py:1003:print]   sparse_attention ............. None
+[2025-02-27 02:22:15,906] [INFO] [config.py:1003:print]   sparse_gradients_enabled ..... False
+[2025-02-27 02:22:15,906] [INFO] [config.py:1003:print]   steps_per_print .............. inf
+[2025-02-27 02:22:15,906] [INFO] [config.py:1003:print]   timers_config ................ enabled=True synchronized=True
+[2025-02-27 02:22:15,906] [INFO] [config.py:1003:print]   train_batch_size ............. 14
+[2025-02-27 02:22:15,906] [INFO] [config.py:1003:print]   train_micro_batch_size_per_gpu  1
+[2025-02-27 02:22:15,906] [INFO] [config.py:1003:print]   use_data_before_expert_parallel_  False
+[2025-02-27 02:22:15,906] [INFO] [config.py:1003:print]   use_node_local_storage ....... False
+[2025-02-27 02:22:15,906] [INFO] [config.py:1003:print]   wall_clock_breakdown ......... False
+[2025-02-27 02:22:15,906] [INFO] [config.py:1003:print]   weight_quantization_config ... None
+[2025-02-27 02:22:15,906] [INFO] [config.py:1003:print]   world_size ................... 7
+[2025-02-27 02:22:15,906] [INFO] [config.py:1003:print]   zero_allow_untested_optimizer  False
+[2025-02-27 02:22:15,907] [INFO] [config.py:1003:print]   zero_config .................. stage=3 contiguous_gradients=True reduce_scatter=True reduce_bucket_size=500000000 use_multi_rank_bucket_allreduce=True allgather_partitions=True allgather_bucket_size=500000000 overlap_comm=True load_from_fp32_weights=True elastic_checkpoint=False offload_param=DeepSpeedZeroOffloadParamConfig(device='none', nvme_path=None, buffer_count=5, buffer_size=100000000, max_in_cpu=1000000000, pin_memory=True) offload_optimizer=DeepSpeedZeroOffloadOptimizerConfig(device='none', nvme_path=None, buffer_count=4, pin_memory=True, pipeline_read=False, pipeline_write=False, fast_init=False, ratio=1.0) sub_group_size=1000000000 cpu_offload_param=None cpu_offload_use_pin_memory=None cpu_offload=None prefetch_bucket_size=50000000 param_persistence_threshold=100000 model_persistence_threshold=9223372036854775807 max_live_parameters=1000000000 max_reuse_distance=1000000000 gather_16bit_weights_on_model_save=True module_granularity_threshold=0 use_all_reduce_for_fetch_params=False stage3_gather_fp16_weights_on_model_save=False ignore_unused_parameters=True legacy_stage1=False round_robin_gradients=False zero_hpz_partition_size=1 zero_quantized_weights=False zero_quantized_nontrainable_weights=False zero_quantized_gradients=False zeropp_loco_param=None mics_shard_size=-1 mics_hierarchical_params_gather=False memory_efficient_linear=True pipeline_loading_checkpoint=False override_module_apply=True
+[2025-02-27 02:22:15,907] [INFO] [config.py:1003:print]   zero_enabled ................. True
+[2025-02-27 02:22:15,907] [INFO] [config.py:1003:print]   zero_force_ds_cpu_optimizer .. True
+[2025-02-27 02:22:15,907] [INFO] [config.py:1003:print]   zero_optimization_stage ...... 3
+[2025-02-27 02:22:15,907] [INFO] [config.py:989:print_user_config]   json = {
+    "fp16": {
+        "enabled": false, 
+        "loss_scale": 0, 
+        "loss_scale_window": 1000, 
+        "initial_scale_power": 16, 
+        "hysteresis": 2, 
+        "min_loss_scale": 1
+    }, 
+    "bf16": {
+        "enabled": true
+    }, 
+    "zero_optimization": {
+        "stage": 3, 
+        "offload_optimizer": {
+            "device": "none", 
+            "pin_memory": true
+        }, 
+        "offload_param": {
+            "device": "none", 
+            "pin_memory": true
+        }, 
+        "overlap_comm": true, 
+        "contiguous_gradients": true, 
+        "sub_group_size": 1.000000e+09, 
+        "reduce_bucket_size": "auto", 
+        "stage3_prefetch_bucket_size": "auto", 
+        "stage3_param_persistence_threshold": "auto", 
+        "stage3_max_live_parameters": 1.000000e+09, 
+        "stage3_max_reuse_distance": 1.000000e+09, 
+        "stage3_gather_16bit_weights_on_model_save": true
+    }, 
+    "gradient_accumulation_steps": 2, 
+    "gradient_clipping": 1.0, 
+    "steps_per_print": inf, 
+    "train_batch_size": 14, 
+    "train_micro_batch_size_per_gpu": 1, 
+    "wall_clock_breakdown": false, 
+    "zero_optimization.reduce_bucket_size": 2.359296e+06, 
+    "zero_optimization.stage3_param_persistence_threshold": 1.536000e+04, 
+    "zero_optimization.stage3_prefetch_bucket_size": 2.123366e+06
+}
+INFO 02-27 02:22:31 config.py:542] This model supports multiple tasks: {'classify', 'generate', 'reward', 'score', 'embed'}. Defaulting to 'generate'.
+WARNING 02-27 02:22:31 arg_utils.py:1079] --enable-prefix-caching is currently not supported for multimodal models in v0 and has been disabled.
+INFO 02-27 02:22:31 llm_engine.py:234] Initializing a V0 LLM engine (v0.7.2) with config: model='/home/vlm/workspace/r1_checkpoints/qwen2vl_2b_R1_finetune_by_trance_60k_cot_sft_every_100/checkpoint-400', speculative_config=None, tokenizer='/home/vlm/workspace/r1_checkpoints/qwen2vl_2b_R1_finetune_by_trance_60k_cot_sft_every_100/checkpoint-400', skip_tokenizer_init=False, tokenizer_mode=auto, revision=None, override_neuron_config=None, tokenizer_revision=None, trust_remote_code=False, dtype=torch.bfloat16, max_seq_len=32768, download_dir=None, load_format=auto, tensor_parallel_size=1, pipeline_parallel_size=1, disable_custom_all_reduce=False, quantization=None, enforce_eager=False, kv_cache_dtype=auto,  device_config=cuda:7, decoding_config=DecodingConfig(guided_decoding_backend='xgrammar'), observability_config=ObservabilityConfig(otlp_traces_endpoint=None, collect_model_forward_time=False, collect_model_execute_time=False), seed=0, served_model_name=/home/vlm/workspace/r1_checkpoints/qwen2vl_2b_R1_finetune_by_trance_60k_cot_sft_every_100/checkpoint-400, num_scheduler_steps=1, multi_step_stream_outputs=True, enable_prefix_caching=False, chunked_prefill_enabled=False, use_async_output_proc=True, disable_mm_preprocessor_cache=False, mm_processor_kwargs=None, pooler_config=None, compilation_config={"splitting_ops":[],"compile_sizes":[],"cudagraph_capture_sizes":[256,248,240,232,224,216,208,200,192,184,176,168,160,152,144,136,128,120,112,104,96,88,80,72,64,56,48,40,32,24,16,8,4,2,1],"max_capture_size":256}, use_cached_outputs=False, 
+INFO 02-27 02:22:32 cuda.py:230] Using Flash Attention backend.
+INFO 02-27 02:22:33 model_runner.py:1110] Starting to load model /home/vlm/workspace/r1_checkpoints/qwen2vl_2b_R1_finetune_by_trance_60k_cot_sft_every_100/checkpoint-400...
+INFO 02-27 02:22:33 config.py:2992] cudagraph sizes specified by model runner [1, 2, 4, 8, 16, 24, 32, 40, 48, 56, 64, 72, 80, 88, 96, 104, 112, 120, 128, 136, 144, 152, 160, 168, 176, 184, 192, 200, 208, 216, 224, 232, 240, 248, 256] is overridden by config [256, 128, 2, 1, 4, 136, 8, 144, 16, 152, 24, 160, 32, 168, 40, 176, 48, 184, 56, 192, 64, 200, 72, 208, 80, 216, 88, 120, 224, 96, 232, 104, 240, 112, 248]
+Loading safetensors checkpoint shards:   0% Completed | 0/1 [00:00<?, ?it/s]
+Loading safetensors checkpoint shards: 100% Completed | 1/1 [00:01<00:00,  1.55s/it]
+Loading safetensors checkpoint shards: 100% Completed | 1/1 [00:01<00:00,  1.55s/it]
+
+INFO 02-27 02:22:35 model_runner.py:1115] Loading model weights took 0.0000 GB
+WARNING 02-27 02:22:37 model_runner.py:1288] Computed max_num_seqs (min(256, 32768 // 49152)) to be less than 1. Setting it to the minimum value of 1.
+It looks like you are trying to rescale already rescaled images. If the input images have pixel values between 0 and 1, set `do_rescale=False` to avoid rescaling them again.
+Token indices sequence length is longer than the specified maximum sequence length for this model (49152 > 8192). Running this sequence through the model will result in indexing errors
+WARNING 02-27 02:22:42 profiling.py:187] The context length (32768) of the model is too short to hold the multi-modal embeddings in the worst case (49152 tokens in total, out of which {'image': 32768, 'video': 16384} are reserved for multi-modal embeddings). This may cause certain multi-modal inputs to fail during inference, even when the input text is short. To avoid this, you should increase `max_model_len`, reduce `max_num_seqs`, and/or reduce `mm_counts`.
+INFO 02-27 02:22:44 worker.py:267] Memory profiling takes 7.88 seconds
+INFO 02-27 02:22:44 worker.py:267] the current vLLM instance can use total_gpu_memory (79.32GiB) x gpu_memory_utilization (0.70) = 55.53GiB
+INFO 02-27 02:22:44 worker.py:267] model weights take 0.00GiB; non_torch_memory takes 0.00GiB; PyTorch activation peak memory takes 0.00GiB; the rest of the memory reserved for KV Cache is 55.53GiB.
+INFO 02-27 02:22:44 executor_base.py:110] # CUDA blocks: 129965, # CPU blocks: 9362
+INFO 02-27 02:22:44 executor_base.py:115] Maximum concurrency for 32768 tokens per request: 63.46x
+INFO 02-27 02:22:46 model_runner.py:1434] Capturing cudagraphs for decoding. This may lead to unexpected consequences if the model is not static. To run the model in eager mode, set 'enforce_eager=True' or use '--enforce-eager' in the CLI. If out-of-memory error occurs during cudagraph capture, consider decreasing `gpu_memory_utilization` or switching to eager mode. You can also reduce the `max_num_seqs` as needed to decrease memory usage.
+Capturing CUDA graph shapes:   0%|          | 0/35 [00:00<?, ?it/s]Capturing CUDA graph shapes:   3%|▎         | 1/35 [00:00<00:17,  1.90it/s]Capturing CUDA graph shapes:   6%|▌         | 2/35 [00:01<00:16,  2.01it/s]Capturing CUDA graph shapes:   9%|▊         | 3/35 [00:01<00:15,  2.04it/s]Capturing CUDA graph shapes:  11%|█▏        | 4/35 [00:01<00:15,  2.06it/s]Capturing CUDA graph shapes:  14%|█▍        | 5/35 [00:02<00:14,  2.07it/s]Capturing CUDA graph shapes:  17%|█▋        | 6/35 [00:02<00:13,  2.08it/s]Capturing CUDA graph shapes:  20%|██        | 7/35 [00:03<00:13,  2.09it/s]Capturing CUDA graph shapes:  23%|██▎       | 8/35 [00:03<00:12,  2.09it/s]Capturing CUDA graph shapes:  26%|██▌       | 9/35 [00:04<00:12,  2.10it/s]Capturing CUDA graph shapes:  29%|██▊       | 10/35 [00:04<00:11,  2.10it/s]Capturing CUDA graph shapes:  31%|███▏      | 11/35 [00:05<00:11,  2.10it/s]Capturing CUDA graph shapes:  34%|███▍      | 12/35 [00:05<00:10,  2.10it/s]Capturing CUDA graph shapes:  37%|███▋      | 13/35 [00:06<00:10,  2.10it/s]Capturing CUDA graph shapes:  40%|████      | 14/35 [00:06<00:09,  2.10it/s]Capturing CUDA graph shapes:  43%|████▎     | 15/35 [00:07<00:09,  2.10it/s]Capturing CUDA graph shapes:  46%|████▌     | 16/35 [00:07<00:09,  2.10it/s]Capturing CUDA graph shapes:  49%|████▊     | 17/35 [00:08<00:08,  2.10it/s]Capturing CUDA graph shapes:  51%|█████▏    | 18/35 [00:08<00:08,  2.10it/s]Capturing CUDA graph shapes:  54%|█████▍    | 19/35 [00:09<00:07,  2.10it/s]Capturing CUDA graph shapes:  57%|█████▋    | 20/35 [00:09<00:07,  2.10it/s]Capturing CUDA graph shapes:  60%|██████    | 21/35 [00:10<00:06,  2.10it/s]Capturing CUDA graph shapes:  63%|██████▎   | 22/35 [00:10<00:06,  2.10it/s]Capturing CUDA graph shapes:  66%|██████▌   | 23/35 [00:10<00:05,  2.10it/s]Capturing CUDA graph shapes:  69%|██████▊   | 24/35 [00:11<00:05,  2.10it/s]Capturing CUDA graph shapes:  71%|███████▏  | 25/35 [00:11<00:04,  2.10it/s]Capturing CUDA graph shapes:  74%|███████▍  | 26/35 [00:12<00:04,  2.10it/s]Capturing CUDA graph shapes:  77%|███████▋  | 27/35 [00:12<00:03,  2.10it/s]Capturing CUDA graph shapes:  80%|████████  | 28/35 [00:13<00:03,  2.08it/s]Capturing CUDA graph shapes:  83%|████████▎ | 29/35 [00:13<00:02,  2.09it/s]Capturing CUDA graph shapes:  86%|████████▌ | 30/35 [00:14<00:02,  2.09it/s]Capturing CUDA graph shapes:  89%|████████▊ | 31/35 [00:14<00:01,  2.09it/s]Capturing CUDA graph shapes:  91%|█████████▏| 32/35 [00:15<00:01,  2.10it/s]Capturing CUDA graph shapes:  94%|█████████▍| 33/35 [00:15<00:00,  2.10it/s]Capturing CUDA graph shapes:  97%|█████████▋| 34/35 [00:16<00:00,  2.10it/s]Capturing CUDA graph shapes: 100%|██████████| 35/35 [00:16<00:00,  2.04it/s]Capturing CUDA graph shapes: 100%|██████████| 35/35 [00:16<00:00,  2.09it/s]
+INFO 02-27 02:23:03 model_runner.py:1562] Graph capturing finished in 17 secs, took 0.00 GiB
+INFO 02-27 02:23:03 llm_engine.py:431] init engine (profile, create kv cache, warmup model) took 27.49 seconds
+Parameter Offload: Total persistent parameters: 686592 in 401 params
+wandb: Currently logged in as: tanhuajie264 (tanhuajie264-peking-university) to https://api.wandb.ai. Use `wandb login --relogin` to force relogin
+wandb: Using wandb-core as the SDK backend.  Please refer to https://wandb.me/wandb-core for more information.
+wandb: - Waiting for wandb.init()...wandb: \ Waiting for wandb.init()...wandb: | Waiting for wandb.init()...wandb: / Waiting for wandb.init()...wandb: - Waiting for wandb.init()...wandb: \ Waiting for wandb.init()...wandb: | Waiting for wandb.init()...wandb: / Waiting for wandb.init()...wandb: - Waiting for wandb.init()...wandb: \ Waiting for wandb.init()...wandb: | Waiting for wandb.init()...wandb: / Waiting for wandb.init()...wandb: - Waiting for wandb.init()...wandb: \ Waiting for wandb.init()...wandb: | Waiting for wandb.init()...wandb: / Waiting for wandb.init()...wandb: - Waiting for wandb.init()...wandb: \ Waiting for wandb.init()...wandb: | Waiting for wandb.init()...wandb: / Waiting for wandb.init()...wandb: - Waiting for wandb.init()...wandb: \ Waiting for wandb.init()...wandb: | Waiting for wandb.init()...wandb: / Waiting for wandb.init()...wandb: - Waiting for wandb.init()...wandb: \ Waiting for wandb.init()...wandb: | Waiting for wandb.init()...wandb: / Waiting for wandb.init()...wandb: - Waiting for wandb.init()...wandb: \ Waiting for wandb.init()...wandb: | Waiting for wandb.init()...wandb: / Waiting for wandb.init()...wandb: - Waiting for wandb.init()...wandb: \ Waiting for wandb.init()...wandb: | Waiting for wandb.init()...wandb: / Waiting for wandb.init()...wandb: - Waiting for wandb.init()...wandb: \ Waiting for wandb.init()...wandb: | Waiting for wandb.init()...wandb: / Waiting for wandb.init()...wandb: - Waiting for wandb.init()...wandb: \ Waiting for wandb.init()...wandb: | Waiting for wandb.init()...wandb: / Waiting for wandb.init()...wandb: - Waiting for wandb.init()...wandb: \ Waiting for wandb.init()...wandb: | Waiting for wandb.init()...wandb: / Waiting for wandb.init()...wandb: - Waiting for wandb.init()...wandb: \ Waiting for wandb.init()...wandb: | Waiting for wandb.init()...wandb: / Waiting for wandb.init()...wandb: - Waiting for wandb.init()...wandb: \ Waiting for wandb.init()...wandb: | Waiting for wandb.init()...wandb: / Waiting for wandb.init()...wandb: - Waiting for wandb.init()...wandb: \ Waiting for wandb.init()...wandb: | Waiting for wandb.init()...wandb: / Waiting for wandb.init()...wandb: - Waiting for wandb.init()...wandb: \ Waiting for wandb.init()...wandb: | Waiting for wandb.init()...wandb: / Waiting for wandb.init()...wandb: - Waiting for wandb.init()...wandb: \ Waiting for wandb.init()...wandb: | Waiting for wandb.init()...wandb: / Waiting for wandb.init()...wandb: - Waiting for wandb.init()...wandb: \ Waiting for wandb.init()...wandb: | Waiting for wandb.init()...wandb: / Waiting for wandb.init()...wandb: - Waiting for wandb.init()...wandb: \ Waiting for wandb.init()...wandb: | Waiting for wandb.init()...wandb: / Waiting for wandb.init()...wandb: - Waiting for wandb.init()...wandb: \ Waiting for wandb.init()...wandb: Tracking run with wandb version 0.19.5
+wandb: Run data is saved locally in /home/vlm/workspace/vision-open-r1-spatial/wandb/run-20250227_022312-yb6e4h3m
+wandb: Run `wandb offline` to turn off syncing.
+wandb: Syncing run ONLY-FULL-SHUFFLE-BEST-HIGH-POINT-R1-RESUME-COT-VLLM-Correct-Qwen2-VL-2B-GRPO-TRANCE-60k-2025-02-27-02-21-28
+wandb: ⭐️ View project at https://wandb.ai/tanhuajie264-peking-university/vison-open-r1
+wandb: 🚀 View run at https://wandb.ai/tanhuajie264-peking-university/vison-open-r1/runs/yb6e4h3m
+  0%|          | 0/4286 [00:00<?, ?it/s]p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Using non-device net plugin version 0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Using non-device net plugin version 0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Using non-device net plugin version 0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Using non-device net plugin version 0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Using non-device net plugin version 0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Using network IBext_v8
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Using network IBext_v8
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Using network IBext_v8
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Using network IBext_v8
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Using network IBext_v8
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Using non-device net plugin version 0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Using network IBext_v8
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Using non-device net plugin version 0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Using network IBext_v8
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO bootstrapSplit: comm 0x7fb7b80737c0 parent 0x5587df75fb60 rank 0 nranks 7 color -1326228412 key 0 prev 6 next 1 - DONE
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO bootstrapSplit: comm 0x7f1180073150 parent 0x560eb401ff80 rank 3 nranks 7 color -1326228412 key 3 prev 2 next 4 - DONE
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO bootstrapSplit: comm 0x7f6470073ea0 parent 0x55a8bb6a7b70 rank 6 nranks 7 color -1326228412 key 6 prev 5 next 0 - DONE
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO bootstrapSplit: comm 0x7f2974072f90 parent 0x56388b7bacf0 rank 4 nranks 7 color -1326228412 key 4 prev 3 next 5 - DONE
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO ncclCommSplit comm 0x7fb7b80737c0 rank 0 nranks 7 cudaDev 0 nvmlDev 0 busId 27000 parent 0x5587df75fb60 color -1326228412 key 0 commId 0xac66df4d0c450970 - Init START
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO ncclCommSplit comm 0x7f6470073ea0 rank 6 nranks 7 cudaDev 6 nvmlDev 6 busId bf000 parent 0x55a8bb6a7b70 color -1326228412 key 6 commId 0xac66df4d0c450970 - Init START
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO bootstrapSplit: comm 0x7f92b4073420 parent 0x56340ae19f60 rank 1 nranks 7 color -1326228412 key 1 prev 0 next 2 - DONE
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO ncclCommSplit comm 0x7f1180073150 rank 3 nranks 7 cudaDev 3 nvmlDev 3 busId 59000 parent 0x560eb401ff80 color -1326228412 key 3 commId 0xac66df4d0c450970 - Init START
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO ncclCommSplit comm 0x7f2974072f90 rank 4 nranks 7 cudaDev 4 nvmlDev 4 busId 8d000 parent 0x56388b7bacf0 color -1326228412 key 4 commId 0xac66df4d0c450970 - Init START
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO ncclCommSplit comm 0x7f92b4073420 rank 1 nranks 7 cudaDev 1 nvmlDev 1 busId 2d000 parent 0x56340ae19f60 color -1326228412 key 1 commId 0xac66df4d0c450970 - Init START
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO bootstrapSplit: comm 0x7fc5e8073880 parent 0x55bc157b6dc0 rank 5 nranks 7 color -1326228412 key 5 prev 4 next 6 - DONE
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO bootstrapSplit: comm 0x7eee740736c0 parent 0x55c52abc5000 rank 2 nranks 7 color -1326228412 key 2 prev 1 next 3 - DONE
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO ncclCommSplit comm 0x7fc5e8073880 rank 5 nranks 7 cudaDev 5 nvmlDev 5 busId 92000 parent 0x55bc157b6dc0 color -1326228412 key 5 commId 0xac66df4d0c450970 - Init START
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO ncclCommSplit comm 0x7eee740736c0 rank 2 nranks 7 cudaDev 2 nvmlDev 2 busId 54000 parent 0x55c52abc5000 color -1326228412 key 2 commId 0xac66df4d0c450970 - Init START
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Setting affinity for GPU 3 to ffffffff,00000000,ffffffff
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO NVLS multicast support is not available on dev 3
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Setting affinity for GPU 1 to ffffffff,00000000,ffffffff
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO NVLS multicast support is not available on dev 1
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Setting affinity for GPU 2 to ffffffff,00000000,ffffffff
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO NVLS multicast support is not available on dev 2
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Setting affinity for GPU 4 to ffffffff,00000000,ffffffff,00000000
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO NVLS multicast support is not available on dev 4
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Setting affinity for GPU 5 to ffffffff,00000000,ffffffff,00000000
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO NVLS multicast support is not available on dev 5
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Setting affinity for GPU 6 to ffffffff,00000000,ffffffff,00000000
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO NVLS multicast support is not available on dev 6
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Setting affinity for GPU 0 to ffffffff,00000000,ffffffff
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO NVLS multicast support is not available on dev 0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO comm 0x7f6470073ea0 rank 6 nRanks 7 nNodes 1 localRanks 7 localRank 6 MNNVL 0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Trees [0] -1/-1/-1->6->5 [1] -1/-1/-1->6->5 [2] -1/-1/-1->6->5 [3] -1/-1/-1->6->5 [4] -1/-1/-1->6->5 [5] -1/-1/-1->6->5 [6] -1/-1/-1->6->5 [7] -1/-1/-1->6->5 [8] -1/-1/-1->6->5 [9] -1/-1/-1->6->5 [10] -1/-1/-1->6->5 [11] -1/-1/-1->6->5 [12] -1/-1/-1->6->5 [13] -1/-1/-1->6->5 [14] -1/-1/-1->6->5 [15] -1/-1/-1->6->5
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO P2P Chunksize set to 524288
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO comm 0x7fc5e8073880 rank 5 nRanks 7 nNodes 1 localRanks 7 localRank 5 MNNVL 0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO comm 0x7f2974072f90 rank 4 nRanks 7 nNodes 1 localRanks 7 localRank 4 MNNVL 0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO comm 0x7f1180073150 rank 3 nRanks 7 nNodes 1 localRanks 7 localRank 3 MNNVL 0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO comm 0x7eee740736c0 rank 2 nRanks 7 nNodes 1 localRanks 7 localRank 2 MNNVL 0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Trees [0] 5/-1/-1->4->3 [1] 5/-1/-1->4->3 [2] 5/-1/-1->4->3 [3] 5/-1/-1->4->3 [4] 5/-1/-1->4->3 [5] 5/-1/-1->4->3 [6] 5/-1/-1->4->3 [7] 5/-1/-1->4->3 [8] 5/-1/-1->4->3 [9] 5/-1/-1->4->3 [10] 5/-1/-1->4->3 [11] 5/-1/-1->4->3 [12] 5/-1/-1->4->3 [13] 5/-1/-1->4->3 [14] 5/-1/-1->4->3 [15] 5/-1/-1->4->3
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO P2P Chunksize set to 524288
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Trees [0] 4/-1/-1->3->2 [1] 4/-1/-1->3->2 [2] 4/-1/-1->3->2 [3] 4/-1/-1->3->2 [4] 4/-1/-1->3->2 [5] 4/-1/-1->3->2 [6] 4/-1/-1->3->2 [7] 4/-1/-1->3->2 [8] 4/-1/-1->3->2 [9] 4/-1/-1->3->2 [10] 4/-1/-1->3->2 [11] 4/-1/-1->3->2 [12] 4/-1/-1->3->2 [13] 4/-1/-1->3->2 [14] 4/-1/-1->3->2 [15] 4/-1/-1->3->2
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO P2P Chunksize set to 524288
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO comm 0x7fb7b80737c0 rank 0 nRanks 7 nNodes 1 localRanks 7 localRank 0 MNNVL 0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Trees [0] 3/-1/-1->2->1 [1] 3/-1/-1->2->1 [2] 3/-1/-1->2->1 [3] 3/-1/-1->2->1 [4] 3/-1/-1->2->1 [5] 3/-1/-1->2->1 [6] 3/-1/-1->2->1 [7] 3/-1/-1->2->1 [8] 3/-1/-1->2->1 [9] 3/-1/-1->2->1 [10] 3/-1/-1->2->1 [11] 3/-1/-1->2->1 [12] 3/-1/-1->2->1 [13] 3/-1/-1->2->1 [14] 3/-1/-1->2->1 [15] 3/-1/-1->2->1
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO P2P Chunksize set to 524288
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO comm 0x7f92b4073420 rank 1 nRanks 7 nNodes 1 localRanks 7 localRank 1 MNNVL 0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Trees [0] 6/-1/-1->5->4 [1] 6/-1/-1->5->4 [2] 6/-1/-1->5->4 [3] 6/-1/-1->5->4 [4] 6/-1/-1->5->4 [5] 6/-1/-1->5->4 [6] 6/-1/-1->5->4 [7] 6/-1/-1->5->4 [8] 6/-1/-1->5->4 [9] 6/-1/-1->5->4 [10] 6/-1/-1->5->4 [11] 6/-1/-1->5->4 [12] 6/-1/-1->5->4 [13] 6/-1/-1->5->4 [14] 6/-1/-1->5->4 [15] 6/-1/-1->5->4
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Channel 00/16 :    0   1   2   3   4   5   6
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO P2P Chunksize set to 524288
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Channel 01/16 :    0   1   2   3   4   5   6
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Channel 02/16 :    0   1   2   3   4   5   6
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Channel 03/16 :    0   1   2   3   4   5   6
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Channel 04/16 :    0   1   2   3   4   5   6
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Channel 05/16 :    0   1   2   3   4   5   6
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Channel 06/16 :    0   1   2   3   4   5   6
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Channel 07/16 :    0   1   2   3   4   5   6
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Channel 08/16 :    0   1   2   3   4   5   6
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Channel 09/16 :    0   1   2   3   4   5   6
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Trees [0] 2/-1/-1->1->0 [1] 2/-1/-1->1->0 [2] 2/-1/-1->1->0 [3] 2/-1/-1->1->0 [4] 2/-1/-1->1->0 [5] 2/-1/-1->1->0 [6] 2/-1/-1->1->0 [7] 2/-1/-1->1->0 [8] 2/-1/-1->1->0 [9] 2/-1/-1->1->0 [10] 2/-1/-1->1->0 [11] 2/-1/-1->1->0 [12] 2/-1/-1->1->0 [13] 2/-1/-1->1->0 [14] 2/-1/-1->1->0 [15] 2/-1/-1->1->0
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Channel 10/16 :    0   1   2   3   4   5   6
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO P2P Chunksize set to 524288
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Channel 11/16 :    0   1   2   3   4   5   6
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Channel 12/16 :    0   1   2   3   4   5   6
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Channel 13/16 :    0   1   2   3   4   5   6
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Channel 14/16 :    0   1   2   3   4   5   6
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Channel 15/16 :    0   1   2   3   4   5   6
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Trees [0] 1/-1/-1->0->-1 [1] 1/-1/-1->0->-1 [2] 1/-1/-1->0->-1 [3] 1/-1/-1->0->-1 [4] 1/-1/-1->0->-1 [5] 1/-1/-1->0->-1 [6] 1/-1/-1->0->-1 [7] 1/-1/-1->0->-1 [8] 1/-1/-1->0->-1 [9] 1/-1/-1->0->-1 [10] 1/-1/-1->0->-1 [11] 1/-1/-1->0->-1 [12] 1/-1/-1->0->-1 [13] 1/-1/-1->0->-1 [14] 1/-1/-1->0->-1 [15] 1/-1/-1->0->-1
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO P2P Chunksize set to 524288
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Channel 00/0 : 6[6] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Channel 01/0 : 6[6] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Channel 02/0 : 6[6] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Channel 00/0 : 2[2] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Channel 00/0 : 5[5] -> 6[6] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Channel 03/0 : 6[6] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Channel 00/0 : 4[4] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Channel 00/0 : 0[0] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Channel 00/0 : 1[1] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Channel 01/0 : 2[2] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Channel 04/0 : 6[6] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Channel 01/0 : 5[5] -> 6[6] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Channel 01/0 : 4[4] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Channel 01/0 : 0[0] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Channel 01/0 : 1[1] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Channel 02/0 : 2[2] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Channel 02/0 : 5[5] -> 6[6] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Channel 05/0 : 6[6] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Channel 02/0 : 4[4] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Channel 00/0 : 3[3] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Channel 02/0 : 0[0] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Channel 02/0 : 1[1] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Channel 03/0 : 2[2] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Channel 03/0 : 5[5] -> 6[6] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Channel 06/0 : 6[6] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Channel 03/0 : 4[4] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Channel 01/0 : 3[3] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Channel 03/0 : 0[0] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Channel 03/0 : 1[1] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Channel 04/0 : 2[2] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Channel 04/0 : 5[5] -> 6[6] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Channel 04/0 : 4[4] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Channel 07/0 : 6[6] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Channel 02/0 : 3[3] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Channel 04/0 : 0[0] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Channel 04/0 : 1[1] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Channel 05/0 : 2[2] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Channel 05/0 : 4[4] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Channel 05/0 : 5[5] -> 6[6] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Channel 08/0 : 6[6] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Channel 03/0 : 3[3] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Channel 05/0 : 0[0] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Channel 05/0 : 1[1] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Channel 06/0 : 2[2] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Channel 06/0 : 4[4] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Channel 06/0 : 5[5] -> 6[6] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Channel 09/0 : 6[6] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Channel 04/0 : 3[3] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Channel 06/0 : 0[0] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Channel 06/0 : 1[1] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Channel 07/0 : 2[2] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Channel 07/0 : 4[4] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Channel 10/0 : 6[6] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Channel 07/0 : 5[5] -> 6[6] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Channel 05/0 : 3[3] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Channel 07/0 : 0[0] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Channel 07/0 : 1[1] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Channel 08/0 : 2[2] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Channel 08/0 : 4[4] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Channel 11/0 : 6[6] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Channel 08/0 : 5[5] -> 6[6] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Channel 06/0 : 3[3] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Channel 08/0 : 0[0] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Channel 08/0 : 1[1] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Channel 09/0 : 2[2] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Channel 09/0 : 4[4] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Channel 12/0 : 6[6] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Channel 09/0 : 5[5] -> 6[6] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Channel 07/0 : 3[3] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Channel 09/0 : 0[0] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Channel 09/0 : 1[1] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Channel 10/0 : 2[2] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Channel 10/0 : 4[4] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Channel 13/0 : 6[6] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Channel 10/0 : 5[5] -> 6[6] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Channel 08/0 : 3[3] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Channel 10/0 : 0[0] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Channel 10/0 : 1[1] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Channel 11/0 : 2[2] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Channel 14/0 : 6[6] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Channel 11/0 : 4[4] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Channel 11/0 : 5[5] -> 6[6] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Channel 09/0 : 3[3] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Channel 11/0 : 0[0] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Channel 11/0 : 1[1] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Channel 12/0 : 2[2] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Channel 12/0 : 5[5] -> 6[6] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Channel 12/0 : 4[4] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Channel 10/0 : 3[3] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Channel 15/0 : 6[6] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Channel 12/0 : 0[0] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Channel 12/0 : 1[1] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Channel 13/0 : 2[2] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Channel 13/0 : 5[5] -> 6[6] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Channel 11/0 : 3[3] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Channel 13/0 : 4[4] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Channel 13/0 : 0[0] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Channel 13/0 : 1[1] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Channel 14/0 : 2[2] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Channel 14/0 : 5[5] -> 6[6] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Channel 12/0 : 3[3] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Channel 14/0 : 4[4] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Channel 14/0 : 0[0] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Channel 14/0 : 1[1] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Channel 13/0 : 3[3] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Channel 15/0 : 2[2] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Channel 15/0 : 5[5] -> 6[6] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Channel 15/0 : 4[4] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Channel 15/0 : 0[0] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Channel 15/0 : 1[1] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Channel 14/0 : 3[3] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Channel 15/0 : 3[3] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Connected all rings
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Channel 00/0 : 6[6] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Connected all rings
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Channel 01/0 : 6[6] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Connected all rings
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Connected all rings
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Channel 02/0 : 6[6] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Channel 03/0 : 6[6] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Channel 04/0 : 6[6] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Channel 05/0 : 6[6] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Channel 06/0 : 6[6] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Connected all rings
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Connected all rings
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Connected all rings
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Channel 07/0 : 6[6] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Channel 08/0 : 6[6] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Channel 09/0 : 6[6] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Channel 10/0 : 6[6] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Channel 11/0 : 6[6] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Channel 12/0 : 6[6] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Channel 13/0 : 6[6] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Channel 14/0 : 6[6] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Channel 15/0 : 6[6] -> 5[5] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Channel 00/0 : 4[4] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Channel 01/0 : 4[4] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Channel 02/0 : 4[4] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Channel 03/0 : 4[4] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Channel 00/0 : 5[5] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Channel 04/0 : 4[4] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Channel 01/0 : 5[5] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Channel 05/0 : 4[4] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Channel 02/0 : 5[5] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Channel 00/0 : 3[3] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Channel 06/0 : 4[4] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Channel 00/0 : 1[1] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Channel 00/0 : 2[2] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Channel 03/0 : 5[5] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Channel 07/0 : 4[4] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Channel 01/0 : 1[1] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Channel 01/0 : 2[2] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Channel 04/0 : 5[5] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Channel 01/0 : 3[3] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Channel 08/0 : 4[4] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Channel 05/0 : 5[5] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Channel 02/0 : 2[2] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Channel 02/0 : 1[1] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Channel 02/0 : 3[3] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Channel 06/0 : 5[5] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Channel 09/0 : 4[4] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Channel 03/0 : 2[2] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Channel 03/0 : 1[1] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Channel 03/0 : 3[3] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Channel 07/0 : 5[5] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Channel 10/0 : 4[4] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Channel 04/0 : 2[2] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Channel 04/0 : 1[1] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Channel 08/0 : 5[5] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Channel 05/0 : 2[2] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Channel 11/0 : 4[4] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Channel 05/0 : 1[1] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Channel 04/0 : 3[3] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Channel 09/0 : 5[5] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Channel 06/0 : 2[2] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Channel 12/0 : 4[4] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Channel 06/0 : 1[1] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Channel 05/0 : 3[3] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Channel 10/0 : 5[5] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Channel 07/0 : 1[1] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Channel 07/0 : 2[2] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Channel 13/0 : 4[4] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Channel 06/0 : 3[3] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Channel 14/0 : 4[4] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Channel 08/0 : 2[2] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Channel 11/0 : 5[5] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Channel 08/0 : 1[1] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Channel 15/0 : 4[4] -> 3[3] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Channel 09/0 : 2[2] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Channel 12/0 : 5[5] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Channel 09/0 : 1[1] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Channel 10/0 : 2[2] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Channel 13/0 : 5[5] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Channel 10/0 : 1[1] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Channel 07/0 : 3[3] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Channel 11/0 : 2[2] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Channel 11/0 : 1[1] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Channel 14/0 : 5[5] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Channel 08/0 : 3[3] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Channel 12/0 : 2[2] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Channel 15/0 : 5[5] -> 4[4] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Channel 12/0 : 1[1] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Channel 09/0 : 3[3] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Channel 13/0 : 2[2] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Channel 13/0 : 1[1] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Channel 10/0 : 3[3] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Channel 14/0 : 2[2] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Channel 14/0 : 1[1] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Channel 11/0 : 3[3] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Channel 15/0 : 2[2] -> 1[1] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Channel 15/0 : 1[1] -> 0[0] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Channel 12/0 : 3[3] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Channel 13/0 : 3[3] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Channel 14/0 : 3[3] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Channel 15/0 : 3[3] -> 2[2] via P2P/IPC/read
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO Connected all trees
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO threadThresholds 8/8/64 | 56/8/64 | 512 | 512
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO 16 coll channels, 16 collnet channels, 0 nvls channels, 16 p2p channels, 16 p2p channels per peer
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO Connected all trees
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO threadThresholds 8/8/64 | 56/8/64 | 512 | 512
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO 16 coll channels, 16 collnet channels, 0 nvls channels, 16 p2p channels, 16 p2p channels per peer
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO Connected all trees
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO Connected all trees
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO threadThresholds 8/8/64 | 56/8/64 | 512 | 512
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO 16 coll channels, 16 collnet channels, 0 nvls channels, 16 p2p channels, 16 p2p channels per peer
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO threadThresholds 8/8/64 | 56/8/64 | 512 | 512
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO 16 coll channels, 16 collnet channels, 0 nvls channels, 16 p2p channels, 16 p2p channels per peer
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO Connected all trees
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO threadThresholds 8/8/64 | 56/8/64 | 512 | 512
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO 16 coll channels, 16 collnet channels, 0 nvls channels, 16 p2p channels, 16 p2p channels per peer
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO Connected all trees
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO Connected all trees
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO threadThresholds 8/8/64 | 56/8/64 | 512 | 512
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO 16 coll channels, 16 collnet channels, 0 nvls channels, 16 p2p channels, 16 p2p channels per peer
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO threadThresholds 8/8/64 | 56/8/64 | 512 | 512
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO 16 coll channels, 16 collnet channels, 0 nvls channels, 16 p2p channels, 16 p2p channels per peer
+p-phy-ctyun-gz-a800-node-prod-200-117:3563490:3570433 [3] NCCL INFO ncclCommSplit comm 0x7f1180073150 rank 3 nranks 7 cudaDev 3 nvmlDev 3 busId 59000 parent 0x560eb401ff80 color -1326228412 key 3 commId 0xac66df4d0c450970 - Init COMPLETE
+p-phy-ctyun-gz-a800-node-prod-200-117:3563492:3570432 [5] NCCL INFO ncclCommSplit comm 0x7fc5e8073880 rank 5 nranks 7 cudaDev 5 nvmlDev 5 busId 92000 parent 0x55bc157b6dc0 color -1326228412 key 5 commId 0xac66df4d0c450970 - Init COMPLETE
+p-phy-ctyun-gz-a800-node-prod-200-117:3563488:3570431 [1] NCCL INFO ncclCommSplit comm 0x7f92b4073420 rank 1 nranks 7 cudaDev 1 nvmlDev 1 busId 2d000 parent 0x56340ae19f60 color -1326228412 key 1 commId 0xac66df4d0c450970 - Init COMPLETE
+p-phy-ctyun-gz-a800-node-prod-200-117:3563491:3570430 [4] NCCL INFO ncclCommSplit comm 0x7f2974072f90 rank 4 nranks 7 cudaDev 4 nvmlDev 4 busId 8d000 parent 0x56388b7bacf0 color -1326228412 key 4 commId 0xac66df4d0c450970 - Init COMPLETE
+p-phy-ctyun-gz-a800-node-prod-200-117:3563493:3570436 [6] NCCL INFO ncclCommSplit comm 0x7f6470073ea0 rank 6 nranks 7 cudaDev 6 nvmlDev 6 busId bf000 parent 0x55a8bb6a7b70 color -1326228412 key 6 commId 0xac66df4d0c450970 - Init COMPLETE
+p-phy-ctyun-gz-a800-node-prod-200-117:3563489:3570435 [2] NCCL INFO ncclCommSplit comm 0x7eee740736c0 rank 2 nranks 7 cudaDev 2 nvmlDev 2 busId 54000 parent 0x55c52abc5000 color -1326228412 key 2 commId 0xac66df4d0c450970 - Init COMPLETE
+p-phy-ctyun-gz-a800-node-prod-200-117:3563487:3570434 [0] NCCL INFO ncclCommSplit comm 0x7fb7b80737c0 rank 0 nranks 7 cudaDev 0 nvmlDev 0 busId 27000 parent 0x5587df75fb60 color -1326228412 key 0 commId 0xac66df4d0c450970 - Init COMPLETE
+  0%|          | 1/4286 [00:24<29:25:41, 24.72s/it]                                                   {'loss': 0.0, 'grad_norm': 1.0144413586032797, 'learning_rate': 9.997666822211853e-07, 'completion_length': 206.42858123779297, 'rewards/only_full_func_accuracy_reward': 0.18258929997682571, 'rewards/format_reward': 1.0, 'reward': 1.18258935213089, 'reward_std': 0.16100385785102844, 'kl': 0.0, 'epoch': 0.0}
+  0%|          | 1/4286 [00:24<29:25:41, 24.72s/it][2025-02-27 02:25:14,308] [WARNING] [stage3.py:2134:step] 1 pytorch allocator cache flushes since last step. this happens when there is high memory pressure and is detrimental to performance. if this is happening frequently consider adjusting settings to reduce memory consumption. If you are unable to make the cache flushes go away consider adding get_accelerator().empty_cache() calls in your training loop to ensure that all ranks flush their caches at the same time
+  0%|          | 2/4286 [00:41<24:10:13, 20.31s/it]                                                   {'loss': 0.0, 'grad_norm': 1.023604404031882, 'learning_rate': 9.995333644423704e-07, 'completion_length': 210.2321548461914, 'rewards/only_full_func_accuracy_reward': 0.2593750134110451, 'rewards/format_reward': 1.0, 'reward': 1.2593750357627869, 'reward_std': 0.20239490270614624, 'kl': 7.88271427154541e-06, 'epoch': 0.0}
+  0%|          | 2/4286 [00:41<24:10:13, 20.31s/it]  0%|          | 3/4286 [00:57<21:25:54, 18.01s/it]                                                   {'loss': 0.0, 'grad_norm': 2.7849484514795906, 'learning_rate': 9.993000466635557e-07, 'completion_length': 186.70536041259766, 'rewards/only_full_func_accuracy_reward': 0.12604166939854622, 'rewards/format_reward': 1.0, 'reward': 1.1260417699813843, 'reward_std': 0.15102849900722504, 'kl': 7.113814353942871e-05, 'epoch': 0.0}
+  0%|          | 3/4286 [00:57<21:25:54, 18.01s/it][2025-02-27 02:25:46,739] [WARNING] [stage3.py:2134:step] 1 pytorch allocator cache flushes since last step. this happens when there is high memory pressure and is detrimental to performance. if this is happening frequently consider adjusting settings to reduce memory consumption. If you are unable to make the cache flushes go away consider adding get_accelerator().empty_cache() calls in your training loop to ensure that all ranks flush their caches at the same time
+  0%|          | 4/4286 [01:14<21:01:17, 17.67s/it]                                                   {'loss': 0.0, 'grad_norm': 1.0813784326042792, 'learning_rate': 9.99066728884741e-07, 'completion_length': 209.25000762939453, 'rewards/only_full_func_accuracy_reward': 0.1116071455180645, 'rewards/format_reward': 1.0, 'reward': 1.1116072535514832, 'reward_std': 0.12662038579583168, 'kl': 3.594160079956055e-05, 'epoch': 0.0}
+  0%|          | 4/4286 [01:14<21:01:17, 17.67s/it]  0%|          | 5/4286 [01:29<19:47:25, 16.64s/it]                                                   {'loss': 0.0, 'grad_norm': 1.268557261678501, 'learning_rate': 9.988334111059262e-07, 'completion_length': 171.96429443359375, 'rewards/only_full_func_accuracy_reward': 0.1071428582072258, 'rewards/format_reward': 1.0, 'reward': 1.1071429252624512, 'reward_std': 0.10539142042398453, 'kl': 5.733966827392578e-05, 'epoch': 0.0}
+  0%|          | 5/4286 [01:29<19:47:25, 16.64s/it]  0%|          | 6/4286 [01:44<19:14:24, 16.18s/it]                                                   {'loss': 0.0, 'grad_norm': 0.7583893596599306, 'learning_rate': 9.986000933271115e-07, 'completion_length': 204.74108123779297, 'rewards/only_full_func_accuracy_reward': 0.16383930295705795, 'rewards/format_reward': 1.0, 'reward': 1.1638393998146057, 'reward_std': 0.17861958593130112, 'kl': 7.700920104980469e-05, 'epoch': 0.0}
+  0%|          | 6/4286 [01:44<19:14:24, 16.18s/it]  0%|          | 7/4286 [01:59<18:39:02, 15.69s/it]                                                   {'loss': 0.0, 'grad_norm': 0.9558335254027349, 'learning_rate': 9.983667755482968e-07, 'completion_length': 206.8303680419922, 'rewards/only_full_func_accuracy_reward': 0.14672620967030525, 'rewards/format_reward': 1.0, 'reward': 1.1467262506484985, 'reward_std': 0.18851245939731598, 'kl': 5.364418029785156e-05, 'epoch': 0.0}
+  0%|          | 7/4286 [01:59<18:39:02, 15.69s/it]  0%|          | 8/4286 [02:13<18:12:52, 15.33s/it]                                                   {'loss': 0.0, 'grad_norm': 1.1852780863563133, 'learning_rate': 9.98133457769482e-07, 'completion_length': 169.00000762939453, 'rewards/only_full_func_accuracy_reward': 0.2180059626698494, 'rewards/format_reward': 1.0, 'reward': 1.2180060744285583, 'reward_std': 0.21575968712568283, 'kl': 0.00010764598846435547, 'epoch': 0.0}
+  0%|          | 8/4286 [02:13<18:12:52, 15.33s/it]  0%|          | 9/4286 [02:30<18:42:37, 15.75s/it]                                                   {'loss': 0.0, 'grad_norm': 0.8921127327441106, 'learning_rate': 9.979001399906673e-07, 'completion_length': 223.62500762939453, 'rewards/only_full_func_accuracy_reward': 0.19479167461395264, 'rewards/format_reward': 1.0, 'reward': 1.1947917938232422, 'reward_std': 0.15135453641414642, 'kl': 0.00011348724365234375, 'epoch': 0.0}
+  0%|          | 9/4286 [02:30<18:42:37, 15.75s/it]  0%|          | 10/4286 [02:47<19:16:03, 16.22s/it]                                                    {'loss': 0.0, 'grad_norm': 1.7833982816002663, 'learning_rate': 9.976668222118526e-07, 'completion_length': 188.6964340209961, 'rewards/only_full_func_accuracy_reward': 0.101190485060215, 'rewards/format_reward': 1.0, 'reward': 1.1011905670166016, 'reward_std': 0.11726373806595802, 'kl': 0.000324249267578125, 'epoch': 0.0}
+  0%|          | 10/4286 [02:47<19:16:03, 16.22s/it]  0%|          | 11/4286 [03:02<18:45:17, 15.79s/it]                                                    {'loss': 0.0, 'grad_norm': 1.365700498683169, 'learning_rate': 9.974335044330377e-07, 'completion_length': 193.00000762939453, 'rewards/only_full_func_accuracy_reward': 0.2120535895228386, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.2031251192092896, 'reward_std': 0.19868914037942886, 'kl': 0.00029468536376953125, 'epoch': 0.0}
+  0%|          | 11/4286 [03:02<18:45:17, 15.79s/it]  0%|          | 12/4286 [03:17<18:22:56, 15.48s/it]                                                    {'loss': 0.0, 'grad_norm': 0.9061612209116076, 'learning_rate': 9.97200186654223e-07, 'completion_length': 194.42858123779297, 'rewards/only_full_func_accuracy_reward': 0.197916679084301, 'rewards/format_reward': 1.0, 'reward': 1.1979167461395264, 'reward_std': 0.16016878187656403, 'kl': 0.0006046295166015625, 'epoch': 0.0}
+  0%|          | 12/4286 [03:17<18:22:56, 15.48s/it]  0%|          | 13/4286 [03:35<19:31:15, 16.45s/it]                                                    {'loss': 0.0, 'grad_norm': 1.1232184980552653, 'learning_rate': 9.969668688754082e-07, 'completion_length': 209.83929443359375, 'rewards/only_full_func_accuracy_reward': 0.134226206690073, 'rewards/format_reward': 1.0, 'reward': 1.1342262625694275, 'reward_std': 0.14051882922649384, 'kl': 0.0006618499755859375, 'epoch': 0.0}
+  0%|          | 13/4286 [03:35<19:31:15, 16.45s/it]  0%|          | 14/4286 [03:53<19:54:04, 16.77s/it]                                                    {'loss': 0.0, 'grad_norm': 1.4381607410912474, 'learning_rate': 9.967335510965935e-07, 'completion_length': 220.3303680419922, 'rewards/only_full_func_accuracy_reward': 0.151041679084301, 'rewards/format_reward': 1.0, 'reward': 1.1510418057441711, 'reward_std': 0.16618045419454575, 'kl': 0.0008411407470703125, 'epoch': 0.0}
+  0%|          | 14/4286 [03:53<19:54:04, 16.77s/it]  0%|          | 15/4286 [04:08<19:27:23, 16.40s/it]                                                    {'loss': 0.0, 'grad_norm': 1.3298568117617091, 'learning_rate': 9.965002333177788e-07, 'completion_length': 191.36608123779297, 'rewards/only_full_func_accuracy_reward': 0.1748512014746666, 'rewards/format_reward': 1.0, 'reward': 1.1748512387275696, 'reward_std': 0.1527206227183342, 'kl': 0.00084686279296875, 'epoch': 0.0}
+  0%|          | 15/4286 [04:08<19:27:23, 16.40s/it]  0%|          | 16/4286 [04:23<18:52:35, 15.91s/it]                                                    {'loss': 0.0, 'grad_norm': 2.128854053272529, 'learning_rate': 9.96266915538964e-07, 'completion_length': 180.10714721679688, 'rewards/only_full_func_accuracy_reward': 0.2336309775710106, 'rewards/format_reward': 1.0, 'reward': 1.2336310148239136, 'reward_std': 0.17056988924741745, 'kl': 0.00080108642578125, 'epoch': 0.0}
+  0%|          | 16/4286 [04:23<18:52:35, 15.91s/it]  0%|          | 17/4286 [04:40<19:06:28, 16.11s/it]                                                    {'loss': 0.0001, 'grad_norm': 1.0268974925074714, 'learning_rate': 9.960335977601493e-07, 'completion_length': 187.11608123779297, 'rewards/only_full_func_accuracy_reward': 0.16785714775323868, 'rewards/format_reward': 1.0, 'reward': 1.1678572297096252, 'reward_std': 0.13726506382226944, 'kl': 0.001636505126953125, 'epoch': 0.0}
+  0%|          | 17/4286 [04:40<19:06:28, 16.11s/it]  0%|          | 18/4286 [04:56<19:02:30, 16.06s/it]                                                    {'loss': 0.0001, 'grad_norm': 1.2497912714447044, 'learning_rate': 9.958002799813346e-07, 'completion_length': 210.25894165039062, 'rewards/only_full_func_accuracy_reward': 0.23199406266212463, 'rewards/format_reward': 1.0, 'reward': 1.2319941520690918, 'reward_std': 0.22607308626174927, 'kl': 0.001392364501953125, 'epoch': 0.0}
+  0%|          | 18/4286 [04:56<19:02:30, 16.06s/it]  0%|          | 19/4286 [05:13<19:18:49, 16.29s/it]                                                    {'loss': 0.0001, 'grad_norm': 1.0502500326629243, 'learning_rate': 9.955669622025197e-07, 'completion_length': 218.59822845458984, 'rewards/only_full_func_accuracy_reward': 0.2190476357936859, 'rewards/format_reward': 1.0, 'reward': 1.219047725200653, 'reward_std': 0.1604296788573265, 'kl': 0.001300811767578125, 'epoch': 0.0}
+  0%|          | 19/4286 [05:13<19:18:49, 16.29s/it]  0%|          | 20/4286 [05:28<19:08:11, 16.15s/it]                                                    {'loss': 0.0001, 'grad_norm': 1.4266072369895615, 'learning_rate': 9.95333644423705e-07, 'completion_length': 174.21429443359375, 'rewards/only_full_func_accuracy_reward': 0.20297621190547943, 'rewards/format_reward': 1.0, 'reward': 1.2029762864112854, 'reward_std': 0.14021438360214233, 'kl': 0.001911163330078125, 'epoch': 0.0}
+  0%|          | 20/4286 [05:28<19:08:11, 16.15s/it]  0%|          | 21/4286 [05:47<19:48:53, 16.73s/it]                                                    {'loss': 0.0001, 'grad_norm': 6.835540316871739, 'learning_rate': 9.951003266448904e-07, 'completion_length': 221.9196548461914, 'rewards/only_full_func_accuracy_reward': 0.29330357909202576, 'rewards/format_reward': 1.0, 'reward': 1.293303668498993, 'reward_std': 0.25042764842510223, 'kl': 0.001552581787109375, 'epoch': 0.0}
+  0%|          | 21/4286 [05:47<19:48:53, 16.73s/it]  1%|          | 22/4286 [06:03<19:36:38, 16.56s/it]                                                    {'loss': 0.0002, 'grad_norm': 2.153646304930306, 'learning_rate': 9.948670088660755e-07, 'completion_length': 170.58929443359375, 'rewards/only_full_func_accuracy_reward': 0.2552083358168602, 'rewards/format_reward': 1.0, 'reward': 1.2552083730697632, 'reward_std': 0.1557900309562683, 'kl': 0.00402069091796875, 'epoch': 0.01}
+  1%|          | 22/4286 [06:03<19:36:38, 16.56s/it]  1%|          | 23/4286 [06:20<19:53:20, 16.80s/it]                                                    {'loss': 0.0001, 'grad_norm': 1.28857874557634, 'learning_rate': 9.946336910872608e-07, 'completion_length': 206.86608123779297, 'rewards/only_full_func_accuracy_reward': 0.25573982298374176, 'rewards/format_reward': 1.0, 'reward': 1.2557399272918701, 'reward_std': 0.2537636011838913, 'kl': 0.0023345947265625, 'epoch': 0.01}
+  1%|          | 23/4286 [06:20<19:53:20, 16.80s/it]  1%|          | 24/4286 [06:36<19:31:25, 16.49s/it]                                                    {'loss': 0.0001, 'grad_norm': 0.9196254619556294, 'learning_rate': 9.944003733084461e-07, 'completion_length': 215.36608123779297, 'rewards/only_full_func_accuracy_reward': 0.1510416716337204, 'rewards/format_reward': 1.0, 'reward': 1.1510416865348816, 'reward_std': 0.1374538391828537, 'kl': 0.0027313232421875, 'epoch': 0.01}
+  1%|          | 24/4286 [06:36<19:31:25, 16.49s/it]  1%|          | 25/4286 [06:52<19:29:25, 16.47s/it]                                                    {'loss': 0.0002, 'grad_norm': 3.1094796931657385, 'learning_rate': 9.941670555296313e-07, 'completion_length': 213.5803680419922, 'rewards/only_full_func_accuracy_reward': 0.26547621190547943, 'rewards/format_reward': 1.0, 'reward': 1.2654762864112854, 'reward_std': 0.17508608847856522, 'kl': 0.00390625, 'epoch': 0.01}
+  1%|          | 25/4286 [06:52<19:29:25, 16.47s/it]  1%|          | 26/4286 [07:07<18:58:47, 16.04s/it]                                                    {'loss': 0.0001, 'grad_norm': 1.5635940221389684, 'learning_rate': 9.939337377508166e-07, 'completion_length': 197.27679443359375, 'rewards/only_full_func_accuracy_reward': 0.3439980149269104, 'rewards/format_reward': 1.0, 'reward': 1.3439981341362, 'reward_std': 0.17008619755506516, 'kl': 0.00304412841796875, 'epoch': 0.01}
+  1%|          | 26/4286 [07:07<18:58:47, 16.04s/it]  1%|          | 27/4286 [07:22<18:36:40, 15.73s/it]                                                    {'loss': 0.0002, 'grad_norm': 0.6129888562273095, 'learning_rate': 9.93700419972002e-07, 'completion_length': 190.0089340209961, 'rewards/only_full_func_accuracy_reward': 0.17113097012043, 'rewards/format_reward': 1.0, 'reward': 1.1711310148239136, 'reward_std': 0.13630743324756622, 'kl': 0.0045623779296875, 'epoch': 0.01}
+  1%|          | 27/4286 [07:22<18:36:40, 15.73s/it]  1%|          | 28/4286 [07:37<18:11:54, 15.39s/it]                                                    {'loss': 0.0002, 'grad_norm': 1.7345279220946794, 'learning_rate': 9.93467102193187e-07, 'completion_length': 204.77679443359375, 'rewards/only_full_func_accuracy_reward': 0.2227678745985031, 'rewards/format_reward': 1.0, 'reward': 1.222767949104309, 'reward_std': 0.18091171234846115, 'kl': 0.005401611328125, 'epoch': 0.01}
+  1%|          | 28/4286 [07:37<18:11:54, 15.39s/it]  1%|          | 29/4286 [07:52<18:15:33, 15.44s/it]                                                    {'loss': 0.0002, 'grad_norm': 2.119875238628566, 'learning_rate': 9.932337844143724e-07, 'completion_length': 195.4464340209961, 'rewards/only_full_func_accuracy_reward': 0.24547195434570312, 'rewards/format_reward': 1.0, 'reward': 1.245472013950348, 'reward_std': 0.20064234733581543, 'kl': 0.006011962890625, 'epoch': 0.01}
+  1%|          | 29/4286 [07:52<18:15:33, 15.44s/it]  1%|          | 30/4286 [08:08<18:28:42, 15.63s/it]                                                    {'loss': 0.0002, 'grad_norm': 2.7329802437309674, 'learning_rate': 9.930004666355577e-07, 'completion_length': 222.8303680419922, 'rewards/only_full_func_accuracy_reward': 0.23779764026403427, 'rewards/format_reward': 1.0, 'reward': 1.2377976775169373, 'reward_std': 0.1644030138850212, 'kl': 0.00460052490234375, 'epoch': 0.01}
+  1%|          | 30/4286 [08:08<18:28:42, 15.63s/it]  1%|          | 31/4286 [08:25<18:51:51, 15.96s/it]                                                    {'loss': 0.0002, 'grad_norm': 1.9443605091094935, 'learning_rate': 9.927671488567428e-07, 'completion_length': 209.33929443359375, 'rewards/only_full_func_accuracy_reward': 0.23973214626312256, 'rewards/format_reward': 1.0, 'reward': 1.239732265472412, 'reward_std': 0.1579071320593357, 'kl': 0.0050506591796875, 'epoch': 0.01}
+  1%|          | 31/4286 [08:25<18:51:51, 15.96s/it]  1%|          | 32/4286 [08:41<18:45:13, 15.87s/it]                                                    {'loss': 0.0003, 'grad_norm': 2.273528487664769, 'learning_rate': 9.925338310779281e-07, 'completion_length': 222.75894165039062, 'rewards/only_full_func_accuracy_reward': 0.25238095596432686, 'rewards/format_reward': 1.0, 'reward': 1.2523810863494873, 'reward_std': 0.1599312424659729, 'kl': 0.0069122314453125, 'epoch': 0.01}
+  1%|          | 32/4286 [08:41<18:45:13, 15.87s/it]  1%|          | 33/4286 [08:58<19:01:59, 16.11s/it]                                                    {'loss': 0.0002, 'grad_norm': 0.9631214681726918, 'learning_rate': 9.923005132991135e-07, 'completion_length': 233.67858123779297, 'rewards/only_full_func_accuracy_reward': 0.34285715222358704, 'rewards/format_reward': 1.0, 'reward': 1.3428572416305542, 'reward_std': 0.20783491432666779, 'kl': 0.005035400390625, 'epoch': 0.01}
+  1%|          | 33/4286 [08:58<19:01:59, 16.11s/it]  1%|          | 34/4286 [09:15<19:32:17, 16.54s/it]                                                    {'loss': 0.0002, 'grad_norm': 0.8281622720277477, 'learning_rate': 9.920671955202986e-07, 'completion_length': 248.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.3251488506793976, 'rewards/format_reward': 1.0, 'reward': 1.3251488208770752, 'reward_std': 0.16568563878536224, 'kl': 0.006134033203125, 'epoch': 0.01}
+  1%|          | 34/4286 [09:15<19:32:17, 16.54s/it]  1%|          | 35/4286 [09:31<19:11:15, 16.25s/it]                                                    {'loss': 0.0002, 'grad_norm': 0.6412082684496802, 'learning_rate': 9.91833877741484e-07, 'completion_length': 236.8928680419922, 'rewards/only_full_func_accuracy_reward': 0.2711309492588043, 'rewards/format_reward': 1.0, 'reward': 1.2711310982704163, 'reward_std': 0.17258043587207794, 'kl': 0.0050048828125, 'epoch': 0.01}
+  1%|          | 35/4286 [09:31<19:11:15, 16.25s/it]  1%|          | 36/4286 [09:46<18:54:05, 16.01s/it]                                                    {'loss': 0.0002, 'grad_norm': 0.9661061659919364, 'learning_rate': 9.91600559962669e-07, 'completion_length': 214.68751525878906, 'rewards/only_full_func_accuracy_reward': 0.3031250163912773, 'rewards/format_reward': 1.0, 'reward': 1.3031252026557922, 'reward_std': 0.19019436836242676, 'kl': 0.005828857421875, 'epoch': 0.01}
+  1%|          | 36/4286 [09:46<18:54:05, 16.01s/it]  1%|          | 37/4286 [10:03<19:15:34, 16.32s/it]                                                    {'loss': 0.0003, 'grad_norm': 2.204406283378368, 'learning_rate': 9.913672421838543e-07, 'completion_length': 216.21429443359375, 'rewards/only_full_func_accuracy_reward': 0.2867559567093849, 'rewards/format_reward': 1.0, 'reward': 1.2867560386657715, 'reward_std': 0.20047641545534134, 'kl': 0.007080078125, 'epoch': 0.01}
+  1%|          | 37/4286 [10:03<19:15:34, 16.32s/it]  1%|          | 38/4286 [10:21<19:37:45, 16.63s/it]                                                    {'loss': 0.0003, 'grad_norm': 0.8988160601015988, 'learning_rate': 9.911339244050397e-07, 'completion_length': 247.05357360839844, 'rewards/only_full_func_accuracy_reward': 0.2772321552038193, 'rewards/format_reward': 1.0, 'reward': 1.2772322297096252, 'reward_std': 0.18964750319719315, 'kl': 0.007843017578125, 'epoch': 0.01}
+  1%|          | 38/4286 [10:21<19:37:45, 16.63s/it]  1%|          | 39/4286 [10:38<19:52:59, 16.85s/it]                                                    {'loss': 0.0003, 'grad_norm': 1.3076368950450032, 'learning_rate': 9.909006066262248e-07, 'completion_length': 218.11608123779297, 'rewards/only_full_func_accuracy_reward': 0.2656250149011612, 'rewards/format_reward': 1.0, 'reward': 1.2656251192092896, 'reward_std': 0.17810378223657608, 'kl': 0.0065155029296875, 'epoch': 0.01}
+  1%|          | 39/4286 [10:38<19:52:59, 16.85s/it]  1%|          | 40/4286 [10:55<20:03:37, 17.01s/it]                                                    {'loss': 0.0003, 'grad_norm': 0.6643430755593903, 'learning_rate': 9.906672888474101e-07, 'completion_length': 264.7053680419922, 'rewards/only_full_func_accuracy_reward': 0.19434525817632675, 'rewards/format_reward': 1.0, 'reward': 1.1943453550338745, 'reward_std': 0.1337333470582962, 'kl': 0.0069580078125, 'epoch': 0.01}
+  1%|          | 40/4286 [10:55<20:03:37, 17.01s/it]  1%|          | 41/4286 [11:12<19:49:52, 16.82s/it]                                                    {'loss': 0.0003, 'grad_norm': 0.971947524828981, 'learning_rate': 9.904339710685954e-07, 'completion_length': 228.11608123779297, 'rewards/only_full_func_accuracy_reward': 0.3517857640981674, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.342857301235199, 'reward_std': 0.20228920131921768, 'kl': 0.0082550048828125, 'epoch': 0.01}
+  1%|          | 41/4286 [11:12<19:49:52, 16.82s/it]  1%|          | 42/4286 [11:29<19:56:32, 16.92s/it]                                                    {'loss': 0.0004, 'grad_norm': 1.1149231662151589, 'learning_rate': 9.902006532897806e-07, 'completion_length': 238.8928680419922, 'rewards/only_full_func_accuracy_reward': 0.3730655014514923, 'rewards/format_reward': 1.0, 'reward': 1.3730655312538147, 'reward_std': 0.15029921382665634, 'kl': 0.009002685546875, 'epoch': 0.01}
+  1%|          | 42/4286 [11:29<19:56:32, 16.92s/it]  1%|          | 43/4286 [11:47<20:32:29, 17.43s/it]                                                    {'loss': 0.0003, 'grad_norm': 0.7979701911661552, 'learning_rate': 9.899673355109659e-07, 'completion_length': 268.0982208251953, 'rewards/only_full_func_accuracy_reward': 0.26660290360450745, 'rewards/format_reward': 1.0, 'reward': 1.2666029334068298, 'reward_std': 0.19993995130062103, 'kl': 0.0073699951171875, 'epoch': 0.01}
+  1%|          | 43/4286 [11:47<20:32:29, 17.43s/it]  1%|          | 44/4286 [12:05<20:29:31, 17.39s/it]                                                    {'loss': 0.0004, 'grad_norm': 1.7985532508596493, 'learning_rate': 9.897340177321512e-07, 'completion_length': 224.5803680419922, 'rewards/only_full_func_accuracy_reward': 0.252728208899498, 'rewards/format_reward': 1.0, 'reward': 1.2527282238006592, 'reward_std': 0.17881906032562256, 'kl': 0.009246826171875, 'epoch': 0.01}
+  1%|          | 44/4286 [12:05<20:29:31, 17.39s/it]  1%|          | 45/4286 [12:23<20:52:17, 17.72s/it]                                                    {'loss': 0.0003, 'grad_norm': 0.7238166363668816, 'learning_rate': 9.895006999533363e-07, 'completion_length': 279.7143096923828, 'rewards/only_full_func_accuracy_reward': 0.27916666865348816, 'rewards/format_reward': 1.0, 'reward': 1.2791667580604553, 'reward_std': 0.17543110996484756, 'kl': 0.008056640625, 'epoch': 0.01}
+  1%|          | 45/4286 [12:23<20:52:17, 17.72s/it]  1%|          | 46/4286 [12:40<20:35:30, 17.48s/it]                                                    {'loss': 0.0004, 'grad_norm': 0.7460866605520509, 'learning_rate': 9.892673821745217e-07, 'completion_length': 262.3482208251953, 'rewards/only_full_func_accuracy_reward': 0.2767857313156128, 'rewards/format_reward': 1.0, 'reward': 1.2767857909202576, 'reward_std': 0.18941666930913925, 'kl': 0.0109100341796875, 'epoch': 0.01}
+  1%|          | 46/4286 [12:40<20:35:30, 17.48s/it]  1%|          | 47/4286 [12:57<20:32:03, 17.44s/it]                                                    {'loss': 0.0004, 'grad_norm': 0.8077910370578044, 'learning_rate': 9.89034064395707e-07, 'completion_length': 261.4464416503906, 'rewards/only_full_func_accuracy_reward': 0.24345239996910095, 'rewards/format_reward': 1.0, 'reward': 1.2434524297714233, 'reward_std': 0.13252854347229004, 'kl': 0.009124755859375, 'epoch': 0.01}
+  1%|          | 47/4286 [12:57<20:32:03, 17.44s/it]  1%|          | 48/4286 [13:15<20:32:14, 17.45s/it]                                                    {'loss': 0.0004, 'grad_norm': 1.6063156912449486, 'learning_rate': 9.88800746616892e-07, 'completion_length': 244.31251525878906, 'rewards/only_full_func_accuracy_reward': 0.3263393044471741, 'rewards/format_reward': 1.0, 'reward': 1.3263393640518188, 'reward_std': 0.20574289560317993, 'kl': 0.009735107421875, 'epoch': 0.01}
+  1%|          | 48/4286 [13:15<20:32:14, 17.45s/it]  1%|          | 49/4286 [13:32<20:34:20, 17.48s/it]                                                    {'loss': 0.0003, 'grad_norm': 1.395772935961583, 'learning_rate': 9.885674288380774e-07, 'completion_length': 263.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.4358631372451782, 'rewards/format_reward': 1.0, 'reward': 1.4358632564544678, 'reward_std': 0.22506208717823029, 'kl': 0.0082855224609375, 'epoch': 0.01}
+  1%|          | 49/4286 [13:32<20:34:20, 17.48s/it]  1%|          | 50/4286 [13:50<20:24:45, 17.35s/it]                                                    {'loss': 0.0004, 'grad_norm': 0.6917889718056729, 'learning_rate': 9.883341110592628e-07, 'completion_length': 260.2768020629883, 'rewards/only_full_func_accuracy_reward': 0.31483136117458344, 'rewards/format_reward': 1.0, 'reward': 1.3148313760757446, 'reward_std': 0.14697355777025223, 'kl': 0.0094757080078125, 'epoch': 0.01}
+  1%|          | 50/4286 [13:50<20:24:45, 17.35s/it]  1%|          | 51/4286 [14:08<20:43:03, 17.61s/it]                                                    {'loss': 0.0004, 'grad_norm': 1.0907387589687645, 'learning_rate': 9.881007932804479e-07, 'completion_length': 276.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.31711311638355255, 'rewards/format_reward': 1.0, 'reward': 1.3171131610870361, 'reward_std': 0.1969752013683319, 'kl': 0.0103759765625, 'epoch': 0.01}
+  1%|          | 51/4286 [14:08<20:43:03, 17.61s/it]  1%|          | 52/4286 [14:24<20:21:11, 17.31s/it]                                                    {'loss': 0.0004, 'grad_norm': 0.8755558520205109, 'learning_rate': 9.878674755016332e-07, 'completion_length': 247.76787567138672, 'rewards/only_full_func_accuracy_reward': 0.3772321492433548, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.3683037161827087, 'reward_std': 0.22730404138565063, 'kl': 0.0111083984375, 'epoch': 0.01}
+  1%|          | 52/4286 [14:24<20:21:11, 17.31s/it]  1%|          | 53/4286 [14:44<21:03:23, 17.91s/it]                                                    {'loss': 0.0004, 'grad_norm': 0.6349303500741025, 'learning_rate': 9.876341577228185e-07, 'completion_length': 278.02679443359375, 'rewards/only_full_func_accuracy_reward': 0.3017857223749161, 'rewards/format_reward': 1.0, 'reward': 1.3017857670783997, 'reward_std': 0.1968032270669937, 'kl': 0.009063720703125, 'epoch': 0.01}
+  1%|          | 53/4286 [14:44<21:03:23, 17.91s/it]  1%|▏         | 54/4286 [15:01<20:47:31, 17.69s/it]                                                    {'loss': 0.0003, 'grad_norm': 2.986262888274828, 'learning_rate': 9.874008399440036e-07, 'completion_length': 260.5714340209961, 'rewards/only_full_func_accuracy_reward': 0.40119047462940216, 'rewards/format_reward': 1.0, 'reward': 1.4011905193328857, 'reward_std': 0.1867113932967186, 'kl': 0.0077056884765625, 'epoch': 0.01}
+  1%|▏         | 54/4286 [15:01<20:47:31, 17.69s/it]  1%|▏         | 55/4286 [15:19<21:01:14, 17.89s/it]                                                    {'loss': 0.0004, 'grad_norm': 0.6480118091374047, 'learning_rate': 9.87167522165189e-07, 'completion_length': 289.8660888671875, 'rewards/only_full_func_accuracy_reward': 0.3172619193792343, 'rewards/format_reward': 1.0, 'reward': 1.3172619938850403, 'reward_std': 0.1810372844338417, 'kl': 0.009368896484375, 'epoch': 0.01}
+  1%|▏         | 55/4286 [15:19<21:01:14, 17.89s/it]  1%|▏         | 56/4286 [15:36<20:40:57, 17.60s/it]                                                    {'loss': 0.0005, 'grad_norm': 2.290133871441709, 'learning_rate': 9.869342043863743e-07, 'completion_length': 262.43751525878906, 'rewards/only_full_func_accuracy_reward': 0.3047831803560257, 'rewards/format_reward': 1.0, 'reward': 1.304783284664154, 'reward_std': 0.19556573778390884, 'kl': 0.012847900390625, 'epoch': 0.01}
+  1%|▏         | 56/4286 [15:36<20:40:57, 17.60s/it]  1%|▏         | 57/4286 [15:54<20:46:27, 17.68s/it]                                                    {'loss': 0.0004, 'grad_norm': 1.0906281991864244, 'learning_rate': 9.867008866075594e-07, 'completion_length': 264.1696548461914, 'rewards/only_full_func_accuracy_reward': 0.3730655163526535, 'rewards/format_reward': 1.0, 'reward': 1.3730655312538147, 'reward_std': 0.14654473960399628, 'kl': 0.009857177734375, 'epoch': 0.01}
+  1%|▏         | 57/4286 [15:54<20:46:27, 17.68s/it]  1%|▏         | 58/4286 [16:13<21:04:48, 17.95s/it]                                                    {'loss': 0.0005, 'grad_norm': 1.1704794334401547, 'learning_rate': 9.864675688287447e-07, 'completion_length': 308.3571472167969, 'rewards/only_full_func_accuracy_reward': 0.29627976566553116, 'rewards/format_reward': 1.0, 'reward': 1.2962798476219177, 'reward_std': 0.18004895001649857, 'kl': 0.01226806640625, 'epoch': 0.01}
+  1%|▏         | 58/4286 [16:13<21:04:48, 17.95s/it]  1%|▏         | 59/4286 [16:30<20:51:30, 17.76s/it]                                                    {'loss': 0.0005, 'grad_norm': 0.8958097473435435, 'learning_rate': 9.862342510499299e-07, 'completion_length': 240.00000762939453, 'rewards/only_full_func_accuracy_reward': 0.4404762238264084, 'rewards/format_reward': 1.0, 'reward': 1.4404762983322144, 'reward_std': 0.15735027194023132, 'kl': 0.011627197265625, 'epoch': 0.01}
+  1%|▏         | 59/4286 [16:30<20:51:30, 17.76s/it]  1%|▏         | 60/4286 [16:48<20:53:03, 17.79s/it]                                                    {'loss': 0.0004, 'grad_norm': 0.713348592089957, 'learning_rate': 9.860009332711152e-07, 'completion_length': 308.25001525878906, 'rewards/only_full_func_accuracy_reward': 0.35848215222358704, 'rewards/format_reward': 1.0, 'reward': 1.3584822416305542, 'reward_std': 0.1620292365550995, 'kl': 0.01025390625, 'epoch': 0.01}
+  1%|▏         | 60/4286 [16:48<20:53:03, 17.79s/it]  1%|▏         | 61/4286 [17:07<21:19:26, 18.17s/it]                                                    {'loss': 0.0005, 'grad_norm': 1.0037718272968823, 'learning_rate': 9.857676154923005e-07, 'completion_length': 312.4553680419922, 'rewards/only_full_func_accuracy_reward': 0.40799853205680847, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.3990699648857117, 'reward_std': 0.1903720647096634, 'kl': 0.012298583984375, 'epoch': 0.01}
+  1%|▏         | 61/4286 [17:07<21:19:26, 18.17s/it]  1%|▏         | 62/4286 [17:26<21:46:06, 18.55s/it]                                                    {'loss': 0.0006, 'grad_norm': 1.725247285572222, 'learning_rate': 9.855342977134856e-07, 'completion_length': 300.95538330078125, 'rewards/only_full_func_accuracy_reward': 0.3616071492433548, 'rewards/format_reward': 1.0, 'reward': 1.3616072535514832, 'reward_std': 0.20620116591453552, 'kl': 0.014434814453125, 'epoch': 0.01}
+  1%|▏         | 62/4286 [17:26<21:46:06, 18.55s/it]  1%|▏         | 63/4286 [17:46<22:18:49, 19.02s/it]                                                    {'loss': 0.0004, 'grad_norm': 0.6160528364743607, 'learning_rate': 9.85300979934671e-07, 'completion_length': 302.6160888671875, 'rewards/only_full_func_accuracy_reward': 0.4035714417695999, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.3946428894996643, 'reward_std': 0.21948576718568802, 'kl': 0.01123046875, 'epoch': 0.01}
+  1%|▏         | 63/4286 [17:46<22:18:49, 19.02s/it]  1%|▏         | 64/4286 [18:04<21:50:17, 18.62s/it]                                                    {'loss': 0.0006, 'grad_norm': 1.007436896588911, 'learning_rate': 9.850676621558563e-07, 'completion_length': 276.7143020629883, 'rewards/only_full_func_accuracy_reward': 0.3891369253396988, 'rewards/format_reward': 1.0, 'reward': 1.3891370296478271, 'reward_std': 0.17793632298707962, 'kl': 0.014495849609375, 'epoch': 0.01}
+  1%|▏         | 64/4286 [18:04<21:50:17, 18.62s/it]  2%|▏         | 65/4286 [18:22<21:40:01, 18.48s/it]                                                    {'loss': 0.0006, 'grad_norm': 1.0070919514247725, 'learning_rate': 9.848343443770414e-07, 'completion_length': 319.1428680419922, 'rewards/only_full_func_accuracy_reward': 0.40669645369052887, 'rewards/format_reward': 1.0, 'reward': 1.4066964983940125, 'reward_std': 0.22069042921066284, 'kl': 0.0155029296875, 'epoch': 0.02}
+  2%|▏         | 65/4286 [18:22<21:40:01, 18.48s/it]  2%|▏         | 66/4286 [18:42<21:58:10, 18.74s/it]                                                    {'loss': 0.0005, 'grad_norm': 1.3667102645734464, 'learning_rate': 9.846010265982267e-07, 'completion_length': 291.75001525878906, 'rewards/only_full_func_accuracy_reward': 0.5409226566553116, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.531994104385376, 'reward_std': 0.24188100546598434, 'kl': 0.01263427734375, 'epoch': 0.02}
+  2%|▏         | 66/4286 [18:42<21:58:10, 18.74s/it]  2%|▏         | 67/4286 [18:59<21:34:07, 18.40s/it]                                                    {'loss': 0.0005, 'grad_norm': 0.7547734792861432, 'learning_rate': 9.84367708819412e-07, 'completion_length': 314.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.47559525072574615, 'rewards/format_reward': 1.0, 'reward': 1.4755953550338745, 'reward_std': 0.19160479307174683, 'kl': 0.0126953125, 'epoch': 0.02}
+  2%|▏         | 67/4286 [18:59<21:34:07, 18.40s/it]  2%|▏         | 68/4286 [19:19<21:59:12, 18.77s/it]                                                    {'loss': 0.0007, 'grad_norm': 2.2138172254993127, 'learning_rate': 9.841343910405972e-07, 'completion_length': 319.2857208251953, 'rewards/only_full_func_accuracy_reward': 0.2755456417798996, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.257688581943512, 'reward_std': 0.16510600596666336, 'kl': 0.01806640625, 'epoch': 0.02}
+  2%|▏         | 68/4286 [19:19<21:59:12, 18.77s/it]  2%|▏         | 69/4286 [19:38<22:05:49, 18.86s/it]                                                    {'loss': 0.0004, 'grad_norm': 0.9582815814221604, 'learning_rate': 9.839010732617825e-07, 'completion_length': 328.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.410565510392189, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.392708420753479, 'reward_std': 0.23184340447187424, 'kl': 0.009490966796875, 'epoch': 0.02}
+  2%|▏         | 69/4286 [19:38<22:05:49, 18.86s/it]  2%|▏         | 70/4286 [19:58<22:39:10, 19.34s/it]                                                    {'loss': 0.0005, 'grad_norm': 0.9949027470693228, 'learning_rate': 9.836677554829678e-07, 'completion_length': 328.33929443359375, 'rewards/only_full_func_accuracy_reward': 0.3188988268375397, 'rewards/format_reward': 1.0, 'reward': 1.3188989758491516, 'reward_std': 0.14261705055832863, 'kl': 0.013031005859375, 'epoch': 0.02}
+  2%|▏         | 70/4286 [19:58<22:39:10, 19.34s/it]  2%|▏         | 71/4286 [20:18<22:35:42, 19.30s/it]                                                    {'loss': 0.0005, 'grad_norm': 0.9968272625457275, 'learning_rate': 9.83434437704153e-07, 'completion_length': 334.61607360839844, 'rewards/only_full_func_accuracy_reward': 0.47198130190372467, 'rewards/format_reward': 1.0, 'reward': 1.471981406211853, 'reward_std': 0.1722952499985695, 'kl': 0.011871337890625, 'epoch': 0.02}
+  2%|▏         | 71/4286 [20:18<22:35:42, 19.30s/it]  2%|▏         | 72/4286 [20:36<22:26:18, 19.17s/it]                                                    {'loss': 0.0005, 'grad_norm': 1.25507967744655, 'learning_rate': 9.832011199253383e-07, 'completion_length': 340.8839416503906, 'rewards/only_full_func_accuracy_reward': 0.3968750238418579, 'rewards/format_reward': 1.0, 'reward': 1.3968750834465027, 'reward_std': 0.15228352695703506, 'kl': 0.011962890625, 'epoch': 0.02}
+  2%|▏         | 72/4286 [20:36<22:26:18, 19.17s/it]  2%|▏         | 73/4286 [20:56<22:44:23, 19.43s/it]                                                    {'loss': 0.0005, 'grad_norm': 0.532331921458536, 'learning_rate': 9.829678021465236e-07, 'completion_length': 342.58038330078125, 'rewards/only_full_func_accuracy_reward': 0.3700893074274063, 'rewards/format_reward': 1.0, 'reward': 1.37008935213089, 'reward_std': 0.1970207393169403, 'kl': 0.0130615234375, 'epoch': 0.02}
+  2%|▏         | 73/4286 [20:56<22:44:23, 19.43s/it]  2%|▏         | 74/4286 [21:15<22:32:51, 19.27s/it]                                                    {'loss': 0.0005, 'grad_norm': 1.362724786345675, 'learning_rate': 9.827344843677087e-07, 'completion_length': 336.20538330078125, 'rewards/only_full_func_accuracy_reward': 0.45018602907657623, 'rewards/format_reward': 1.0, 'reward': 1.4501861333847046, 'reward_std': 0.1910906732082367, 'kl': 0.012664794921875, 'epoch': 0.02}
+  2%|▏         | 74/4286 [21:15<22:32:51, 19.27s/it]  2%|▏         | 75/4286 [21:35<22:46:18, 19.47s/it]                                                    {'loss': 0.0005, 'grad_norm': 0.9311412146711834, 'learning_rate': 9.82501166588894e-07, 'completion_length': 372.3839416503906, 'rewards/only_full_func_accuracy_reward': 0.3738095462322235, 'rewards/format_reward': 1.0, 'reward': 1.3738096356391907, 'reward_std': 0.20064100623130798, 'kl': 0.013519287109375, 'epoch': 0.02}
+  2%|▏         | 75/4286 [21:35<22:46:18, 19.47s/it]  2%|▏         | 76/4286 [21:55<22:48:32, 19.50s/it]                                                    {'loss': 0.0005, 'grad_norm': 0.538342948858446, 'learning_rate': 9.822678488100794e-07, 'completion_length': 348.2857360839844, 'rewards/only_full_func_accuracy_reward': 0.344866082072258, 'rewards/format_reward': 1.0, 'reward': 1.3448662161827087, 'reward_std': 0.14301149547100067, 'kl': 0.012542724609375, 'epoch': 0.02}
+  2%|▏         | 76/4286 [21:55<22:48:32, 19.50s/it]  2%|▏         | 77/4286 [22:15<22:54:51, 19.60s/it]                                                    {'loss': 0.0006, 'grad_norm': 0.5249625751065203, 'learning_rate': 9.820345310312645e-07, 'completion_length': 345.0982208251953, 'rewards/only_full_func_accuracy_reward': 0.4599206745624542, 'rewards/format_reward': 1.0, 'reward': 1.4599207043647766, 'reward_std': 0.17064713686704636, 'kl': 0.014892578125, 'epoch': 0.02}
+  2%|▏         | 77/4286 [22:15<22:54:51, 19.60s/it]  2%|▏         | 78/4286 [22:33<22:36:38, 19.34s/it]                                                    {'loss': 0.0005, 'grad_norm': 0.49857525176214434, 'learning_rate': 9.818012132524498e-07, 'completion_length': 336.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.48601192235946655, 'rewards/format_reward': 1.0, 'reward': 1.4860119819641113, 'reward_std': 0.17480700463056564, 'kl': 0.013275146484375, 'epoch': 0.02}
+  2%|▏         | 78/4286 [22:33<22:36:38, 19.34s/it]  2%|▏         | 79/4286 [22:53<22:36:08, 19.34s/it]                                                    {'loss': 0.0006, 'grad_norm': 0.9761847437509834, 'learning_rate': 9.815678954736352e-07, 'completion_length': 338.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.33720239996910095, 'rewards/format_reward': 1.0, 'reward': 1.3372024893760681, 'reward_std': 0.18349876254796982, 'kl': 0.014312744140625, 'epoch': 0.02}
+  2%|▏         | 79/4286 [22:53<22:36:08, 19.34s/it]  2%|▏         | 80/4286 [23:12<22:25:59, 19.20s/it]                                                    {'loss': 0.0006, 'grad_norm': 1.3152161658292498, 'learning_rate': 9.813345776948203e-07, 'completion_length': 318.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.3828125149011612, 'rewards/format_reward': 1.0, 'reward': 1.3828126192092896, 'reward_std': 0.14014959335327148, 'kl': 0.01422119140625, 'epoch': 0.02}
+  2%|▏         | 80/4286 [23:12<22:25:59, 19.20s/it]  2%|▏         | 81/4286 [23:31<22:19:30, 19.11s/it]                                                    {'loss': 0.0005, 'grad_norm': 0.5081519619959016, 'learning_rate': 9.811012599160056e-07, 'completion_length': 337.7053680419922, 'rewards/only_full_func_accuracy_reward': 0.5193453133106232, 'rewards/format_reward': 1.0, 'reward': 1.5193453431129456, 'reward_std': 0.20263095945119858, 'kl': 0.013336181640625, 'epoch': 0.02}
+  2%|▏         | 81/4286 [23:31<22:19:30, 19.11s/it]  2%|▏         | 82/4286 [23:50<22:19:52, 19.12s/it]                                                    {'loss': 0.0006, 'grad_norm': 0.6461787657038494, 'learning_rate': 9.808679421371907e-07, 'completion_length': 306.0178680419922, 'rewards/only_full_func_accuracy_reward': 0.40639883279800415, 'rewards/format_reward': 1.0, 'reward': 1.4063989520072937, 'reward_std': 0.18310334533452988, 'kl': 0.014068603515625, 'epoch': 0.02}
+  2%|▏         | 82/4286 [23:50<22:19:52, 19.12s/it]  2%|▏         | 83/4286 [24:09<22:17:39, 19.10s/it]                                                    {'loss': 0.0006, 'grad_norm': 0.5557520534195622, 'learning_rate': 9.80634624358376e-07, 'completion_length': 346.3125305175781, 'rewards/only_full_func_accuracy_reward': 0.4270089417695999, 'rewards/format_reward': 1.0, 'reward': 1.4270090460777283, 'reward_std': 0.18678296357393265, 'kl': 0.014007568359375, 'epoch': 0.02}
+  2%|▏         | 83/4286 [24:09<22:17:39, 19.10s/it]  2%|▏         | 84/4286 [24:28<22:26:47, 19.23s/it]                                                    {'loss': 0.0005, 'grad_norm': 0.8674749287238537, 'learning_rate': 9.804013065795614e-07, 'completion_length': 341.0893096923828, 'rewards/only_full_func_accuracy_reward': 0.3363839387893677, 'rewards/format_reward': 1.0, 'reward': 1.3363839983940125, 'reward_std': 0.15156744420528412, 'kl': 0.013671875, 'epoch': 0.02}
+  2%|▏         | 84/4286 [24:28<22:26:47, 19.23s/it]  2%|▏         | 85/4286 [24:45<21:43:55, 18.62s/it]                                                    {'loss': 0.0005, 'grad_norm': 0.8957206693763586, 'learning_rate': 9.801679888007465e-07, 'completion_length': 298.8035888671875, 'rewards/only_full_func_accuracy_reward': 0.41562503576278687, 'rewards/format_reward': 1.0, 'reward': 1.4156251549720764, 'reward_std': 0.1805182248353958, 'kl': 0.01324462890625, 'epoch': 0.02}
+  2%|▏         | 85/4286 [24:45<21:43:55, 18.62s/it]  2%|▏         | 86/4286 [25:04<21:32:20, 18.46s/it]                                                    {'loss': 0.0006, 'grad_norm': 0.5214063044534896, 'learning_rate': 9.799346710219318e-07, 'completion_length': 324.7232360839844, 'rewards/only_full_func_accuracy_reward': 0.4836309850215912, 'rewards/format_reward': 1.0, 'reward': 1.4836310744285583, 'reward_std': 0.15815777331590652, 'kl': 0.01409912109375, 'epoch': 0.02}
+  2%|▏         | 86/4286 [25:04<21:32:20, 18.46s/it]  2%|▏         | 87/4286 [25:23<22:00:32, 18.87s/it]                                                    {'loss': 0.0005, 'grad_norm': 0.6415203788407066, 'learning_rate': 9.797013532431171e-07, 'completion_length': 346.33038330078125, 'rewards/only_full_func_accuracy_reward': 0.3566964566707611, 'rewards/format_reward': 1.0, 'reward': 1.356696605682373, 'reward_std': 0.16474320366978645, 'kl': 0.013519287109375, 'epoch': 0.02}
+  2%|▏         | 87/4286 [25:23<22:00:32, 18.87s/it]  2%|▏         | 88/4286 [25:42<21:48:43, 18.71s/it]                                                    {'loss': 0.0006, 'grad_norm': 0.8018596568492204, 'learning_rate': 9.794680354643023e-07, 'completion_length': 335.05357360839844, 'rewards/only_full_func_accuracy_reward': 0.42566968500614166, 'rewards/format_reward': 1.0, 'reward': 1.4256697297096252, 'reward_std': 0.16921702027320862, 'kl': 0.01617431640625, 'epoch': 0.02}
+  2%|▏         | 88/4286 [25:42<21:48:43, 18.71s/it]  2%|▏         | 89/4286 [26:00<21:40:29, 18.59s/it]                                                    {'loss': 0.0006, 'grad_norm': 0.7739120027599545, 'learning_rate': 9.792347176854876e-07, 'completion_length': 302.6428680419922, 'rewards/only_full_func_accuracy_reward': 0.3909226506948471, 'rewards/format_reward': 1.0, 'reward': 1.3909226655960083, 'reward_std': 0.17274565249681473, 'kl': 0.01531982421875, 'epoch': 0.02}
+  2%|▏         | 89/4286 [26:00<21:40:29, 18.59s/it]  2%|▏         | 90/4286 [26:18<21:17:34, 18.27s/it]                                                    {'loss': 0.0006, 'grad_norm': 3.581808531809361, 'learning_rate': 9.79001399906673e-07, 'completion_length': 265.1071548461914, 'rewards/only_full_func_accuracy_reward': 0.4430803954601288, 'rewards/format_reward': 1.0, 'reward': 1.4430804252624512, 'reward_std': 0.15349767357110977, 'kl': 0.014129638671875, 'epoch': 0.02}
+  2%|▏         | 90/4286 [26:18<21:17:34, 18.27s/it]  2%|▏         | 91/4286 [26:37<21:34:33, 18.52s/it]                                                    {'loss': 0.0006, 'grad_norm': 0.7202948073169608, 'learning_rate': 9.78768082127858e-07, 'completion_length': 323.58929443359375, 'rewards/only_full_func_accuracy_reward': 0.3043154925107956, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.286458432674408, 'reward_std': 0.168036587536335, 'kl': 0.01507568359375, 'epoch': 0.02}
+  2%|▏         | 91/4286 [26:37<21:34:33, 18.52s/it]  2%|▏         | 92/4286 [26:55<21:37:33, 18.56s/it]                                                    {'loss': 0.0007, 'grad_norm': 0.638502037931966, 'learning_rate': 9.785347643490434e-07, 'completion_length': 330.9553680419922, 'rewards/only_full_func_accuracy_reward': 0.556398868560791, 'rewards/format_reward': 1.0, 'reward': 1.5563989281654358, 'reward_std': 0.18430498987436295, 'kl': 0.017120361328125, 'epoch': 0.02}
+  2%|▏         | 92/4286 [26:55<21:37:33, 18.56s/it]  2%|▏         | 93/4286 [27:13<21:19:42, 18.31s/it]                                                    {'loss': 0.0006, 'grad_norm': 3.2682225925085935, 'learning_rate': 9.783014465702287e-07, 'completion_length': 285.2768096923828, 'rewards/only_full_func_accuracy_reward': 0.47142860293388367, 'rewards/format_reward': 1.0, 'reward': 1.471428632736206, 'reward_std': 0.23966842144727707, 'kl': 0.014068603515625, 'epoch': 0.02}
+  2%|▏         | 93/4286 [27:13<21:19:42, 18.31s/it]  2%|▏         | 94/4286 [27:30<21:00:10, 18.04s/it]                                                    {'loss': 0.0007, 'grad_norm': 1.1865807582135328, 'learning_rate': 9.780681287914138e-07, 'completion_length': 301.15179443359375, 'rewards/only_full_func_accuracy_reward': 0.5473214685916901, 'rewards/format_reward': 1.0, 'reward': 1.5473215579986572, 'reward_std': 0.19948867708444595, 'kl': 0.01776123046875, 'epoch': 0.02}
+  2%|▏         | 94/4286 [27:30<21:00:10, 18.04s/it]  2%|▏         | 95/4286 [27:49<21:17:09, 18.28s/it]                                                    {'loss': 0.0006, 'grad_norm': 0.5604966813237569, 'learning_rate': 9.778348110125991e-07, 'completion_length': 321.33929443359375, 'rewards/only_full_func_accuracy_reward': 0.49940478801727295, 'rewards/format_reward': 1.0, 'reward': 1.4994049072265625, 'reward_std': 0.1787269115447998, 'kl': 0.014495849609375, 'epoch': 0.02}
+  2%|▏         | 95/4286 [27:49<21:17:09, 18.28s/it]  2%|▏         | 96/4286 [28:11<22:18:48, 19.17s/it]                                                    {'loss': 0.0006, 'grad_norm': 0.8809846341077417, 'learning_rate': 9.776014932337845e-07, 'completion_length': 317.2232360839844, 'rewards/only_full_func_accuracy_reward': 0.37643852829933167, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.3675100207328796, 'reward_std': 0.20521757006645203, 'kl': 0.01507568359375, 'epoch': 0.02}
+  2%|▏         | 96/4286 [28:11<22:18:48, 19.17s/it]  2%|▏         | 97/4286 [28:28<21:42:07, 18.65s/it]                                                    {'loss': 0.0006, 'grad_norm': 0.774555971297122, 'learning_rate': 9.773681754549696e-07, 'completion_length': 292.40179443359375, 'rewards/only_full_func_accuracy_reward': 0.5087798088788986, 'rewards/format_reward': 1.0, 'reward': 1.5087798833847046, 'reward_std': 0.20433840155601501, 'kl': 0.013916015625, 'epoch': 0.02}
+  2%|▏         | 97/4286 [28:28<21:42:07, 18.65s/it]  2%|▏         | 98/4286 [28:46<21:36:55, 18.58s/it]                                                    {'loss': 0.0007, 'grad_norm': 0.4544852557065834, 'learning_rate': 9.77134857676155e-07, 'completion_length': 311.8928680419922, 'rewards/only_full_func_accuracy_reward': 0.35580360889434814, 'rewards/format_reward': 1.0, 'reward': 1.3558036088943481, 'reward_std': 0.1676962524652481, 'kl': 0.016937255859375, 'epoch': 0.02}
+  2%|▏         | 98/4286 [28:46<21:36:55, 18.58s/it]  2%|▏         | 99/4286 [29:05<21:31:00, 18.50s/it]                                                    {'loss': 0.0006, 'grad_norm': 0.697603771676217, 'learning_rate': 9.769015398973402e-07, 'completion_length': 318.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.4663690775632858, 'rewards/format_reward': 1.0, 'reward': 1.4663691520690918, 'reward_std': 0.15413176268339157, 'kl': 0.015380859375, 'epoch': 0.02}
+  2%|▏         | 99/4286 [29:05<21:31:00, 18.50s/it]  2%|▏         | 100/4286 [29:22<21:14:59, 18.27s/it]                                                     {'loss': 0.0006, 'grad_norm': 1.5095119637473395, 'learning_rate': 9.766682221185254e-07, 'completion_length': 296.54466247558594, 'rewards/only_full_func_accuracy_reward': 0.5558035969734192, 'rewards/format_reward': 1.0, 'reward': 1.5558037161827087, 'reward_std': 0.12189644202589989, 'kl': 0.015228271484375, 'epoch': 0.02}
+  2%|▏         | 100/4286 [29:22<21:14:59, 18.27s/it]  2%|▏         | 101/4286 [30:39<41:31:15, 35.72s/it]                                                     {'loss': 0.0006, 'grad_norm': 0.7107518775742941, 'learning_rate': 9.764349043397107e-07, 'completion_length': 320.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.3132440373301506, 'rewards/format_reward': 1.0, 'reward': 1.3132442235946655, 'reward_std': 0.12377404421567917, 'kl': 0.01513671875, 'epoch': 0.02}
+  2%|▏         | 101/4286 [30:39<41:31:15, 35.72s/it]  2%|▏         | 102/4286 [30:57<35:29:40, 30.54s/it]                                                     {'loss': 0.0007, 'grad_norm': 1.056687329366557, 'learning_rate': 9.76201586560896e-07, 'completion_length': 331.0803680419922, 'rewards/only_full_func_accuracy_reward': 0.4379836469888687, 'rewards/format_reward': 1.0, 'reward': 1.437983751296997, 'reward_std': 0.18613895028829575, 'kl': 0.016571044921875, 'epoch': 0.02}
+  2%|▏         | 102/4286 [30:57<35:29:40, 30.54s/it]  2%|▏         | 103/4286 [31:16<31:13:49, 26.88s/it]                                                     {'loss': 0.0006, 'grad_norm': 1.593519387314233, 'learning_rate': 9.759682687820811e-07, 'completion_length': 322.79466247558594, 'rewards/only_full_func_accuracy_reward': 0.4236607402563095, 'rewards/format_reward': 1.0, 'reward': 1.4236608743667603, 'reward_std': 0.14836174249649048, 'kl': 0.014373779296875, 'epoch': 0.02}
+  2%|▏         | 103/4286 [31:16<31:13:49, 26.88s/it]  2%|▏         | 104/4286 [31:33<27:54:04, 24.02s/it]                                                     {'loss': 0.0008, 'grad_norm': 0.7344532697292614, 'learning_rate': 9.757349510032665e-07, 'completion_length': 302.4107208251953, 'rewards/only_full_func_accuracy_reward': 0.40937502682209015, 'rewards/format_reward': 1.0, 'reward': 1.4093751311302185, 'reward_std': 0.1387084200978279, 'kl': 0.019287109375, 'epoch': 0.02}
+  2%|▏         | 104/4286 [31:33<27:54:04, 24.02s/it]  2%|▏         | 105/4286 [31:51<25:53:02, 22.29s/it]                                                     {'loss': 0.0006, 'grad_norm': 0.49770877949217657, 'learning_rate': 9.755016332244516e-07, 'completion_length': 308.0268096923828, 'rewards/only_full_func_accuracy_reward': 0.4293155074119568, 'rewards/format_reward': 1.0, 'reward': 1.4293155670166016, 'reward_std': 0.17107313871383667, 'kl': 0.015838623046875, 'epoch': 0.02}
+  2%|▏         | 105/4286 [31:51<25:53:02, 22.29s/it]  2%|▏         | 106/4286 [32:11<24:50:38, 21.40s/it]                                                     {'loss': 0.0006, 'grad_norm': 0.4859967563468276, 'learning_rate': 9.75268315445637e-07, 'completion_length': 308.5714416503906, 'rewards/only_full_func_accuracy_reward': 0.3894345462322235, 'rewards/format_reward': 1.0, 'reward': 1.3894346356391907, 'reward_std': 0.1643880046904087, 'kl': 0.015625, 'epoch': 0.02}
+  2%|▏         | 106/4286 [32:11<24:50:38, 21.40s/it]  2%|▏         | 107/4286 [32:31<24:31:49, 21.13s/it]                                                     {'loss': 0.0006, 'grad_norm': 0.7334746547188384, 'learning_rate': 9.750349976668222e-07, 'completion_length': 292.5803680419922, 'rewards/only_full_func_accuracy_reward': 0.4977678507566452, 'rewards/format_reward': 1.0, 'reward': 1.4977679252624512, 'reward_std': 0.17810137197375298, 'kl': 0.0157470703125, 'epoch': 0.02}
+  2%|▏         | 107/4286 [32:31<24:31:49, 21.13s/it]  3%|▎         | 108/4286 [32:53<24:38:47, 21.24s/it]                                                     {'loss': 0.0007, 'grad_norm': 1.2150726590784235, 'learning_rate': 9.748016798880073e-07, 'completion_length': 308.61607360839844, 'rewards/only_full_func_accuracy_reward': 0.5681547522544861, 'rewards/format_reward': 1.0, 'reward': 1.5681549310684204, 'reward_std': 0.1736965924501419, 'kl': 0.016571044921875, 'epoch': 0.03}
+  3%|▎         | 108/4286 [32:53<24:38:47, 21.24s/it]  3%|▎         | 109/4286 [33:13<24:20:34, 20.98s/it]                                                     {'loss': 0.0007, 'grad_norm': 0.7175407074531847, 'learning_rate': 9.745683621091927e-07, 'completion_length': 298.8303680419922, 'rewards/only_full_func_accuracy_reward': 0.4218750447034836, 'rewards/format_reward': 1.0, 'reward': 1.4218751788139343, 'reward_std': 0.19192174822092056, 'kl': 0.01715087890625, 'epoch': 0.03}
+  3%|▎         | 109/4286 [33:13<24:20:34, 20.98s/it]  3%|▎         | 110/4286 [33:35<24:40:08, 21.27s/it]                                                     {'loss': 0.0007, 'grad_norm': 0.6550515047555955, 'learning_rate': 9.74335044330378e-07, 'completion_length': 324.1428680419922, 'rewards/only_full_func_accuracy_reward': 0.42395834624767303, 'rewards/format_reward': 1.0, 'reward': 1.4239584803581238, 'reward_std': 0.14783888682723045, 'kl': 0.018310546875, 'epoch': 0.03}
+  3%|▎         | 110/4286 [33:35<24:40:08, 21.27s/it]  3%|▎         | 111/4286 [33:56<24:30:12, 21.13s/it]                                                     {'loss': 0.0008, 'grad_norm': 0.686829393382953, 'learning_rate': 9.741017265515631e-07, 'completion_length': 314.5535888671875, 'rewards/only_full_func_accuracy_reward': 0.49122028052806854, 'rewards/format_reward': 1.0, 'reward': 1.4912204146385193, 'reward_std': 0.16415532678365707, 'kl': 0.01947021484375, 'epoch': 0.03}
+  3%|▎         | 111/4286 [33:56<24:30:12, 21.13s/it]  3%|▎         | 112/4286 [34:16<24:16:25, 20.94s/it]                                                     {'loss': 0.0007, 'grad_norm': 0.7109147180413382, 'learning_rate': 9.738684087727484e-07, 'completion_length': 316.3035888671875, 'rewards/only_full_func_accuracy_reward': 0.38080359995365143, 'rewards/format_reward': 1.0, 'reward': 1.380803644657135, 'reward_std': 0.14903981983661652, 'kl': 0.01837158203125, 'epoch': 0.03}
+  3%|▎         | 112/4286 [34:16<24:16:25, 20.94s/it]  3%|▎         | 113/4286 [34:38<24:41:58, 21.31s/it]                                                     {'loss': 0.0007, 'grad_norm': 0.527393717000727, 'learning_rate': 9.736350909939338e-07, 'completion_length': 327.9107208251953, 'rewards/only_full_func_accuracy_reward': 0.4776785969734192, 'rewards/format_reward': 1.0, 'reward': 1.4776787161827087, 'reward_std': 0.1646858975291252, 'kl': 0.0185546875, 'epoch': 0.03}
+  3%|▎         | 113/4286 [34:38<24:41:58, 21.31s/it]  3%|▎         | 114/4286 [35:02<25:20:35, 21.87s/it]                                                     {'loss': 0.0008, 'grad_norm': 0.7031169277100642, 'learning_rate': 9.734017732151189e-07, 'completion_length': 308.0089416503906, 'rewards/only_full_func_accuracy_reward': 0.3941964656114578, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.3852679133415222, 'reward_std': 0.24473075568675995, 'kl': 0.01898193359375, 'epoch': 0.03}
+  3%|▎         | 114/4286 [35:02<25:20:35, 21.87s/it]  3%|▎         | 115/4286 [35:21<24:37:37, 21.26s/it]                                                     {'loss': 0.0007, 'grad_norm': 0.48993451785061953, 'learning_rate': 9.731684554363042e-07, 'completion_length': 299.43751525878906, 'rewards/only_full_func_accuracy_reward': 0.4547991007566452, 'rewards/format_reward': 1.0, 'reward': 1.454799234867096, 'reward_std': 0.12803906574845314, 'kl': 0.01861572265625, 'epoch': 0.03}
+  3%|▎         | 115/4286 [35:21<24:37:37, 21.26s/it]  3%|▎         | 116/4286 [35:44<25:11:25, 21.75s/it]                                                     {'loss': 0.0008, 'grad_norm': 0.6521418470889816, 'learning_rate': 9.729351376574895e-07, 'completion_length': 318.9553680419922, 'rewards/only_full_func_accuracy_reward': 0.3511904776096344, 'rewards/format_reward': 1.0, 'reward': 1.3511905670166016, 'reward_std': 0.13435973972082138, 'kl': 0.01898193359375, 'epoch': 0.03}
+  3%|▎         | 116/4286 [35:44<25:11:25, 21.75s/it]  3%|▎         | 117/4286 [36:04<24:26:30, 21.11s/it]                                                     {'loss': 0.0008, 'grad_norm': 0.6880851086320122, 'learning_rate': 9.727018198786747e-07, 'completion_length': 305.4732208251953, 'rewards/only_full_func_accuracy_reward': 0.6113591492176056, 'rewards/format_reward': 1.0, 'reward': 1.6113592982292175, 'reward_std': 0.16353728622198105, 'kl': 0.02032470703125, 'epoch': 0.03}
+  3%|▎         | 117/4286 [36:04<24:26:30, 21.11s/it]  3%|▎         | 118/4286 [36:24<24:00:00, 20.73s/it]                                                     {'loss': 0.0008, 'grad_norm': 0.7262167726411476, 'learning_rate': 9.7246850209986e-07, 'completion_length': 301.33929443359375, 'rewards/only_full_func_accuracy_reward': 0.4631696790456772, 'rewards/format_reward': 1.0, 'reward': 1.4631697535514832, 'reward_std': 0.22250604629516602, 'kl': 0.0196533203125, 'epoch': 0.03}
+  3%|▎         | 118/4286 [36:24<24:00:00, 20.73s/it]  3%|▎         | 119/4286 [36:45<24:02:34, 20.77s/it]                                                     {'loss': 0.001, 'grad_norm': 9.760125221074743, 'learning_rate': 9.722351843210453e-07, 'completion_length': 321.60716247558594, 'rewards/only_full_func_accuracy_reward': 0.4241071790456772, 'rewards/format_reward': 1.0, 'reward': 1.4241071939468384, 'reward_std': 0.13511260598897934, 'kl': 0.024658203125, 'epoch': 0.03}
+  3%|▎         | 119/4286 [36:45<24:02:34, 20.77s/it]  3%|▎         | 120/4286 [37:06<24:17:38, 20.99s/it]                                                     {'loss': 0.0008, 'grad_norm': 1.83998490395481, 'learning_rate': 9.720018665422304e-07, 'completion_length': 300.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.515625, 'rewards/format_reward': 1.0, 'reward': 1.5156251788139343, 'reward_std': 0.1900501698255539, 'kl': 0.01983642578125, 'epoch': 0.03}
+  3%|▎         | 120/4286 [37:06<24:17:38, 20.99s/it]  3%|▎         | 121/4286 [37:29<25:02:55, 21.65s/it]                                                     {'loss': 0.0007, 'grad_norm': 2.7507981493229594, 'learning_rate': 9.717685487634158e-07, 'completion_length': 316.9553680419922, 'rewards/only_full_func_accuracy_reward': 0.5340774208307266, 'rewards/format_reward': 1.0, 'reward': 1.534077525138855, 'reward_std': 0.16970792412757874, 'kl': 0.01837158203125, 'epoch': 0.03}
+  3%|▎         | 121/4286 [37:29<25:02:55, 21.65s/it]  3%|▎         | 122/4286 [37:53<25:45:34, 22.27s/it]                                                     {'loss': 0.0008, 'grad_norm': 0.6623373222876573, 'learning_rate': 9.71535230984601e-07, 'completion_length': 320.0714416503906, 'rewards/only_full_func_accuracy_reward': 0.455357164144516, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.446428656578064, 'reward_std': 0.18952619284391403, 'kl': 0.0189208984375, 'epoch': 0.03}
+  3%|▎         | 122/4286 [37:53<25:45:34, 22.27s/it]  3%|▎         | 123/4286 [38:14<25:19:25, 21.90s/it]                                                     {'loss': 0.0008, 'grad_norm': 0.7902265949021294, 'learning_rate': 9.713019132057862e-07, 'completion_length': 314.2857360839844, 'rewards/only_full_func_accuracy_reward': 0.5400297939777374, 'rewards/format_reward': 1.0, 'reward': 1.5400298833847046, 'reward_std': 0.17006167769432068, 'kl': 0.018798828125, 'epoch': 0.03}
+  3%|▎         | 123/4286 [38:14<25:19:25, 21.90s/it]  3%|▎         | 124/4286 [38:35<24:53:28, 21.53s/it]                                                     {'loss': 0.0007, 'grad_norm': 0.7332007647523933, 'learning_rate': 9.710685954269715e-07, 'completion_length': 313.8035888671875, 'rewards/only_full_func_accuracy_reward': 0.46840280294418335, 'rewards/format_reward': 1.0, 'reward': 1.4684028625488281, 'reward_std': 0.19211595505475998, 'kl': 0.0186767578125, 'epoch': 0.03}
+  3%|▎         | 124/4286 [38:35<24:53:28, 21.53s/it]  3%|▎         | 125/4286 [38:59<25:59:16, 22.48s/it]                                                     {'loss': 0.0008, 'grad_norm': 0.5764868201747385, 'learning_rate': 9.708352776481569e-07, 'completion_length': 322.8393096923828, 'rewards/only_full_func_accuracy_reward': 0.4828869104385376, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.473958432674408, 'reward_std': 0.1376390978693962, 'kl': 0.018798828125, 'epoch': 0.03}
+  3%|▎         | 125/4286 [38:59<25:59:16, 22.48s/it]  3%|▎         | 126/4286 [39:20<25:29:32, 22.06s/it]                                                     {'loss': 0.0008, 'grad_norm': 0.528933730168384, 'learning_rate': 9.70601959869342e-07, 'completion_length': 317.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.43158483505249023, 'rewards/format_reward': 1.0, 'reward': 1.4315849542617798, 'reward_std': 0.15150825679302216, 'kl': 0.0203857421875, 'epoch': 0.03}
+  3%|▎         | 126/4286 [39:20<25:29:32, 22.06s/it]  3%|▎         | 127/4286 [39:41<24:59:52, 21.64s/it]                                                     {'loss': 0.0009, 'grad_norm': 0.6401906710146354, 'learning_rate': 9.703686420905273e-07, 'completion_length': 278.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.5543155074119568, 'rewards/format_reward': 1.0, 'reward': 1.5543156266212463, 'reward_std': 0.16687846928834915, 'kl': 0.021728515625, 'epoch': 0.03}
+  3%|▎         | 127/4286 [39:41<24:59:52, 21.64s/it]  3%|▎         | 128/4286 [40:02<24:41:25, 21.38s/it]                                                     {'loss': 0.0007, 'grad_norm': 0.8003634810641248, 'learning_rate': 9.701353243117124e-07, 'completion_length': 308.0446472167969, 'rewards/only_full_func_accuracy_reward': 0.4516369253396988, 'rewards/format_reward': 1.0, 'reward': 1.4516370296478271, 'reward_std': 0.13878213241696358, 'kl': 0.0177001953125, 'epoch': 0.03}
+  3%|▎         | 128/4286 [40:02<24:41:25, 21.38s/it]  3%|▎         | 129/4286 [40:23<24:34:02, 21.28s/it]                                                     {'loss': 0.0008, 'grad_norm': 0.586039608546195, 'learning_rate': 9.699020065328977e-07, 'completion_length': 288.2053680419922, 'rewards/only_full_func_accuracy_reward': 0.49419645965099335, 'rewards/format_reward': 1.0, 'reward': 1.4941965341567993, 'reward_std': 0.12628140300512314, 'kl': 0.0189208984375, 'epoch': 0.03}
+  3%|▎         | 129/4286 [40:23<24:34:02, 21.28s/it]  3%|▎         | 130/4286 [40:43<24:00:56, 20.80s/it]                                                     {'loss': 0.0009, 'grad_norm': 1.3474883996570481, 'learning_rate': 9.69668688754083e-07, 'completion_length': 301.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.412797674536705, 'rewards/format_reward': 1.0, 'reward': 1.412797749042511, 'reward_std': 0.18402887880802155, 'kl': 0.023681640625, 'epoch': 0.03}
+  3%|▎         | 130/4286 [40:43<24:00:56, 20.80s/it]  3%|▎         | 131/4286 [41:04<24:05:40, 20.88s/it]                                                     {'loss': 0.0008, 'grad_norm': 0.6843850037311177, 'learning_rate': 9.694353709752682e-07, 'completion_length': 305.1518096923828, 'rewards/only_full_func_accuracy_reward': 0.462053582072258, 'rewards/format_reward': 1.0, 'reward': 1.4620537161827087, 'reward_std': 0.1579788625240326, 'kl': 0.01922607421875, 'epoch': 0.03}
+  3%|▎         | 131/4286 [41:04<24:05:40, 20.88s/it]  3%|▎         | 132/4286 [41:24<23:46:19, 20.60s/it]                                                     {'loss': 0.0009, 'grad_norm': 0.5117930897890126, 'learning_rate': 9.692020531964535e-07, 'completion_length': 312.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.4851190596818924, 'rewards/format_reward': 1.0, 'reward': 1.4851191639900208, 'reward_std': 0.2025412768125534, 'kl': 0.02191162109375, 'epoch': 0.03}
+  3%|▎         | 132/4286 [41:24<23:46:19, 20.60s/it]  3%|▎         | 133/4286 [41:45<23:54:44, 20.73s/it]                                                     {'loss': 0.0009, 'grad_norm': 0.784369016656075, 'learning_rate': 9.689687354176389e-07, 'completion_length': 304.7410888671875, 'rewards/only_full_func_accuracy_reward': 0.40937504172325134, 'rewards/format_reward': 1.0, 'reward': 1.4093751311302185, 'reward_std': 0.16402999311685562, 'kl': 0.02374267578125, 'epoch': 0.03}
+  3%|▎         | 133/4286 [41:45<23:54:44, 20.73s/it]  3%|▎         | 134/4286 [42:06<23:59:12, 20.80s/it]                                                     {'loss': 0.0008, 'grad_norm': 1.0901244410955941, 'learning_rate': 9.68735417638824e-07, 'completion_length': 306.8928680419922, 'rewards/only_full_func_accuracy_reward': 0.4947917014360428, 'rewards/format_reward': 1.0, 'reward': 1.4947917461395264, 'reward_std': 0.14306749776005745, 'kl': 0.0208740234375, 'epoch': 0.03}
+  3%|▎         | 134/4286 [42:06<23:59:12, 20.80s/it]  3%|▎         | 135/4286 [42:26<23:56:32, 20.76s/it]                                                     {'loss': 0.0008, 'grad_norm': 0.5568704100831438, 'learning_rate': 9.685020998600093e-07, 'completion_length': 308.58038330078125, 'rewards/only_full_func_accuracy_reward': 0.5190848559141159, 'rewards/format_reward': 1.0, 'reward': 1.5190849304199219, 'reward_std': 0.17003946006298065, 'kl': 0.019775390625, 'epoch': 0.03}
+  3%|▎         | 135/4286 [42:26<23:56:32, 20.76s/it]  3%|▎         | 136/4286 [42:48<24:23:17, 21.16s/it]                                                     {'loss': 0.0007, 'grad_norm': 0.781949490261738, 'learning_rate': 9.682687820811946e-07, 'completion_length': 288.43751525878906, 'rewards/only_full_func_accuracy_reward': 0.5483630895614624, 'rewards/format_reward': 1.0, 'reward': 1.548363208770752, 'reward_std': 0.1705944836139679, 'kl': 0.01715087890625, 'epoch': 0.03}
+  3%|▎         | 136/4286 [42:48<24:23:17, 21.16s/it]  3%|▎         | 137/4286 [43:09<24:16:57, 21.07s/it]                                                     {'loss': 0.0008, 'grad_norm': 1.0593920649890642, 'learning_rate': 9.680354643023797e-07, 'completion_length': 301.6339416503906, 'rewards/only_full_func_accuracy_reward': 0.44702382385730743, 'rewards/format_reward': 1.0, 'reward': 1.4470239877700806, 'reward_std': 0.18329913914203644, 'kl': 0.02056884765625, 'epoch': 0.03}
+  3%|▎         | 137/4286 [43:09<24:16:57, 21.07s/it]  3%|▎         | 138/4286 [43:29<23:49:09, 20.67s/it]                                                     {'loss': 0.0008, 'grad_norm': 0.7818616750045283, 'learning_rate': 9.67802146523565e-07, 'completion_length': 285.68751525878906, 'rewards/only_full_func_accuracy_reward': 0.5117560029029846, 'rewards/format_reward': 1.0, 'reward': 1.5117560625076294, 'reward_std': 0.1503031775355339, 'kl': 0.02105712890625, 'epoch': 0.03}
+  3%|▎         | 138/4286 [43:29<23:49:09, 20.67s/it]  3%|▎         | 139/4286 [43:52<24:30:34, 21.28s/it]                                                     {'loss': 0.0009, 'grad_norm': 0.44672414114804715, 'learning_rate': 9.675688287447504e-07, 'completion_length': 300.7053680419922, 'rewards/only_full_func_accuracy_reward': 0.5059524178504944, 'rewards/format_reward': 1.0, 'reward': 1.5059524774551392, 'reward_std': 0.15655049681663513, 'kl': 0.02130126953125, 'epoch': 0.03}
+  3%|▎         | 139/4286 [43:52<24:30:34, 21.28s/it]  3%|▎         | 140/4286 [44:12<24:14:59, 21.06s/it]                                                     {'loss': 0.0007, 'grad_norm': 0.945791470789395, 'learning_rate': 9.673355109659355e-07, 'completion_length': 315.2410888671875, 'rewards/only_full_func_accuracy_reward': 0.4370536059141159, 'rewards/format_reward': 1.0, 'reward': 1.4370536804199219, 'reward_std': 0.16763293743133545, 'kl': 0.01806640625, 'epoch': 0.03}
+  3%|▎         | 140/4286 [44:12<24:14:59, 21.06s/it]  3%|▎         | 141/4286 [44:33<24:12:01, 21.02s/it]                                                     {'loss': 0.0009, 'grad_norm': 0.5712066040384509, 'learning_rate': 9.671021931871208e-07, 'completion_length': 316.1964416503906, 'rewards/only_full_func_accuracy_reward': 0.3933035880327225, 'rewards/format_reward': 1.0, 'reward': 1.3933036923408508, 'reward_std': 0.1624651551246643, 'kl': 0.02313232421875, 'epoch': 0.03}
+  3%|▎         | 141/4286 [44:33<24:12:01, 21.02s/it]  3%|▎         | 142/4286 [44:54<24:01:23, 20.87s/it]                                                     {'loss': 0.0009, 'grad_norm': 1.518222736865792, 'learning_rate': 9.668688754083062e-07, 'completion_length': 315.85716247558594, 'rewards/only_full_func_accuracy_reward': 0.4233631193637848, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.4144346117973328, 'reward_std': 0.13824082165956497, 'kl': 0.022705078125, 'epoch': 0.03}
+  3%|▎         | 142/4286 [44:54<24:01:23, 20.87s/it]  3%|▎         | 143/4286 [45:16<24:27:06, 21.25s/it]                                                     {'loss': 0.0008, 'grad_norm': 0.639202998963654, 'learning_rate': 9.666355576294913e-07, 'completion_length': 311.8660888671875, 'rewards/only_full_func_accuracy_reward': 0.4982638955116272, 'rewards/format_reward': 1.0, 'reward': 1.498263955116272, 'reward_std': 0.1466267630457878, 'kl': 0.01995849609375, 'epoch': 0.03}
+  3%|▎         | 143/4286 [45:16<24:27:06, 21.25s/it]  3%|▎         | 144/4286 [45:37<24:23:46, 21.20s/it]                                                     {'loss': 0.0008, 'grad_norm': 0.5039179639221046, 'learning_rate': 9.664022398506766e-07, 'completion_length': 295.2589416503906, 'rewards/only_full_func_accuracy_reward': 0.5635416507720947, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5546132326126099, 'reward_std': 0.17792852222919464, 'kl': 0.02001953125, 'epoch': 0.03}
+  3%|▎         | 144/4286 [45:37<24:23:46, 21.20s/it]  3%|▎         | 145/4286 [45:57<24:01:59, 20.89s/it]                                                     {'loss': 0.001, 'grad_norm': 1.8454119099602844, 'learning_rate': 9.66168922071862e-07, 'completion_length': 301.3482208251953, 'rewards/only_full_func_accuracy_reward': 0.42901788651943207, 'rewards/format_reward': 1.0, 'reward': 1.4290180206298828, 'reward_std': 0.1751982569694519, 'kl': 0.02490234375, 'epoch': 0.03}
+  3%|▎         | 145/4286 [45:57<24:01:59, 20.89s/it]  3%|▎         | 146/4286 [46:18<24:02:12, 20.90s/it]                                                     {'loss': 0.0009, 'grad_norm': 0.6461344840789431, 'learning_rate': 9.65935604293047e-07, 'completion_length': 319.54466247558594, 'rewards/only_full_func_accuracy_reward': 0.399553582072258, 'rewards/format_reward': 1.0, 'reward': 1.3995537161827087, 'reward_std': 0.1801193580031395, 'kl': 0.02252197265625, 'epoch': 0.03}
+  3%|▎         | 146/4286 [46:18<24:02:12, 20.90s/it]  3%|▎         | 147/4286 [46:39<24:00:35, 20.88s/it]                                                     {'loss': 0.0009, 'grad_norm': 1.0352761078650383, 'learning_rate': 9.657022865142324e-07, 'completion_length': 330.9196472167969, 'rewards/only_full_func_accuracy_reward': 0.46517859399318695, 'rewards/format_reward': 1.0, 'reward': 1.4651786088943481, 'reward_std': 0.21396084874868393, 'kl': 0.02130126953125, 'epoch': 0.03}
+  3%|▎         | 147/4286 [46:39<24:00:35, 20.88s/it]  3%|▎         | 148/4286 [46:59<23:49:51, 20.73s/it]                                                     {'loss': 0.0009, 'grad_norm': 0.385472301768814, 'learning_rate': 9.654689687354177e-07, 'completion_length': 303.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.3937872350215912, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.384858787059784, 'reward_std': 0.15293656289577484, 'kl': 0.0224609375, 'epoch': 0.03}
+  3%|▎         | 148/4286 [46:59<23:49:51, 20.73s/it][2025-02-27 03:11:54,659] [WARNING] [stage3.py:2134:step] 1 pytorch allocator cache flushes since last step. this happens when there is high memory pressure and is detrimental to performance. if this is happening frequently consider adjusting settings to reduce memory consumption. If you are unable to make the cache flushes go away consider adding get_accelerator().empty_cache() calls in your training loop to ensure that all ranks flush their caches at the same time
+  3%|▎         | 149/4286 [47:22<24:27:55, 21.29s/it]                                                     {'loss': 0.0009, 'grad_norm': 0.5417985297408024, 'learning_rate': 9.652356509566028e-07, 'completion_length': 324.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.5065476298332214, 'rewards/format_reward': 1.0, 'reward': 1.5065476894378662, 'reward_std': 0.13544229418039322, 'kl': 0.02142333984375, 'epoch': 0.03}
+  3%|▎         | 149/4286 [47:22<24:27:55, 21.29s/it]  3%|▎         | 150/4286 [47:43<24:21:05, 21.20s/it]                                                     {'loss': 0.0008, 'grad_norm': 0.55252041154863, 'learning_rate': 9.650023331777882e-07, 'completion_length': 326.48216247558594, 'rewards/only_full_func_accuracy_reward': 0.5766369104385376, 'rewards/format_reward': 1.0, 'reward': 1.5766369700431824, 'reward_std': 0.1352018415927887, 'kl': 0.01953125, 'epoch': 0.03}
+  3%|▎         | 150/4286 [47:43<24:21:05, 21.20s/it]  4%|▎         | 151/4286 [48:04<24:12:15, 21.07s/it]                                                     {'loss': 0.001, 'grad_norm': 0.5909892459792241, 'learning_rate': 9.647690153989733e-07, 'completion_length': 325.26788330078125, 'rewards/only_full_func_accuracy_reward': 0.5133928656578064, 'rewards/format_reward': 1.0, 'reward': 1.513392984867096, 'reward_std': 0.17301413416862488, 'kl': 0.02374267578125, 'epoch': 0.04}
+  4%|▎         | 151/4286 [48:04<24:12:15, 21.07s/it]  4%|▎         | 152/4286 [48:25<24:10:42, 21.06s/it]                                                     {'loss': 0.0009, 'grad_norm': 0.8611344274469384, 'learning_rate': 9.645356976201586e-07, 'completion_length': 315.9285888671875, 'rewards/only_full_func_accuracy_reward': 0.3742560148239136, 'rewards/format_reward': 1.0, 'reward': 1.3742560148239136, 'reward_std': 0.17205140739679337, 'kl': 0.0234375, 'epoch': 0.04}
+  4%|▎         | 152/4286 [48:25<24:10:42, 21.06s/it]  4%|▎         | 153/4286 [48:47<24:48:07, 21.60s/it]                                                     {'loss': 0.0008, 'grad_norm': 0.8080989397193821, 'learning_rate': 9.64302379841344e-07, 'completion_length': 346.9643096923828, 'rewards/only_full_func_accuracy_reward': 0.4414062649011612, 'rewards/format_reward': 1.0, 'reward': 1.4414063692092896, 'reward_std': 0.11907272040843964, 'kl': 0.02130126953125, 'epoch': 0.04}
+  4%|▎         | 153/4286 [48:47<24:48:07, 21.60s/it]  4%|▎         | 154/4286 [49:09<24:44:54, 21.56s/it]                                                     {'loss': 0.0009, 'grad_norm': 0.49415142321548755, 'learning_rate': 9.64069062062529e-07, 'completion_length': 348.1428680419922, 'rewards/only_full_func_accuracy_reward': 0.516772985458374, 'rewards/format_reward': 1.0, 'reward': 1.5167731046676636, 'reward_std': 0.1778535544872284, 'kl': 0.02337646484375, 'epoch': 0.04}
+  4%|▎         | 154/4286 [49:09<24:44:54, 21.56s/it]  4%|▎         | 155/4286 [49:31<24:47:10, 21.60s/it]                                                     {'loss': 0.0009, 'grad_norm': 0.49643923745444357, 'learning_rate': 9.638357442837144e-07, 'completion_length': 343.6339416503906, 'rewards/only_full_func_accuracy_reward': 0.531994104385376, 'rewards/format_reward': 1.0, 'reward': 1.531994104385376, 'reward_std': 0.18721731379628181, 'kl': 0.02203369140625, 'epoch': 0.04}
+  4%|▎         | 155/4286 [49:31<24:47:10, 21.60s/it]  4%|▎         | 156/4286 [49:52<24:52:03, 21.68s/it]                                                     {'loss': 0.0008, 'grad_norm': 0.6602719231935018, 'learning_rate': 9.636024265048997e-07, 'completion_length': 344.9018096923828, 'rewards/only_full_func_accuracy_reward': 0.43511906266212463, 'rewards/format_reward': 1.0, 'reward': 1.4351191520690918, 'reward_std': 0.13368894159793854, 'kl': 0.02093505859375, 'epoch': 0.04}
+  4%|▎         | 156/4286 [49:52<24:52:03, 21.68s/it]  4%|▎         | 157/4286 [50:15<25:04:12, 21.86s/it]                                                     {'loss': 0.0009, 'grad_norm': 0.4449774549548413, 'learning_rate': 9.633691087260848e-07, 'completion_length': 344.7589416503906, 'rewards/only_full_func_accuracy_reward': 0.6288690567016602, 'rewards/format_reward': 1.0, 'reward': 1.628869116306305, 'reward_std': 0.1703784242272377, 'kl': 0.02130126953125, 'epoch': 0.04}
+  4%|▎         | 157/4286 [50:15<25:04:12, 21.86s/it]  4%|▎         | 158/4286 [50:36<24:47:02, 21.61s/it]                                                     {'loss': 0.0009, 'grad_norm': 0.922827672205124, 'learning_rate': 9.631357909472701e-07, 'completion_length': 311.1607208251953, 'rewards/only_full_func_accuracy_reward': 0.5229166895151138, 'rewards/format_reward': 1.0, 'reward': 1.5229167938232422, 'reward_std': 0.10968384146690369, 'kl': 0.0216064453125, 'epoch': 0.04}
+  4%|▎         | 158/4286 [50:36<24:47:02, 21.61s/it]  4%|▎         | 159/4286 [50:57<24:29:00, 21.36s/it]                                                     {'loss': 0.0009, 'grad_norm': 0.6268560096120694, 'learning_rate': 9.629024731684555e-07, 'completion_length': 330.43751525878906, 'rewards/only_full_func_accuracy_reward': 0.4518229514360428, 'rewards/format_reward': 1.0, 'reward': 1.4518230557441711, 'reward_std': 0.1468500941991806, 'kl': 0.0233154296875, 'epoch': 0.04}
+  4%|▎         | 159/4286 [50:57<24:29:00, 21.36s/it]  4%|▎         | 160/4286 [51:19<24:49:15, 21.66s/it]                                                     {'loss': 0.001, 'grad_norm': 0.7955160552293863, 'learning_rate': 9.626691553896406e-07, 'completion_length': 313.5714416503906, 'rewards/only_full_func_accuracy_reward': 0.6175595819950104, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6086310744285583, 'reward_std': 0.24009594321250916, 'kl': 0.02490234375, 'epoch': 0.04}
+  4%|▎         | 160/4286 [51:19<24:49:15, 21.66s/it]  4%|▍         | 161/4286 [51:40<24:34:12, 21.44s/it]                                                     {'loss': 0.001, 'grad_norm': 1.2170943321395205, 'learning_rate': 9.62435837610826e-07, 'completion_length': 330.96429443359375, 'rewards/only_full_func_accuracy_reward': 0.43467266857624054, 'rewards/format_reward': 1.0, 'reward': 1.4346727132797241, 'reward_std': 0.21799689531326294, 'kl': 0.02447509765625, 'epoch': 0.04}
+  4%|▍         | 161/4286 [51:40<24:34:12, 21.44s/it]  4%|▍         | 162/4286 [52:01<24:36:00, 21.47s/it]                                                     {'loss': 0.0008, 'grad_norm': 0.7864335410786918, 'learning_rate': 9.622025198320112e-07, 'completion_length': 328.3303680419922, 'rewards/only_full_func_accuracy_reward': 0.5386905372142792, 'rewards/format_reward': 1.0, 'reward': 1.5386905670166016, 'reward_std': 0.10925246775150299, 'kl': 0.0206298828125, 'epoch': 0.04}
+  4%|▍         | 162/4286 [52:01<24:36:00, 21.47s/it]  4%|▍         | 163/4286 [52:22<24:11:48, 21.13s/it]                                                     {'loss': 0.001, 'grad_norm': 0.7561479211907336, 'learning_rate': 9.619692020531964e-07, 'completion_length': 309.68751525878906, 'rewards/only_full_func_accuracy_reward': 0.655543178319931, 'rewards/format_reward': 1.0, 'reward': 1.6555432677268982, 'reward_std': 0.19377777725458145, 'kl': 0.0250244140625, 'epoch': 0.04}
+  4%|▍         | 163/4286 [52:22<24:11:48, 21.13s/it]  4%|▍         | 164/4286 [52:43<24:13:29, 21.16s/it]                                                     {'loss': 0.001, 'grad_norm': 0.5867583712340017, 'learning_rate': 9.617358842743817e-07, 'completion_length': 317.65179443359375, 'rewards/only_full_func_accuracy_reward': 0.5446428656578064, 'rewards/format_reward': 1.0, 'reward': 1.5446429252624512, 'reward_std': 0.13695791363716125, 'kl': 0.02545166015625, 'epoch': 0.04}
+  4%|▍         | 164/4286 [52:43<24:13:29, 21.16s/it]  4%|▍         | 165/4286 [53:04<24:12:51, 21.15s/it]                                                     {'loss': 0.001, 'grad_norm': 0.8330675008526441, 'learning_rate': 9.61502566495567e-07, 'completion_length': 300.5982208251953, 'rewards/only_full_func_accuracy_reward': 0.48824410140514374, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.4793155193328857, 'reward_std': 0.1849672943353653, 'kl': 0.0257568359375, 'epoch': 0.04}
+  4%|▍         | 165/4286 [53:04<24:12:51, 21.15s/it]  4%|▍         | 166/4286 [53:25<24:15:42, 21.20s/it]                                                     {'loss': 0.001, 'grad_norm': 0.7916205020355239, 'learning_rate': 9.612692487167521e-07, 'completion_length': 289.46429443359375, 'rewards/only_full_func_accuracy_reward': 0.558779776096344, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5498512983322144, 'reward_std': 0.16687951982021332, 'kl': 0.02532958984375, 'epoch': 0.04}
+  4%|▍         | 166/4286 [53:25<24:15:42, 21.20s/it]  4%|▍         | 167/4286 [53:46<24:03:12, 21.02s/it]                                                     {'loss': 0.001, 'grad_norm': 0.5515911436440804, 'learning_rate': 9.610359309379375e-07, 'completion_length': 307.05357360839844, 'rewards/only_full_func_accuracy_reward': 0.5742560029029846, 'rewards/format_reward': 1.0, 'reward': 1.5742561221122742, 'reward_std': 0.11203921213746071, 'kl': 0.02490234375, 'epoch': 0.04}
+  4%|▍         | 167/4286 [53:46<24:03:12, 21.02s/it]  4%|▍         | 168/4286 [54:08<24:28:53, 21.40s/it]                                                     {'loss': 0.0009, 'grad_norm': 0.5176407449198235, 'learning_rate': 9.608026131591228e-07, 'completion_length': 338.68751525878906, 'rewards/only_full_func_accuracy_reward': 0.5260417014360428, 'rewards/format_reward': 1.0, 'reward': 1.5260418057441711, 'reward_std': 0.18015256524085999, 'kl': 0.0224609375, 'epoch': 0.04}
+  4%|▍         | 168/4286 [54:08<24:28:53, 21.40s/it]  4%|▍         | 169/4286 [54:31<24:56:59, 21.82s/it]                                                     {'loss': 0.0009, 'grad_norm': 0.5015101925935467, 'learning_rate': 9.60569295380308e-07, 'completion_length': 374.8035888671875, 'rewards/only_full_func_accuracy_reward': 0.5574776977300644, 'rewards/format_reward': 1.0, 'reward': 1.5574777722358704, 'reward_std': 0.1299424134194851, 'kl': 0.023681640625, 'epoch': 0.04}
+  4%|▍         | 169/4286 [54:31<24:56:59, 21.82s/it]  4%|▍         | 170/4286 [54:52<24:36:46, 21.53s/it]                                                     {'loss': 0.0008, 'grad_norm': 1.060102478027591, 'learning_rate': 9.603359776014932e-07, 'completion_length': 320.8035888671875, 'rewards/only_full_func_accuracy_reward': 0.5974702537059784, 'rewards/format_reward': 1.0, 'reward': 1.5974704027175903, 'reward_std': 0.1664939932525158, 'kl': 0.0203857421875, 'epoch': 0.04}
+  4%|▍         | 170/4286 [54:52<24:36:46, 21.53s/it]  4%|▍         | 171/4286 [55:12<24:16:39, 21.24s/it]                                                     {'loss': 0.001, 'grad_norm': 0.41765851591286246, 'learning_rate': 9.601026598226786e-07, 'completion_length': 329.65179443359375, 'rewards/only_full_func_accuracy_reward': 0.5736607313156128, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5647322535514832, 'reward_std': 0.159818347543478, 'kl': 0.02508544921875, 'epoch': 0.04}
+  4%|▍         | 171/4286 [55:12<24:16:39, 21.24s/it]  4%|▍         | 172/4286 [55:33<24:03:16, 21.05s/it]                                                     {'loss': 0.001, 'grad_norm': 0.6808834279167985, 'learning_rate': 9.598693420438637e-07, 'completion_length': 313.8482208251953, 'rewards/only_full_func_accuracy_reward': 0.4776786118745804, 'rewards/format_reward': 1.0, 'reward': 1.4776787161827087, 'reward_std': 0.14451444149017334, 'kl': 0.024658203125, 'epoch': 0.04}
+  4%|▍         | 172/4286 [55:33<24:03:16, 21.05s/it]  4%|▍         | 173/4286 [55:57<24:55:52, 21.82s/it]                                                     {'loss': 0.001, 'grad_norm': 0.42650173065024316, 'learning_rate': 9.59636024265049e-07, 'completion_length': 358.7678680419922, 'rewards/only_full_func_accuracy_reward': 0.5476190745830536, 'rewards/format_reward': 1.0, 'reward': 1.5476191639900208, 'reward_std': 0.11181621626019478, 'kl': 0.0240478515625, 'epoch': 0.04}
+  4%|▍         | 173/4286 [55:57<24:55:52, 21.82s/it]  4%|▍         | 174/4286 [56:18<24:52:22, 21.78s/it]                                                     {'loss': 0.001, 'grad_norm': 0.43671863629119995, 'learning_rate': 9.594027064862341e-07, 'completion_length': 335.0089416503906, 'rewards/only_full_func_accuracy_reward': 0.4846726357936859, 'rewards/format_reward': 1.0, 'reward': 1.484672725200653, 'reward_std': 0.13511179015040398, 'kl': 0.024169921875, 'epoch': 0.04}
+  4%|▍         | 174/4286 [56:18<24:52:22, 21.78s/it]  4%|▍         | 175/4286 [56:40<24:44:13, 21.66s/it]                                                     {'loss': 0.0009, 'grad_norm': 2.1666426674838943, 'learning_rate': 9.591693887074195e-07, 'completion_length': 340.58929443359375, 'rewards/only_full_func_accuracy_reward': 0.4441964477300644, 'rewards/format_reward': 1.0, 'reward': 1.4441965222358704, 'reward_std': 0.16286176443099976, 'kl': 0.02264404296875, 'epoch': 0.04}
+  4%|▍         | 175/4286 [56:40<24:44:13, 21.66s/it]  4%|▍         | 176/4286 [57:00<24:06:20, 21.11s/it]                                                     {'loss': 0.0009, 'grad_norm': 0.800142074586601, 'learning_rate': 9.589360709286048e-07, 'completion_length': 301.5268096923828, 'rewards/only_full_func_accuracy_reward': 0.691220223903656, 'rewards/format_reward': 1.0, 'reward': 1.6912204027175903, 'reward_std': 0.15294445306062698, 'kl': 0.022705078125, 'epoch': 0.04}
+  4%|▍         | 176/4286 [57:00<24:06:20, 21.11s/it]  4%|▍         | 177/4286 [57:22<24:36:33, 21.56s/it]                                                     {'loss': 0.0009, 'grad_norm': 0.5066003741036034, 'learning_rate': 9.5870275314979e-07, 'completion_length': 340.7857360839844, 'rewards/only_full_func_accuracy_reward': 0.5558035969734192, 'rewards/format_reward': 1.0, 'reward': 1.5558037161827087, 'reward_std': 0.1778905764222145, 'kl': 0.02294921875, 'epoch': 0.04}
+  4%|▍         | 177/4286 [57:22<24:36:33, 21.56s/it]  4%|▍         | 178/4286 [57:45<24:53:24, 21.81s/it]                                                     {'loss': 0.0009, 'grad_norm': 1.5064574363701864, 'learning_rate': 9.584694353709752e-07, 'completion_length': 331.75001525878906, 'rewards/only_full_func_accuracy_reward': 0.581632673740387, 'rewards/format_reward': 1.0, 'reward': 1.5816327333450317, 'reward_std': 0.1896999552845955, 'kl': 0.02264404296875, 'epoch': 0.04}
+  4%|▍         | 178/4286 [57:45<24:53:24, 21.81s/it]  4%|▍         | 179/4286 [58:07<24:54:31, 21.83s/it]                                                     {'loss': 0.0008, 'grad_norm': 0.9409360917309472, 'learning_rate': 9.582361175921606e-07, 'completion_length': 340.58929443359375, 'rewards/only_full_func_accuracy_reward': 0.6546131670475006, 'rewards/format_reward': 1.0, 'reward': 1.6546132564544678, 'reward_std': 0.21337513625621796, 'kl': 0.0198974609375, 'epoch': 0.04}
+  4%|▍         | 179/4286 [58:07<24:54:31, 21.83s/it]  4%|▍         | 180/4286 [58:29<25:11:50, 22.09s/it]                                                     {'loss': 0.0009, 'grad_norm': 0.6235426709206452, 'learning_rate': 9.580027998133457e-07, 'completion_length': 343.6339416503906, 'rewards/only_full_func_accuracy_reward': 0.5365699529647827, 'rewards/format_reward': 1.0, 'reward': 1.5365700125694275, 'reward_std': 0.14568986371159554, 'kl': 0.02325439453125, 'epoch': 0.04}
+  4%|▍         | 180/4286 [58:29<25:11:50, 22.09s/it]  4%|▍         | 181/4286 [58:51<24:55:39, 21.86s/it]                                                     {'loss': 0.0009, 'grad_norm': 0.4071065054033584, 'learning_rate': 9.57769482034531e-07, 'completion_length': 328.00001525878906, 'rewards/only_full_func_accuracy_reward': 0.6839285790920258, 'rewards/format_reward': 1.0, 'reward': 1.683928668498993, 'reward_std': 0.1257210187613964, 'kl': 0.0228271484375, 'epoch': 0.04}
+  4%|▍         | 181/4286 [58:51<24:55:39, 21.86s/it]  4%|▍         | 182/4286 [59:10<24:02:28, 21.09s/it]                                                     {'loss': 0.001, 'grad_norm': 0.7702858634407501, 'learning_rate': 9.575361642557163e-07, 'completion_length': 298.85716247558594, 'rewards/only_full_func_accuracy_reward': 0.5988095998764038, 'rewards/format_reward': 1.0, 'reward': 1.5988096594810486, 'reward_std': 0.12419776618480682, 'kl': 0.0242919921875, 'epoch': 0.04}
+  4%|▍         | 182/4286 [59:10<24:02:28, 21.09s/it]  4%|▍         | 183/4286 [59:32<24:21:48, 21.38s/it]                                                     {'loss': 0.0009, 'grad_norm': 0.6178392017992616, 'learning_rate': 9.573028464769014e-07, 'completion_length': 336.2589416503906, 'rewards/only_full_func_accuracy_reward': 0.5915179252624512, 'rewards/format_reward': 1.0, 'reward': 1.591517984867096, 'reward_std': 0.19309480488300323, 'kl': 0.02362060546875, 'epoch': 0.04}
+  4%|▍         | 183/4286 [59:32<24:21:48, 21.38s/it]  4%|▍         | 184/4286 [59:52<23:59:55, 21.06s/it]                                                     {'loss': 0.001, 'grad_norm': 0.7806986504994542, 'learning_rate': 9.570695286980868e-07, 'completion_length': 292.5268096923828, 'rewards/only_full_func_accuracy_reward': 0.6279762387275696, 'rewards/format_reward': 1.0, 'reward': 1.6279762983322144, 'reward_std': 0.14958856999874115, 'kl': 0.02557373046875, 'epoch': 0.04}
+  4%|▍         | 184/4286 [59:52<23:59:55, 21.06s/it]  4%|▍         | 185/4286 [1:00:14<24:08:21, 21.19s/it]                                                       {'loss': 0.0009, 'grad_norm': 0.6292008380114387, 'learning_rate': 9.56836210919272e-07, 'completion_length': 307.12501525878906, 'rewards/only_full_func_accuracy_reward': 0.5505952835083008, 'rewards/format_reward': 1.0, 'reward': 1.5505953431129456, 'reward_std': 0.15292134135961533, 'kl': 0.0228271484375, 'epoch': 0.04}
+  4%|▍         | 185/4286 [1:00:14<24:08:21, 21.19s/it]  4%|▍         | 186/4286 [1:00:37<24:50:02, 21.81s/it]                                                       {'loss': 0.0008, 'grad_norm': 0.45030947033545793, 'learning_rate': 9.566028931404572e-07, 'completion_length': 340.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.5966704338788986, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5877419710159302, 'reward_std': 0.19243036955595016, 'kl': 0.021240234375, 'epoch': 0.04}
+  4%|▍         | 186/4286 [1:00:37<24:50:02, 21.81s/it]  4%|▍         | 187/4286 [1:00:59<24:48:47, 21.79s/it]                                                       {'loss': 0.0009, 'grad_norm': 0.44768583592815503, 'learning_rate': 9.563695753616425e-07, 'completion_length': 340.4821472167969, 'rewards/only_full_func_accuracy_reward': 0.4980655014514923, 'rewards/format_reward': 1.0, 'reward': 1.4980655908584595, 'reward_std': 0.143559742718935, 'kl': 0.02215576171875, 'epoch': 0.04}
+  4%|▍         | 187/4286 [1:00:59<24:48:47, 21.79s/it]  4%|▍         | 188/4286 [1:01:20<24:36:37, 21.62s/it]                                                       {'loss': 0.001, 'grad_norm': 0.5275059460112318, 'learning_rate': 9.561362575828279e-07, 'completion_length': 298.33929443359375, 'rewards/only_full_func_accuracy_reward': 0.5483630895614624, 'rewards/format_reward': 1.0, 'reward': 1.548363208770752, 'reward_std': 0.16016926243901253, 'kl': 0.0240478515625, 'epoch': 0.04}
+  4%|▍         | 188/4286 [1:01:20<24:36:37, 21.62s/it]  4%|▍         | 189/4286 [1:01:42<24:40:49, 21.69s/it]                                                       {'loss': 0.0009, 'grad_norm': 0.47674971837244695, 'learning_rate': 9.55902939804013e-07, 'completion_length': 330.25001525878906, 'rewards/only_full_func_accuracy_reward': 0.6294643580913544, 'rewards/format_reward': 1.0, 'reward': 1.6294643878936768, 'reward_std': 0.1432648003101349, 'kl': 0.0220947265625, 'epoch': 0.04}
+  4%|▍         | 189/4286 [1:01:42<24:40:49, 21.69s/it]  4%|▍         | 190/4286 [1:02:03<24:36:02, 21.62s/it]                                                       {'loss': 0.001, 'grad_norm': 1.2258752963638584, 'learning_rate': 9.556696220251983e-07, 'completion_length': 310.0982208251953, 'rewards/only_full_func_accuracy_reward': 0.5928572118282318, 'rewards/format_reward': 1.0, 'reward': 1.592857301235199, 'reward_std': 0.17678461223840714, 'kl': 0.02386474609375, 'epoch': 0.04}
+  4%|▍         | 190/4286 [1:02:03<24:36:02, 21.62s/it]  4%|▍         | 191/4286 [1:02:25<24:43:28, 21.74s/it]                                                       {'loss': 0.0009, 'grad_norm': 2.045575715910092, 'learning_rate': 9.554363042463836e-07, 'completion_length': 333.27679443359375, 'rewards/only_full_func_accuracy_reward': 0.5305059850215912, 'rewards/format_reward': 1.0, 'reward': 1.5305060744285583, 'reward_std': 0.13635039702057838, 'kl': 0.021484375, 'epoch': 0.04}
+  4%|▍         | 191/4286 [1:02:25<24:43:28, 21.74s/it]  4%|▍         | 192/4286 [1:02:47<24:45:16, 21.77s/it]                                                       {'loss': 0.0009, 'grad_norm': 0.9864603313536043, 'learning_rate': 9.552029864675688e-07, 'completion_length': 298.8035888671875, 'rewards/only_full_func_accuracy_reward': 0.6696428656578064, 'rewards/format_reward': 1.0, 'reward': 1.6696429252624512, 'reward_std': 0.15469708293676376, 'kl': 0.0223388671875, 'epoch': 0.04}
+  4%|▍         | 192/4286 [1:02:47<24:45:16, 21.77s/it]  5%|▍         | 193/4286 [1:03:08<24:20:39, 21.41s/it]                                                       {'loss': 0.0009, 'grad_norm': 1.8508094499737928, 'learning_rate': 9.54969668688754e-07, 'completion_length': 314.90179443359375, 'rewards/only_full_func_accuracy_reward': 0.5704365074634552, 'rewards/format_reward': 1.0, 'reward': 1.5704366564750671, 'reward_std': 0.16418614238500595, 'kl': 0.02203369140625, 'epoch': 0.05}
+  5%|▍         | 193/4286 [1:03:08<24:20:39, 21.41s/it]  5%|▍         | 194/4286 [1:03:31<24:49:57, 21.85s/it]                                                       {'loss': 0.0009, 'grad_norm': 0.5391628744099134, 'learning_rate': 9.547363509099394e-07, 'completion_length': 323.4821472167969, 'rewards/only_full_func_accuracy_reward': 0.554315522313118, 'rewards/format_reward': 1.0, 'reward': 1.5543155670166016, 'reward_std': 0.06732722744345665, 'kl': 0.02313232421875, 'epoch': 0.05}
+  5%|▍         | 194/4286 [1:03:31<24:49:57, 21.85s/it]  5%|▍         | 195/4286 [1:03:52<24:34:39, 21.63s/it]                                                       {'loss': 0.001, 'grad_norm': 0.9946212091741631, 'learning_rate': 9.545030331311245e-07, 'completion_length': 322.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.4293154776096344, 'rewards/format_reward': 1.0, 'reward': 1.4293156266212463, 'reward_std': 0.14505277574062347, 'kl': 0.02386474609375, 'epoch': 0.05}
+  5%|▍         | 195/4286 [1:03:52<24:34:39, 21.63s/it]  5%|▍         | 196/4286 [1:04:14<24:42:07, 21.74s/it]                                                       {'loss': 0.001, 'grad_norm': 0.6912350493736215, 'learning_rate': 9.542697153523099e-07, 'completion_length': 321.5357360839844, 'rewards/only_full_func_accuracy_reward': 0.5074404776096344, 'rewards/format_reward': 1.0, 'reward': 1.5074405670166016, 'reward_std': 0.19813545793294907, 'kl': 0.02471923828125, 'epoch': 0.05}
+  5%|▍         | 196/4286 [1:04:14<24:42:07, 21.74s/it]  5%|▍         | 197/4286 [1:04:35<24:29:17, 21.56s/it]                                                       {'loss': 0.001, 'grad_norm': 0.8804393070826049, 'learning_rate': 9.54036397573495e-07, 'completion_length': 326.375, 'rewards/only_full_func_accuracy_reward': 0.5944940745830536, 'rewards/format_reward': 1.0, 'reward': 1.5944941639900208, 'reward_std': 0.20963111519813538, 'kl': 0.02386474609375, 'epoch': 0.05}
+  5%|▍         | 197/4286 [1:04:35<24:29:17, 21.56s/it]  5%|▍         | 198/4286 [1:04:56<24:29:38, 21.57s/it]                                                       {'loss': 0.001, 'grad_norm': 0.5978676730015593, 'learning_rate': 9.538030797946803e-07, 'completion_length': 333.7857360839844, 'rewards/only_full_func_accuracy_reward': 0.4858631193637848, 'rewards/format_reward': 1.0, 'reward': 1.485863208770752, 'reward_std': 0.14094588160514832, 'kl': 0.0252685546875, 'epoch': 0.05}
+  5%|▍         | 198/4286 [1:04:56<24:29:38, 21.57s/it]  5%|▍         | 199/4286 [1:05:17<24:12:52, 21.33s/it]                                                       {'loss': 0.001, 'grad_norm': 0.5090258780955892, 'learning_rate': 9.535697620158656e-07, 'completion_length': 330.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.5535076409578323, 'rewards/format_reward': 1.0, 'reward': 1.5535078048706055, 'reward_std': 0.11962689831852913, 'kl': 0.02423095703125, 'epoch': 0.05}
+  5%|▍         | 199/4286 [1:05:17<24:12:52, 21.33s/it]  5%|▍         | 200/4286 [1:05:38<24:06:21, 21.24s/it]                                                       {'loss': 0.0009, 'grad_norm': 0.8087090555896302, 'learning_rate': 9.533364442370509e-07, 'completion_length': 343.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.5617559999227524, 'rewards/format_reward': 1.0, 'reward': 1.5617560744285583, 'reward_std': 0.12439963594079018, 'kl': 0.02197265625, 'epoch': 0.05}
+  5%|▍         | 200/4286 [1:05:38<24:06:21, 21.24s/it]  5%|▍         | 201/4286 [1:06:48<40:33:13, 35.74s/it]                                                       {'loss': 0.0008, 'grad_norm': 0.5320741572016668, 'learning_rate': 9.531031264582361e-07, 'completion_length': 319.4464416503906, 'rewards/only_full_func_accuracy_reward': 0.526041716337204, 'rewards/format_reward': 1.0, 'reward': 1.5260418057441711, 'reward_std': 0.12932487204670906, 'kl': 0.02099609375, 'epoch': 0.05}
+  5%|▍         | 201/4286 [1:06:48<40:33:13, 35.74s/it]  5%|▍         | 202/4286 [1:07:10<35:53:17, 31.64s/it]                                                       {'loss': 0.0009, 'grad_norm': 0.6258494420894065, 'learning_rate': 9.528698086794213e-07, 'completion_length': 351.8482360839844, 'rewards/only_full_func_accuracy_reward': 0.5306548029184341, 'rewards/format_reward': 1.0, 'reward': 1.5306549072265625, 'reward_std': 0.11853601038455963, 'kl': 0.02166748046875, 'epoch': 0.05}
+  5%|▍         | 202/4286 [1:07:10<35:53:17, 31.64s/it]  5%|▍         | 203/4286 [1:07:31<32:25:09, 28.58s/it]                                                       {'loss': 0.0009, 'grad_norm': 1.3953099678677594, 'learning_rate': 9.526364909006066e-07, 'completion_length': 336.6607208251953, 'rewards/only_full_func_accuracy_reward': 0.6086310148239136, 'rewards/format_reward': 1.0, 'reward': 1.6086310744285583, 'reward_std': 0.17911482602357864, 'kl': 0.02264404296875, 'epoch': 0.05}
+  5%|▍         | 203/4286 [1:07:31<32:25:09, 28.58s/it]  5%|▍         | 204/4286 [1:07:51<29:33:53, 26.07s/it]                                                       {'loss': 0.0009, 'grad_norm': 0.5846708054688353, 'learning_rate': 9.524031731217919e-07, 'completion_length': 318.75001525878906, 'rewards/only_full_func_accuracy_reward': 0.536309540271759, 'rewards/format_reward': 1.0, 'reward': 1.536309540271759, 'reward_std': 0.17002414166927338, 'kl': 0.02325439453125, 'epoch': 0.05}
+  5%|▍         | 204/4286 [1:07:51<29:33:53, 26.07s/it]  5%|▍         | 205/4286 [1:08:12<27:49:51, 24.55s/it]                                                       {'loss': 0.0009, 'grad_norm': 0.5797058099471726, 'learning_rate': 9.521698553429771e-07, 'completion_length': 307.11607360839844, 'rewards/only_full_func_accuracy_reward': 0.6354166865348816, 'rewards/format_reward': 1.0, 'reward': 1.6354167461395264, 'reward_std': 0.13389131426811218, 'kl': 0.02227783203125, 'epoch': 0.05}
+  5%|▍         | 205/4286 [1:08:12<27:49:51, 24.55s/it]  5%|▍         | 206/4286 [1:08:34<26:39:08, 23.52s/it]                                                       {'loss': 0.0008, 'grad_norm': 0.7456749825281085, 'learning_rate': 9.519365375641624e-07, 'completion_length': 338.7410888671875, 'rewards/only_full_func_accuracy_reward': 0.5876116454601288, 'rewards/format_reward': 1.0, 'reward': 1.587611734867096, 'reward_std': 0.1518850475549698, 'kl': 0.0206298828125, 'epoch': 0.05}
+  5%|▍         | 206/4286 [1:08:34<26:39:08, 23.52s/it]  5%|▍         | 207/4286 [1:08:54<25:38:07, 22.63s/it]                                                       {'loss': 0.0008, 'grad_norm': 0.4080484495721075, 'learning_rate': 9.517032197853476e-07, 'completion_length': 335.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.6398809850215912, 'rewards/format_reward': 1.0, 'reward': 1.6398810744285583, 'reward_std': 0.13606659695506096, 'kl': 0.0205078125, 'epoch': 0.05}
+  5%|▍         | 207/4286 [1:08:54<25:38:07, 22.63s/it]  5%|▍         | 208/4286 [1:09:15<25:12:14, 22.25s/it]                                                       {'loss': 0.001, 'grad_norm': 0.573070628609019, 'learning_rate': 9.514699020065328e-07, 'completion_length': 319.33929443359375, 'rewards/only_full_func_accuracy_reward': 0.627976268529892, 'rewards/format_reward': 1.0, 'reward': 1.6279762387275696, 'reward_std': 0.1910925731062889, 'kl': 0.024658203125, 'epoch': 0.05}
+  5%|▍         | 208/4286 [1:09:15<25:12:14, 22.25s/it]  5%|▍         | 209/4286 [1:09:38<25:10:25, 22.23s/it]                                                       {'loss': 0.0009, 'grad_norm': 0.4536973637929437, 'learning_rate': 9.512365842277182e-07, 'completion_length': 354.81251525878906, 'rewards/only_full_func_accuracy_reward': 0.48348215222358704, 'rewards/format_reward': 1.0, 'reward': 1.483482301235199, 'reward_std': 0.15735693275928497, 'kl': 0.021484375, 'epoch': 0.05}
+  5%|▍         | 209/4286 [1:09:38<25:10:25, 22.23s/it]  5%|▍         | 210/4286 [1:10:01<25:22:26, 22.41s/it]                                                       {'loss': 0.0008, 'grad_norm': 1.3817292902024492, 'learning_rate': 9.510032664489034e-07, 'completion_length': 365.6518096923828, 'rewards/only_full_func_accuracy_reward': 0.5543155074119568, 'rewards/format_reward': 1.0, 'reward': 1.5543155670166016, 'reward_std': 0.13522124662995338, 'kl': 0.0211181640625, 'epoch': 0.05}
+  5%|▍         | 210/4286 [1:10:01<25:22:26, 22.41s/it]  5%|▍         | 211/4286 [1:10:21<24:52:14, 21.97s/it]                                                       {'loss': 0.0008, 'grad_norm': 1.0294632614166548, 'learning_rate': 9.507699486700886e-07, 'completion_length': 330.16966247558594, 'rewards/only_full_func_accuracy_reward': 0.483382984995842, 'rewards/format_reward': 1.0, 'reward': 1.483383059501648, 'reward_std': 0.17947197705507278, 'kl': 0.0211181640625, 'epoch': 0.05}
+  5%|▍         | 211/4286 [1:10:21<24:52:14, 21.97s/it]  5%|▍         | 212/4286 [1:10:44<24:58:55, 22.08s/it]                                                       {'loss': 0.0009, 'grad_norm': 0.7544890309266229, 'learning_rate': 9.505366308912739e-07, 'completion_length': 358.0714569091797, 'rewards/only_full_func_accuracy_reward': 0.4988095611333847, 'rewards/format_reward': 1.0, 'reward': 1.4988096356391907, 'reward_std': 0.15816760808229446, 'kl': 0.023193359375, 'epoch': 0.05}
+  5%|▍         | 212/4286 [1:10:44<24:58:55, 22.08s/it]  5%|▍         | 213/4286 [1:11:06<25:07:38, 22.21s/it]                                                       {'loss': 0.0009, 'grad_norm': 0.8336614693245731, 'learning_rate': 9.503033131124592e-07, 'completion_length': 333.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.4973214566707611, 'rewards/format_reward': 1.0, 'reward': 1.497321605682373, 'reward_std': 0.14871633797883987, 'kl': 0.022705078125, 'epoch': 0.05}
+  5%|▍         | 213/4286 [1:11:06<25:07:38, 22.21s/it]  5%|▍         | 214/4286 [1:11:28<24:51:35, 21.98s/it]                                                       {'loss': 0.0008, 'grad_norm': 0.3075116115842893, 'learning_rate': 9.500699953336444e-07, 'completion_length': 350.5178680419922, 'rewards/only_full_func_accuracy_reward': 0.5248512327671051, 'rewards/format_reward': 1.0, 'reward': 1.5248513221740723, 'reward_std': 0.08413911983370781, 'kl': 0.02069091796875, 'epoch': 0.05}
+  5%|▍         | 214/4286 [1:11:28<24:51:35, 21.98s/it]  5%|▌         | 215/4286 [1:11:48<24:20:24, 21.52s/it]                                                       {'loss': 0.0009, 'grad_norm': 0.733936100911752, 'learning_rate': 9.498366775548296e-07, 'completion_length': 307.0178680419922, 'rewards/only_full_func_accuracy_reward': 0.5758928656578064, 'rewards/format_reward': 1.0, 'reward': 1.5758929252624512, 'reward_std': 0.09517918899655342, 'kl': 0.02252197265625, 'epoch': 0.05}
+  5%|▌         | 215/4286 [1:11:48<24:20:24, 21.52s/it]  5%|▌         | 216/4286 [1:12:09<24:10:35, 21.38s/it]                                                       {'loss': 0.0009, 'grad_norm': 0.8907109758994782, 'learning_rate': 9.496033597760149e-07, 'completion_length': 333.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.4891369193792343, 'rewards/format_reward': 1.0, 'reward': 1.489137053489685, 'reward_std': 0.12076933309435844, 'kl': 0.0216064453125, 'epoch': 0.05}
+  5%|▌         | 216/4286 [1:12:09<24:10:35, 21.38s/it]  5%|▌         | 217/4286 [1:12:32<24:41:52, 21.85s/it]                                                       {'loss': 0.001, 'grad_norm': 0.5512181969679173, 'learning_rate': 9.493700419972002e-07, 'completion_length': 342.0178680419922, 'rewards/only_full_func_accuracy_reward': 0.3921131491661072, 'rewards/format_reward': 1.0, 'reward': 1.392113208770752, 'reward_std': 0.1400245800614357, 'kl': 0.0250244140625, 'epoch': 0.05}
+  5%|▌         | 217/4286 [1:12:32<24:41:52, 21.85s/it]  5%|▌         | 218/4286 [1:12:54<24:43:13, 21.88s/it]                                                       {'loss': 0.0008, 'grad_norm': 0.42073325280639245, 'learning_rate': 9.491367242183854e-07, 'completion_length': 335.17857360839844, 'rewards/only_full_func_accuracy_reward': 0.6406250298023224, 'rewards/format_reward': 1.0, 'reward': 1.6406250596046448, 'reward_std': 0.13886193186044693, 'kl': 0.0191650390625, 'epoch': 0.05}
+  5%|▌         | 218/4286 [1:12:54<24:43:13, 21.88s/it]  5%|▌         | 219/4286 [1:13:15<24:27:02, 21.64s/it]                                                       {'loss': 0.001, 'grad_norm': 0.5552658983606646, 'learning_rate': 9.489034064395707e-07, 'completion_length': 328.2410888671875, 'rewards/only_full_func_accuracy_reward': 0.543154776096344, 'rewards/format_reward': 1.0, 'reward': 1.5431549549102783, 'reward_std': 0.19830430299043655, 'kl': 0.02508544921875, 'epoch': 0.05}
+  5%|▌         | 219/4286 [1:13:15<24:27:02, 21.64s/it]  5%|▌         | 220/4286 [1:13:38<24:45:55, 21.93s/it]                                                       {'loss': 0.0009, 'grad_norm': 1.389734500067998, 'learning_rate': 9.486700886607559e-07, 'completion_length': 339.3393096923828, 'rewards/only_full_func_accuracy_reward': 0.5880952775478363, 'rewards/format_reward': 1.0, 'reward': 1.5880953073501587, 'reward_std': 0.17009805142879486, 'kl': 0.0233154296875, 'epoch': 0.05}
+  5%|▌         | 220/4286 [1:13:38<24:45:55, 21.93s/it]  5%|▌         | 221/4286 [1:13:59<24:26:23, 21.64s/it]                                                       {'loss': 0.0009, 'grad_norm': 0.5463775352527621, 'learning_rate': 9.484367708819412e-07, 'completion_length': 325.0535888671875, 'rewards/only_full_func_accuracy_reward': 0.4925595074892044, 'rewards/format_reward': 1.0, 'reward': 1.4925596117973328, 'reward_std': 0.11613323912024498, 'kl': 0.0223388671875, 'epoch': 0.05}
+  5%|▌         | 221/4286 [1:13:59<24:26:23, 21.64s/it]  5%|▌         | 222/4286 [1:14:23<25:09:27, 22.29s/it]                                                       {'loss': 0.001, 'grad_norm': 0.5116836799504948, 'learning_rate': 9.482034531031265e-07, 'completion_length': 337.7053680419922, 'rewards/only_full_func_accuracy_reward': 0.588169664144516, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5792410969734192, 'reward_std': 0.17628222703933716, 'kl': 0.02423095703125, 'epoch': 0.05}
+  5%|▌         | 222/4286 [1:14:23<25:09:27, 22.29s/it]  5%|▌         | 223/4286 [1:14:43<24:30:55, 21.72s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.7583042445958567, 'learning_rate': 9.479701353243117e-07, 'completion_length': 309.40179443359375, 'rewards/only_full_func_accuracy_reward': 0.5319940149784088, 'rewards/format_reward': 1.0, 'reward': 1.5319941639900208, 'reward_std': 0.19452506303787231, 'kl': 0.02679443359375, 'epoch': 0.05}
+  5%|▌         | 223/4286 [1:14:43<24:30:55, 21.72s/it]  5%|▌         | 224/4286 [1:15:06<24:49:16, 22.00s/it]                                                       {'loss': 0.0009, 'grad_norm': 0.9271252498570651, 'learning_rate': 9.477368175454969e-07, 'completion_length': 353.0446472167969, 'rewards/only_full_func_accuracy_reward': 0.414434552192688, 'rewards/format_reward': 1.0, 'reward': 1.4144346117973328, 'reward_std': 0.11882421374320984, 'kl': 0.0235595703125, 'epoch': 0.05}
+  5%|▌         | 224/4286 [1:15:06<24:49:16, 22.00s/it]  5%|▌         | 225/4286 [1:15:26<24:07:36, 21.39s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.5703628163061547, 'learning_rate': 9.475034997666822e-07, 'completion_length': 306.33929443359375, 'rewards/only_full_func_accuracy_reward': 0.5580357611179352, 'rewards/format_reward': 1.0, 'reward': 1.5580358505249023, 'reward_std': 0.1455548107624054, 'kl': 0.02783203125, 'epoch': 0.05}
+  5%|▌         | 225/4286 [1:15:26<24:07:36, 21.39s/it]  5%|▌         | 226/4286 [1:15:47<24:04:36, 21.35s/it]                                                       {'loss': 0.001, 'grad_norm': 0.7540109512681359, 'learning_rate': 9.472701819878675e-07, 'completion_length': 329.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.5385416746139526, 'rewards/format_reward': 1.0, 'reward': 1.5385416746139526, 'reward_std': 0.16097280383110046, 'kl': 0.02459716796875, 'epoch': 0.05}
+  5%|▌         | 226/4286 [1:15:47<24:04:36, 21.35s/it]  5%|▌         | 227/4286 [1:16:06<23:27:55, 20.81s/it]                                                       {'loss': 0.001, 'grad_norm': 0.44105668898074113, 'learning_rate': 9.470368642090527e-07, 'completion_length': 293.1428680419922, 'rewards/only_full_func_accuracy_reward': 0.569196417927742, 'rewards/format_reward': 1.0, 'reward': 1.5691965818405151, 'reward_std': 0.1216534711420536, 'kl': 0.02447509765625, 'epoch': 0.05}
+  5%|▌         | 227/4286 [1:16:06<23:27:55, 20.81s/it]  5%|▌         | 228/4286 [1:16:28<23:42:52, 21.04s/it]                                                       {'loss': 0.0009, 'grad_norm': 0.6138329869725943, 'learning_rate': 9.468035464302379e-07, 'completion_length': 332.2053680419922, 'rewards/only_full_func_accuracy_reward': 0.5520833432674408, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5431549549102783, 'reward_std': 0.1235535740852356, 'kl': 0.02325439453125, 'epoch': 0.05}
+  5%|▌         | 228/4286 [1:16:28<23:42:52, 21.04s/it]  5%|▌         | 229/4286 [1:16:48<23:26:15, 20.80s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.6099581520320144, 'learning_rate': 9.465702286514233e-07, 'completion_length': 308.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.47782741487026215, 'rewards/format_reward': 1.0, 'reward': 1.4778274297714233, 'reward_std': 0.08741099759936333, 'kl': 0.02703857421875, 'epoch': 0.05}
+  5%|▌         | 229/4286 [1:16:48<23:26:15, 20.80s/it]  5%|▌         | 230/4286 [1:17:10<23:41:13, 21.02s/it]                                                       {'loss': 0.001, 'grad_norm': 1.2093516284900923, 'learning_rate': 9.463369108726085e-07, 'completion_length': 305.40179443359375, 'rewards/only_full_func_accuracy_reward': 0.511160746216774, 'rewards/format_reward': 1.0, 'reward': 1.5111607909202576, 'reward_std': 0.15430055186152458, 'kl': 0.0252685546875, 'epoch': 0.05}
+  5%|▌         | 230/4286 [1:17:10<23:41:13, 21.02s/it]  5%|▌         | 231/4286 [1:17:30<23:26:30, 20.81s/it]                                                       {'loss': 0.001, 'grad_norm': 0.7804326305056364, 'learning_rate': 9.461035930937937e-07, 'completion_length': 315.46429443359375, 'rewards/only_full_func_accuracy_reward': 0.5505952537059784, 'rewards/format_reward': 1.0, 'reward': 1.5505953431129456, 'reward_std': 0.15951789915561676, 'kl': 0.02606201171875, 'epoch': 0.05}
+  5%|▌         | 231/4286 [1:17:30<23:26:30, 20.81s/it]  5%|▌         | 232/4286 [1:17:52<23:39:43, 21.01s/it]                                                       {'loss': 0.001, 'grad_norm': 1.0652274295505846, 'learning_rate': 9.45870275314979e-07, 'completion_length': 336.2053680419922, 'rewards/only_full_func_accuracy_reward': 0.4724702686071396, 'rewards/format_reward': 1.0, 'reward': 1.4724703431129456, 'reward_std': 0.14216548949480057, 'kl': 0.02557373046875, 'epoch': 0.05}
+  5%|▌         | 232/4286 [1:17:52<23:39:43, 21.01s/it]  5%|▌         | 233/4286 [1:18:12<23:25:55, 20.81s/it]                                                       {'loss': 0.0009, 'grad_norm': 1.1153755241128884, 'learning_rate': 9.456369575361642e-07, 'completion_length': 322.3482208251953, 'rewards/only_full_func_accuracy_reward': 0.45059525966644287, 'rewards/format_reward': 1.0, 'reward': 1.450595200061798, 'reward_std': 0.17242353409528732, 'kl': 0.02362060546875, 'epoch': 0.05}
+  5%|▌         | 233/4286 [1:18:12<23:25:55, 20.81s/it]  5%|▌         | 234/4286 [1:18:33<23:29:07, 20.87s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.5703109892441944, 'learning_rate': 9.454036397573495e-07, 'completion_length': 327.52679443359375, 'rewards/only_full_func_accuracy_reward': 0.6806547939777374, 'rewards/format_reward': 1.0, 'reward': 1.6806548833847046, 'reward_std': 0.13110046833753586, 'kl': 0.02801513671875, 'epoch': 0.05}
+  5%|▌         | 234/4286 [1:18:33<23:29:07, 20.87s/it]  5%|▌         | 235/4286 [1:18:54<23:26:16, 20.83s/it]                                                       {'loss': 0.001, 'grad_norm': 0.6507400647877026, 'learning_rate': 9.451703219785348e-07, 'completion_length': 310.5625, 'rewards/only_full_func_accuracy_reward': 0.505059540271759, 'rewards/format_reward': 1.0, 'reward': 1.5050595998764038, 'reward_std': 0.1597178429365158, 'kl': 0.02508544921875, 'epoch': 0.05}
+  5%|▌         | 235/4286 [1:18:54<23:26:16, 20.83s/it]  6%|▌         | 236/4286 [1:19:15<23:29:08, 20.88s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.5966012212018128, 'learning_rate': 9.4493700419972e-07, 'completion_length': 329.40179443359375, 'rewards/only_full_func_accuracy_reward': 0.376488134264946, 'rewards/format_reward': 1.0, 'reward': 1.376488208770752, 'reward_std': 0.20024047791957855, 'kl': 0.02642822265625, 'epoch': 0.06}
+  6%|▌         | 236/4286 [1:19:15<23:29:08, 20.88s/it]  6%|▌         | 237/4286 [1:19:36<23:37:41, 21.01s/it]                                                       {'loss': 0.0009, 'grad_norm': 1.0666959266213234, 'learning_rate': 9.447036864209052e-07, 'completion_length': 312.3303680419922, 'rewards/only_full_func_accuracy_reward': 0.652008980512619, 'rewards/format_reward': 1.0, 'reward': 1.6520090699195862, 'reward_std': 0.1629589945077896, 'kl': 0.02294921875, 'epoch': 0.06}
+  6%|▌         | 237/4286 [1:19:36<23:37:41, 21.01s/it]  6%|▌         | 238/4286 [1:19:57<23:33:03, 20.94s/it]                                                       {'loss': 0.0011, 'grad_norm': 5.822249921557985, 'learning_rate': 9.444703686420905e-07, 'completion_length': 333.6160888671875, 'rewards/only_full_func_accuracy_reward': 0.42232145369052887, 'rewards/format_reward': 1.0, 'reward': 1.4223214983940125, 'reward_std': 0.1645505614578724, 'kl': 0.0264892578125, 'epoch': 0.06}
+  6%|▌         | 238/4286 [1:19:57<23:33:03, 20.94s/it]  6%|▌         | 239/4286 [1:20:18<23:39:28, 21.04s/it]                                                       {'loss': 0.0011, 'grad_norm': 1.3347370081584855, 'learning_rate': 9.442370508632758e-07, 'completion_length': 314.31251525878906, 'rewards/only_full_func_accuracy_reward': 0.5864583551883698, 'rewards/format_reward': 1.0, 'reward': 1.5864585041999817, 'reward_std': 0.15588871389627457, 'kl': 0.02667236328125, 'epoch': 0.06}
+  6%|▌         | 239/4286 [1:20:18<23:39:28, 21.04s/it]  6%|▌         | 240/4286 [1:20:38<23:25:37, 20.84s/it]                                                       {'loss': 0.001, 'grad_norm': 0.7001393546939384, 'learning_rate': 9.44003733084461e-07, 'completion_length': 306.85716247558594, 'rewards/only_full_func_accuracy_reward': 0.5327381491661072, 'rewards/format_reward': 1.0, 'reward': 1.532738208770752, 'reward_std': 0.12341770902276039, 'kl': 0.02532958984375, 'epoch': 0.06}
+  6%|▌         | 240/4286 [1:20:38<23:25:37, 20.84s/it]  6%|▌         | 241/4286 [1:20:59<23:23:41, 20.82s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.6257295505356227, 'learning_rate': 9.437704153056462e-07, 'completion_length': 312.27679443359375, 'rewards/only_full_func_accuracy_reward': 0.5474702417850494, 'rewards/format_reward': 1.0, 'reward': 1.5474703907966614, 'reward_std': 0.16283418238162994, 'kl': 0.02850341796875, 'epoch': 0.06}
+  6%|▌         | 241/4286 [1:20:59<23:23:41, 20.82s/it]  6%|▌         | 242/4286 [1:21:20<23:14:48, 20.69s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.5789744361292718, 'learning_rate': 9.435370975268316e-07, 'completion_length': 295.3839416503906, 'rewards/only_full_func_accuracy_reward': 0.6101190745830536, 'rewards/format_reward': 1.0, 'reward': 1.6101191639900208, 'reward_std': 0.13208706676959991, 'kl': 0.02947998046875, 'epoch': 0.06}
+  6%|▌         | 242/4286 [1:21:20<23:14:48, 20.69s/it]  6%|▌         | 243/4286 [1:21:40<23:09:20, 20.62s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.5070025768679964, 'learning_rate': 9.433037797480168e-07, 'completion_length': 300.3839416503906, 'rewards/only_full_func_accuracy_reward': 0.5997024178504944, 'rewards/format_reward': 1.0, 'reward': 1.5997024774551392, 'reward_std': 0.1837896853685379, 'kl': 0.02978515625, 'epoch': 0.06}
+  6%|▌         | 243/4286 [1:21:40<23:09:20, 20.62s/it]  6%|▌         | 244/4286 [1:22:01<23:17:47, 20.75s/it]                                                       {'loss': 0.001, 'grad_norm': 0.7055155747657121, 'learning_rate': 9.43070461969202e-07, 'completion_length': 315.9910888671875, 'rewards/only_full_func_accuracy_reward': 0.4878472685813904, 'rewards/format_reward': 1.0, 'reward': 1.4878473281860352, 'reward_std': 0.15125702321529388, 'kl': 0.02593994140625, 'epoch': 0.06}
+  6%|▌         | 244/4286 [1:22:01<23:17:47, 20.75s/it]  6%|▌         | 245/4286 [1:22:22<23:17:26, 20.75s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.42255173076449093, 'learning_rate': 9.428371441903873e-07, 'completion_length': 305.6071472167969, 'rewards/only_full_func_accuracy_reward': 0.7110119163990021, 'rewards/format_reward': 1.0, 'reward': 1.7110119462013245, 'reward_std': 0.11241120472550392, 'kl': 0.027099609375, 'epoch': 0.06}
+  6%|▌         | 245/4286 [1:22:22<23:17:26, 20.75s/it]  6%|▌         | 246/4286 [1:22:41<22:51:44, 20.37s/it]                                                       {'loss': 0.001, 'grad_norm': 1.7941643615600011, 'learning_rate': 9.426038264115726e-07, 'completion_length': 294.0446548461914, 'rewards/only_full_func_accuracy_reward': 0.5595238208770752, 'rewards/format_reward': 1.0, 'reward': 1.5595239400863647, 'reward_std': 0.13344285637140274, 'kl': 0.02484130859375, 'epoch': 0.06}
+  6%|▌         | 246/4286 [1:22:41<22:51:44, 20.37s/it]  6%|▌         | 247/4286 [1:23:02<22:58:29, 20.48s/it]                                                       {'loss': 0.0011, 'grad_norm': 1.3139678550932754, 'learning_rate': 9.423705086327578e-07, 'completion_length': 323.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.5870535969734192, 'rewards/format_reward': 1.0, 'reward': 1.587053656578064, 'reward_std': 0.15412631630897522, 'kl': 0.02685546875, 'epoch': 0.06}
+  6%|▌         | 247/4286 [1:23:02<22:58:29, 20.48s/it]  6%|▌         | 248/4286 [1:23:23<23:00:25, 20.51s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.9016363474952075, 'learning_rate': 9.42137190853943e-07, 'completion_length': 304.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.6413690447807312, 'rewards/format_reward': 1.0, 'reward': 1.641369104385376, 'reward_std': 0.1170015037059784, 'kl': 0.0272216796875, 'epoch': 0.06}
+  6%|▌         | 248/4286 [1:23:23<23:00:25, 20.51s/it]  6%|▌         | 249/4286 [1:23:43<22:59:12, 20.50s/it]                                                       {'loss': 0.001, 'grad_norm': 0.5992005489175132, 'learning_rate': 9.419038730751283e-07, 'completion_length': 324.8928680419922, 'rewards/only_full_func_accuracy_reward': 0.427083358168602, 'rewards/format_reward': 1.0, 'reward': 1.4270834922790527, 'reward_std': 0.13826167583465576, 'kl': 0.02490234375, 'epoch': 0.06}
+  6%|▌         | 249/4286 [1:23:43<22:59:12, 20.50s/it]  6%|▌         | 250/4286 [1:24:05<23:28:02, 20.93s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.7463498552535213, 'learning_rate': 9.416705552963136e-07, 'completion_length': 323.8125, 'rewards/only_full_func_accuracy_reward': 0.5930060148239136, 'rewards/format_reward': 1.0, 'reward': 1.5930060744285583, 'reward_std': 0.18488672375679016, 'kl': 0.0303955078125, 'epoch': 0.06}
+  6%|▌         | 250/4286 [1:24:05<23:28:02, 20.93s/it]  6%|▌         | 251/4286 [1:24:28<24:02:19, 21.45s/it]                                                       {'loss': 0.001, 'grad_norm': 0.5396820479217984, 'learning_rate': 9.414372375174988e-07, 'completion_length': 346.66966247558594, 'rewards/only_full_func_accuracy_reward': 0.5539063215255737, 'rewards/format_reward': 1.0, 'reward': 1.5539063811302185, 'reward_std': 0.1251702941954136, 'kl': 0.02520751953125, 'epoch': 0.06}
+  6%|▌         | 251/4286 [1:24:28<24:02:19, 21.45s/it]  6%|▌         | 252/4286 [1:24:49<24:08:22, 21.54s/it]                                                       {'loss': 0.001, 'grad_norm': 2.155629953420092, 'learning_rate': 9.412039197386841e-07, 'completion_length': 346.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.5407366454601288, 'rewards/format_reward': 1.0, 'reward': 1.5407367944717407, 'reward_std': 0.15348995476961136, 'kl': 0.02545166015625, 'epoch': 0.06}
+  6%|▌         | 252/4286 [1:24:49<24:08:22, 21.54s/it]  6%|▌         | 253/4286 [1:25:12<24:20:33, 21.73s/it]                                                       {'loss': 0.0011, 'grad_norm': 1.3049687431339614, 'learning_rate': 9.409706019598693e-07, 'completion_length': 341.9732208251953, 'rewards/only_full_func_accuracy_reward': 0.5574405044317245, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5485121011734009, 'reward_std': 0.14924926683306694, 'kl': 0.02642822265625, 'epoch': 0.06}
+  6%|▌         | 253/4286 [1:25:12<24:20:33, 21.73s/it]  6%|▌         | 254/4286 [1:25:34<24:34:18, 21.94s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.5466240768819712, 'learning_rate': 9.407372841810545e-07, 'completion_length': 354.75001525878906, 'rewards/only_full_func_accuracy_reward': 0.6450892984867096, 'rewards/format_reward': 1.0, 'reward': 1.645089328289032, 'reward_std': 0.20418387651443481, 'kl': 0.0294189453125, 'epoch': 0.06}
+  6%|▌         | 254/4286 [1:25:34<24:34:18, 21.94s/it]  6%|▌         | 255/4286 [1:25:55<24:17:37, 21.70s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.6251949630359409, 'learning_rate': 9.405039664022399e-07, 'completion_length': 307.49107360839844, 'rewards/only_full_func_accuracy_reward': 0.6029762327671051, 'rewards/format_reward': 1.0, 'reward': 1.6029763221740723, 'reward_std': 0.11221802234649658, 'kl': 0.02655029296875, 'epoch': 0.06}
+  6%|▌         | 255/4286 [1:25:55<24:17:37, 21.70s/it]  6%|▌         | 256/4286 [1:26:16<23:58:56, 21.42s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.6429119780726928, 'learning_rate': 9.402706486234251e-07, 'completion_length': 293.06251525878906, 'rewards/only_full_func_accuracy_reward': 0.7038690745830536, 'rewards/format_reward': 1.0, 'reward': 1.7038692235946655, 'reward_std': 0.15809765458106995, 'kl': 0.0267333984375, 'epoch': 0.06}
+  6%|▌         | 256/4286 [1:26:16<23:58:56, 21.42s/it]  6%|▌         | 257/4286 [1:26:38<24:03:47, 21.50s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.7382360667372823, 'learning_rate': 9.400373308446103e-07, 'completion_length': 326.3482208251953, 'rewards/only_full_func_accuracy_reward': 0.6235119104385376, 'rewards/format_reward': 1.0, 'reward': 1.6235119700431824, 'reward_std': 0.1708681657910347, 'kl': 0.03021240234375, 'epoch': 0.06}
+  6%|▌         | 257/4286 [1:26:38<24:03:47, 21.50s/it]  6%|▌         | 258/4286 [1:27:00<24:21:50, 21.78s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.5123632747188741, 'learning_rate': 9.398040130657957e-07, 'completion_length': 371.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.5327381640672684, 'rewards/format_reward': 1.0, 'reward': 1.532738208770752, 'reward_std': 0.1567184403538704, 'kl': 0.0262451171875, 'epoch': 0.06}
+  6%|▌         | 258/4286 [1:27:00<24:21:50, 21.78s/it]  6%|▌         | 259/4286 [1:27:22<24:32:50, 21.94s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.5271351386128802, 'learning_rate': 9.395706952869809e-07, 'completion_length': 344.4018096923828, 'rewards/only_full_func_accuracy_reward': 0.502232164144516, 'rewards/format_reward': 1.0, 'reward': 1.5022322535514832, 'reward_std': 0.15955527499318123, 'kl': 0.02813720703125, 'epoch': 0.06}
+  6%|▌         | 259/4286 [1:27:22<24:32:50, 21.94s/it]  6%|▌         | 260/4286 [1:27:45<24:46:15, 22.15s/it]                                                       {'loss': 0.001, 'grad_norm': 0.5159276516547524, 'learning_rate': 9.393373775081661e-07, 'completion_length': 355.54466247558594, 'rewards/only_full_func_accuracy_reward': 0.6005952656269073, 'rewards/format_reward': 1.0, 'reward': 1.6005953550338745, 'reward_std': 0.13574300706386566, 'kl': 0.02435302734375, 'epoch': 0.06}
+  6%|▌         | 260/4286 [1:27:45<24:46:15, 22.15s/it]  6%|▌         | 261/4286 [1:28:06<24:15:51, 21.70s/it]                                                       {'loss': 0.001, 'grad_norm': 0.5176651523204541, 'learning_rate': 9.391040597293513e-07, 'completion_length': 316.5446472167969, 'rewards/only_full_func_accuracy_reward': 0.5632440447807312, 'rewards/format_reward': 1.0, 'reward': 1.5632442235946655, 'reward_std': 0.09279026463627815, 'kl': 0.02593994140625, 'epoch': 0.06}
+  6%|▌         | 261/4286 [1:28:06<24:15:51, 21.70s/it]  6%|▌         | 262/4286 [1:28:27<24:04:29, 21.54s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.33971069006756144, 'learning_rate': 9.388707419505366e-07, 'completion_length': 329.36607360839844, 'rewards/only_full_func_accuracy_reward': 0.6636905074119568, 'rewards/format_reward': 1.0, 'reward': 1.6636906266212463, 'reward_std': 0.09309938736259937, 'kl': 0.0269775390625, 'epoch': 0.06}
+  6%|▌         | 262/4286 [1:28:27<24:04:29, 21.54s/it]  6%|▌         | 263/4286 [1:28:49<24:16:33, 21.72s/it]                                                       {'loss': 0.0009, 'grad_norm': 0.5699933431320235, 'learning_rate': 9.386374241717219e-07, 'completion_length': 350.0357360839844, 'rewards/only_full_func_accuracy_reward': 0.5860119462013245, 'rewards/format_reward': 1.0, 'reward': 1.5860119462013245, 'reward_std': 0.15576143562793732, 'kl': 0.02325439453125, 'epoch': 0.06}
+  6%|▌         | 263/4286 [1:28:49<24:16:33, 21.72s/it]  6%|▌         | 264/4286 [1:29:11<24:20:15, 21.78s/it]                                                       {'loss': 0.0011, 'grad_norm': 1.3980781644566282, 'learning_rate': 9.384041063929071e-07, 'completion_length': 341.49107360839844, 'rewards/only_full_func_accuracy_reward': 0.5470238327980042, 'rewards/format_reward': 1.0, 'reward': 1.5470239520072937, 'reward_std': 0.1210489459335804, 'kl': 0.02850341796875, 'epoch': 0.06}
+  6%|▌         | 264/4286 [1:29:11<24:20:15, 21.78s/it]  6%|▌         | 265/4286 [1:29:31<23:53:00, 21.38s/it]                                                       {'loss': 0.001, 'grad_norm': 0.6074052040918584, 'learning_rate': 9.381707886140924e-07, 'completion_length': 326.06251525878906, 'rewards/only_full_func_accuracy_reward': 0.6706846058368683, 'rewards/format_reward': 1.0, 'reward': 1.6706846356391907, 'reward_std': 0.13727393001317978, 'kl': 0.02520751953125, 'epoch': 0.06}
+  6%|▌         | 265/4286 [1:29:31<23:53:00, 21.38s/it]  6%|▌         | 266/4286 [1:29:55<24:46:09, 22.18s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.48277175894526503, 'learning_rate': 9.379374708352776e-07, 'completion_length': 356.2768096923828, 'rewards/only_full_func_accuracy_reward': 0.4672619104385376, 'rewards/format_reward': 1.0, 'reward': 1.4672619700431824, 'reward_std': 0.12803679704666138, 'kl': 0.031982421875, 'epoch': 0.06}
+  6%|▌         | 266/4286 [1:29:55<24:46:09, 22.18s/it]  6%|▌         | 267/4286 [1:30:19<25:09:32, 22.54s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.4728212550984483, 'learning_rate': 9.377041530564629e-07, 'completion_length': 358.4018096923828, 'rewards/only_full_func_accuracy_reward': 0.5846726596355438, 'rewards/format_reward': 1.0, 'reward': 1.584672749042511, 'reward_std': 0.19351238757371902, 'kl': 0.02874755859375, 'epoch': 0.06}
+  6%|▌         | 267/4286 [1:30:19<25:09:32, 22.54s/it]  6%|▋         | 268/4286 [1:30:41<24:55:02, 22.33s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.6768437420653325, 'learning_rate': 9.374708352776482e-07, 'completion_length': 361.2143096923828, 'rewards/only_full_func_accuracy_reward': 0.5090774446725845, 'rewards/format_reward': 1.0, 'reward': 1.5090774893760681, 'reward_std': 0.082719836384058, 'kl': 0.028076171875, 'epoch': 0.06}
+  6%|▋         | 268/4286 [1:30:41<24:55:02, 22.33s/it]  6%|▋         | 269/4286 [1:31:04<25:16:07, 22.65s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.40121099860827886, 'learning_rate': 9.372375174988334e-07, 'completion_length': 358.20538330078125, 'rewards/only_full_func_accuracy_reward': 0.5924107432365417, 'rewards/format_reward': 1.0, 'reward': 1.5924108624458313, 'reward_std': 0.11897042021155357, 'kl': 0.028076171875, 'epoch': 0.06}
+  6%|▋         | 269/4286 [1:31:04<25:16:07, 22.65s/it]  6%|▋         | 270/4286 [1:31:26<25:07:59, 22.53s/it]                                                       {'loss': 0.001, 'grad_norm': 0.4389910329252732, 'learning_rate': 9.370041997200186e-07, 'completion_length': 372.5178680419922, 'rewards/only_full_func_accuracy_reward': 0.511160746216774, 'rewards/format_reward': 1.0, 'reward': 1.5111607313156128, 'reward_std': 0.12655945122241974, 'kl': 0.02435302734375, 'epoch': 0.06}
+  6%|▋         | 270/4286 [1:31:26<25:07:59, 22.53s/it]  6%|▋         | 271/4286 [1:31:49<25:13:27, 22.62s/it]                                                       {'loss': 0.001, 'grad_norm': 0.4412561047401303, 'learning_rate': 9.367708819412039e-07, 'completion_length': 338.51788330078125, 'rewards/only_full_func_accuracy_reward': 0.497619092464447, 'rewards/format_reward': 1.0, 'reward': 1.4976191520690918, 'reward_std': 0.12879623472690582, 'kl': 0.025634765625, 'epoch': 0.06}
+  6%|▋         | 271/4286 [1:31:49<25:13:27, 22.62s/it]  6%|▋         | 272/4286 [1:32:12<25:22:48, 22.76s/it]                                                       {'loss': 0.001, 'grad_norm': 0.47155644356954235, 'learning_rate': 9.365375641623892e-07, 'completion_length': 375.64288330078125, 'rewards/only_full_func_accuracy_reward': 0.6247024536132812, 'rewards/format_reward': 1.0, 'reward': 1.624702513217926, 'reward_std': 0.15652001276612282, 'kl': 0.024169921875, 'epoch': 0.06}
+  6%|▋         | 272/4286 [1:32:12<25:22:48, 22.76s/it]  6%|▋         | 273/4286 [1:32:34<25:13:36, 22.63s/it]                                                       {'loss': 0.0009, 'grad_norm': 0.5004575865692148, 'learning_rate': 9.363042463835744e-07, 'completion_length': 364.0714569091797, 'rewards/only_full_func_accuracy_reward': 0.664434552192688, 'rewards/format_reward': 1.0, 'reward': 1.6644346714019775, 'reward_std': 0.11136080324649811, 'kl': 0.02301025390625, 'epoch': 0.06}
+  6%|▋         | 273/4286 [1:32:34<25:13:36, 22.63s/it]  6%|▋         | 274/4286 [1:32:56<24:43:23, 22.18s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.6706621521091823, 'learning_rate': 9.360709286047596e-07, 'completion_length': 354.1607208251953, 'rewards/only_full_func_accuracy_reward': 0.5864583551883698, 'rewards/format_reward': 1.0, 'reward': 1.5864585638046265, 'reward_std': 0.1680438071489334, 'kl': 0.0279541015625, 'epoch': 0.06}
+  6%|▋         | 274/4286 [1:32:56<24:43:23, 22.18s/it]  6%|▋         | 275/4286 [1:33:18<24:37:48, 22.11s/it]                                                       {'loss': 0.001, 'grad_norm': 0.9224789167559565, 'learning_rate': 9.35837610825945e-07, 'completion_length': 339.33038330078125, 'rewards/only_full_func_accuracy_reward': 0.5541666746139526, 'rewards/format_reward': 1.0, 'reward': 1.5541667938232422, 'reward_std': 0.17197049409151077, 'kl': 0.02593994140625, 'epoch': 0.06}
+  6%|▋         | 275/4286 [1:33:18<24:37:48, 22.11s/it][2025-02-27 03:58:13,695] [WARNING] [stage3.py:2134:step] 1 pytorch allocator cache flushes since last step. this happens when there is high memory pressure and is detrimental to performance. if this is happening frequently consider adjusting settings to reduce memory consumption. If you are unable to make the cache flushes go away consider adding get_accelerator().empty_cache() calls in your training loop to ensure that all ranks flush their caches at the same time
+  6%|▋         | 276/4286 [1:33:41<25:00:50, 22.46s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.3877999875244874, 'learning_rate': 9.356042930471302e-07, 'completion_length': 343.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.616815447807312, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6078870296478271, 'reward_std': 0.18497899919748306, 'kl': 0.0281982421875, 'epoch': 0.06}
+  6%|▋         | 276/4286 [1:33:41<25:00:50, 22.46s/it]  6%|▋         | 277/4286 [1:34:05<25:32:00, 22.93s/it]                                                       {'loss': 0.0009, 'grad_norm': 0.5307552815087704, 'learning_rate': 9.353709752683154e-07, 'completion_length': 402.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.6145833432674408, 'rewards/format_reward': 1.0, 'reward': 1.614583432674408, 'reward_std': 0.1573808714747429, 'kl': 0.02178955078125, 'epoch': 0.06}
+  6%|▋         | 277/4286 [1:34:05<25:32:00, 22.93s/it]  6%|▋         | 278/4286 [1:34:25<24:39:24, 22.15s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.4724997874099431, 'learning_rate': 9.351376574895007e-07, 'completion_length': 319.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.6694196462631226, 'rewards/format_reward': 1.0, 'reward': 1.6694197058677673, 'reward_std': 0.0934629812836647, 'kl': 0.02874755859375, 'epoch': 0.06}
+  6%|▋         | 278/4286 [1:34:25<24:39:24, 22.15s/it]  7%|▋         | 279/4286 [1:34:47<24:30:25, 22.02s/it]                                                       {'loss': 0.0011, 'grad_norm': 11.730996168232203, 'learning_rate': 9.34904339710686e-07, 'completion_length': 329.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.4494048058986664, 'rewards/format_reward': 1.0, 'reward': 1.4494048357009888, 'reward_std': 0.13953333720564842, 'kl': 0.026611328125, 'epoch': 0.07}
+  7%|▋         | 279/4286 [1:34:47<24:30:25, 22.02s/it]  7%|▋         | 280/4286 [1:35:10<24:59:33, 22.46s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.4687165086966261, 'learning_rate': 9.346710219318712e-07, 'completion_length': 388.20538330078125, 'rewards/only_full_func_accuracy_reward': 0.4508928805589676, 'rewards/format_reward': 1.0, 'reward': 1.450892984867096, 'reward_std': 0.18561851233243942, 'kl': 0.02911376953125, 'epoch': 0.07}
+  7%|▋         | 280/4286 [1:35:10<24:59:33, 22.46s/it]  7%|▋         | 281/4286 [1:35:32<24:33:52, 22.08s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.4275931092551788, 'learning_rate': 9.344377041530565e-07, 'completion_length': 352.4732208251953, 'rewards/only_full_func_accuracy_reward': 0.5319940596818924, 'rewards/format_reward': 1.0, 'reward': 1.531994104385376, 'reward_std': 0.12362952530384064, 'kl': 0.0264892578125, 'epoch': 0.07}
+  7%|▋         | 281/4286 [1:35:32<24:33:52, 22.08s/it]  7%|▋         | 282/4286 [1:35:54<24:34:36, 22.10s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.5154344078605116, 'learning_rate': 9.342043863742417e-07, 'completion_length': 356.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.6922991275787354, 'rewards/format_reward': 1.0, 'reward': 1.6922991871833801, 'reward_std': 0.12712840922176838, 'kl': 0.02789306640625, 'epoch': 0.07}
+  7%|▋         | 282/4286 [1:35:54<24:34:36, 22.10s/it]  7%|▋         | 283/4286 [1:36:17<25:01:47, 22.51s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.5152355669806541, 'learning_rate': 9.339710685954269e-07, 'completion_length': 374.2857360839844, 'rewards/only_full_func_accuracy_reward': 0.5223214775323868, 'rewards/format_reward': 1.0, 'reward': 1.5223215818405151, 'reward_std': 0.13210050016641617, 'kl': 0.0277099609375, 'epoch': 0.07}
+  7%|▋         | 283/4286 [1:36:17<25:01:47, 22.51s/it]  7%|▋         | 284/4286 [1:36:40<25:09:19, 22.63s/it]                                                       {'loss': 0.001, 'grad_norm': 0.6037461083825408, 'learning_rate': 9.337377508166122e-07, 'completion_length': 354.08929443359375, 'rewards/only_full_func_accuracy_reward': 0.5915178954601288, 'rewards/format_reward': 1.0, 'reward': 1.591517984867096, 'reward_std': 0.10596121847629547, 'kl': 0.02569580078125, 'epoch': 0.07}
+  7%|▋         | 284/4286 [1:36:40<25:09:19, 22.63s/it]  7%|▋         | 285/4286 [1:37:04<25:40:30, 23.10s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.4095064730369602, 'learning_rate': 9.335044330377975e-07, 'completion_length': 388.89288330078125, 'rewards/only_full_func_accuracy_reward': 0.6275298297405243, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6186013221740723, 'reward_std': 0.17520655691623688, 'kl': 0.02667236328125, 'epoch': 0.07}
+  7%|▋         | 285/4286 [1:37:04<25:40:30, 23.10s/it]  7%|▋         | 286/4286 [1:37:28<25:49:15, 23.24s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.5522640019654337, 'learning_rate': 9.332711152589827e-07, 'completion_length': 338.0178680419922, 'rewards/only_full_func_accuracy_reward': 0.6111421287059784, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6022136211395264, 'reward_std': 0.16874902695417404, 'kl': 0.02642822265625, 'epoch': 0.07}
+  7%|▋         | 286/4286 [1:37:28<25:49:15, 23.24s/it]  7%|▋         | 287/4286 [1:37:51<25:50:36, 23.27s/it]                                                       {'loss': 0.001, 'grad_norm': 0.369676676228839, 'learning_rate': 9.330377974801679e-07, 'completion_length': 350.2410888671875, 'rewards/only_full_func_accuracy_reward': 0.6542038917541504, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6452754139900208, 'reward_std': 0.1903647929430008, 'kl': 0.025634765625, 'epoch': 0.07}
+  7%|▋         | 287/4286 [1:37:51<25:50:36, 23.27s/it]  7%|▋         | 288/4286 [1:38:14<25:47:27, 23.22s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.531783419611462, 'learning_rate': 9.328044797013533e-07, 'completion_length': 369.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.5037202537059784, 'rewards/format_reward': 1.0, 'reward': 1.5037204027175903, 'reward_std': 0.12155550345778465, 'kl': 0.028076171875, 'epoch': 0.07}
+  7%|▋         | 288/4286 [1:38:14<25:47:27, 23.22s/it]  7%|▋         | 289/4286 [1:38:37<25:35:14, 23.05s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.5219549589861247, 'learning_rate': 9.325711619225385e-07, 'completion_length': 367.0089569091797, 'rewards/only_full_func_accuracy_reward': 0.4702381193637848, 'rewards/format_reward': 1.0, 'reward': 1.470238208770752, 'reward_std': 0.09550894051790237, 'kl': 0.03082275390625, 'epoch': 0.07}
+  7%|▋         | 289/4286 [1:38:37<25:35:14, 23.05s/it]  7%|▋         | 290/4286 [1:39:00<25:35:54, 23.06s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.29607699054606, 'learning_rate': 9.323378441437237e-07, 'completion_length': 354.5803680419922, 'rewards/only_full_func_accuracy_reward': 0.461309552192688, 'rewards/format_reward': 1.0, 'reward': 1.4613096714019775, 'reward_std': 0.09900502488017082, 'kl': 0.027587890625, 'epoch': 0.07}
+  7%|▋         | 290/4286 [1:39:00<25:35:54, 23.06s/it]  7%|▋         | 291/4286 [1:39:21<25:02:30, 22.57s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.6587983193693809, 'learning_rate': 9.32104526364909e-07, 'completion_length': 340.7857208251953, 'rewards/only_full_func_accuracy_reward': 0.536458358168602, 'rewards/format_reward': 1.0, 'reward': 1.536458432674408, 'reward_std': 0.09372729249298573, 'kl': 0.0296630859375, 'epoch': 0.07}
+  7%|▋         | 291/4286 [1:39:21<25:02:30, 22.57s/it]  7%|▋         | 292/4286 [1:39:46<25:32:13, 23.02s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.6516383253974185, 'learning_rate': 9.318712085860943e-07, 'completion_length': 357.35716247558594, 'rewards/only_full_func_accuracy_reward': 0.6711309552192688, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.662202537059784, 'reward_std': 0.15220800787210464, 'kl': 0.02642822265625, 'epoch': 0.07}
+  7%|▋         | 292/4286 [1:39:46<25:32:13, 23.02s/it]  7%|▋         | 293/4286 [1:40:07<24:53:49, 22.45s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.47111921741465385, 'learning_rate': 9.316378908072795e-07, 'completion_length': 326.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.4735119193792343, 'rewards/format_reward': 1.0, 'reward': 1.473512053489685, 'reward_std': 0.10195176675915718, 'kl': 0.02935791015625, 'epoch': 0.07}
+  7%|▋         | 293/4286 [1:40:07<24:53:49, 22.45s/it]  7%|▋         | 294/4286 [1:40:30<25:03:28, 22.60s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.6765548152539118, 'learning_rate': 9.314045730284647e-07, 'completion_length': 372.7857360839844, 'rewards/only_full_func_accuracy_reward': 0.5327381193637848, 'rewards/format_reward': 1.0, 'reward': 1.532738208770752, 'reward_std': 0.11382516101002693, 'kl': 0.0284423828125, 'epoch': 0.07}
+  7%|▋         | 294/4286 [1:40:30<25:03:28, 22.60s/it]  7%|▋         | 295/4286 [1:40:53<25:10:19, 22.71s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.40841780207373973, 'learning_rate': 9.3117125524965e-07, 'completion_length': 317.4464416503906, 'rewards/only_full_func_accuracy_reward': 0.5111607164144516, 'rewards/format_reward': 1.0, 'reward': 1.5111607909202576, 'reward_std': 0.16263346374034882, 'kl': 0.0303955078125, 'epoch': 0.07}
+  7%|▋         | 295/4286 [1:40:53<25:10:19, 22.71s/it]  7%|▋         | 296/4286 [1:41:15<25:14:03, 22.77s/it]                                                       {'loss': 0.001, 'grad_norm': 3.1644442588579103, 'learning_rate': 9.309379374708353e-07, 'completion_length': 352.2589416503906, 'rewards/only_full_func_accuracy_reward': 0.6369048058986664, 'rewards/format_reward': 1.0, 'reward': 1.6369048953056335, 'reward_std': 0.1578739657998085, 'kl': 0.02593994140625, 'epoch': 0.07}
+  7%|▋         | 296/4286 [1:41:15<25:14:03, 22.77s/it]  7%|▋         | 297/4286 [1:41:37<24:42:43, 22.30s/it]                                                       {'loss': 0.0011, 'grad_norm': 1.1556961325865214, 'learning_rate': 9.307046196920205e-07, 'completion_length': 332.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.46964290738105774, 'rewards/format_reward': 1.0, 'reward': 1.469642996788025, 'reward_std': 0.12945715710520744, 'kl': 0.0272216796875, 'epoch': 0.07}
+  7%|▋         | 297/4286 [1:41:37<24:42:43, 22.30s/it]  7%|▋         | 298/4286 [1:41:59<24:48:42, 22.40s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.9876014576136259, 'learning_rate': 9.304713019132058e-07, 'completion_length': 321.40179443359375, 'rewards/only_full_func_accuracy_reward': 0.7177083790302277, 'rewards/format_reward': 1.0, 'reward': 1.7177084684371948, 'reward_std': 0.17638110369443893, 'kl': 0.0308837890625, 'epoch': 0.07}
+  7%|▋         | 298/4286 [1:41:59<24:48:42, 22.40s/it]  7%|▋         | 299/4286 [1:42:23<25:15:05, 22.80s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.5576152386193602, 'learning_rate': 9.30237984134391e-07, 'completion_length': 361.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.5357142984867096, 'rewards/format_reward': 1.0, 'reward': 1.5357143878936768, 'reward_std': 0.20935896039009094, 'kl': 0.0267333984375, 'epoch': 0.07}
+  7%|▋         | 299/4286 [1:42:23<25:15:05, 22.80s/it]  7%|▋         | 300/4286 [1:42:45<25:05:38, 22.66s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.47106490619104585, 'learning_rate': 9.300046663555763e-07, 'completion_length': 315.8214416503906, 'rewards/only_full_func_accuracy_reward': 0.48080359399318695, 'rewards/format_reward': 1.0, 'reward': 1.480803668498993, 'reward_std': 0.13518990576267242, 'kl': 0.0306396484375, 'epoch': 0.07}
+  7%|▋         | 300/4286 [1:42:45<25:05:38, 22.66s/it]  7%|▋         | 301/4286 [1:44:34<53:40:41, 48.49s/it]                                                       {'loss': 0.001, 'grad_norm': 0.4151517099262495, 'learning_rate': 9.297713485767616e-07, 'completion_length': 344.6160888671875, 'rewards/only_full_func_accuracy_reward': 0.6666666865348816, 'rewards/format_reward': 1.0, 'reward': 1.6666668057441711, 'reward_std': 0.1321178525686264, 'kl': 0.02508544921875, 'epoch': 0.07}
+  7%|▋         | 301/4286 [1:44:34<53:40:41, 48.49s/it]  7%|▋         | 302/4286 [1:44:57<44:59:47, 40.66s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.4820004376406032, 'learning_rate': 9.295380307979468e-07, 'completion_length': 351.5982360839844, 'rewards/only_full_func_accuracy_reward': 0.5171131193637848, 'rewards/format_reward': 1.0, 'reward': 1.517113208770752, 'reward_std': 0.09158708900213242, 'kl': 0.03143310546875, 'epoch': 0.07}
+  7%|▋         | 302/4286 [1:44:57<44:59:47, 40.66s/it]  7%|▋         | 303/4286 [1:45:18<38:28:29, 34.78s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.5799290625764909, 'learning_rate': 9.29304713019132e-07, 'completion_length': 320.0714416503906, 'rewards/only_full_func_accuracy_reward': 0.6086309850215912, 'rewards/format_reward': 1.0, 'reward': 1.6086310744285583, 'reward_std': 0.15693238377571106, 'kl': 0.02740478515625, 'epoch': 0.07}
+  7%|▋         | 303/4286 [1:45:18<38:28:29, 34.78s/it]  7%|▋         | 304/4286 [1:45:41<34:33:52, 31.25s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.42301541166439965, 'learning_rate': 9.290713952403174e-07, 'completion_length': 370.58929443359375, 'rewards/only_full_func_accuracy_reward': 0.517113134264946, 'rewards/format_reward': 1.0, 'reward': 1.517113208770752, 'reward_std': 0.09293333813548088, 'kl': 0.0286865234375, 'epoch': 0.07}
+  7%|▋         | 304/4286 [1:45:41<34:33:52, 31.25s/it]  7%|▋         | 305/4286 [1:46:02<31:16:53, 28.29s/it]                                                       {'loss': 0.001, 'grad_norm': 0.8274003743275011, 'learning_rate': 9.288380774615026e-07, 'completion_length': 347.6964416503906, 'rewards/only_full_func_accuracy_reward': 0.6412202715873718, 'rewards/format_reward': 1.0, 'reward': 1.6412203311920166, 'reward_std': 0.11638550087809563, 'kl': 0.02471923828125, 'epoch': 0.07}
+  7%|▋         | 305/4286 [1:46:02<31:16:53, 28.29s/it]  7%|▋         | 306/4286 [1:46:25<29:36:26, 26.78s/it]                                                       {'loss': 0.001, 'grad_norm': 0.5935036543983658, 'learning_rate': 9.286047596826878e-07, 'completion_length': 373.43751525878906, 'rewards/only_full_func_accuracy_reward': 0.5127976536750793, 'rewards/format_reward': 1.0, 'reward': 1.5127977132797241, 'reward_std': 0.18646717071533203, 'kl': 0.02398681640625, 'epoch': 0.07}
+  7%|▋         | 306/4286 [1:46:25<29:36:26, 26.78s/it]  7%|▋         | 307/4286 [1:46:48<28:08:09, 25.46s/it]                                                       {'loss': 0.001, 'grad_norm': 0.7669662115302943, 'learning_rate': 9.28371441903873e-07, 'completion_length': 372.2143096923828, 'rewards/only_full_func_accuracy_reward': 0.4184523969888687, 'rewards/format_reward': 1.0, 'reward': 1.4184524416923523, 'reward_std': 0.15940045565366745, 'kl': 0.025634765625, 'epoch': 0.07}
+  7%|▋         | 307/4286 [1:46:48<28:08:09, 25.46s/it]  7%|▋         | 308/4286 [1:47:09<26:54:15, 24.35s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.46958689604707343, 'learning_rate': 9.281381241250583e-07, 'completion_length': 355.02679443359375, 'rewards/only_full_func_accuracy_reward': 0.4382440596818924, 'rewards/format_reward': 1.0, 'reward': 1.4382442235946655, 'reward_std': 0.10038625448942184, 'kl': 0.03143310546875, 'epoch': 0.07}
+  7%|▋         | 308/4286 [1:47:09<26:54:15, 24.35s/it]  7%|▋         | 309/4286 [1:47:31<26:07:02, 23.64s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.9761551617244318, 'learning_rate': 9.279048063462436e-07, 'completion_length': 356.51788330078125, 'rewards/only_full_func_accuracy_reward': 0.6034226715564728, 'rewards/format_reward': 1.0, 'reward': 1.6034227013587952, 'reward_std': 0.14179280400276184, 'kl': 0.0274658203125, 'epoch': 0.07}
+  7%|▋         | 309/4286 [1:47:31<26:07:02, 23.64s/it]  7%|▋         | 310/4286 [1:47:54<25:50:45, 23.40s/it]                                                       {'loss': 0.001, 'grad_norm': 0.5980868950534074, 'learning_rate': 9.276714885674288e-07, 'completion_length': 357.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.629464328289032, 'rewards/format_reward': 1.0, 'reward': 1.6294643878936768, 'reward_std': 0.09503054991364479, 'kl': 0.025390625, 'epoch': 0.07}
+  7%|▋         | 310/4286 [1:47:54<25:50:45, 23.40s/it]  7%|▋         | 311/4286 [1:48:16<25:08:47, 22.77s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.4685930445760965, 'learning_rate': 9.274381707886141e-07, 'completion_length': 318.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.6004464626312256, 'rewards/format_reward': 1.0, 'reward': 1.6004465222358704, 'reward_std': 0.11825502291321754, 'kl': 0.02984619140625, 'epoch': 0.07}
+  7%|▋         | 311/4286 [1:48:16<25:08:47, 22.77s/it]  7%|▋         | 312/4286 [1:48:38<25:06:24, 22.74s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.7771233610593903, 'learning_rate': 9.272048530097993e-07, 'completion_length': 328.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.5770833790302277, 'rewards/format_reward': 1.0, 'reward': 1.5770834684371948, 'reward_std': 0.140441432595253, 'kl': 0.0267333984375, 'epoch': 0.07}
+  7%|▋         | 312/4286 [1:48:38<25:06:24, 22.74s/it]  7%|▋         | 313/4286 [1:49:00<24:48:56, 22.49s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.8958407238573681, 'learning_rate': 9.269715352309846e-07, 'completion_length': 346.81251525878906, 'rewards/only_full_func_accuracy_reward': 0.4858630895614624, 'rewards/format_reward': 1.0, 'reward': 1.485863208770752, 'reward_std': 0.10003802925348282, 'kl': 0.0328369140625, 'epoch': 0.07}
+  7%|▋         | 313/4286 [1:49:00<24:48:56, 22.49s/it]  7%|▋         | 314/4286 [1:49:21<24:24:55, 22.13s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.6148323582053995, 'learning_rate': 9.267382174521699e-07, 'completion_length': 352.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.573660746216774, 'rewards/format_reward': 1.0, 'reward': 1.5736608505249023, 'reward_std': 0.08343999832868576, 'kl': 0.02911376953125, 'epoch': 0.07}
+  7%|▋         | 314/4286 [1:49:21<24:24:55, 22.13s/it]  7%|▋         | 315/4286 [1:49:43<24:15:32, 21.99s/it]                                                       {'loss': 0.0011, 'grad_norm': 1.0469809973336308, 'learning_rate': 9.265048996733551e-07, 'completion_length': 332.89288330078125, 'rewards/only_full_func_accuracy_reward': 0.5312500447034836, 'rewards/format_reward': 1.0, 'reward': 1.5312501788139343, 'reward_std': 0.17853347957134247, 'kl': 0.02813720703125, 'epoch': 0.07}
+  7%|▋         | 315/4286 [1:49:43<24:15:32, 21.99s/it]  7%|▋         | 316/4286 [1:50:04<23:55:24, 21.69s/it]                                                       {'loss': 0.0011, 'grad_norm': 1.4306864323419024, 'learning_rate': 9.262715818945403e-07, 'completion_length': 332.5178680419922, 'rewards/only_full_func_accuracy_reward': 0.7011905312538147, 'rewards/format_reward': 1.0, 'reward': 1.7011905908584595, 'reward_std': 0.13948345929384232, 'kl': 0.0286865234375, 'epoch': 0.07}
+  7%|▋         | 316/4286 [1:50:04<23:55:24, 21.69s/it]  7%|▋         | 317/4286 [1:50:25<23:39:22, 21.46s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.409721385754795, 'learning_rate': 9.260382641157256e-07, 'completion_length': 348.5982208251953, 'rewards/only_full_func_accuracy_reward': 0.5156250298023224, 'rewards/format_reward': 1.0, 'reward': 1.5156251192092896, 'reward_std': 0.1176239587366581, 'kl': 0.02716064453125, 'epoch': 0.07}
+  7%|▋         | 317/4286 [1:50:25<23:39:22, 21.46s/it]  7%|▋         | 318/4286 [1:50:46<23:33:05, 21.37s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.5778485781020714, 'learning_rate': 9.258049463369109e-07, 'completion_length': 329.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.524553582072258, 'rewards/format_reward': 1.0, 'reward': 1.5245537161827087, 'reward_std': 0.17886804044246674, 'kl': 0.033447265625, 'epoch': 0.07}
+  7%|▋         | 318/4286 [1:50:46<23:33:05, 21.37s/it]  7%|▋         | 319/4286 [1:51:09<23:57:11, 21.74s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.4197862741234059, 'learning_rate': 9.255716285580961e-07, 'completion_length': 378.0268096923828, 'rewards/only_full_func_accuracy_reward': 0.4568452537059784, 'rewards/format_reward': 1.0, 'reward': 1.4568453431129456, 'reward_std': 0.1157400980591774, 'kl': 0.02691650390625, 'epoch': 0.07}
+  7%|▋         | 319/4286 [1:51:09<23:57:11, 21.74s/it]  7%|▋         | 320/4286 [1:51:30<23:40:18, 21.49s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.521662762164472, 'learning_rate': 9.253383107792813e-07, 'completion_length': 330.2232208251953, 'rewards/only_full_func_accuracy_reward': 0.6461309790611267, 'rewards/format_reward': 1.0, 'reward': 1.6461310386657715, 'reward_std': 0.12267494946718216, 'kl': 0.0338134765625, 'epoch': 0.07}
+  7%|▋         | 320/4286 [1:51:30<23:40:18, 21.49s/it]  7%|▋         | 321/4286 [1:51:53<24:14:32, 22.01s/it]                                                       {'loss': 0.0012, 'grad_norm': 1.0253259885328132, 'learning_rate': 9.251049930004667e-07, 'completion_length': 360.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.608779788017273, 'rewards/format_reward': 1.0, 'reward': 1.6087798476219177, 'reward_std': 0.11331280693411827, 'kl': 0.02886962890625, 'epoch': 0.07}
+  7%|▋         | 321/4286 [1:51:53<24:14:32, 22.01s/it]  8%|▊         | 322/4286 [1:52:14<24:05:11, 21.87s/it]                                                       {'loss': 0.0011, 'grad_norm': 1.6704883683393896, 'learning_rate': 9.248716752216519e-07, 'completion_length': 345.2321472167969, 'rewards/only_full_func_accuracy_reward': 0.5589285790920258, 'rewards/format_reward': 1.0, 'reward': 1.5589287281036377, 'reward_std': 0.08906200155615807, 'kl': 0.02764892578125, 'epoch': 0.08}
+  8%|▊         | 322/4286 [1:52:14<24:05:11, 21.87s/it]  8%|▊         | 323/4286 [1:52:35<23:36:01, 21.44s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.5466357785536439, 'learning_rate': 9.246383574428371e-07, 'completion_length': 314.7857208251953, 'rewards/only_full_func_accuracy_reward': 0.651041716337204, 'rewards/format_reward': 1.0, 'reward': 1.6510417461395264, 'reward_std': 0.16732151806354523, 'kl': 0.03033447265625, 'epoch': 0.08}
+  8%|▊         | 323/4286 [1:52:35<23:36:01, 21.44s/it]  8%|▊         | 324/4286 [1:52:58<24:14:17, 22.02s/it]                                                       {'loss': 0.0012, 'grad_norm': 1.1476568610254019, 'learning_rate': 9.244050396640224e-07, 'completion_length': 373.50001525878906, 'rewards/only_full_func_accuracy_reward': 0.4910714775323868, 'rewards/format_reward': 1.0, 'reward': 1.4910715818405151, 'reward_std': 0.11127086728811264, 'kl': 0.02880859375, 'epoch': 0.08}
+  8%|▊         | 324/4286 [1:52:58<24:14:17, 22.02s/it]  8%|▊         | 325/4286 [1:53:20<24:15:10, 22.04s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.48015485195300095, 'learning_rate': 9.241717218852077e-07, 'completion_length': 343.8482208251953, 'rewards/only_full_func_accuracy_reward': 0.5543154627084732, 'rewards/format_reward': 1.0, 'reward': 1.5543155670166016, 'reward_std': 0.11910820379853249, 'kl': 0.03564453125, 'epoch': 0.08}
+  8%|▊         | 325/4286 [1:53:20<24:15:10, 22.04s/it]  8%|▊         | 326/4286 [1:53:43<24:21:25, 22.14s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.9183232699049729, 'learning_rate': 9.239384041063929e-07, 'completion_length': 321.31251525878906, 'rewards/only_full_func_accuracy_reward': 0.5446428656578064, 'rewards/format_reward': 1.0, 'reward': 1.5446429252624512, 'reward_std': 0.08545906841754913, 'kl': 0.028564453125, 'epoch': 0.08}
+  8%|▊         | 326/4286 [1:53:43<24:21:25, 22.14s/it]  8%|▊         | 327/4286 [1:54:04<24:02:33, 21.86s/it]                                                       {'loss': 0.0011, 'grad_norm': 2.47050059851872, 'learning_rate': 9.237050863275782e-07, 'completion_length': 355.23216247558594, 'rewards/only_full_func_accuracy_reward': 0.49836310744285583, 'rewards/format_reward': 1.0, 'reward': 1.498363196849823, 'reward_std': 0.11767593398690224, 'kl': 0.0262451171875, 'epoch': 0.08}
+  8%|▊         | 327/4286 [1:54:04<24:02:33, 21.86s/it]  8%|▊         | 328/4286 [1:54:26<24:08:43, 21.96s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.5768416162464459, 'learning_rate': 9.234717685487634e-07, 'completion_length': 365.71429443359375, 'rewards/only_full_func_accuracy_reward': 0.5138393342494965, 'rewards/format_reward': 1.0, 'reward': 1.5138393640518188, 'reward_std': 0.09427033364772797, 'kl': 0.030029296875, 'epoch': 0.08}
+  8%|▊         | 328/4286 [1:54:26<24:08:43, 21.96s/it]  8%|▊         | 329/4286 [1:54:48<23:58:37, 21.81s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.5397811468835403, 'learning_rate': 9.232384507699487e-07, 'completion_length': 346.6785888671875, 'rewards/only_full_func_accuracy_reward': 0.6593751013278961, 'rewards/format_reward': 1.0, 'reward': 1.6593750715255737, 'reward_std': 0.11821792274713516, 'kl': 0.029052734375, 'epoch': 0.08}
+  8%|▊         | 329/4286 [1:54:48<23:58:37, 21.81s/it]  8%|▊         | 330/4286 [1:55:08<23:34:00, 21.45s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.49196786696910816, 'learning_rate': 9.230051329911339e-07, 'completion_length': 326.7946472167969, 'rewards/only_full_func_accuracy_reward': 0.678422600030899, 'rewards/format_reward': 1.0, 'reward': 1.678422749042511, 'reward_std': 0.12675274163484573, 'kl': 0.02911376953125, 'epoch': 0.08}
+  8%|▊         | 330/4286 [1:55:08<23:34:00, 21.45s/it]  8%|▊         | 331/4286 [1:55:29<23:21:28, 21.26s/it]                                                       {'loss': 0.0012, 'grad_norm': 1.1299909969072963, 'learning_rate': 9.227718152123192e-07, 'completion_length': 336.12501525878906, 'rewards/only_full_func_accuracy_reward': 0.726934552192688, 'rewards/format_reward': 1.0, 'reward': 1.7269346117973328, 'reward_std': 0.09674490988254547, 'kl': 0.03033447265625, 'epoch': 0.08}
+  8%|▊         | 331/4286 [1:55:29<23:21:28, 21.26s/it]  8%|▊         | 332/4286 [1:55:50<23:22:29, 21.28s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.8281915414198172, 'learning_rate': 9.225384974335044e-07, 'completion_length': 325.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.5409226566553116, 'rewards/format_reward': 1.0, 'reward': 1.5409227013587952, 'reward_std': 0.10897617787122726, 'kl': 0.03131103515625, 'epoch': 0.08}
+  8%|▊         | 332/4286 [1:55:50<23:22:29, 21.28s/it]  8%|▊         | 333/4286 [1:56:12<23:22:04, 21.28s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.3958369057263908, 'learning_rate': 9.223051796546896e-07, 'completion_length': 342.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.490327388048172, 'rewards/format_reward': 1.0, 'reward': 1.4903274774551392, 'reward_std': 0.07315246760845184, 'kl': 0.03076171875, 'epoch': 0.08}
+  8%|▊         | 333/4286 [1:56:12<23:22:04, 21.28s/it]  8%|▊         | 334/4286 [1:56:34<23:41:07, 21.58s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.4659601438066918, 'learning_rate': 9.22071861875875e-07, 'completion_length': 335.58929443359375, 'rewards/only_full_func_accuracy_reward': 0.5641369521617889, 'rewards/format_reward': 1.0, 'reward': 1.564137041568756, 'reward_std': 0.10534698702394962, 'kl': 0.031494140625, 'epoch': 0.08}
+  8%|▊         | 334/4286 [1:56:34<23:41:07, 21.58s/it]  8%|▊         | 335/4286 [1:56:54<23:21:13, 21.28s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.8786334452430338, 'learning_rate': 9.218385440970602e-07, 'completion_length': 340.4107360839844, 'rewards/only_full_func_accuracy_reward': 0.5997024178504944, 'rewards/format_reward': 1.0, 'reward': 1.5997024774551392, 'reward_std': 0.07383562996983528, 'kl': 0.02752685546875, 'epoch': 0.08}
+  8%|▊         | 335/4286 [1:56:54<23:21:13, 21.28s/it]  8%|▊         | 336/4286 [1:57:16<23:17:09, 21.22s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.8874606149115883, 'learning_rate': 9.216052263182454e-07, 'completion_length': 343.33929443359375, 'rewards/only_full_func_accuracy_reward': 0.7151786386966705, 'rewards/format_reward': 1.0, 'reward': 1.715178668498993, 'reward_std': 0.12693316489458084, 'kl': 0.02838134765625, 'epoch': 0.08}
+  8%|▊         | 336/4286 [1:57:16<23:17:09, 21.22s/it]  8%|▊         | 337/4286 [1:57:37<23:27:40, 21.39s/it]                                                       {'loss': 0.0012, 'grad_norm': 1.0221651588311318, 'learning_rate': 9.213719085394307e-07, 'completion_length': 339.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.5736607313156128, 'rewards/format_reward': 1.0, 'reward': 1.5736608505249023, 'reward_std': 0.07469822838902473, 'kl': 0.030517578125, 'epoch': 0.08}
+  8%|▊         | 337/4286 [1:57:37<23:27:40, 21.39s/it]  8%|▊         | 338/4286 [1:57:58<23:19:56, 21.28s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.6847194192321168, 'learning_rate': 9.21138590760616e-07, 'completion_length': 337.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.6025297939777374, 'rewards/format_reward': 1.0, 'reward': 1.6025298833847046, 'reward_std': 0.13234712183475494, 'kl': 0.02703857421875, 'epoch': 0.08}
+  8%|▊         | 338/4286 [1:57:58<23:19:56, 21.28s/it]  8%|▊         | 339/4286 [1:58:19<23:14:20, 21.20s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.518223926013161, 'learning_rate': 9.209052729818012e-07, 'completion_length': 349.06251525878906, 'rewards/only_full_func_accuracy_reward': 0.6254464387893677, 'rewards/format_reward': 1.0, 'reward': 1.6254464983940125, 'reward_std': 0.14864472299814224, 'kl': 0.02886962890625, 'epoch': 0.08}
+  8%|▊         | 339/4286 [1:58:19<23:14:20, 21.20s/it]  8%|▊         | 340/4286 [1:58:42<23:49:57, 21.74s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.652898553151086, 'learning_rate': 9.206719552029864e-07, 'completion_length': 353.6964416503906, 'rewards/only_full_func_accuracy_reward': 0.6778274178504944, 'rewards/format_reward': 1.0, 'reward': 1.677827537059784, 'reward_std': 0.15486114472150803, 'kl': 0.02783203125, 'epoch': 0.08}
+  8%|▊         | 340/4286 [1:58:42<23:49:57, 21.74s/it]  8%|▊         | 341/4286 [1:59:04<23:45:46, 21.68s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.5302543254764516, 'learning_rate': 9.204386374241717e-07, 'completion_length': 326.2678680419922, 'rewards/only_full_func_accuracy_reward': 0.4754464477300644, 'rewards/format_reward': 1.0, 'reward': 1.4754464626312256, 'reward_std': 0.11069155111908913, 'kl': 0.02935791015625, 'epoch': 0.08}
+  8%|▊         | 341/4286 [1:59:04<23:45:46, 21.68s/it]  8%|▊         | 342/4286 [1:59:26<23:51:48, 21.78s/it]                                                       {'loss': 0.0009, 'grad_norm': 0.4352579917256997, 'learning_rate': 9.20205319645357e-07, 'completion_length': 353.9732360839844, 'rewards/only_full_func_accuracy_reward': 0.6540178954601288, 'rewards/format_reward': 1.0, 'reward': 1.6540179252624512, 'reward_std': 0.06881741061806679, 'kl': 0.023193359375, 'epoch': 0.08}
+  8%|▊         | 342/4286 [1:59:26<23:51:48, 21.78s/it]  8%|▊         | 343/4286 [1:59:47<23:47:25, 21.72s/it]                                                       {'loss': 0.0013, 'grad_norm': 1.6643257024266573, 'learning_rate': 9.199720018665422e-07, 'completion_length': 323.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.45059527456760406, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.4416667222976685, 'reward_std': 0.16426662728190422, 'kl': 0.033447265625, 'epoch': 0.08}
+  8%|▊         | 343/4286 [1:59:47<23:47:25, 21.72s/it]  8%|▊         | 344/4286 [2:00:09<23:52:50, 21.81s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.42707706848731974, 'learning_rate': 9.197386840877275e-07, 'completion_length': 365.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.513244092464447, 'rewards/format_reward': 1.0, 'reward': 1.513244092464447, 'reward_std': 0.14148451015353203, 'kl': 0.03143310546875, 'epoch': 0.08}
+  8%|▊         | 344/4286 [2:00:09<23:52:50, 21.81s/it]  8%|▊         | 345/4286 [2:00:30<23:34:12, 21.53s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.5191423778465938, 'learning_rate': 9.195053663089127e-07, 'completion_length': 329.81251525878906, 'rewards/only_full_func_accuracy_reward': 0.611607164144516, 'rewards/format_reward': 1.0, 'reward': 1.611607313156128, 'reward_std': 0.12025590613484383, 'kl': 0.03228759765625, 'epoch': 0.08}
+  8%|▊         | 345/4286 [2:00:30<23:34:12, 21.53s/it]  8%|▊         | 346/4286 [2:00:53<23:52:06, 21.81s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.404568288809722, 'learning_rate': 9.19272048530098e-07, 'completion_length': 368.25001525878906, 'rewards/only_full_func_accuracy_reward': 0.4412202686071396, 'rewards/format_reward': 1.0, 'reward': 1.4412203431129456, 'reward_std': 0.12167028710246086, 'kl': 0.0316162109375, 'epoch': 0.08}
+  8%|▊         | 346/4286 [2:00:53<23:52:06, 21.81s/it]  8%|▊         | 347/4286 [2:01:16<24:13:53, 22.15s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.41917315054634646, 'learning_rate': 9.190387307512833e-07, 'completion_length': 364.5535888671875, 'rewards/only_full_func_accuracy_reward': 0.5409226566553116, 'rewards/format_reward': 1.0, 'reward': 1.54092276096344, 'reward_std': 0.13310157880187035, 'kl': 0.02911376953125, 'epoch': 0.08}
+  8%|▊         | 347/4286 [2:01:16<24:13:53, 22.15s/it]  8%|▊         | 348/4286 [2:01:38<24:22:22, 22.28s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.3319812047144469, 'learning_rate': 9.188054129724685e-07, 'completion_length': 342.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.5453869104385376, 'rewards/format_reward': 1.0, 'reward': 1.545387089252472, 'reward_std': 0.075503203086555, 'kl': 0.0286865234375, 'epoch': 0.08}
+  8%|▊         | 348/4286 [2:01:38<24:22:22, 22.28s/it]  8%|▊         | 349/4286 [2:02:01<24:23:26, 22.30s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.5806701992338065, 'learning_rate': 9.185720951936537e-07, 'completion_length': 364.0089416503906, 'rewards/only_full_func_accuracy_reward': 0.4589286148548126, 'rewards/format_reward': 1.0, 'reward': 1.4589287042617798, 'reward_std': 0.09437099099159241, 'kl': 0.02923583984375, 'epoch': 0.08}
+  8%|▊         | 349/4286 [2:02:01<24:23:26, 22.30s/it]  8%|▊         | 350/4286 [2:02:21<23:51:25, 21.82s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.6621343469562129, 'learning_rate': 9.183387774148391e-07, 'completion_length': 308.70538330078125, 'rewards/only_full_func_accuracy_reward': 0.6830357611179352, 'rewards/format_reward': 1.0, 'reward': 1.6830358505249023, 'reward_std': 0.11830497905611992, 'kl': 0.03057861328125, 'epoch': 0.08}
+  8%|▊         | 350/4286 [2:02:21<23:51:25, 21.82s/it]  8%|▊         | 351/4286 [2:02:43<23:44:52, 21.73s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.5524973704276325, 'learning_rate': 9.181054596360243e-07, 'completion_length': 321.2589416503906, 'rewards/only_full_func_accuracy_reward': 0.5283234417438507, 'rewards/format_reward': 1.0, 'reward': 1.5283235311508179, 'reward_std': 0.10699870064854622, 'kl': 0.03125, 'epoch': 0.08}
+  8%|▊         | 351/4286 [2:02:43<23:44:52, 21.73s/it]  8%|▊         | 352/4286 [2:03:06<24:06:32, 22.06s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.7218559891346115, 'learning_rate': 9.178721418572095e-07, 'completion_length': 357.5357360839844, 'rewards/only_full_func_accuracy_reward': 0.5547619462013245, 'rewards/format_reward': 1.0, 'reward': 1.5547619462013245, 'reward_std': 0.15208929777145386, 'kl': 0.0284423828125, 'epoch': 0.08}
+  8%|▊         | 352/4286 [2:03:06<24:06:32, 22.06s/it]  8%|▊         | 353/4286 [2:03:26<23:37:39, 21.63s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.8332149337453676, 'learning_rate': 9.176388240783947e-07, 'completion_length': 320.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.7299107611179352, 'rewards/format_reward': 1.0, 'reward': 1.7299107909202576, 'reward_std': 0.13940096646547318, 'kl': 0.02899169921875, 'epoch': 0.08}
+  8%|▊         | 353/4286 [2:03:26<23:37:39, 21.63s/it]  8%|▊         | 354/4286 [2:03:48<23:44:32, 21.74s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.4639619892463872, 'learning_rate': 9.1740550629958e-07, 'completion_length': 345.74107360839844, 'rewards/only_full_func_accuracy_reward': 0.6085814088582993, 'rewards/format_reward': 1.0, 'reward': 1.6085814833641052, 'reward_std': 0.08535436913371086, 'kl': 0.02716064453125, 'epoch': 0.08}
+  8%|▊         | 354/4286 [2:03:48<23:44:32, 21.74s/it]  8%|▊         | 355/4286 [2:04:11<23:57:16, 21.94s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.5708190780165062, 'learning_rate': 9.171721885207653e-07, 'completion_length': 324.2857208251953, 'rewards/only_full_func_accuracy_reward': 0.5332961231470108, 'rewards/format_reward': 1.0, 'reward': 1.5332962274551392, 'reward_std': 0.1541074588894844, 'kl': 0.0343017578125, 'epoch': 0.08}
+  8%|▊         | 355/4286 [2:04:11<23:57:16, 21.94s/it]  8%|▊         | 356/4286 [2:04:32<23:41:13, 21.70s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.27494473815740317, 'learning_rate': 9.169388707419505e-07, 'completion_length': 350.08038330078125, 'rewards/only_full_func_accuracy_reward': 0.7017857134342194, 'rewards/format_reward': 1.0, 'reward': 1.7017858624458313, 'reward_std': 0.0684595201164484, 'kl': 0.02655029296875, 'epoch': 0.08}
+  8%|▊         | 356/4286 [2:04:32<23:41:13, 21.70s/it]  8%|▊         | 357/4286 [2:04:53<23:31:35, 21.56s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.42307722909519496, 'learning_rate': 9.167055529631358e-07, 'completion_length': 338.6428680419922, 'rewards/only_full_func_accuracy_reward': 0.5386905074119568, 'rewards/format_reward': 1.0, 'reward': 1.5386905670166016, 'reward_std': 0.08716532215476036, 'kl': 0.0341796875, 'epoch': 0.08}
+  8%|▊         | 357/4286 [2:04:53<23:31:35, 21.56s/it]  8%|▊         | 358/4286 [2:05:15<23:28:12, 21.51s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.7113838452935023, 'learning_rate': 9.16472235184321e-07, 'completion_length': 346.6964416503906, 'rewards/only_full_func_accuracy_reward': 0.6279762983322144, 'rewards/format_reward': 1.0, 'reward': 1.6279763579368591, 'reward_std': 0.11096660792827606, 'kl': 0.0283203125, 'epoch': 0.08}
+  8%|▊         | 358/4286 [2:05:15<23:28:12, 21.51s/it]  8%|▊         | 359/4286 [2:05:38<23:56:42, 21.95s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.45368461856473863, 'learning_rate': 9.162389174055063e-07, 'completion_length': 362.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.5483631491661072, 'rewards/format_reward': 1.0, 'reward': 1.548363208770752, 'reward_std': 0.09414451941847801, 'kl': 0.02935791015625, 'epoch': 0.08}
+  8%|▊         | 359/4286 [2:05:38<23:56:42, 21.95s/it]  8%|▊         | 360/4286 [2:06:00<24:06:34, 22.11s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.383792986636862, 'learning_rate': 9.160055996266916e-07, 'completion_length': 365.7143096923828, 'rewards/only_full_func_accuracy_reward': 0.7071429193019867, 'rewards/format_reward': 1.0, 'reward': 1.7071428894996643, 'reward_std': 0.10153113305568695, 'kl': 0.02716064453125, 'epoch': 0.08}
+  8%|▊         | 360/4286 [2:06:00<24:06:34, 22.11s/it]  8%|▊         | 361/4286 [2:06:23<24:14:45, 22.24s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.37390664100890736, 'learning_rate': 9.157722818478768e-07, 'completion_length': 358.25001525878906, 'rewards/only_full_func_accuracy_reward': 0.595982164144516, 'rewards/format_reward': 1.0, 'reward': 1.5959821939468384, 'reward_std': 0.06438987515866756, 'kl': 0.0264892578125, 'epoch': 0.08}
+  8%|▊         | 361/4286 [2:06:23<24:14:45, 22.24s/it]  8%|▊         | 362/4286 [2:06:45<24:21:29, 22.35s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.43970576556784463, 'learning_rate': 9.15538964069062e-07, 'completion_length': 360.2143096923828, 'rewards/only_full_func_accuracy_reward': 0.4233631044626236, 'rewards/format_reward': 1.0, 'reward': 1.423363208770752, 'reward_std': 0.1314786896109581, 'kl': 0.033935546875, 'epoch': 0.08}
+  8%|▊         | 362/4286 [2:06:45<24:21:29, 22.35s/it]  8%|▊         | 363/4286 [2:07:06<23:53:15, 21.92s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.5591880354556451, 'learning_rate': 9.153056462902473e-07, 'completion_length': 352.20538330078125, 'rewards/only_full_func_accuracy_reward': 0.4913690835237503, 'rewards/format_reward': 1.0, 'reward': 1.4913691878318787, 'reward_std': 0.13784284889698029, 'kl': 0.02911376953125, 'epoch': 0.08}
+  8%|▊         | 363/4286 [2:07:06<23:53:15, 21.92s/it]  8%|▊         | 364/4286 [2:07:29<24:07:08, 22.14s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.3633359339321624, 'learning_rate': 9.150723285114326e-07, 'completion_length': 360.5535888671875, 'rewards/only_full_func_accuracy_reward': 0.5543155074119568, 'rewards/format_reward': 1.0, 'reward': 1.5543155670166016, 'reward_std': 0.11747439950704575, 'kl': 0.0286865234375, 'epoch': 0.08}
+  8%|▊         | 364/4286 [2:07:29<24:07:08, 22.14s/it]  9%|▊         | 365/4286 [2:07:51<24:16:32, 22.29s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.6371288386103, 'learning_rate': 9.148390107326178e-07, 'completion_length': 359.00001525878906, 'rewards/only_full_func_accuracy_reward': 0.5950892865657806, 'rewards/format_reward': 1.0, 'reward': 1.5950894355773926, 'reward_std': 0.16343172639608383, 'kl': 0.0286865234375, 'epoch': 0.09}
+  9%|▊         | 365/4286 [2:07:51<24:16:32, 22.29s/it]  9%|▊         | 366/4286 [2:08:14<24:30:05, 22.50s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.9756512186866849, 'learning_rate': 9.14605692953803e-07, 'completion_length': 355.1339416503906, 'rewards/only_full_func_accuracy_reward': 0.5200893431901932, 'rewards/format_reward': 1.0, 'reward': 1.5200894474983215, 'reward_std': 0.09684167057275772, 'kl': 0.02911376953125, 'epoch': 0.09}
+  9%|▊         | 366/4286 [2:08:14<24:30:05, 22.50s/it]  9%|▊         | 367/4286 [2:08:38<24:48:04, 22.78s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.9211702782817971, 'learning_rate': 9.143723751749884e-07, 'completion_length': 340.9821472167969, 'rewards/only_full_func_accuracy_reward': 0.6272321939468384, 'rewards/format_reward': 1.0, 'reward': 1.627232313156128, 'reward_std': 0.16982532292604446, 'kl': 0.0313720703125, 'epoch': 0.09}
+  9%|▊         | 367/4286 [2:08:38<24:48:04, 22.78s/it]  9%|▊         | 368/4286 [2:08:59<24:25:11, 22.44s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.6900051949834063, 'learning_rate': 9.141390573961736e-07, 'completion_length': 350.7857208251953, 'rewards/only_full_func_accuracy_reward': 0.5498512238264084, 'rewards/format_reward': 1.0, 'reward': 1.5498512387275696, 'reward_std': 0.1958906129002571, 'kl': 0.033935546875, 'epoch': 0.09}
+  9%|▊         | 368/4286 [2:08:59<24:25:11, 22.44s/it]  9%|▊         | 369/4286 [2:09:22<24:28:14, 22.49s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.6564495633495413, 'learning_rate': 9.139057396173588e-07, 'completion_length': 339.9196472167969, 'rewards/only_full_func_accuracy_reward': 0.5654762387275696, 'rewards/format_reward': 1.0, 'reward': 1.5654762387275696, 'reward_std': 0.13498255982995033, 'kl': 0.03179931640625, 'epoch': 0.09}
+  9%|▊         | 369/4286 [2:09:22<24:28:14, 22.49s/it]  9%|▊         | 370/4286 [2:09:43<23:58:03, 22.03s/it]                                                       {'loss': 0.0013, 'grad_norm': 1.9126886100525136, 'learning_rate': 9.136724218385441e-07, 'completion_length': 324.7321472167969, 'rewards/only_full_func_accuracy_reward': 0.6011905372142792, 'rewards/format_reward': 1.0, 'reward': 1.6011905670166016, 'reward_std': 0.15537061542272568, 'kl': 0.0333251953125, 'epoch': 0.09}
+  9%|▊         | 370/4286 [2:09:43<23:58:03, 22.03s/it]  9%|▊         | 371/4286 [2:10:05<24:04:53, 22.14s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.5073861420488833, 'learning_rate': 9.134391040597294e-07, 'completion_length': 349.2768096923828, 'rewards/only_full_func_accuracy_reward': 0.6205357909202576, 'rewards/format_reward': 1.0, 'reward': 1.6205358505249023, 'reward_std': 0.11275888234376907, 'kl': 0.035400390625, 'epoch': 0.09}
+  9%|▊         | 371/4286 [2:10:05<24:04:53, 22.14s/it]  9%|▊         | 372/4286 [2:10:28<24:09:49, 22.23s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.7059183610844071, 'learning_rate': 9.132057862809146e-07, 'completion_length': 366.81251525878906, 'rewards/only_full_func_accuracy_reward': 0.6398809850215912, 'rewards/format_reward': 1.0, 'reward': 1.6398810744285583, 'reward_std': 0.17784392833709717, 'kl': 0.03326416015625, 'epoch': 0.09}
+  9%|▊         | 372/4286 [2:10:28<24:09:49, 22.23s/it]  9%|▊         | 373/4286 [2:10:50<24:06:07, 22.17s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.5128360519210737, 'learning_rate': 9.129724685020999e-07, 'completion_length': 347.5357360839844, 'rewards/only_full_func_accuracy_reward': 0.6684524416923523, 'rewards/format_reward': 1.0, 'reward': 1.6684524416923523, 'reward_std': 0.11564759165048599, 'kl': 0.03082275390625, 'epoch': 0.09}
+  9%|▊         | 373/4286 [2:10:50<24:06:07, 22.17s/it]  9%|▊         | 374/4286 [2:11:14<24:36:33, 22.65s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.42524798219867027, 'learning_rate': 9.127391507232851e-07, 'completion_length': 363.0982208251953, 'rewards/only_full_func_accuracy_reward': 0.4873512238264084, 'rewards/format_reward': 1.0, 'reward': 1.4873512983322144, 'reward_std': 0.06461312435567379, 'kl': 0.0325927734375, 'epoch': 0.09}
+  9%|▊         | 374/4286 [2:11:14<24:36:33, 22.65s/it]  9%|▊         | 375/4286 [2:11:37<24:48:39, 22.84s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.38189580490214553, 'learning_rate': 9.125058329444704e-07, 'completion_length': 366.16966247558594, 'rewards/only_full_func_accuracy_reward': 0.5671131312847137, 'rewards/format_reward': 1.0, 'reward': 1.5671131610870361, 'reward_std': 0.12372948601841927, 'kl': 0.03314208984375, 'epoch': 0.09}
+  9%|▊         | 375/4286 [2:11:37<24:48:39, 22.84s/it]  9%|▉         | 376/4286 [2:11:58<24:22:59, 22.45s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.8750863017068411, 'learning_rate': 9.122725151656556e-07, 'completion_length': 348.06251525878906, 'rewards/only_full_func_accuracy_reward': 0.6741071939468384, 'rewards/format_reward': 1.0, 'reward': 1.6741072535514832, 'reward_std': 0.11305789276957512, 'kl': 0.02947998046875, 'epoch': 0.09}
+  9%|▉         | 376/4286 [2:11:58<24:22:59, 22.45s/it]  9%|▉         | 377/4286 [2:12:21<24:29:21, 22.55s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.7517473657722638, 'learning_rate': 9.120391973868409e-07, 'completion_length': 358.7768096923828, 'rewards/only_full_func_accuracy_reward': 0.6565476655960083, 'rewards/format_reward': 1.0, 'reward': 1.6565477848052979, 'reward_std': 0.08198710158467293, 'kl': 0.0306396484375, 'epoch': 0.09}
+  9%|▉         | 377/4286 [2:12:21<24:29:21, 22.55s/it]  9%|▉         | 378/4286 [2:12:45<24:48:47, 22.86s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.47668893226543113, 'learning_rate': 9.118058796080261e-07, 'completion_length': 392.25001525878906, 'rewards/only_full_func_accuracy_reward': 0.5936012268066406, 'rewards/format_reward': 1.0, 'reward': 1.5936012864112854, 'reward_std': 0.13970115035772324, 'kl': 0.0330810546875, 'epoch': 0.09}
+  9%|▉         | 378/4286 [2:12:45<24:48:47, 22.86s/it]  9%|▉         | 379/4286 [2:13:06<24:13:52, 22.33s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.4456511455335417, 'learning_rate': 9.115725618292113e-07, 'completion_length': 341.0357208251953, 'rewards/only_full_func_accuracy_reward': 0.6822916567325592, 'rewards/format_reward': 1.0, 'reward': 1.6822918057441711, 'reward_std': 0.08953972533345222, 'kl': 0.028564453125, 'epoch': 0.09}
+  9%|▉         | 379/4286 [2:13:06<24:13:52, 22.33s/it]  9%|▉         | 380/4286 [2:13:29<24:33:07, 22.63s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.8732587730429101, 'learning_rate': 9.113392440503967e-07, 'completion_length': 376.45538330078125, 'rewards/only_full_func_accuracy_reward': 0.6854166686534882, 'rewards/format_reward': 1.0, 'reward': 1.6854167580604553, 'reward_std': 0.08449908159673214, 'kl': 0.02752685546875, 'epoch': 0.09}
+  9%|▉         | 380/4286 [2:13:29<24:33:07, 22.63s/it]  9%|▉         | 381/4286 [2:13:52<24:32:13, 22.62s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.43665468851994604, 'learning_rate': 9.111059262715819e-07, 'completion_length': 367.39288330078125, 'rewards/only_full_func_accuracy_reward': 0.44471728801727295, 'rewards/format_reward': 1.0, 'reward': 1.4447173476219177, 'reward_std': 0.0859818384051323, 'kl': 0.0325927734375, 'epoch': 0.09}
+  9%|▉         | 381/4286 [2:13:52<24:32:13, 22.62s/it]  9%|▉         | 382/4286 [2:14:13<24:07:35, 22.25s/it]                                                       {'loss': 0.0015, 'grad_norm': 0.4330338146563521, 'learning_rate': 9.108726084927671e-07, 'completion_length': 332.9732208251953, 'rewards/only_full_func_accuracy_reward': 0.4828869253396988, 'rewards/format_reward': 1.0, 'reward': 1.4828870296478271, 'reward_std': 0.11300810426473618, 'kl': 0.03662109375, 'epoch': 0.09}
+  9%|▉         | 382/4286 [2:14:13<24:07:35, 22.25s/it]  9%|▉         | 383/4286 [2:14:36<24:16:31, 22.39s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.8217176457435933, 'learning_rate': 9.106392907139524e-07, 'completion_length': 369.2678680419922, 'rewards/only_full_func_accuracy_reward': 0.5760416835546494, 'rewards/format_reward': 1.0, 'reward': 1.5760418176651, 'reward_std': 0.14485427737236023, 'kl': 0.026611328125, 'epoch': 0.09}
+  9%|▉         | 383/4286 [2:14:36<24:16:31, 22.39s/it]  9%|▉         | 384/4286 [2:14:57<23:58:06, 22.11s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.40391920695940803, 'learning_rate': 9.104059729351377e-07, 'completion_length': 339.49107360839844, 'rewards/only_full_func_accuracy_reward': 0.4962797909975052, 'rewards/format_reward': 1.0, 'reward': 1.4962798357009888, 'reward_std': 0.11704214662313461, 'kl': 0.03179931640625, 'epoch': 0.09}
+  9%|▉         | 384/4286 [2:14:57<23:58:06, 22.11s/it]  9%|▉         | 385/4286 [2:15:18<23:34:18, 21.75s/it]                                                       {'loss': 0.0012, 'grad_norm': 1.2599877635255354, 'learning_rate': 9.101726551563229e-07, 'completion_length': 341.3482208251953, 'rewards/only_full_func_accuracy_reward': 0.6159226596355438, 'rewards/format_reward': 1.0, 'reward': 1.6159226894378662, 'reward_std': 0.1482178345322609, 'kl': 0.02899169921875, 'epoch': 0.09}
+  9%|▉         | 385/4286 [2:15:18<23:34:18, 21.75s/it]  9%|▉         | 386/4286 [2:15:41<23:52:46, 22.04s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.7528353481625141, 'learning_rate': 9.099393373775081e-07, 'completion_length': 358.8660888671875, 'rewards/only_full_func_accuracy_reward': 0.5305059850215912, 'rewards/format_reward': 1.0, 'reward': 1.5305060744285583, 'reward_std': 0.14074576273560524, 'kl': 0.0318603515625, 'epoch': 0.09}
+  9%|▉         | 386/4286 [2:15:41<23:52:46, 22.04s/it]  9%|▉         | 387/4286 [2:16:04<24:19:26, 22.46s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.7104104560624843, 'learning_rate': 9.097060195986934e-07, 'completion_length': 362.21429443359375, 'rewards/only_full_func_accuracy_reward': 0.5864211916923523, 'rewards/format_reward': 1.0, 'reward': 1.586421251296997, 'reward_std': 0.11548558250069618, 'kl': 0.0306396484375, 'epoch': 0.09}
+  9%|▉         | 387/4286 [2:16:04<24:19:26, 22.46s/it]  9%|▉         | 388/4286 [2:16:27<24:18:51, 22.46s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.4069670435854679, 'learning_rate': 9.094727018198787e-07, 'completion_length': 364.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.5589286088943481, 'rewards/format_reward': 1.0, 'reward': 1.558928668498993, 'reward_std': 0.1544150970876217, 'kl': 0.02935791015625, 'epoch': 0.09}
+  9%|▉         | 388/4286 [2:16:27<24:18:51, 22.46s/it]  9%|▉         | 389/4286 [2:16:47<23:26:52, 21.66s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.7116892798075777, 'learning_rate': 9.092393840410639e-07, 'completion_length': 317.0357360839844, 'rewards/only_full_func_accuracy_reward': 0.6577381193637848, 'rewards/format_reward': 1.0, 'reward': 1.657738208770752, 'reward_std': 0.07189268432557583, 'kl': 0.02752685546875, 'epoch': 0.09}
+  9%|▉         | 389/4286 [2:16:47<23:26:52, 21.66s/it]  9%|▉         | 390/4286 [2:17:08<23:22:26, 21.60s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.6565914836689316, 'learning_rate': 9.090060662622492e-07, 'completion_length': 363.5535888671875, 'rewards/only_full_func_accuracy_reward': 0.7355655133724213, 'rewards/format_reward': 1.0, 'reward': 1.7355656027793884, 'reward_std': 0.11267750710248947, 'kl': 0.02642822265625, 'epoch': 0.09}
+  9%|▉         | 390/4286 [2:17:08<23:22:26, 21.60s/it]  9%|▉         | 391/4286 [2:17:29<23:13:20, 21.46s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.5157272318261028, 'learning_rate': 9.087727484834344e-07, 'completion_length': 311.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.7502976953983307, 'rewards/format_reward': 1.0, 'reward': 1.750297725200653, 'reward_std': 0.10231322050094604, 'kl': 0.031494140625, 'epoch': 0.09}
+  9%|▉         | 391/4286 [2:17:29<23:13:20, 21.46s/it]  9%|▉         | 392/4286 [2:17:51<23:17:39, 21.54s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.6143967481904709, 'learning_rate': 9.085394307046197e-07, 'completion_length': 362.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.5505952537059784, 'rewards/format_reward': 1.0, 'reward': 1.5505953431129456, 'reward_std': 0.09629829227924347, 'kl': 0.0303955078125, 'epoch': 0.09}
+  9%|▉         | 392/4286 [2:17:51<23:17:39, 21.54s/it]  9%|▉         | 393/4286 [2:18:13<23:28:04, 21.70s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.6452202673440625, 'learning_rate': 9.08306112925805e-07, 'completion_length': 347.54466247558594, 'rewards/only_full_func_accuracy_reward': 0.4962797909975052, 'rewards/format_reward': 1.0, 'reward': 1.4962798953056335, 'reward_std': 0.1362796612083912, 'kl': 0.03045654296875, 'epoch': 0.09}
+  9%|▉         | 393/4286 [2:18:13<23:28:04, 21.70s/it]  9%|▉         | 394/4286 [2:18:34<23:18:15, 21.56s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.4527170211841547, 'learning_rate': 9.080727951469902e-07, 'completion_length': 342.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.6614583432674408, 'rewards/format_reward': 1.0, 'reward': 1.661458432674408, 'reward_std': 0.12766050919890404, 'kl': 0.0301513671875, 'epoch': 0.09}
+  9%|▉         | 394/4286 [2:18:34<23:18:15, 21.56s/it]  9%|▉         | 395/4286 [2:18:56<23:27:32, 21.70s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.4300231530710006, 'learning_rate': 9.078394773681754e-07, 'completion_length': 354.45538330078125, 'rewards/only_full_func_accuracy_reward': 0.536309540271759, 'rewards/format_reward': 1.0, 'reward': 1.5363095998764038, 'reward_std': 0.081842802464962, 'kl': 0.02734375, 'epoch': 0.09}
+  9%|▉         | 395/4286 [2:18:56<23:27:32, 21.70s/it]  9%|▉         | 396/4286 [2:19:18<23:33:48, 21.81s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.4271218553621609, 'learning_rate': 9.076061595893607e-07, 'completion_length': 364.7857360839844, 'rewards/only_full_func_accuracy_reward': 0.618303656578064, 'rewards/format_reward': 1.0, 'reward': 1.6183037161827087, 'reward_std': 0.13332528620958328, 'kl': 0.03045654296875, 'epoch': 0.09}
+  9%|▉         | 396/4286 [2:19:18<23:33:48, 21.81s/it]  9%|▉         | 397/4286 [2:19:40<23:36:51, 21.86s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.3561180145352444, 'learning_rate': 9.07372841810546e-07, 'completion_length': 357.4732360839844, 'rewards/only_full_func_accuracy_reward': 0.7114584147930145, 'rewards/format_reward': 1.0, 'reward': 1.711458444595337, 'reward_std': 0.08418800309300423, 'kl': 0.027587890625, 'epoch': 0.09}
+  9%|▉         | 397/4286 [2:19:40<23:36:51, 21.86s/it]  9%|▉         | 398/4286 [2:20:02<23:25:40, 21.69s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.5861599424721801, 'learning_rate': 9.071395240317312e-07, 'completion_length': 348.0357360839844, 'rewards/only_full_func_accuracy_reward': 0.6087797582149506, 'rewards/format_reward': 1.0, 'reward': 1.6087798476219177, 'reward_std': 0.1335308887064457, 'kl': 0.02996826171875, 'epoch': 0.09}
+  9%|▉         | 398/4286 [2:20:02<23:25:40, 21.69s/it]  9%|▉         | 399/4286 [2:20:24<23:38:12, 21.89s/it]                                                       {'loss': 0.0013, 'grad_norm': 1.3372212418604679, 'learning_rate': 9.069062062529164e-07, 'completion_length': 337.6428680419922, 'rewards/only_full_func_accuracy_reward': 0.5625, 'rewards/format_reward': 1.0, 'reward': 1.5625000596046448, 'reward_std': 0.15656540542840958, 'kl': 0.03228759765625, 'epoch': 0.09}
+  9%|▉         | 399/4286 [2:20:24<23:38:12, 21.89s/it]  9%|▉         | 400/4286 [2:20:47<23:54:52, 22.15s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.4111074833545018, 'learning_rate': 9.066728884741018e-07, 'completion_length': 340.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.5593750476837158, 'rewards/format_reward': 1.0, 'reward': 1.5593750476837158, 'reward_std': 0.08398091048002243, 'kl': 0.03021240234375, 'epoch': 0.09}
+  9%|▉         | 400/4286 [2:20:47<23:54:52, 22.15s/it]  9%|▉         | 401/4286 [2:21:56<39:16:05, 36.39s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.6644703953272723, 'learning_rate': 9.06439570695287e-07, 'completion_length': 341.2857208251953, 'rewards/only_full_func_accuracy_reward': 0.52827388048172, 'rewards/format_reward': 1.0, 'reward': 1.5282739400863647, 'reward_std': 0.10647422820329666, 'kl': 0.029052734375, 'epoch': 0.09}
+  9%|▉         | 401/4286 [2:21:56<39:16:05, 36.39s/it]  9%|▉         | 402/4286 [2:22:18<34:28:57, 31.96s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.46655486387490674, 'learning_rate': 9.062062529164722e-07, 'completion_length': 343.7053680419922, 'rewards/only_full_func_accuracy_reward': 0.5876488536596298, 'rewards/format_reward': 1.0, 'reward': 1.5876489281654358, 'reward_std': 0.12581653520464897, 'kl': 0.0306396484375, 'epoch': 0.09}
+  9%|▉         | 402/4286 [2:22:18<34:28:57, 31.96s/it]  9%|▉         | 403/4286 [2:22:40<31:06:46, 28.85s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.48670646388239935, 'learning_rate': 9.059729351376575e-07, 'completion_length': 340.7678680419922, 'rewards/only_full_func_accuracy_reward': 0.6697917580604553, 'rewards/format_reward': 1.0, 'reward': 1.6697917580604553, 'reward_std': 0.14628520980477333, 'kl': 0.02862548828125, 'epoch': 0.09}
+  9%|▉         | 403/4286 [2:22:40<31:06:46, 28.85s/it]  9%|▉         | 404/4286 [2:23:01<28:32:12, 26.46s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.6429864896618207, 'learning_rate': 9.057396173588428e-07, 'completion_length': 321.3482208251953, 'rewards/only_full_func_accuracy_reward': 0.5758928954601288, 'rewards/format_reward': 1.0, 'reward': 1.575892984867096, 'reward_std': 0.13182498887181282, 'kl': 0.02996826171875, 'epoch': 0.09}
+  9%|▉         | 404/4286 [2:23:01<28:32:12, 26.46s/it]  9%|▉         | 405/4286 [2:23:22<26:46:10, 24.83s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.3698298697577462, 'learning_rate': 9.05506299580028e-07, 'completion_length': 323.0803680419922, 'rewards/only_full_func_accuracy_reward': 0.5622023940086365, 'rewards/format_reward': 1.0, 'reward': 1.5622024536132812, 'reward_std': 0.08241698890924454, 'kl': 0.03515625, 'epoch': 0.09}
+  9%|▉         | 405/4286 [2:23:22<26:46:10, 24.83s/it]  9%|▉         | 406/4286 [2:23:44<25:56:12, 24.06s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.5785843556933224, 'learning_rate': 9.052729818012133e-07, 'completion_length': 344.8035888671875, 'rewards/only_full_func_accuracy_reward': 0.6845238506793976, 'rewards/format_reward': 1.0, 'reward': 1.6845239400863647, 'reward_std': 0.1322895660996437, 'kl': 0.03173828125, 'epoch': 0.09}
+  9%|▉         | 406/4286 [2:23:44<25:56:12, 24.06s/it]  9%|▉         | 407/4286 [2:24:07<25:36:38, 23.77s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.6743568073236058, 'learning_rate': 9.050396640223985e-07, 'completion_length': 344.1339416503906, 'rewards/only_full_func_accuracy_reward': 0.7650297582149506, 'rewards/format_reward': 1.0, 'reward': 1.7650298476219177, 'reward_std': 0.16341105848550797, 'kl': 0.0283203125, 'epoch': 0.09}
+  9%|▉         | 407/4286 [2:24:07<25:36:38, 23.77s/it] 10%|▉         | 408/4286 [2:24:29<25:06:36, 23.31s/it]                                                       {'loss': 0.0012, 'grad_norm': 1.478488857749049, 'learning_rate': 9.048063462435837e-07, 'completion_length': 358.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.6026786267757416, 'rewards/format_reward': 1.0, 'reward': 1.6026787161827087, 'reward_std': 0.14014754071831703, 'kl': 0.0296630859375, 'epoch': 0.1}
+ 10%|▉         | 408/4286 [2:24:29<25:06:36, 23.31s/it] 10%|▉         | 409/4286 [2:24:51<24:45:52, 23.00s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.2964409591713722, 'learning_rate': 9.04573028464769e-07, 'completion_length': 347.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.5674107670783997, 'rewards/format_reward': 1.0, 'reward': 1.5674108266830444, 'reward_std': 0.07399602606892586, 'kl': 0.0318603515625, 'epoch': 0.1}
+ 10%|▉         | 409/4286 [2:24:51<24:45:52, 23.00s/it] 10%|▉         | 410/4286 [2:25:12<24:08:23, 22.42s/it]                                                       {'loss': 0.0012, 'grad_norm': 5.073131549980411, 'learning_rate': 9.043397106859543e-07, 'completion_length': 341.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.6370536088943481, 'rewards/format_reward': 1.0, 'reward': 1.637053668498993, 'reward_std': 0.08664942160248756, 'kl': 0.030029296875, 'epoch': 0.1}
+ 10%|▉         | 410/4286 [2:25:12<24:08:23, 22.42s/it] 10%|▉         | 411/4286 [2:25:35<24:08:48, 22.43s/it]                                                       {'loss': 0.0012, 'grad_norm': 1.0423290074945066, 'learning_rate': 9.041063929071395e-07, 'completion_length': 355.9018096923828, 'rewards/only_full_func_accuracy_reward': 0.46741077303886414, 'rewards/format_reward': 1.0, 'reward': 1.4674108028411865, 'reward_std': 0.11254361644387245, 'kl': 0.02996826171875, 'epoch': 0.1}
+ 10%|▉         | 411/4286 [2:25:35<24:08:48, 22.43s/it] 10%|▉         | 412/4286 [2:25:57<23:52:05, 22.18s/it]                                                       {'loss': 0.001, 'grad_norm': 0.39773780485317284, 'learning_rate': 9.038730751283247e-07, 'completion_length': 346.0714416503906, 'rewards/only_full_func_accuracy_reward': 0.6383928954601288, 'rewards/format_reward': 1.0, 'reward': 1.638392984867096, 'reward_std': 0.09942314401268959, 'kl': 0.025634765625, 'epoch': 0.1}
+ 10%|▉         | 412/4286 [2:25:57<23:52:05, 22.18s/it] 10%|▉         | 413/4286 [2:26:20<24:09:37, 22.46s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.6757124206269457, 'learning_rate': 9.036397573495101e-07, 'completion_length': 354.77679443359375, 'rewards/only_full_func_accuracy_reward': 0.4650298207998276, 'rewards/format_reward': 1.0, 'reward': 1.4650298357009888, 'reward_std': 0.12308796495199203, 'kl': 0.03228759765625, 'epoch': 0.1}
+ 10%|▉         | 413/4286 [2:26:20<24:09:37, 22.46s/it] 10%|▉         | 414/4286 [2:26:43<24:22:25, 22.66s/it]                                                       {'loss': 0.001, 'grad_norm': 0.5456421372486884, 'learning_rate': 9.034064395706953e-07, 'completion_length': 346.2678680419922, 'rewards/only_full_func_accuracy_reward': 0.6158110499382019, 'rewards/format_reward': 1.0, 'reward': 1.6158111095428467, 'reward_std': 0.10216981917619705, 'kl': 0.0242919921875, 'epoch': 0.1}
+ 10%|▉         | 414/4286 [2:26:43<24:22:25, 22.66s/it] 10%|▉         | 415/4286 [2:27:05<24:20:46, 22.64s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.7457748662268024, 'learning_rate': 9.031731217918805e-07, 'completion_length': 349.2232360839844, 'rewards/only_full_func_accuracy_reward': 0.39747028052806854, 'rewards/format_reward': 1.0, 'reward': 1.3974704146385193, 'reward_std': 0.15968311578035355, 'kl': 0.03118896484375, 'epoch': 0.1}
+ 10%|▉         | 415/4286 [2:27:05<24:20:46, 22.64s/it] 10%|▉         | 416/4286 [2:27:27<24:06:07, 22.42s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.35592606805236204, 'learning_rate': 9.029398040130658e-07, 'completion_length': 364.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.5178571194410324, 'rewards/format_reward': 1.0, 'reward': 1.5178572535514832, 'reward_std': 0.08764593303203583, 'kl': 0.03076171875, 'epoch': 0.1}
+ 10%|▉         | 416/4286 [2:27:27<24:06:07, 22.42s/it] 10%|▉         | 417/4286 [2:27:48<23:32:30, 21.91s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.691672770958961, 'learning_rate': 9.027064862342511e-07, 'completion_length': 312.25001525878906, 'rewards/only_full_func_accuracy_reward': 0.630952388048172, 'rewards/format_reward': 1.0, 'reward': 1.6309524774551392, 'reward_std': 0.0753484908491373, 'kl': 0.0308837890625, 'epoch': 0.1}
+ 10%|▉         | 417/4286 [2:27:48<23:32:30, 21.91s/it] 10%|▉         | 418/4286 [2:28:09<23:16:20, 21.66s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.36658079432796187, 'learning_rate': 9.024731684554363e-07, 'completion_length': 323.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.6639881432056427, 'rewards/format_reward': 1.0, 'reward': 1.663988173007965, 'reward_std': 0.06635458394885063, 'kl': 0.03070068359375, 'epoch': 0.1}
+ 10%|▉         | 418/4286 [2:28:09<23:16:20, 21.66s/it] 10%|▉         | 419/4286 [2:28:31<23:14:46, 21.64s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.6359235446791027, 'learning_rate': 9.022398506766215e-07, 'completion_length': 336.9553680419922, 'rewards/only_full_func_accuracy_reward': 0.604166716337204, 'rewards/format_reward': 1.0, 'reward': 1.6041668057441711, 'reward_std': 0.0930824726819992, 'kl': 0.02886962890625, 'epoch': 0.1}
+ 10%|▉         | 419/4286 [2:28:31<23:14:46, 21.64s/it] 10%|▉         | 420/4286 [2:28:51<22:50:13, 21.27s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.3072521290215294, 'learning_rate': 9.020065328978068e-07, 'completion_length': 302.04466247558594, 'rewards/only_full_func_accuracy_reward': 0.6302083432674408, 'rewards/format_reward': 1.0, 'reward': 1.630208432674408, 'reward_std': 0.09131738170981407, 'kl': 0.0286865234375, 'epoch': 0.1}
+ 10%|▉         | 420/4286 [2:28:51<22:50:13, 21.27s/it] 10%|▉         | 421/4286 [2:29:13<23:06:50, 21.53s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.4179853450149295, 'learning_rate': 9.017732151189921e-07, 'completion_length': 350.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.6436012387275696, 'rewards/format_reward': 1.0, 'reward': 1.6436013579368591, 'reward_std': 0.07830348052084446, 'kl': 0.028076171875, 'epoch': 0.1}
+ 10%|▉         | 421/4286 [2:29:13<23:06:50, 21.53s/it] 10%|▉         | 422/4286 [2:29:35<23:13:08, 21.63s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.43010887931924846, 'learning_rate': 9.015398973401773e-07, 'completion_length': 345.8214416503906, 'rewards/only_full_func_accuracy_reward': 0.6215774416923523, 'rewards/format_reward': 1.0, 'reward': 1.621577501296997, 'reward_std': 0.10057085752487183, 'kl': 0.02764892578125, 'epoch': 0.1}
+ 10%|▉         | 422/4286 [2:29:35<23:13:08, 21.63s/it] 10%|▉         | 423/4286 [2:29:57<23:26:39, 21.85s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.46940932964451093, 'learning_rate': 9.013065795613626e-07, 'completion_length': 357.8660888671875, 'rewards/only_full_func_accuracy_reward': 0.619791716337204, 'rewards/format_reward': 1.0, 'reward': 1.6197918057441711, 'reward_std': 0.1277778297662735, 'kl': 0.027587890625, 'epoch': 0.1}
+ 10%|▉         | 423/4286 [2:29:57<23:26:39, 21.85s/it] 10%|▉         | 424/4286 [2:30:18<23:07:09, 21.55s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.4942268419818065, 'learning_rate': 9.010732617825478e-07, 'completion_length': 336.2321472167969, 'rewards/only_full_func_accuracy_reward': 0.5621652603149414, 'rewards/format_reward': 1.0, 'reward': 1.5621653199195862, 'reward_std': 0.18561723828315735, 'kl': 0.03106689453125, 'epoch': 0.1}
+ 10%|▉         | 424/4286 [2:30:18<23:07:09, 21.55s/it] 10%|▉         | 425/4286 [2:30:41<23:35:04, 21.99s/it]                                                       {'loss': 0.001, 'grad_norm': 0.8647307683370764, 'learning_rate': 9.008399440037331e-07, 'completion_length': 346.5625305175781, 'rewards/only_full_func_accuracy_reward': 0.6888393461704254, 'rewards/format_reward': 1.0, 'reward': 1.6888394355773926, 'reward_std': 0.11072208359837532, 'kl': 0.02490234375, 'epoch': 0.1}
+ 10%|▉         | 425/4286 [2:30:41<23:35:04, 21.99s/it] 10%|▉         | 426/4286 [2:31:04<23:47:18, 22.19s/it]                                                       {'loss': 0.0014, 'grad_norm': 2.2443132486664803, 'learning_rate': 9.006066262249184e-07, 'completion_length': 360.3839569091797, 'rewards/only_full_func_accuracy_reward': 0.36746032536029816, 'rewards/format_reward': 1.0, 'reward': 1.3674603700637817, 'reward_std': 0.08751421608030796, 'kl': 0.0338134765625, 'epoch': 0.1}
+ 10%|▉         | 426/4286 [2:31:04<23:47:18, 22.19s/it] 10%|▉         | 427/4286 [2:31:27<24:05:52, 22.48s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.32584483506010836, 'learning_rate': 9.003733084461036e-07, 'completion_length': 358.75001525878906, 'rewards/only_full_func_accuracy_reward': 0.6007441282272339, 'rewards/format_reward': 1.0, 'reward': 1.6007441878318787, 'reward_std': 0.07164902612566948, 'kl': 0.02801513671875, 'epoch': 0.1}
+ 10%|▉         | 427/4286 [2:31:27<24:05:52, 22.48s/it] 10%|▉         | 428/4286 [2:31:49<23:44:29, 22.15s/it]                                                       {'loss': 0.001, 'grad_norm': 0.4946284971566581, 'learning_rate': 9.001399906672888e-07, 'completion_length': 345.7232360839844, 'rewards/only_full_func_accuracy_reward': 0.6846354007720947, 'rewards/format_reward': 1.0, 'reward': 1.6846355199813843, 'reward_std': 0.1252148188650608, 'kl': 0.02520751953125, 'epoch': 0.1}
+ 10%|▉         | 428/4286 [2:31:49<23:44:29, 22.15s/it] 10%|█         | 429/4286 [2:32:12<24:02:14, 22.44s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.8633282509101066, 'learning_rate': 8.999066728884742e-07, 'completion_length': 343.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.5739087462425232, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5649802684783936, 'reward_std': 0.1787898726761341, 'kl': 0.02667236328125, 'epoch': 0.1}
+ 10%|█         | 429/4286 [2:32:12<24:02:14, 22.44s/it] 10%|█         | 430/4286 [2:32:34<24:08:12, 22.53s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.510047092375958, 'learning_rate': 8.996733551096594e-07, 'completion_length': 351.6160888671875, 'rewards/only_full_func_accuracy_reward': 0.6433036029338837, 'rewards/format_reward': 1.0, 'reward': 1.6433036923408508, 'reward_std': 0.14602002501487732, 'kl': 0.02978515625, 'epoch': 0.1}
+ 10%|█         | 430/4286 [2:32:34<24:08:12, 22.53s/it] 10%|█         | 431/4286 [2:32:57<24:02:09, 22.45s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.4881741707451589, 'learning_rate': 8.994400373308446e-07, 'completion_length': 348.3928680419922, 'rewards/only_full_func_accuracy_reward': 0.5825892984867096, 'rewards/format_reward': 1.0, 'reward': 1.582589328289032, 'reward_std': 0.09136008657515049, 'kl': 0.03045654296875, 'epoch': 0.1}
+ 10%|█         | 431/4286 [2:32:57<24:02:09, 22.45s/it] 10%|█         | 432/4286 [2:33:18<23:42:09, 22.14s/it]                                                       {'loss': 0.0012, 'grad_norm': 1.3616501093065585, 'learning_rate': 8.992067195520298e-07, 'completion_length': 339.16966247558594, 'rewards/only_full_func_accuracy_reward': 0.6040179133415222, 'rewards/format_reward': 1.0, 'reward': 1.6040179133415222, 'reward_std': 0.13135501742362976, 'kl': 0.0306396484375, 'epoch': 0.1}
+ 10%|█         | 432/4286 [2:33:18<23:42:09, 22.14s/it] 10%|█         | 433/4286 [2:33:40<23:44:24, 22.18s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.5195953127418821, 'learning_rate': 8.989734017732151e-07, 'completion_length': 354.48216247558594, 'rewards/only_full_func_accuracy_reward': 0.6252976357936859, 'rewards/format_reward': 1.0, 'reward': 1.6252976655960083, 'reward_std': 0.12920811027288437, 'kl': 0.02667236328125, 'epoch': 0.1}
+ 10%|█         | 433/4286 [2:33:40<23:44:24, 22.18s/it] 10%|█         | 434/4286 [2:34:02<23:40:01, 22.12s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.345274106738939, 'learning_rate': 8.987400839944004e-07, 'completion_length': 354.1071472167969, 'rewards/only_full_func_accuracy_reward': 0.5138393193483353, 'rewards/format_reward': 1.0, 'reward': 1.5138393640518188, 'reward_std': 0.1768229342997074, 'kl': 0.0302734375, 'epoch': 0.1}
+ 10%|█         | 434/4286 [2:34:02<23:40:01, 22.12s/it] 10%|█         | 435/4286 [2:34:24<23:37:27, 22.08s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.5244718904184781, 'learning_rate': 8.985067662155856e-07, 'completion_length': 347.2589416503906, 'rewards/only_full_func_accuracy_reward': 0.4464285969734192, 'rewards/format_reward': 1.0, 'reward': 1.4464287161827087, 'reward_std': 0.10918247699737549, 'kl': 0.0311279296875, 'epoch': 0.1}
+ 10%|█         | 435/4286 [2:34:24<23:37:27, 22.08s/it] 10%|█         | 436/4286 [2:34:46<23:36:46, 22.08s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.5904991196718128, 'learning_rate': 8.982734484367709e-07, 'completion_length': 351.0000305175781, 'rewards/only_full_func_accuracy_reward': 0.6398809552192688, 'rewards/format_reward': 1.0, 'reward': 1.6398810744285583, 'reward_std': 0.1001675222069025, 'kl': 0.02978515625, 'epoch': 0.1}
+ 10%|█         | 436/4286 [2:34:46<23:36:46, 22.08s/it] 10%|█         | 437/4286 [2:35:08<23:27:08, 21.94s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.785381829575273, 'learning_rate': 8.980401306579561e-07, 'completion_length': 337.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.6617560088634491, 'rewards/format_reward': 1.0, 'reward': 1.6617560386657715, 'reward_std': 0.0862593799829483, 'kl': 0.02685546875, 'epoch': 0.1}
+ 10%|█         | 437/4286 [2:35:08<23:27:08, 21.94s/it] 10%|█         | 438/4286 [2:35:29<23:18:25, 21.81s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.5598417873406084, 'learning_rate': 8.978068128791414e-07, 'completion_length': 344.81251525878906, 'rewards/only_full_func_accuracy_reward': 0.6483135223388672, 'rewards/format_reward': 1.0, 'reward': 1.648313581943512, 'reward_std': 0.09704852849245071, 'kl': 0.0277099609375, 'epoch': 0.1}
+ 10%|█         | 438/4286 [2:35:29<23:18:25, 21.81s/it] 10%|█         | 439/4286 [2:35:53<23:55:05, 22.38s/it]                                                       {'loss': 0.001, 'grad_norm': 0.5163763779795074, 'learning_rate': 8.975734951003267e-07, 'completion_length': 368.77679443359375, 'rewards/only_full_func_accuracy_reward': 0.561904788017273, 'rewards/format_reward': 1.0, 'reward': 1.561904788017273, 'reward_std': 0.14773835986852646, 'kl': 0.02606201171875, 'epoch': 0.1}
+ 10%|█         | 439/4286 [2:35:53<23:55:05, 22.38s/it] 10%|█         | 440/4286 [2:36:15<23:37:41, 22.12s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.3525257176200584, 'learning_rate': 8.973401773215119e-07, 'completion_length': 333.0982360839844, 'rewards/only_full_func_accuracy_reward': 0.711309552192688, 'rewards/format_reward': 1.0, 'reward': 1.7113096714019775, 'reward_std': 0.025253813713788986, 'kl': 0.02886962890625, 'epoch': 0.1}
+ 10%|█         | 440/4286 [2:36:15<23:37:41, 22.12s/it] 10%|█         | 441/4286 [2:36:38<23:54:11, 22.38s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.4077832438702863, 'learning_rate': 8.971068595426971e-07, 'completion_length': 357.9732360839844, 'rewards/only_full_func_accuracy_reward': 0.5476190745830536, 'rewards/format_reward': 1.0, 'reward': 1.5476191639900208, 'reward_std': 0.07044779788702726, 'kl': 0.02874755859375, 'epoch': 0.1}
+ 10%|█         | 441/4286 [2:36:38<23:54:11, 22.38s/it] 10%|█         | 442/4286 [2:37:00<23:55:56, 22.41s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.43260330268083, 'learning_rate': 8.968735417638824e-07, 'completion_length': 353.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.6272321939468384, 'rewards/format_reward': 1.0, 'reward': 1.6272322535514832, 'reward_std': 0.11407142877578735, 'kl': 0.0316162109375, 'epoch': 0.1}
+ 10%|█         | 442/4286 [2:37:00<23:55:56, 22.41s/it] 10%|█         | 443/4286 [2:37:23<24:12:24, 22.68s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.8922597507032841, 'learning_rate': 8.966402239850677e-07, 'completion_length': 366.2143096923828, 'rewards/only_full_func_accuracy_reward': 0.570684552192688, 'rewards/format_reward': 1.0, 'reward': 1.5706846117973328, 'reward_std': 0.1599152758717537, 'kl': 0.03076171875, 'epoch': 0.1}
+ 10%|█         | 443/4286 [2:37:23<24:12:24, 22.68s/it] 10%|█         | 444/4286 [2:37:46<24:07:43, 22.61s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.6151285641504602, 'learning_rate': 8.964069062062529e-07, 'completion_length': 362.70538330078125, 'rewards/only_full_func_accuracy_reward': 0.5794643461704254, 'rewards/format_reward': 1.0, 'reward': 1.5794643759727478, 'reward_std': 0.1130966767668724, 'kl': 0.03076171875, 'epoch': 0.1}
+ 10%|█         | 444/4286 [2:37:46<24:07:43, 22.61s/it] 10%|█         | 445/4286 [2:38:08<23:57:53, 22.46s/it]                                                       {'loss': 0.001, 'grad_norm': 0.36164451963993016, 'learning_rate': 8.961735884274381e-07, 'completion_length': 358.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.647135466337204, 'rewards/format_reward': 1.0, 'reward': 1.6471354961395264, 'reward_std': 0.10211868211627007, 'kl': 0.02459716796875, 'epoch': 0.1}
+ 10%|█         | 445/4286 [2:38:08<23:57:53, 22.46s/it] 10%|█         | 446/4286 [2:38:31<24:03:49, 22.56s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.3282072697604857, 'learning_rate': 8.959402706486235e-07, 'completion_length': 360.0982360839844, 'rewards/only_full_func_accuracy_reward': 0.5922619104385376, 'rewards/format_reward': 1.0, 'reward': 1.5922620296478271, 'reward_std': 0.11502350494265556, 'kl': 0.02923583984375, 'epoch': 0.1}
+ 10%|█         | 446/4286 [2:38:31<24:03:49, 22.56s/it] 10%|█         | 447/4286 [2:38:52<23:42:31, 22.23s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.38219315733889714, 'learning_rate': 8.957069528698087e-07, 'completion_length': 332.5089569091797, 'rewards/only_full_func_accuracy_reward': 0.5363095253705978, 'rewards/format_reward': 1.0, 'reward': 1.5363096594810486, 'reward_std': 0.0909983403980732, 'kl': 0.02923583984375, 'epoch': 0.1}
+ 10%|█         | 447/4286 [2:38:52<23:42:31, 22.23s/it] 10%|█         | 448/4286 [2:39:15<23:55:28, 22.44s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.4138732315707207, 'learning_rate': 8.954736350909939e-07, 'completion_length': 361.3482208251953, 'rewards/only_full_func_accuracy_reward': 0.651041716337204, 'rewards/format_reward': 1.0, 'reward': 1.6510418057441711, 'reward_std': 0.131922148168087, 'kl': 0.02783203125, 'epoch': 0.1}
+ 10%|█         | 448/4286 [2:39:15<23:55:28, 22.44s/it] 10%|█         | 449/4286 [2:39:38<24:04:54, 22.59s/it]                                                       {'loss': 0.001, 'grad_norm': 0.3774936187117699, 'learning_rate': 8.952403173121792e-07, 'completion_length': 362.9285888671875, 'rewards/only_full_func_accuracy_reward': 0.7071428894996643, 'rewards/format_reward': 1.0, 'reward': 1.7071430087089539, 'reward_std': 0.09624883532524109, 'kl': 0.02581787109375, 'epoch': 0.1}
+ 10%|█         | 449/4286 [2:39:38<24:04:54, 22.59s/it] 10%|█         | 450/4286 [2:40:01<24:06:09, 22.62s/it]                                                       {'loss': 0.001, 'grad_norm': 0.4823492855311936, 'learning_rate': 8.950069995333645e-07, 'completion_length': 349.2232208251953, 'rewards/only_full_func_accuracy_reward': 0.6797619760036469, 'rewards/format_reward': 1.0, 'reward': 1.679762065410614, 'reward_std': 0.10151039063930511, 'kl': 0.025390625, 'epoch': 0.1}
+ 10%|█         | 450/4286 [2:40:01<24:06:09, 22.62s/it] 11%|█         | 451/4286 [2:40:24<24:10:07, 22.69s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.6084098418085456, 'learning_rate': 8.947736817545497e-07, 'completion_length': 327.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.6035342514514923, 'rewards/format_reward': 1.0, 'reward': 1.6035344004631042, 'reward_std': 0.14183196425437927, 'kl': 0.03033447265625, 'epoch': 0.11}
+ 11%|█         | 451/4286 [2:40:24<24:10:07, 22.69s/it][2025-02-27 05:05:21,258] [WARNING] [stage3.py:2134:step] 1 pytorch allocator cache flushes since last step. this happens when there is high memory pressure and is detrimental to performance. if this is happening frequently consider adjusting settings to reduce memory consumption. If you are unable to make the cache flushes go away consider adding get_accelerator().empty_cache() calls in your training loop to ensure that all ranks flush their caches at the same time
+ 11%|█         | 452/4286 [2:40:48<24:48:36, 23.30s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.44392004081327013, 'learning_rate': 8.94540363975735e-07, 'completion_length': 367.6250305175781, 'rewards/only_full_func_accuracy_reward': 0.4854166656732559, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.476488173007965, 'reward_std': 0.11133427172899246, 'kl': 0.03173828125, 'epoch': 0.11}
+ 11%|█         | 452/4286 [2:40:48<24:48:36, 23.30s/it] 11%|█         | 453/4286 [2:41:12<24:51:12, 23.34s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.4594449669189433, 'learning_rate': 8.943070461969202e-07, 'completion_length': 393.1875305175781, 'rewards/only_full_func_accuracy_reward': 0.557291716337204, 'rewards/format_reward': 1.0, 'reward': 1.5572917461395264, 'reward_std': 0.1805190071463585, 'kl': 0.02685546875, 'epoch': 0.11}
+ 11%|█         | 453/4286 [2:41:12<24:51:12, 23.34s/it] 11%|█         | 454/4286 [2:41:34<24:21:52, 22.89s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.7536388189823425, 'learning_rate': 8.940737284181055e-07, 'completion_length': 353.5178680419922, 'rewards/only_full_func_accuracy_reward': 0.6605654954910278, 'rewards/format_reward': 1.0, 'reward': 1.6605655550956726, 'reward_std': 0.15248580276966095, 'kl': 0.0294189453125, 'epoch': 0.11}
+ 11%|█         | 454/4286 [2:41:34<24:21:52, 22.89s/it] 11%|█         | 455/4286 [2:41:57<24:28:00, 22.99s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.4194578717828843, 'learning_rate': 8.938404106392907e-07, 'completion_length': 360.7232208251953, 'rewards/only_full_func_accuracy_reward': 0.6511905193328857, 'rewards/format_reward': 1.0, 'reward': 1.6511905193328857, 'reward_std': 0.12888148427009583, 'kl': 0.02752685546875, 'epoch': 0.11}
+ 11%|█         | 455/4286 [2:41:57<24:28:00, 22.99s/it] 11%|█         | 456/4286 [2:42:19<24:05:53, 22.65s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.7600087892834401, 'learning_rate': 8.93607092860476e-07, 'completion_length': 344.66966247558594, 'rewards/only_full_func_accuracy_reward': 0.5461309552192688, 'rewards/format_reward': 1.0, 'reward': 1.5461310744285583, 'reward_std': 0.11172139644622803, 'kl': 0.02752685546875, 'epoch': 0.11}
+ 11%|█         | 456/4286 [2:42:19<24:05:53, 22.65s/it] 11%|█         | 457/4286 [2:42:42<24:21:04, 22.89s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.6039566904818129, 'learning_rate': 8.933737750816612e-07, 'completion_length': 377.4732360839844, 'rewards/only_full_func_accuracy_reward': 0.7217262387275696, 'rewards/format_reward': 1.0, 'reward': 1.7217262983322144, 'reward_std': 0.14384862780570984, 'kl': 0.030029296875, 'epoch': 0.11}
+ 11%|█         | 457/4286 [2:42:42<24:21:04, 22.89s/it] 11%|█         | 458/4286 [2:43:05<24:12:44, 22.77s/it]                                                       {'loss': 0.0012, 'grad_norm': 2.4976449963736904, 'learning_rate': 8.931404573028464e-07, 'completion_length': 373.33038330078125, 'rewards/only_full_func_accuracy_reward': 0.5553571879863739, 'rewards/format_reward': 1.0, 'reward': 1.5553572177886963, 'reward_std': 0.11591044440865517, 'kl': 0.03094482421875, 'epoch': 0.11}
+ 11%|█         | 458/4286 [2:43:05<24:12:44, 22.77s/it] 11%|█         | 459/4286 [2:43:27<24:07:51, 22.70s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.39129793471537105, 'learning_rate': 8.929071395240318e-07, 'completion_length': 378.81251525878906, 'rewards/only_full_func_accuracy_reward': 0.6790178716182709, 'rewards/format_reward': 1.0, 'reward': 1.679017961025238, 'reward_std': 0.12385915592312813, 'kl': 0.0274658203125, 'epoch': 0.11}
+ 11%|█         | 459/4286 [2:43:27<24:07:51, 22.70s/it] 11%|█         | 460/4286 [2:43:51<24:33:37, 23.11s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.6751398248277771, 'learning_rate': 8.92673821745217e-07, 'completion_length': 379.9910888671875, 'rewards/only_full_func_accuracy_reward': 0.6074405014514923, 'rewards/format_reward': 1.0, 'reward': 1.6074405908584595, 'reward_std': 0.13054003939032555, 'kl': 0.03070068359375, 'epoch': 0.11}
+ 11%|█         | 460/4286 [2:43:51<24:33:37, 23.11s/it] 11%|█         | 461/4286 [2:44:14<24:32:13, 23.09s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.3991098787314989, 'learning_rate': 8.924405039664022e-07, 'completion_length': 347.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.4702724665403366, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.4613439440727234, 'reward_std': 0.15164396166801453, 'kl': 0.0279541015625, 'epoch': 0.11}
+ 11%|█         | 461/4286 [2:44:14<24:32:13, 23.09s/it] 11%|█         | 462/4286 [2:44:37<24:29:35, 23.06s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.5610223970435848, 'learning_rate': 8.922071861875875e-07, 'completion_length': 379.2232360839844, 'rewards/only_full_func_accuracy_reward': 0.732539713382721, 'rewards/format_reward': 1.0, 'reward': 1.732539713382721, 'reward_std': 0.1033010222017765, 'kl': 0.0286865234375, 'epoch': 0.11}
+ 11%|█         | 462/4286 [2:44:37<24:29:35, 23.06s/it] 11%|█         | 463/4286 [2:44:59<24:03:35, 22.66s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.812158766757535, 'learning_rate': 8.919738684087728e-07, 'completion_length': 358.79466247558594, 'rewards/only_full_func_accuracy_reward': 0.6196428835391998, 'rewards/format_reward': 1.0, 'reward': 1.6196429133415222, 'reward_std': 0.13624822348356247, 'kl': 0.02825927734375, 'epoch': 0.11}
+ 11%|█         | 463/4286 [2:44:59<24:03:35, 22.66s/it] 11%|█         | 464/4286 [2:45:22<24:12:16, 22.80s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.798658106051415, 'learning_rate': 8.91740550629958e-07, 'completion_length': 362.06251525878906, 'rewards/only_full_func_accuracy_reward': 0.5636905431747437, 'rewards/format_reward': 1.0, 'reward': 1.5636906027793884, 'reward_std': 0.15701118111610413, 'kl': 0.02947998046875, 'epoch': 0.11}
+ 11%|█         | 464/4286 [2:45:22<24:12:16, 22.80s/it] 11%|█         | 465/4286 [2:45:45<24:09:08, 22.76s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.6393254917669833, 'learning_rate': 8.915072328511432e-07, 'completion_length': 387.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.6831845939159393, 'rewards/format_reward': 1.0, 'reward': 1.6831846237182617, 'reward_std': 0.13272464275360107, 'kl': 0.026611328125, 'epoch': 0.11}
+ 11%|█         | 465/4286 [2:45:45<24:09:08, 22.76s/it] 11%|█         | 466/4286 [2:46:07<23:52:01, 22.49s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.45568485377020135, 'learning_rate': 8.912739150723285e-07, 'completion_length': 337.8928680419922, 'rewards/only_full_func_accuracy_reward': 0.6132440865039825, 'rewards/format_reward': 1.0, 'reward': 1.6132442355155945, 'reward_std': 0.14526399224996567, 'kl': 0.0299072265625, 'epoch': 0.11}
+ 11%|█         | 466/4286 [2:46:07<23:52:01, 22.49s/it] 11%|█         | 467/4286 [2:46:29<23:38:35, 22.29s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.35135479633560085, 'learning_rate': 8.910405972935138e-07, 'completion_length': 361.2589416503906, 'rewards/only_full_func_accuracy_reward': 0.7504464387893677, 'rewards/format_reward': 1.0, 'reward': 1.7504465579986572, 'reward_std': 0.08010372519493103, 'kl': 0.02923583984375, 'epoch': 0.11}
+ 11%|█         | 467/4286 [2:46:29<23:38:35, 22.29s/it] 11%|█         | 468/4286 [2:46:53<24:20:21, 22.95s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.5235114078030229, 'learning_rate': 8.90807279514699e-07, 'completion_length': 363.2857360839844, 'rewards/only_full_func_accuracy_reward': 0.5805060118436813, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5715774893760681, 'reward_std': 0.1291142739355564, 'kl': 0.03240966796875, 'epoch': 0.11}
+ 11%|█         | 468/4286 [2:46:53<24:20:21, 22.95s/it] 11%|█         | 469/4286 [2:47:15<24:08:46, 22.77s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.7723656161516882, 'learning_rate': 8.905739617358843e-07, 'completion_length': 365.3303680419922, 'rewards/only_full_func_accuracy_reward': 0.7123016715049744, 'rewards/format_reward': 1.0, 'reward': 1.7123017311096191, 'reward_std': 0.11704151332378387, 'kl': 0.0294189453125, 'epoch': 0.11}
+ 11%|█         | 469/4286 [2:47:15<24:08:46, 22.77s/it] 11%|█         | 470/4286 [2:47:39<24:16:26, 22.90s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.4147733710388421, 'learning_rate': 8.903406439570695e-07, 'completion_length': 352.06251525878906, 'rewards/only_full_func_accuracy_reward': 0.5290178805589676, 'rewards/format_reward': 1.0, 'reward': 1.529017984867096, 'reward_std': 0.07719209417700768, 'kl': 0.0321044921875, 'epoch': 0.11}
+ 11%|█         | 470/4286 [2:47:39<24:16:26, 22.90s/it] 11%|█         | 471/4286 [2:48:00<23:53:48, 22.55s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.38661865487866276, 'learning_rate': 8.901073261782548e-07, 'completion_length': 346.8839416503906, 'rewards/only_full_func_accuracy_reward': 0.6129464209079742, 'rewards/format_reward': 1.0, 'reward': 1.6129465103149414, 'reward_std': 0.07909784093499184, 'kl': 0.0306396484375, 'epoch': 0.11}
+ 11%|█         | 471/4286 [2:48:00<23:53:48, 22.55s/it] 11%|█         | 472/4286 [2:48:24<24:06:33, 22.76s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.39728561419449754, 'learning_rate': 8.898740083994401e-07, 'completion_length': 394.9910888671875, 'rewards/only_full_func_accuracy_reward': 0.7008928954601288, 'rewards/format_reward': 1.0, 'reward': 1.7008930444717407, 'reward_std': 0.10080234706401825, 'kl': 0.02960205078125, 'epoch': 0.11}
+ 11%|█         | 472/4286 [2:48:24<24:06:33, 22.76s/it] 11%|█         | 473/4286 [2:48:46<23:54:40, 22.58s/it]                                                       {'loss': 0.0013, 'grad_norm': 2.30671722870843, 'learning_rate': 8.896406906206253e-07, 'completion_length': 360.4107360839844, 'rewards/only_full_func_accuracy_reward': 0.5144345611333847, 'rewards/format_reward': 1.0, 'reward': 1.5144346952438354, 'reward_std': 0.1644088551402092, 'kl': 0.0328369140625, 'epoch': 0.11}
+ 11%|█         | 473/4286 [2:48:46<23:54:40, 22.58s/it] 11%|█         | 474/4286 [2:49:08<23:50:11, 22.51s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.34927484783541957, 'learning_rate': 8.894073728418105e-07, 'completion_length': 339.7589569091797, 'rewards/only_full_func_accuracy_reward': 0.6086309552192688, 'rewards/format_reward': 1.0, 'reward': 1.6086310148239136, 'reward_std': 0.10916266590356827, 'kl': 0.03082275390625, 'epoch': 0.11}
+ 11%|█         | 474/4286 [2:49:08<23:50:11, 22.51s/it] 11%|█         | 475/4286 [2:49:32<24:09:44, 22.82s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.6728010559327685, 'learning_rate': 8.891740550629959e-07, 'completion_length': 384.48216247558594, 'rewards/only_full_func_accuracy_reward': 0.621279776096344, 'rewards/format_reward': 1.0, 'reward': 1.6212798357009888, 'reward_std': 0.127248402684927, 'kl': 0.02850341796875, 'epoch': 0.11}
+ 11%|█         | 475/4286 [2:49:32<24:09:44, 22.82s/it] 11%|█         | 476/4286 [2:49:53<23:38:58, 22.35s/it]                                                       {'loss': 0.0013, 'grad_norm': 1.5513856988397285, 'learning_rate': 8.889407372841811e-07, 'completion_length': 346.0803680419922, 'rewards/only_full_func_accuracy_reward': 0.6205357611179352, 'rewards/format_reward': 1.0, 'reward': 1.6205358505249023, 'reward_std': 0.07283216714859009, 'kl': 0.03350830078125, 'epoch': 0.11}
+ 11%|█         | 476/4286 [2:49:53<23:38:58, 22.35s/it] 11%|█         | 477/4286 [2:50:15<23:39:04, 22.35s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.32539394059012405, 'learning_rate': 8.887074195053663e-07, 'completion_length': 376.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.5610118955373764, 'rewards/format_reward': 1.0, 'reward': 1.561012089252472, 'reward_std': 0.038759700022637844, 'kl': 0.03125, 'epoch': 0.11}
+ 11%|█         | 477/4286 [2:50:15<23:39:04, 22.35s/it] 11%|█         | 478/4286 [2:50:37<23:27:01, 22.17s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.3644494715864805, 'learning_rate': 8.884741017265515e-07, 'completion_length': 361.6964569091797, 'rewards/only_full_func_accuracy_reward': 0.6302083432674408, 'rewards/format_reward': 1.0, 'reward': 1.630208432674408, 'reward_std': 0.10929776728153229, 'kl': 0.028076171875, 'epoch': 0.11}
+ 11%|█         | 478/4286 [2:50:37<23:27:01, 22.17s/it] 11%|█         | 479/4286 [2:51:00<23:40:05, 22.38s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.7217984964675594, 'learning_rate': 8.882407839477369e-07, 'completion_length': 395.5357360839844, 'rewards/only_full_func_accuracy_reward': 0.517857164144516, 'rewards/format_reward': 1.0, 'reward': 1.5178571939468384, 'reward_std': 0.18032633513212204, 'kl': 0.02880859375, 'epoch': 0.11}
+ 11%|█         | 479/4286 [2:51:00<23:40:05, 22.38s/it] 11%|█         | 480/4286 [2:51:23<23:51:48, 22.57s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.39130958488908885, 'learning_rate': 8.880074661689221e-07, 'completion_length': 359.65179443359375, 'rewards/only_full_func_accuracy_reward': 0.6264881193637848, 'rewards/format_reward': 1.0, 'reward': 1.626488208770752, 'reward_std': 0.13884104043245316, 'kl': 0.03143310546875, 'epoch': 0.11}
+ 11%|█         | 480/4286 [2:51:23<23:51:48, 22.57s/it] 11%|█         | 481/4286 [2:51:46<23:53:29, 22.60s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.5752320012313921, 'learning_rate': 8.877741483901073e-07, 'completion_length': 337.7589569091797, 'rewards/only_full_func_accuracy_reward': 0.5501488447189331, 'rewards/format_reward': 1.0, 'reward': 1.5501489043235779, 'reward_std': 0.11710122600197792, 'kl': 0.033935546875, 'epoch': 0.11}
+ 11%|█         | 481/4286 [2:51:46<23:53:29, 22.60s/it] 11%|█         | 482/4286 [2:52:08<23:43:49, 22.46s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.5587843679052977, 'learning_rate': 8.875408306112926e-07, 'completion_length': 336.8035888671875, 'rewards/only_full_func_accuracy_reward': 0.6510416865348816, 'rewards/format_reward': 1.0, 'reward': 1.6510418057441711, 'reward_std': 0.1270143985748291, 'kl': 0.034423828125, 'epoch': 0.11}
+ 11%|█         | 482/4286 [2:52:08<23:43:49, 22.46s/it] 11%|█▏        | 483/4286 [2:52:30<23:33:54, 22.31s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.9580642572682438, 'learning_rate': 8.873075128324778e-07, 'completion_length': 367.6785888671875, 'rewards/only_full_func_accuracy_reward': 0.5467262268066406, 'rewards/format_reward': 1.0, 'reward': 1.5467262864112854, 'reward_std': 0.10173558071255684, 'kl': 0.03375244140625, 'epoch': 0.11}
+ 11%|█▏        | 483/4286 [2:52:30<23:33:54, 22.31s/it] 11%|█▏        | 484/4286 [2:52:52<23:39:01, 22.39s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.4339804344450642, 'learning_rate': 8.870741950536631e-07, 'completion_length': 374.85716247558594, 'rewards/only_full_func_accuracy_reward': 0.5764881074428558, 'rewards/format_reward': 1.0, 'reward': 1.5764882564544678, 'reward_std': 0.1635683998465538, 'kl': 0.03387451171875, 'epoch': 0.11}
+ 11%|█▏        | 484/4286 [2:52:52<23:39:01, 22.39s/it] 11%|█▏        | 485/4286 [2:53:14<23:23:08, 22.15s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.819940377853445, 'learning_rate': 8.868408772748484e-07, 'completion_length': 356.1339416503906, 'rewards/only_full_func_accuracy_reward': 0.7925595641136169, 'rewards/format_reward': 1.0, 'reward': 1.792559564113617, 'reward_std': 0.11484355479478836, 'kl': 0.028076171875, 'epoch': 0.11}
+ 11%|█▏        | 485/4286 [2:53:14<23:23:08, 22.15s/it] 11%|█▏        | 486/4286 [2:53:35<23:00:20, 21.79s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.5609854822157413, 'learning_rate': 8.866075594960336e-07, 'completion_length': 334.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.7380952835083008, 'rewards/format_reward': 1.0, 'reward': 1.7380954027175903, 'reward_std': 0.15411503612995148, 'kl': 0.0316162109375, 'epoch': 0.11}
+ 11%|█▏        | 486/4286 [2:53:35<23:00:20, 21.79s/it] 11%|█▏        | 487/4286 [2:53:57<23:09:15, 21.94s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.43167808540084224, 'learning_rate': 8.863742417172188e-07, 'completion_length': 352.0268096923828, 'rewards/only_full_func_accuracy_reward': 0.5342262089252472, 'rewards/format_reward': 1.0, 'reward': 1.5342262983322144, 'reward_std': 0.11767333373427391, 'kl': 0.03155517578125, 'epoch': 0.11}
+ 11%|█▏        | 487/4286 [2:53:57<23:09:15, 21.94s/it] 11%|█▏        | 488/4286 [2:54:18<22:57:51, 21.77s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.2968891660044987, 'learning_rate': 8.861409239384041e-07, 'completion_length': 338.5089416503906, 'rewards/only_full_func_accuracy_reward': 0.659821480512619, 'rewards/format_reward': 1.0, 'reward': 1.6598215103149414, 'reward_std': 0.07487860694527626, 'kl': 0.0279541015625, 'epoch': 0.11}
+ 11%|█▏        | 488/4286 [2:54:18<22:57:51, 21.77s/it] 11%|█▏        | 489/4286 [2:54:41<23:17:38, 22.09s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.45748150693721834, 'learning_rate': 8.859076061595894e-07, 'completion_length': 367.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.5111607611179352, 'rewards/format_reward': 1.0, 'reward': 1.5111608505249023, 'reward_std': 0.18071913719177246, 'kl': 0.0321044921875, 'epoch': 0.11}
+ 11%|█▏        | 489/4286 [2:54:41<23:17:38, 22.09s/it] 11%|█▏        | 490/4286 [2:55:02<22:54:57, 21.73s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.6099942144005773, 'learning_rate': 8.856742883807746e-07, 'completion_length': 337.9910888671875, 'rewards/only_full_func_accuracy_reward': 0.5334821939468384, 'rewards/format_reward': 1.0, 'reward': 1.533482313156128, 'reward_std': 0.16305754333734512, 'kl': 0.0286865234375, 'epoch': 0.11}
+ 11%|█▏        | 490/4286 [2:55:02<22:54:57, 21.73s/it] 11%|█▏        | 491/4286 [2:55:25<23:13:48, 22.04s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.5095780894451061, 'learning_rate': 8.854409706019598e-07, 'completion_length': 349.5089416503906, 'rewards/only_full_func_accuracy_reward': 0.592857152223587, 'rewards/format_reward': 1.0, 'reward': 1.5928572416305542, 'reward_std': 0.11256887763738632, 'kl': 0.031982421875, 'epoch': 0.11}
+ 11%|█▏        | 491/4286 [2:55:25<23:13:48, 22.04s/it] 11%|█▏        | 492/4286 [2:55:46<23:01:01, 21.84s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.7294564828130231, 'learning_rate': 8.852076528231452e-07, 'completion_length': 348.9018096923828, 'rewards/only_full_func_accuracy_reward': 0.7031250596046448, 'rewards/format_reward': 1.0, 'reward': 1.7031251192092896, 'reward_std': 0.11631324887275696, 'kl': 0.02886962890625, 'epoch': 0.11}
+ 11%|█▏        | 492/4286 [2:55:46<23:01:01, 21.84s/it] 12%|█▏        | 493/4286 [2:56:07<22:38:39, 21.49s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.4927132570199262, 'learning_rate': 8.849743350443304e-07, 'completion_length': 316.5982208251953, 'rewards/only_full_func_accuracy_reward': 0.6004464775323868, 'rewards/format_reward': 1.0, 'reward': 1.6004465818405151, 'reward_std': 0.13290220499038696, 'kl': 0.03369140625, 'epoch': 0.12}
+ 12%|█▏        | 493/4286 [2:56:07<22:38:39, 21.49s/it] 12%|█▏        | 494/4286 [2:56:29<22:43:05, 21.57s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.5918820426607371, 'learning_rate': 8.847410172655156e-07, 'completion_length': 348.75001525878906, 'rewards/only_full_func_accuracy_reward': 0.5372024476528168, 'rewards/format_reward': 1.0, 'reward': 1.5372024774551392, 'reward_std': 0.09807197190821171, 'kl': 0.032958984375, 'epoch': 0.12}
+ 12%|█▏        | 494/4286 [2:56:29<22:43:05, 21.57s/it] 12%|█▏        | 495/4286 [2:56:50<22:45:03, 21.60s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.5319375178208706, 'learning_rate': 8.845076994867009e-07, 'completion_length': 341.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.7514880895614624, 'rewards/format_reward': 1.0, 'reward': 1.7514882683753967, 'reward_std': 0.11138484999537468, 'kl': 0.03094482421875, 'epoch': 0.12}
+ 12%|█▏        | 495/4286 [2:56:50<22:45:03, 21.60s/it] 12%|█▏        | 496/4286 [2:57:13<23:02:18, 21.88s/it]                                                       {'loss': 0.001, 'grad_norm': 0.5196164897239847, 'learning_rate': 8.842743817078862e-07, 'completion_length': 367.2768096923828, 'rewards/only_full_func_accuracy_reward': 0.7150297462940216, 'rewards/format_reward': 1.0, 'reward': 1.7150298953056335, 'reward_std': 0.11101582273840904, 'kl': 0.0260009765625, 'epoch': 0.12}
+ 12%|█▏        | 496/4286 [2:57:13<23:02:18, 21.88s/it] 12%|█▏        | 497/4286 [2:57:37<23:35:54, 22.42s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.49999647134558534, 'learning_rate': 8.840410639290714e-07, 'completion_length': 371.45538330078125, 'rewards/only_full_func_accuracy_reward': 0.5894345641136169, 'rewards/format_reward': 1.0, 'reward': 1.5894346833229065, 'reward_std': 0.15073500201106071, 'kl': 0.02764892578125, 'epoch': 0.12}
+ 12%|█▏        | 497/4286 [2:57:37<23:35:54, 22.42s/it] 12%|█▏        | 498/4286 [2:57:57<23:03:43, 21.92s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.6056067426854109, 'learning_rate': 8.838077461502567e-07, 'completion_length': 303.9196472167969, 'rewards/only_full_func_accuracy_reward': 0.689732164144516, 'rewards/format_reward': 1.0, 'reward': 1.6897321939468384, 'reward_std': 0.16008368134498596, 'kl': 0.0311279296875, 'epoch': 0.12}
+ 12%|█▏        | 498/4286 [2:57:57<23:03:43, 21.92s/it] 12%|█▏        | 499/4286 [2:58:20<23:10:20, 22.03s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.45998794840213925, 'learning_rate': 8.835744283714419e-07, 'completion_length': 350.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.6025298237800598, 'rewards/format_reward': 1.0, 'reward': 1.6025298833847046, 'reward_std': 0.12308699265122414, 'kl': 0.03253173828125, 'epoch': 0.12}
+ 12%|█▏        | 499/4286 [2:58:20<23:10:20, 22.03s/it] 12%|█▏        | 500/4286 [2:58:43<23:40:43, 22.52s/it]                                                       {'loss': 0.001, 'grad_norm': 0.8903741012188088, 'learning_rate': 8.833411105926272e-07, 'completion_length': 398.4018096923828, 'rewards/only_full_func_accuracy_reward': 0.7433035671710968, 'rewards/format_reward': 1.0, 'reward': 1.743303656578064, 'reward_std': 0.06306403689086437, 'kl': 0.02435302734375, 'epoch': 0.12}
+ 12%|█▏        | 500/4286 [2:58:43<23:40:43, 22.52s/it] 12%|█▏        | 501/4286 [2:59:53<38:40:49, 36.79s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.547158816669965, 'learning_rate': 8.831077928138124e-07, 'completion_length': 373.6160888671875, 'rewards/only_full_func_accuracy_reward': 0.5538690686225891, 'rewards/format_reward': 1.0, 'reward': 1.5538691282272339, 'reward_std': 0.10108192265033722, 'kl': 0.03131103515625, 'epoch': 0.12}
+ 12%|█▏        | 501/4286 [2:59:53<38:40:49, 36.79s/it] 12%|█▏        | 502/4286 [3:00:18<34:42:50, 33.03s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.5520754884794022, 'learning_rate': 8.828744750349977e-07, 'completion_length': 370.1607360839844, 'rewards/only_full_func_accuracy_reward': 0.5119048058986664, 'rewards/format_reward': 1.0, 'reward': 1.5119048953056335, 'reward_std': 0.12336790189146996, 'kl': 0.0330810546875, 'epoch': 0.12}
+ 12%|█▏        | 502/4286 [3:00:18<34:42:50, 33.03s/it] 12%|█▏        | 503/4286 [3:00:42<31:54:22, 30.36s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.44396836146663027, 'learning_rate': 8.826411572561829e-07, 'completion_length': 387.77679443359375, 'rewards/only_full_func_accuracy_reward': 0.5360119193792343, 'rewards/format_reward': 1.0, 'reward': 1.5360119938850403, 'reward_std': 0.11222941800951958, 'kl': 0.0272216796875, 'epoch': 0.12}
+ 12%|█▏        | 503/4286 [3:00:42<31:54:22, 30.36s/it] 12%|█▏        | 504/4286 [3:01:05<29:37:43, 28.20s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.4513491867166604, 'learning_rate': 8.824078394773681e-07, 'completion_length': 365.5178680419922, 'rewards/only_full_func_accuracy_reward': 0.6394345760345459, 'rewards/format_reward': 1.0, 'reward': 1.639434576034546, 'reward_std': 0.11797637864947319, 'kl': 0.0294189453125, 'epoch': 0.12}
+ 12%|█▏        | 504/4286 [3:01:05<29:37:43, 28.20s/it] 12%|█▏        | 505/4286 [3:01:28<27:57:28, 26.62s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.7080076454411337, 'learning_rate': 8.821745216985535e-07, 'completion_length': 358.8571472167969, 'rewards/only_full_func_accuracy_reward': 0.4769345670938492, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.4680060744285583, 'reward_std': 0.15690023452043533, 'kl': 0.03033447265625, 'epoch': 0.12}
+ 12%|█▏        | 505/4286 [3:01:28<27:57:28, 26.62s/it] 12%|█▏        | 506/4286 [3:01:52<27:06:00, 25.81s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.429369152957625, 'learning_rate': 8.819412039197387e-07, 'completion_length': 371.06251525878906, 'rewards/only_full_func_accuracy_reward': 0.7350819110870361, 'rewards/format_reward': 1.0, 'reward': 1.735081970691681, 'reward_std': 0.14221017062664032, 'kl': 0.0313720703125, 'epoch': 0.12}
+ 12%|█▏        | 506/4286 [3:01:52<27:06:00, 25.81s/it] 12%|█▏        | 507/4286 [3:02:14<26:05:43, 24.86s/it]                                                       {'loss': 0.0014, 'grad_norm': 1.3289851218032114, 'learning_rate': 8.817078861409239e-07, 'completion_length': 357.0268096923828, 'rewards/only_full_func_accuracy_reward': 0.6183036267757416, 'rewards/format_reward': 1.0, 'reward': 1.6183037161827087, 'reward_std': 0.09226186946034431, 'kl': 0.0338134765625, 'epoch': 0.12}
+ 12%|█▏        | 507/4286 [3:02:14<26:05:43, 24.86s/it] 12%|█▏        | 508/4286 [3:02:37<25:31:24, 24.32s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.7353994440704983, 'learning_rate': 8.814745683621092e-07, 'completion_length': 345.3928680419922, 'rewards/only_full_func_accuracy_reward': 0.5625000298023224, 'rewards/format_reward': 1.0, 'reward': 1.5625000596046448, 'reward_std': 0.16021746397018433, 'kl': 0.03076171875, 'epoch': 0.12}
+ 12%|█▏        | 508/4286 [3:02:37<25:31:24, 24.32s/it] 12%|█▏        | 509/4286 [3:03:01<25:13:13, 24.04s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.6795206830829706, 'learning_rate': 8.812412505832945e-07, 'completion_length': 384.83038330078125, 'rewards/only_full_func_accuracy_reward': 0.6384779214859009, 'rewards/format_reward': 1.0, 'reward': 1.6384779810905457, 'reward_std': 0.11757195740938187, 'kl': 0.0343017578125, 'epoch': 0.12}
+ 12%|█▏        | 509/4286 [3:03:01<25:13:13, 24.04s/it] 12%|█▏        | 510/4286 [3:03:25<25:08:34, 23.97s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.8120477701652086, 'learning_rate': 8.810079328044797e-07, 'completion_length': 346.89288330078125, 'rewards/only_full_func_accuracy_reward': 0.5000000447034836, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.4910715222358704, 'reward_std': 0.13283557072281837, 'kl': 0.02984619140625, 'epoch': 0.12}
+ 12%|█▏        | 510/4286 [3:03:25<25:08:34, 23.97s/it] 12%|█▏        | 511/4286 [3:03:46<24:19:40, 23.20s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.34403543625898736, 'learning_rate': 8.807746150256649e-07, 'completion_length': 344.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.5342261791229248, 'rewards/format_reward': 1.0, 'reward': 1.5342263579368591, 'reward_std': 0.0849388912320137, 'kl': 0.030517578125, 'epoch': 0.12}
+ 12%|��▏        | 511/4286 [3:03:46<24:19:40, 23.20s/it] 12%|█▏        | 512/4286 [3:04:10<24:27:22, 23.33s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.3720119735602153, 'learning_rate': 8.805412972468502e-07, 'completion_length': 350.6160888671875, 'rewards/only_full_func_accuracy_reward': 0.6275297701358795, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6186013221740723, 'reward_std': 0.12495754286646843, 'kl': 0.033203125, 'epoch': 0.12}
+ 12%|█▏        | 512/4286 [3:04:10<24:27:22, 23.33s/it] 12%|█▏        | 513/4286 [3:04:32<24:14:58, 23.14s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.5251272806293455, 'learning_rate': 8.803079794680355e-07, 'completion_length': 349.90179443359375, 'rewards/only_full_func_accuracy_reward': 0.6421131193637848, 'rewards/format_reward': 1.0, 'reward': 1.642113208770752, 'reward_std': 0.15035195648670197, 'kl': 0.03216552734375, 'epoch': 0.12}
+ 12%|█▏        | 513/4286 [3:04:32<24:14:58, 23.14s/it] 12%|█▏        | 514/4286 [3:04:55<24:08:09, 23.04s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.5733159742178711, 'learning_rate': 8.800746616892207e-07, 'completion_length': 353.16966247558594, 'rewards/only_full_func_accuracy_reward': 0.5800595581531525, 'rewards/format_reward': 1.0, 'reward': 1.5800595879554749, 'reward_std': 0.11614591628313065, 'kl': 0.0322265625, 'epoch': 0.12}
+ 12%|█▏        | 514/4286 [3:04:55<24:08:09, 23.04s/it] 12%|█▏        | 515/4286 [3:05:18<23:55:35, 22.84s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.6573433745788008, 'learning_rate': 8.79841343910406e-07, 'completion_length': 363.23216247558594, 'rewards/only_full_func_accuracy_reward': 0.6334821283817291, 'rewards/format_reward': 1.0, 'reward': 1.633482277393341, 'reward_std': 0.138718880712986, 'kl': 0.03179931640625, 'epoch': 0.12}
+ 12%|█▏        | 515/4286 [3:05:18<23:55:35, 22.84s/it] 12%|█▏        | 516/4286 [3:05:40<23:56:35, 22.86s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.42029367503425047, 'learning_rate': 8.796080261315912e-07, 'completion_length': 369.31251525878906, 'rewards/only_full_func_accuracy_reward': 0.5218750089406967, 'rewards/format_reward': 1.0, 'reward': 1.5218750834465027, 'reward_std': 0.08181583136320114, 'kl': 0.031005859375, 'epoch': 0.12}
+ 12%|█▏        | 516/4286 [3:05:40<23:56:35, 22.86s/it] 12%|█▏        | 517/4286 [3:06:04<24:01:34, 22.95s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.4866616651738723, 'learning_rate': 8.793747083527765e-07, 'completion_length': 373.6785888671875, 'rewards/only_full_func_accuracy_reward': 0.6852678656578064, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6763393878936768, 'reward_std': 0.19648569077253342, 'kl': 0.03167724609375, 'epoch': 0.12}
+ 12%|█▏        | 517/4286 [3:06:04<24:01:34, 22.95s/it] 12%|█▏        | 518/4286 [3:06:27<24:09:47, 23.09s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.4364574578252665, 'learning_rate': 8.791413905739618e-07, 'completion_length': 378.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.5654762089252472, 'rewards/format_reward': 1.0, 'reward': 1.5654763579368591, 'reward_std': 0.11930657550692558, 'kl': 0.03277587890625, 'epoch': 0.12}
+ 12%|█▏        | 518/4286 [3:06:27<24:09:47, 23.09s/it] 12%|█▏        | 519/4286 [3:06:51<24:27:55, 23.38s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.35021869546359896, 'learning_rate': 8.78908072795147e-07, 'completion_length': 406.4732208251953, 'rewards/only_full_func_accuracy_reward': 0.741666704416275, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7238096594810486, 'reward_std': 0.10540958866477013, 'kl': 0.02947998046875, 'epoch': 0.12}
+ 12%|█▏        | 519/4286 [3:06:51<24:27:55, 23.38s/it] 12%|█▏        | 520/4286 [3:07:14<24:24:48, 23.34s/it]                                                       {'loss': 0.0015, 'grad_norm': 0.6818907166487325, 'learning_rate': 8.786747550163322e-07, 'completion_length': 367.3214569091797, 'rewards/only_full_func_accuracy_reward': 0.537202388048172, 'rewards/format_reward': 1.0, 'reward': 1.5372024774551392, 'reward_std': 0.1420757919549942, 'kl': 0.036376953125, 'epoch': 0.12}
+ 12%|█▏        | 520/4286 [3:07:14<24:24:48, 23.34s/it] 12%|█▏        | 521/4286 [3:07:38<24:27:05, 23.38s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.6514637559509453, 'learning_rate': 8.784414372375176e-07, 'completion_length': 362.7768096923828, 'rewards/only_full_func_accuracy_reward': 0.5468750298023224, 'rewards/format_reward': 1.0, 'reward': 1.5468750596046448, 'reward_std': 0.1225208044052124, 'kl': 0.03179931640625, 'epoch': 0.12}
+ 12%|█▏        | 521/4286 [3:07:38<24:27:05, 23.38s/it] 12%|█▏        | 522/4286 [3:08:00<24:08:52, 23.10s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.6346666200049116, 'learning_rate': 8.782081194587028e-07, 'completion_length': 385.1428680419922, 'rewards/only_full_func_accuracy_reward': 0.5016741305589676, 'rewards/format_reward': 1.0, 'reward': 1.501674234867096, 'reward_std': 0.09221227839589119, 'kl': 0.02984619140625, 'epoch': 0.12}
+ 12%|█▏        | 522/4286 [3:08:00<24:08:52, 23.10s/it] 12%|█▏        | 523/4286 [3:08:22<23:49:18, 22.79s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.37925468086589864, 'learning_rate': 8.77974801679888e-07, 'completion_length': 344.91966247558594, 'rewards/only_full_func_accuracy_reward': 0.4866071790456772, 'rewards/format_reward': 1.0, 'reward': 1.4866072535514832, 'reward_std': 0.09810007363557816, 'kl': 0.0316162109375, 'epoch': 0.12}
+ 12%|█▏        | 523/4286 [3:08:22<23:49:18, 22.79s/it] 12%|█▏        | 524/4286 [3:08:46<24:10:33, 23.14s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.5660722028074269, 'learning_rate': 8.777414839010732e-07, 'completion_length': 388.8928680419922, 'rewards/only_full_func_accuracy_reward': 0.533630982041359, 'rewards/format_reward': 1.0, 'reward': 1.5336310863494873, 'reward_std': 0.1154344342648983, 'kl': 0.033203125, 'epoch': 0.12}
+ 12%|█▏        | 524/4286 [3:08:46<24:10:33, 23.14s/it] 12%|█▏        | 525/4286 [3:09:09<23:57:40, 22.94s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.4210757429134514, 'learning_rate': 8.775081661222586e-07, 'completion_length': 368.79466247558594, 'rewards/only_full_func_accuracy_reward': 0.6034226566553116, 'rewards/format_reward': 1.0, 'reward': 1.60342276096344, 'reward_std': 0.11992503330111504, 'kl': 0.0316162109375, 'epoch': 0.12}
+ 12%|█▏        | 525/4286 [3:09:09<23:57:40, 22.94s/it] 12%|█▏        | 526/4286 [3:09:32<23:56:33, 22.92s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.2829748174083892, 'learning_rate': 8.772748483434438e-07, 'completion_length': 374.5535888671875, 'rewards/only_full_func_accuracy_reward': 0.5625000298023224, 'rewards/format_reward': 1.0, 'reward': 1.5625000596046448, 'reward_std': 0.050571806728839874, 'kl': 0.0316162109375, 'epoch': 0.12}
+ 12%|█▏        | 526/4286 [3:09:32<23:56:33, 22.92s/it] 12%|█▏        | 527/4286 [3:09:56<24:28:52, 23.45s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.6461497065452847, 'learning_rate': 8.77041530564629e-07, 'completion_length': 407.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.4802827686071396, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.4713543057441711, 'reward_std': 0.15361300855875015, 'kl': 0.02947998046875, 'epoch': 0.12}
+ 12%|█▏        | 527/4286 [3:09:56<24:28:52, 23.45s/it] 12%|█▏        | 528/4286 [3:10:21<24:56:08, 23.89s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.42094014304661587, 'learning_rate': 8.768082127858143e-07, 'completion_length': 393.48216247558594, 'rewards/only_full_func_accuracy_reward': 0.49613095819950104, 'rewards/format_reward': 1.0, 'reward': 1.4961311221122742, 'reward_std': 0.10753604769706726, 'kl': 0.03070068359375, 'epoch': 0.12}
+ 12%|█▏        | 528/4286 [3:10:21<24:56:08, 23.89s/it] 12%|█▏        | 529/4286 [3:10:44<24:42:39, 23.68s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.4628885389953688, 'learning_rate': 8.765748950069996e-07, 'completion_length': 400.6339569091797, 'rewards/only_full_func_accuracy_reward': 0.5901786088943481, 'rewards/format_reward': 1.0, 'reward': 1.5901787281036377, 'reward_std': 0.1276450678706169, 'kl': 0.03094482421875, 'epoch': 0.12}
+ 12%|█▏        | 529/4286 [3:10:44<24:42:39, 23.68s/it] 12%|█▏        | 530/4286 [3:11:07<24:29:03, 23.47s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.4062436336925138, 'learning_rate': 8.763415772281848e-07, 'completion_length': 388.5714416503906, 'rewards/only_full_func_accuracy_reward': 0.5845238268375397, 'rewards/format_reward': 1.0, 'reward': 1.584523856639862, 'reward_std': 0.09932875633239746, 'kl': 0.0325927734375, 'epoch': 0.12}
+ 12%|█▏        | 530/4286 [3:11:07<24:29:03, 23.47s/it] 12%|█▏        | 531/4286 [3:11:32<24:42:12, 23.68s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.34612716501623375, 'learning_rate': 8.761082594493701e-07, 'completion_length': 418.4643096923828, 'rewards/only_full_func_accuracy_reward': 0.3963914215564728, 'rewards/format_reward': 1.0, 'reward': 1.3963914513587952, 'reward_std': 0.12321338802576065, 'kl': 0.03289794921875, 'epoch': 0.12}
+ 12%|█▏        | 531/4286 [3:11:32<24:42:12, 23.68s/it] 12%|█▏        | 532/4286 [3:11:55<24:33:06, 23.54s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.4004731276004642, 'learning_rate': 8.758749416705553e-07, 'completion_length': 363.25001525878906, 'rewards/only_full_func_accuracy_reward': 0.6312004327774048, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6222718954086304, 'reward_std': 0.11460358463227749, 'kl': 0.0330810546875, 'epoch': 0.12}
+ 12%|█▏        | 532/4286 [3:11:55<24:33:06, 23.54s/it] 12%|█▏        | 533/4286 [3:12:19<24:43:40, 23.72s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.856359397137416, 'learning_rate': 8.756416238917405e-07, 'completion_length': 395.54466247558594, 'rewards/only_full_func_accuracy_reward': 0.45699408650398254, 'rewards/format_reward': 1.0, 'reward': 1.456994116306305, 'reward_std': 0.15802424401044846, 'kl': 0.03271484375, 'epoch': 0.12}
+ 12%|█▏        | 533/4286 [3:12:19<24:43:40, 23.72s/it] 12%|█▏        | 534/4286 [3:12:43<24:56:28, 23.93s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.39449985912399077, 'learning_rate': 8.754083061129258e-07, 'completion_length': 384.66966247558594, 'rewards/only_full_func_accuracy_reward': 0.5880952775478363, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5791667103767395, 'reward_std': 0.17426641657948494, 'kl': 0.03094482421875, 'epoch': 0.12}
+ 12%|█▏        | 534/4286 [3:12:43<24:56:28, 23.93s/it] 12%|█▏        | 535/4286 [3:13:07<24:49:17, 23.82s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.448580218880317, 'learning_rate': 8.751749883341111e-07, 'completion_length': 383.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.5922619700431824, 'rewards/format_reward': 1.0, 'reward': 1.592262089252472, 'reward_std': 0.10248912498354912, 'kl': 0.0330810546875, 'epoch': 0.12}
+ 12%|█▏        | 535/4286 [3:13:07<24:49:17, 23.82s/it] 13%|█▎        | 536/4286 [3:13:31<24:45:56, 23.78s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.48453959745126396, 'learning_rate': 8.749416705552962e-07, 'completion_length': 398.7053680419922, 'rewards/only_full_func_accuracy_reward': 0.6488095819950104, 'rewards/format_reward': 1.0, 'reward': 1.6488096714019775, 'reward_std': 0.11600998416543007, 'kl': 0.02783203125, 'epoch': 0.13}
+ 13%|█▎        | 536/4286 [3:13:31<24:45:56, 23.78s/it] 13%|█▎        | 537/4286 [3:13:54<24:36:38, 23.63s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.5924349262890547, 'learning_rate': 8.747083527764814e-07, 'completion_length': 389.91966247558594, 'rewards/only_full_func_accuracy_reward': 0.5305059552192688, 'rewards/format_reward': 1.0, 'reward': 1.5305060744285583, 'reward_std': 0.17432458698749542, 'kl': 0.03057861328125, 'epoch': 0.13}
+ 13%|█▎        | 537/4286 [3:13:54<24:36:38, 23.63s/it] 13%|█▎        | 538/4286 [3:14:18<24:52:12, 23.89s/it]                                                       {'loss': 0.0013, 'grad_norm': 1.207760871439234, 'learning_rate': 8.744750349976668e-07, 'completion_length': 408.5803680419922, 'rewards/only_full_func_accuracy_reward': 0.6215774118900299, 'rewards/format_reward': 1.0, 'reward': 1.6215775609016418, 'reward_std': 0.18842144310474396, 'kl': 0.03277587890625, 'epoch': 0.13}
+ 13%|█▎        | 538/4286 [3:14:18<24:52:12, 23.89s/it] 13%|█▎        | 539/4286 [3:14:43<24:58:40, 24.00s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.8564727966770446, 'learning_rate': 8.74241717218852e-07, 'completion_length': 392.0535888671875, 'rewards/only_full_func_accuracy_reward': 0.721726268529892, 'rewards/format_reward': 1.0, 'reward': 1.7217262983322144, 'reward_std': 0.10852885618805885, 'kl': 0.02972412109375, 'epoch': 0.13}
+ 13%|█▎        | 539/4286 [3:14:43<24:58:40, 24.00s/it] 13%|█▎        | 540/4286 [3:15:06<24:39:20, 23.69s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.47047325482449226, 'learning_rate': 8.740083994400372e-07, 'completion_length': 371.9107208251953, 'rewards/only_full_func_accuracy_reward': 0.524213433265686, 'rewards/format_reward': 1.0, 'reward': 1.5242136120796204, 'reward_std': 0.16730163246393204, 'kl': 0.0313720703125, 'epoch': 0.13}
+ 13%|█▎        | 540/4286 [3:15:06<24:39:20, 23.69s/it] 13%|█▎        | 541/4286 [3:15:29<24:32:31, 23.59s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.6387263539761098, 'learning_rate': 8.737750816612225e-07, 'completion_length': 354.68751525878906, 'rewards/only_full_func_accuracy_reward': 0.5416666865348816, 'rewards/format_reward': 1.0, 'reward': 1.5416667461395264, 'reward_std': 0.1130647324025631, 'kl': 0.0340576171875, 'epoch': 0.13}
+ 13%|█▎        | 541/4286 [3:15:29<24:32:31, 23.59s/it] 13%|█▎        | 542/4286 [3:15:54<24:56:26, 23.98s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.3682188679067841, 'learning_rate': 8.735417638824078e-07, 'completion_length': 377.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.6413690745830536, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6324405670166016, 'reward_std': 0.10919998213648796, 'kl': 0.02789306640625, 'epoch': 0.13}
+ 13%|█▎        | 542/4286 [3:15:54<24:56:26, 23.98s/it] 13%|█▎        | 543/4286 [3:16:18<24:56:48, 23.99s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.620387607809674, 'learning_rate': 8.73308446103593e-07, 'completion_length': 392.9464416503906, 'rewards/only_full_func_accuracy_reward': 0.4241071939468384, 'rewards/format_reward': 1.0, 'reward': 1.4241072535514832, 'reward_std': 0.14306199178099632, 'kl': 0.035888671875, 'epoch': 0.13}
+ 13%|█▎        | 543/4286 [3:16:18<24:56:48, 23.99s/it] 13%|█▎        | 544/4286 [3:16:42<25:00:39, 24.06s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.3370338314957277, 'learning_rate': 8.730751283247782e-07, 'completion_length': 367.4107208251953, 'rewards/only_full_func_accuracy_reward': 0.4660218358039856, 'rewards/format_reward': 1.0, 'reward': 1.4660218954086304, 'reward_std': 0.06599707156419754, 'kl': 0.034423828125, 'epoch': 0.13}
+ 13%|█▎        | 544/4286 [3:16:42<25:00:39, 24.06s/it] 13%|█▎        | 545/4286 [3:17:07<25:10:10, 24.22s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.5279581100961801, 'learning_rate': 8.728418105459635e-07, 'completion_length': 385.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.5505952835083008, 'rewards/format_reward': 1.0, 'reward': 1.5505953431129456, 'reward_std': 0.0722311120480299, 'kl': 0.02764892578125, 'epoch': 0.13}
+ 13%|█▎        | 545/4286 [3:17:07<25:10:10, 24.22s/it] 13%|█▎        | 546/4286 [3:17:31<25:14:24, 24.30s/it]                                                       {'loss': 0.0013, 'grad_norm': 1.9744536011297475, 'learning_rate': 8.726084927671488e-07, 'completion_length': 395.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.4370535761117935, 'rewards/format_reward': 1.0, 'reward': 1.4370537400245667, 'reward_std': 0.12695477530360222, 'kl': 0.03240966796875, 'epoch': 0.13}
+ 13%|█▎        | 546/4286 [3:17:31<25:14:24, 24.30s/it] 13%|█▎        | 547/4286 [3:17:54<24:54:25, 23.98s/it]                                                       {'loss': 0.0011, 'grad_norm': 0.6468979755288501, 'learning_rate': 8.72375174988334e-07, 'completion_length': 381.85716247558594, 'rewards/only_full_func_accuracy_reward': 0.6602678894996643, 'rewards/format_reward': 1.0, 'reward': 1.660267949104309, 'reward_std': 0.08559824153780937, 'kl': 0.02734375, 'epoch': 0.13}
+ 13%|█▎        | 547/4286 [3:17:54<24:54:25, 23.98s/it] 13%|█▎        | 548/4286 [3:18:20<25:16:04, 24.33s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.3780794800449847, 'learning_rate': 8.721418572095193e-07, 'completion_length': 400.6518096923828, 'rewards/only_full_func_accuracy_reward': 0.595589816570282, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5866613388061523, 'reward_std': 0.17589157074689865, 'kl': 0.02886962890625, 'epoch': 0.13}
+ 13%|█▎        | 548/4286 [3:18:20<25:16:04, 24.33s/it] 13%|█▎        | 549/4286 [3:18:42<24:45:30, 23.85s/it]                                                       {'loss': 0.0014, 'grad_norm': 1.61698966279921, 'learning_rate': 8.719085394307045e-07, 'completion_length': 349.02679443359375, 'rewards/only_full_func_accuracy_reward': 0.5885416865348816, 'rewards/format_reward': 1.0, 'reward': 1.5885418057441711, 'reward_std': 0.071823351085186, 'kl': 0.0352783203125, 'epoch': 0.13}
+ 13%|█▎        | 549/4286 [3:18:42<24:45:30, 23.85s/it] 13%|█▎        | 550/4286 [3:19:07<24:54:37, 24.00s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.5627480666375958, 'learning_rate': 8.716752216518897e-07, 'completion_length': 385.52679443359375, 'rewards/only_full_func_accuracy_reward': 0.586309552192688, 'rewards/format_reward': 1.0, 'reward': 1.5863096117973328, 'reward_std': 0.1297382265329361, 'kl': 0.02984619140625, 'epoch': 0.13}
+ 13%|█▎        | 550/4286 [3:19:07<24:54:37, 24.00s/it] 13%|█▎        | 551/4286 [3:19:30<24:33:40, 23.67s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.5037093736832949, 'learning_rate': 8.714419038730751e-07, 'completion_length': 356.42857360839844, 'rewards/only_full_func_accuracy_reward': 0.5825892984867096, 'rewards/format_reward': 1.0, 'reward': 1.5825893878936768, 'reward_std': 0.12957100570201874, 'kl': 0.0333251953125, 'epoch': 0.13}
+ 13%|█▎        | 551/4286 [3:19:30<24:33:40, 23.67s/it] 13%|█▎        | 552/4286 [3:19:53<24:19:45, 23.46s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.42478654696201995, 'learning_rate': 8.712085860942603e-07, 'completion_length': 365.33929443359375, 'rewards/only_full_func_accuracy_reward': 0.6971726715564728, 'rewards/format_reward': 1.0, 'reward': 1.69717276096344, 'reward_std': 0.12841995432972908, 'kl': 0.0345458984375, 'epoch': 0.13}
+ 13%|█▎        | 552/4286 [3:19:53<24:19:45, 23.46s/it] 13%|█▎        | 553/4286 [3:20:15<24:04:54, 23.22s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.9002864499325625, 'learning_rate': 8.709752683154455e-07, 'completion_length': 338.9910888671875, 'rewards/only_full_func_accuracy_reward': 0.6709449887275696, 'rewards/format_reward': 1.0, 'reward': 1.6709450483322144, 'reward_std': 0.12376851961016655, 'kl': 0.0360107421875, 'epoch': 0.13}
+ 13%|█▎        | 553/4286 [3:20:15<24:04:54, 23.22s/it] 13%|█▎        | 554/4286 [3:20:39<24:11:23, 23.33s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.8160008790601758, 'learning_rate': 8.707419505366308e-07, 'completion_length': 375.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.5617559552192688, 'rewards/format_reward': 1.0, 'reward': 1.5617560744285583, 'reward_std': 0.11881859600543976, 'kl': 0.03515625, 'epoch': 0.13}
+ 13%|█▎        | 554/4286 [3:20:39<24:11:23, 23.33s/it] 13%|█▎        | 555/4286 [3:21:02<24:08:33, 23.30s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.8054950474253533, 'learning_rate': 8.705086327578161e-07, 'completion_length': 381.6339416503906, 'rewards/only_full_func_accuracy_reward': 0.6294642984867096, 'rewards/format_reward': 1.0, 'reward': 1.6294644474983215, 'reward_std': 0.14986389875411987, 'kl': 0.03045654296875, 'epoch': 0.13}
+ 13%|█▎        | 555/4286 [3:21:02<24:08:33, 23.30s/it] 13%|█▎        | 556/4286 [3:21:26<24:15:52, 23.42s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.5825716371192834, 'learning_rate': 8.702753149790013e-07, 'completion_length': 370.00001525878906, 'rewards/only_full_func_accuracy_reward': 0.6812500357627869, 'rewards/format_reward': 1.0, 'reward': 1.6812500953674316, 'reward_std': 0.139796644449234, 'kl': 0.033203125, 'epoch': 0.13}
+ 13%|█▎        | 556/4286 [3:21:26<24:15:52, 23.42s/it] 13%|█▎        | 557/4286 [3:21:49<24:09:27, 23.32s/it]                                                       {'loss': 0.0015, 'grad_norm': 0.9044972493272669, 'learning_rate': 8.700419972001865e-07, 'completion_length': 354.2768096923828, 'rewards/only_full_func_accuracy_reward': 0.6443453133106232, 'rewards/format_reward': 1.0, 'reward': 1.6443453431129456, 'reward_std': 0.12173277139663696, 'kl': 0.0374755859375, 'epoch': 0.13}
+ 13%|█▎        | 557/4286 [3:21:49<24:09:27, 23.32s/it] 13%|█▎        | 558/4286 [3:22:12<24:04:10, 23.24s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.5957013757422113, 'learning_rate': 8.698086794213718e-07, 'completion_length': 390.95538330078125, 'rewards/only_full_func_accuracy_reward': 0.6434524059295654, 'rewards/format_reward': 1.0, 'reward': 1.6434524655342102, 'reward_std': 0.14557089284062386, 'kl': 0.03118896484375, 'epoch': 0.13}
+ 13%|█▎        | 558/4286 [3:22:12<24:04:10, 23.24s/it] 13%|█▎        | 559/4286 [3:22:36<24:28:17, 23.64s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.23653511387595727, 'learning_rate': 8.695753616425571e-07, 'completion_length': 359.8660888671875, 'rewards/only_full_func_accuracy_reward': 0.5894345492124557, 'rewards/format_reward': 1.0, 'reward': 1.589434564113617, 'reward_std': 0.06693206168711185, 'kl': 0.0345458984375, 'epoch': 0.13}
+ 13%|█▎        | 559/4286 [3:22:36<24:28:17, 23.64s/it] 13%|█▎        | 560/4286 [3:23:00<24:27:19, 23.63s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.6982884518739314, 'learning_rate': 8.693420438637423e-07, 'completion_length': 349.8035888671875, 'rewards/only_full_func_accuracy_reward': 0.6436012089252472, 'rewards/format_reward': 1.0, 'reward': 1.6436012983322144, 'reward_std': 0.10002540051937103, 'kl': 0.03375244140625, 'epoch': 0.13}
+ 13%|█▎        | 560/4286 [3:23:00<24:27:19, 23.63s/it] 13%|█▎        | 561/4286 [3:23:24<24:28:06, 23.65s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.6573706926509312, 'learning_rate': 8.691087260849276e-07, 'completion_length': 390.4018096923828, 'rewards/only_full_func_accuracy_reward': 0.6903274059295654, 'rewards/format_reward': 1.0, 'reward': 1.6903274059295654, 'reward_std': 0.13894693180918694, 'kl': 0.0311279296875, 'epoch': 0.13}
+ 13%|█▎        | 561/4286 [3:23:24<24:28:06, 23.65s/it] 13%|█▎        | 562/4286 [3:23:47<24:22:49, 23.57s/it]                                                       {'loss': 0.0014, 'grad_norm': 2.6993745278141246, 'learning_rate': 8.688754083061128e-07, 'completion_length': 367.5178680419922, 'rewards/only_full_func_accuracy_reward': 0.7345238327980042, 'rewards/format_reward': 1.0, 'reward': 1.734523892402649, 'reward_std': 0.09763860888779163, 'kl': 0.0350341796875, 'epoch': 0.13}
+ 13%|█▎        | 562/4286 [3:23:47<24:22:49, 23.57s/it] 13%|█▎        | 563/4286 [3:24:10<24:18:22, 23.50s/it]                                                       {'loss': 0.0016, 'grad_norm': 0.7420852361830804, 'learning_rate': 8.686420905272981e-07, 'completion_length': 350.6428680419922, 'rewards/only_full_func_accuracy_reward': 0.555952399969101, 'rewards/format_reward': 1.0, 'reward': 1.5559524893760681, 'reward_std': 0.1616748720407486, 'kl': 0.0396728515625, 'epoch': 0.13}
+ 13%|█▎        | 563/4286 [3:24:10<24:18:22, 23.50s/it] 13%|█▎        | 564/4286 [3:24:36<24:48:12, 23.99s/it]                                                       {'loss': 0.001, 'grad_norm': 0.7484681861328839, 'learning_rate': 8.684087727484834e-07, 'completion_length': 442.91966247558594, 'rewards/only_full_func_accuracy_reward': 0.6581473648548126, 'rewards/format_reward': 1.0, 'reward': 1.6581473350524902, 'reward_std': 0.1166289746761322, 'kl': 0.02587890625, 'epoch': 0.13}
+ 13%|█▎        | 564/4286 [3:24:36<24:48:12, 23.99s/it] 13%|█▎        | 565/4286 [3:25:01<25:06:00, 24.28s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.41365689090223373, 'learning_rate': 8.681754549696686e-07, 'completion_length': 416.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.6462798118591309, 'rewards/format_reward': 1.0, 'reward': 1.6462798118591309, 'reward_std': 0.1453455314040184, 'kl': 0.02899169921875, 'epoch': 0.13}
+ 13%|█▎        | 565/4286 [3:25:01<25:06:00, 24.28s/it] 13%|█▎        | 566/4286 [3:25:24<24:51:38, 24.06s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.32658301171725224, 'learning_rate': 8.679421371908538e-07, 'completion_length': 369.4107360839844, 'rewards/only_full_func_accuracy_reward': 0.7099702656269073, 'rewards/format_reward': 1.0, 'reward': 1.7099704146385193, 'reward_std': 0.1345166563987732, 'kl': 0.0355224609375, 'epoch': 0.13}
+ 13%|█▎        | 566/4286 [3:25:24<24:51:38, 24.06s/it] 13%|█▎        | 567/4286 [3:25:48<24:58:12, 24.17s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.5203114889265908, 'learning_rate': 8.677088194120391e-07, 'completion_length': 407.4464416503906, 'rewards/only_full_func_accuracy_reward': 0.6283482015132904, 'rewards/format_reward': 1.0, 'reward': 1.6283482909202576, 'reward_std': 0.18258166313171387, 'kl': 0.035888671875, 'epoch': 0.13}
+ 13%|█▎        | 567/4286 [3:25:48<24:58:12, 24.17s/it] 13%|█▎        | 568/4286 [3:26:13<25:04:03, 24.27s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.28776970428083887, 'learning_rate': 8.674755016332244e-07, 'completion_length': 401.3839416503906, 'rewards/only_full_func_accuracy_reward': 0.6081845760345459, 'rewards/format_reward': 1.0, 'reward': 1.608184576034546, 'reward_std': 0.07056990265846252, 'kl': 0.0323486328125, 'epoch': 0.13}
+ 13%|█▎        | 568/4286 [3:26:13<25:04:03, 24.27s/it] 13%|█▎        | 569/4286 [3:26:35<24:27:46, 23.69s/it]                                                       {'loss': 0.0015, 'grad_norm': 1.2010000256695768, 'learning_rate': 8.672421838544096e-07, 'completion_length': 339.3839416503906, 'rewards/only_full_func_accuracy_reward': 0.7047619521617889, 'rewards/format_reward': 1.0, 'reward': 1.7047619819641113, 'reward_std': 0.11086971685290337, 'kl': 0.0369873046875, 'epoch': 0.13}
+ 13%|█▎        | 569/4286 [3:26:35<24:27:46, 23.69s/it] 13%|█▎        | 570/4286 [3:26:58<24:16:30, 23.52s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.3036046115290315, 'learning_rate': 8.670088660755948e-07, 'completion_length': 354.2232208251953, 'rewards/only_full_func_accuracy_reward': 0.6063988506793976, 'rewards/format_reward': 1.0, 'reward': 1.6063989400863647, 'reward_std': 0.09583702683448792, 'kl': 0.0352783203125, 'epoch': 0.13}
+ 13%|█▎        | 570/4286 [3:26:58<24:16:30, 23.52s/it] 13%|█▎        | 571/4286 [3:27:22<24:07:39, 23.38s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.6462436413260493, 'learning_rate': 8.667755482967802e-07, 'completion_length': 369.7768096923828, 'rewards/only_full_func_accuracy_reward': 0.7651786506175995, 'rewards/format_reward': 1.0, 'reward': 1.765178620815277, 'reward_std': 0.11437718197703362, 'kl': 0.03118896484375, 'epoch': 0.13}
+ 13%|█▎        | 571/4286 [3:27:22<24:07:39, 23.38s/it] 13%|█▎        | 572/4286 [3:27:46<24:24:31, 23.66s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.6214001483309698, 'learning_rate': 8.665422305179654e-07, 'completion_length': 378.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.7254464626312256, 'rewards/format_reward': 1.0, 'reward': 1.7254465222358704, 'reward_std': 0.1321093775331974, 'kl': 0.03125, 'epoch': 0.13}
+ 13%|█▎        | 572/4286 [3:27:46<24:24:31, 23.66s/it] 13%|█▎        | 573/4286 [3:28:11<24:46:14, 24.02s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.7205173186440451, 'learning_rate': 8.663089127391506e-07, 'completion_length': 411.3214569091797, 'rewards/only_full_func_accuracy_reward': 0.6480654776096344, 'rewards/format_reward': 1.0, 'reward': 1.6480655670166016, 'reward_std': 0.14748961478471756, 'kl': 0.03369140625, 'epoch': 0.13}
+ 13%|█▎        | 573/4286 [3:28:11<24:46:14, 24.02s/it] 13%|█▎        | 574/4286 [3:28:34<24:41:26, 23.95s/it]                                                       {'loss': 0.0015, 'grad_norm': 0.5776075339120657, 'learning_rate': 8.660755949603359e-07, 'completion_length': 367.8035888671875, 'rewards/only_full_func_accuracy_reward': 0.5133928954601288, 'rewards/format_reward': 1.0, 'reward': 1.513392984867096, 'reward_std': 0.07305113598704338, 'kl': 0.037353515625, 'epoch': 0.13}
+ 13%|█▎        | 574/4286 [3:28:34<24:41:26, 23.95s/it] 13%|█▎        | 575/4286 [3:28:57<24:12:35, 23.49s/it]                                                       {'loss': 0.0015, 'grad_norm': 0.42614591147881187, 'learning_rate': 8.658422771815211e-07, 'completion_length': 352.25001525878906, 'rewards/only_full_func_accuracy_reward': 0.683035671710968, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.674107313156128, 'reward_std': 0.13033798709511757, 'kl': 0.036865234375, 'epoch': 0.13}
+ 13%|█▎        | 575/4286 [3:28:57<24:12:35, 23.49s/it] 13%|█▎        | 576/4286 [3:29:20<23:59:06, 23.27s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.4614434015275731, 'learning_rate': 8.656089594027064e-07, 'completion_length': 377.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.6711310148239136, 'rewards/format_reward': 1.0, 'reward': 1.6711310744285583, 'reward_std': 0.11023833602666855, 'kl': 0.0341796875, 'epoch': 0.13}
+ 13%|█▎        | 576/4286 [3:29:20<23:59:06, 23.27s/it] 13%|█▎        | 577/4286 [3:29:43<23:53:39, 23.19s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.43013308624495006, 'learning_rate': 8.653756416238917e-07, 'completion_length': 375.02679443359375, 'rewards/only_full_func_accuracy_reward': 0.8430060148239136, 'rewards/format_reward': 1.0, 'reward': 1.8430060744285583, 'reward_std': 0.10186861082911491, 'kl': 0.03271484375, 'epoch': 0.13}
+ 13%|█▎        | 577/4286 [3:29:43<23:53:39, 23.19s/it] 13%|█▎        | 578/4286 [3:30:07<24:14:49, 23.54s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.8845711761413848, 'learning_rate': 8.651423238450769e-07, 'completion_length': 399.6428680419922, 'rewards/only_full_func_accuracy_reward': 0.6133929044008255, 'rewards/format_reward': 1.0, 'reward': 1.6133930087089539, 'reward_std': 0.14053859561681747, 'kl': 0.0323486328125, 'epoch': 0.13}
+ 13%|█▎        | 578/4286 [3:30:07<24:14:49, 23.54s/it] 14%|█▎        | 579/4286 [3:30:32<24:40:08, 23.96s/it]                                                       {'loss': 0.0012, 'grad_norm': 0.9016813324278399, 'learning_rate': 8.649090060662621e-07, 'completion_length': 420.0714416503906, 'rewards/only_full_func_accuracy_reward': 0.5089285671710968, 'rewards/format_reward': 1.0, 'reward': 1.5089287161827087, 'reward_std': 0.08745422586798668, 'kl': 0.03045654296875, 'epoch': 0.14}
+ 14%|█▎        | 579/4286 [3:30:32<24:40:08, 23.96s/it] 14%|█▎        | 580/4286 [3:30:55<24:24:48, 23.72s/it]                                                       {'loss': 0.0014, 'grad_norm': 1.2676144685020707, 'learning_rate': 8.646756882874474e-07, 'completion_length': 390.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.5907738506793976, 'rewards/format_reward': 1.0, 'reward': 1.5907739400863647, 'reward_std': 0.11407576128840446, 'kl': 0.0347900390625, 'epoch': 0.14}
+ 14%|█▎        | 580/4286 [3:30:55<24:24:48, 23.72s/it] 14%|█▎        | 581/4286 [3:31:20<24:44:25, 24.04s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.3260825230333899, 'learning_rate': 8.644423705086327e-07, 'completion_length': 415.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.655654788017273, 'rewards/format_reward': 1.0, 'reward': 1.6556548476219177, 'reward_std': 0.057242754846811295, 'kl': 0.0347900390625, 'epoch': 0.14}
+ 14%|█▎        | 581/4286 [3:31:20<24:44:25, 24.04s/it] 14%|█▎        | 582/4286 [3:31:43<24:35:42, 23.90s/it]                                                       {'loss': 0.0016, 'grad_norm': 1.6863175755500721, 'learning_rate': 8.642090527298179e-07, 'completion_length': 377.90179443359375, 'rewards/only_full_func_accuracy_reward': 0.6956845819950104, 'rewards/format_reward': 1.0, 'reward': 1.6956846117973328, 'reward_std': 0.13471731916069984, 'kl': 0.0389404296875, 'epoch': 0.14}
+ 14%|█▎        | 582/4286 [3:31:43<24:35:42, 23.90s/it] 14%|█▎        | 583/4286 [3:32:05<23:54:34, 23.24s/it]                                                       {'loss': 0.0015, 'grad_norm': 0.335961379894992, 'learning_rate': 8.639757349510031e-07, 'completion_length': 375.81251525878906, 'rewards/only_full_func_accuracy_reward': 0.700892835855484, 'rewards/format_reward': 1.0, 'reward': 1.7008929252624512, 'reward_std': 0.10283300653100014, 'kl': 0.036376953125, 'epoch': 0.14}
+ 14%|█▎        | 583/4286 [3:32:05<23:54:34, 23.24s/it] 14%|█▎        | 584/4286 [3:32:30<24:21:35, 23.69s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.3001225408685473, 'learning_rate': 8.637424171721885e-07, 'completion_length': 398.9643096923828, 'rewards/only_full_func_accuracy_reward': 0.49107152223587036, 'rewards/format_reward': 1.0, 'reward': 1.4910715222358704, 'reward_std': 0.04863662086427212, 'kl': 0.03466796875, 'epoch': 0.14}
+ 14%|█▎        | 584/4286 [3:32:30<24:21:35, 23.69s/it] 14%|█▎        | 585/4286 [3:32:52<23:45:18, 23.11s/it]                                                       {'loss': 0.0015, 'grad_norm': 1.0512422716111447, 'learning_rate': 8.635090993933737e-07, 'completion_length': 371.9107360839844, 'rewards/only_full_func_accuracy_reward': 0.7738096117973328, 'rewards/format_reward': 1.0, 'reward': 1.7738096117973328, 'reward_std': 0.13117073848843575, 'kl': 0.03759765625, 'epoch': 0.14}
+ 14%|█▎        | 585/4286 [3:32:52<23:45:18, 23.11s/it] 14%|█▎        | 586/4286 [3:33:16<24:08:53, 23.50s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.69143591759192, 'learning_rate': 8.632757816145589e-07, 'completion_length': 413.96429443359375, 'rewards/only_full_func_accuracy_reward': 0.6346726715564728, 'rewards/format_reward': 1.0, 'reward': 1.63467276096344, 'reward_std': 0.13266918808221817, 'kl': 0.0343017578125, 'epoch': 0.14}
+ 14%|█▎        | 586/4286 [3:33:16<24:08:53, 23.50s/it] 14%|█▎        | 587/4286 [3:33:38<23:33:36, 22.93s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.847018975773019, 'learning_rate': 8.630424638357442e-07, 'completion_length': 358.8035888671875, 'rewards/only_full_func_accuracy_reward': 0.6528273820877075, 'rewards/format_reward': 1.0, 'reward': 1.6528274416923523, 'reward_std': 0.1241801492869854, 'kl': 0.0335693359375, 'epoch': 0.14}
+ 14%|█▎        | 587/4286 [3:33:38<23:33:36, 22.93s/it] 14%|█▎        | 588/4286 [3:34:02<23:51:53, 23.23s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.26869176657668964, 'learning_rate': 8.628091460569295e-07, 'completion_length': 405.8928680419922, 'rewards/only_full_func_accuracy_reward': 0.641369104385376, 'rewards/format_reward': 1.0, 'reward': 1.641369104385376, 'reward_std': 0.06522811204195023, 'kl': 0.03314208984375, 'epoch': 0.14}
+ 14%|█▎        | 588/4286 [3:34:02<23:51:53, 23.23s/it] 14%|█▎        | 589/4286 [3:34:25<23:53:48, 23.27s/it]                                                       {'loss': 0.0017, 'grad_norm': 0.625229496347405, 'learning_rate': 8.625758282781147e-07, 'completion_length': 370.51788330078125, 'rewards/only_full_func_accuracy_reward': 0.587053582072258, 'rewards/format_reward': 1.0, 'reward': 1.5870537161827087, 'reward_std': 0.12690415605902672, 'kl': 0.041259765625, 'epoch': 0.14}
+ 14%|█▎        | 589/4286 [3:34:25<23:53:48, 23.27s/it] 14%|█▍        | 590/4286 [3:34:49<24:16:34, 23.65s/it]                                                       {'loss': 0.0015, 'grad_norm': 0.42252361130586885, 'learning_rate': 8.623425104992999e-07, 'completion_length': 381.7857360839844, 'rewards/only_full_func_accuracy_reward': 0.6812500059604645, 'rewards/format_reward': 1.0, 'reward': 1.6812501549720764, 'reward_std': 0.10961384698748589, 'kl': 0.0386962890625, 'epoch': 0.14}
+ 14%|█▍        | 590/4286 [3:34:49<24:16:34, 23.65s/it] 14%|█▍        | 591/4286 [3:35:13<24:16:41, 23.65s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.37268219300072386, 'learning_rate': 8.621091927204852e-07, 'completion_length': 385.85716247558594, 'rewards/only_full_func_accuracy_reward': 0.5337797999382019, 'rewards/format_reward': 1.0, 'reward': 1.533779799938202, 'reward_std': 0.08831424452364445, 'kl': 0.0333251953125, 'epoch': 0.14}
+ 14%|█▍        | 591/4286 [3:35:13<24:16:41, 23.65s/it] 14%|█▍        | 592/4286 [3:35:36<24:02:14, 23.43s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.517657733517728, 'learning_rate': 8.618758749416705e-07, 'completion_length': 382.9464569091797, 'rewards/only_full_func_accuracy_reward': 0.6526786088943481, 'rewards/format_reward': 1.0, 'reward': 1.6526786088943481, 'reward_std': 0.09578905999660492, 'kl': 0.0333251953125, 'epoch': 0.14}
+ 14%|█▍        | 592/4286 [3:35:36<24:02:14, 23.43s/it] 14%|█▍        | 593/4286 [3:36:00<24:18:21, 23.69s/it]                                                       {'loss': 0.0017, 'grad_norm': 0.44120011583698776, 'learning_rate': 8.616425571628557e-07, 'completion_length': 410.9107208251953, 'rewards/only_full_func_accuracy_reward': 0.4620535969734192, 'rewards/format_reward': 1.0, 'reward': 1.462053656578064, 'reward_std': 0.15282822772860527, 'kl': 0.041259765625, 'epoch': 0.14}
+ 14%|█▍        | 593/4286 [3:36:00<24:18:21, 23.69s/it] 14%|█▍        | 594/4286 [3:36:22<23:47:00, 23.19s/it]                                                       {'loss': 0.0016, 'grad_norm': 1.1514625570186792, 'learning_rate': 8.61409239384041e-07, 'completion_length': 344.64288330078125, 'rewards/only_full_func_accuracy_reward': 0.7113095819950104, 'rewards/format_reward': 1.0, 'reward': 1.7113096117973328, 'reward_std': 0.11302521452307701, 'kl': 0.0396728515625, 'epoch': 0.14}
+ 14%|█▍        | 594/4286 [3:36:22<23:47:00, 23.19s/it] 14%|█▍        | 595/4286 [3:36:45<23:37:17, 23.04s/it]                                                       {'loss': 0.0015, 'grad_norm': 0.5681411707821001, 'learning_rate': 8.611759216052262e-07, 'completion_length': 354.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.616071492433548, 'rewards/format_reward': 1.0, 'reward': 1.6160715222358704, 'reward_std': 0.11806433275341988, 'kl': 0.0382080078125, 'epoch': 0.14}
+ 14%|█▍        | 595/4286 [3:36:45<23:37:17, 23.04s/it] 14%|█▍        | 596/4286 [3:37:07<23:20:04, 22.77s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.607859910778274, 'learning_rate': 8.609426038264115e-07, 'completion_length': 359.7410888671875, 'rewards/only_full_func_accuracy_reward': 0.6308035850524902, 'rewards/format_reward': 1.0, 'reward': 1.6308037042617798, 'reward_std': 0.12195195630192757, 'kl': 0.03515625, 'epoch': 0.14}
+ 14%|█▍        | 596/4286 [3:37:07<23:20:04, 22.77s/it] 14%|█▍        | 597/4286 [3:37:30<23:28:23, 22.91s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.4097168675866763, 'learning_rate': 8.607092860475968e-07, 'completion_length': 375.2678680419922, 'rewards/only_full_func_accuracy_reward': 0.7023809552192688, 'rewards/format_reward': 1.0, 'reward': 1.7023810744285583, 'reward_std': 0.16303253918886185, 'kl': 0.0352783203125, 'epoch': 0.14}
+ 14%|█▍        | 597/4286 [3:37:30<23:28:23, 22.91s/it] 14%|█▍        | 598/4286 [3:37:53<23:23:28, 22.83s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.37080667064303957, 'learning_rate': 8.60475968268782e-07, 'completion_length': 365.00001525878906, 'rewards/only_full_func_accuracy_reward': 0.7428571581840515, 'rewards/format_reward': 1.0, 'reward': 1.7428572177886963, 'reward_std': 0.11794258281588554, 'kl': 0.033447265625, 'epoch': 0.14}
+ 14%|█▍        | 598/4286 [3:37:53<23:23:28, 22.83s/it] 14%|█▍        | 599/4286 [3:38:15<23:14:39, 22.70s/it]                                                       {'loss': 0.0015, 'grad_norm': 0.4755336254091593, 'learning_rate': 8.602426504899672e-07, 'completion_length': 351.0089416503906, 'rewards/only_full_func_accuracy_reward': 0.5915178656578064, 'rewards/format_reward': 1.0, 'reward': 1.591517984867096, 'reward_std': 0.15033813565969467, 'kl': 0.0384521484375, 'epoch': 0.14}
+ 14%|█▍        | 599/4286 [3:38:15<23:14:39, 22.70s/it] 14%|█▍        | 600/4286 [3:38:37<23:00:16, 22.47s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.27129547667976267, 'learning_rate': 8.600093327111526e-07, 'completion_length': 364.9553680419922, 'rewards/only_full_func_accuracy_reward': 0.6517857909202576, 'rewards/format_reward': 1.0, 'reward': 1.6517858505249023, 'reward_std': 0.08587978780269623, 'kl': 0.03204345703125, 'epoch': 0.14}
+ 14%|█▍        | 600/4286 [3:38:37<23:00:16, 22.47s/it] 14%|█▍        | 601/4286 [3:39:31<32:34:05, 31.82s/it]                                                       {'loss': 0.0015, 'grad_norm': 0.6051060460037365, 'learning_rate': 8.597760149323378e-07, 'completion_length': 370.6339569091797, 'rewards/only_full_func_accuracy_reward': 0.628720223903656, 'rewards/format_reward': 1.0, 'reward': 1.6287203431129456, 'reward_std': 0.1505819410085678, 'kl': 0.0374755859375, 'epoch': 0.14}
+ 14%|█▍        | 601/4286 [3:39:31<32:34:05, 31.82s/it] 14%|█▍        | 602/4286 [3:39:53<29:31:57, 28.86s/it]                                                       {'loss': 0.0015, 'grad_norm': 0.25008390686733384, 'learning_rate': 8.59542697153523e-07, 'completion_length': 366.91966247558594, 'rewards/only_full_func_accuracy_reward': 0.4866072088479996, 'rewards/format_reward': 1.0, 'reward': 1.4866072535514832, 'reward_std': 0.06196580082178116, 'kl': 0.03662109375, 'epoch': 0.14}
+ 14%|█▍        | 602/4286 [3:39:53<29:31:57, 28.86s/it] 14%|█▍        | 603/4286 [3:40:16<27:47:06, 27.16s/it]                                                       {'loss': 0.0016, 'grad_norm': 0.41787702374528585, 'learning_rate': 8.593093793747082e-07, 'completion_length': 370.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.660714328289032, 'rewards/format_reward': 1.0, 'reward': 1.6607144474983215, 'reward_std': 0.11430014297366142, 'kl': 0.0391845703125, 'epoch': 0.14}
+ 14%|█▍        | 603/4286 [3:40:16<27:47:06, 27.16s/it] 14%|█▍        | 604/4286 [3:40:40<26:45:52, 26.17s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.2730641853788441, 'learning_rate': 8.590760615958935e-07, 'completion_length': 381.9910888671875, 'rewards/only_full_func_accuracy_reward': 0.614583358168602, 'rewards/format_reward': 1.0, 'reward': 1.6145834922790527, 'reward_std': 0.06593989208340645, 'kl': 0.03448486328125, 'epoch': 0.14}
+ 14%|█▍        | 604/4286 [3:40:40<26:45:52, 26.17s/it] 14%|█▍        | 605/4286 [3:41:02<25:24:56, 24.86s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.5258528258771477, 'learning_rate': 8.588427438170788e-07, 'completion_length': 357.7946472167969, 'rewards/only_full_func_accuracy_reward': 0.7165178954601288, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7075893878936768, 'reward_std': 0.08438262343406677, 'kl': 0.03466796875, 'epoch': 0.14}
+ 14%|█▍        | 605/4286 [3:41:02<25:24:56, 24.86s/it] 14%|█▍        | 606/4286 [3:41:24<24:39:35, 24.12s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.3456397729796177, 'learning_rate': 8.58609426038264e-07, 'completion_length': 380.8482360839844, 'rewards/only_full_func_accuracy_reward': 0.5833333730697632, 'rewards/format_reward': 1.0, 'reward': 1.583333432674408, 'reward_std': 0.08520925045013428, 'kl': 0.0345458984375, 'epoch': 0.14}
+ 14%|█▍        | 606/4286 [3:41:24<24:39:35, 24.12s/it] 14%|█▍        | 607/4286 [3:41:45<23:29:05, 22.98s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.33066056427651996, 'learning_rate': 8.583761082594493e-07, 'completion_length': 324.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.7404761910438538, 'rewards/format_reward': 1.0, 'reward': 1.7404763102531433, 'reward_std': 0.07311467081308365, 'kl': 0.0350341796875, 'epoch': 0.14}
+ 14%|█▍        | 607/4286 [3:41:45<23:29:05, 22.98s/it] 14%|█▍        | 608/4286 [3:42:06<23:06:37, 22.62s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.4029720510063552, 'learning_rate': 8.581427904806345e-07, 'completion_length': 356.5535888671875, 'rewards/only_full_func_accuracy_reward': 0.7924107909202576, 'rewards/format_reward': 1.0, 'reward': 1.7924108505249023, 'reward_std': 0.15781302005052567, 'kl': 0.0360107421875, 'epoch': 0.14}
+ 14%|█▍        | 608/4286 [3:42:06<23:06:37, 22.62s/it] 14%|█▍        | 609/4286 [3:42:27<22:27:19, 21.99s/it]                                                       {'loss': 0.0016, 'grad_norm': 1.1416880684609998, 'learning_rate': 8.579094727018198e-07, 'completion_length': 335.2232360839844, 'rewards/only_full_func_accuracy_reward': 0.5907738506793976, 'rewards/format_reward': 1.0, 'reward': 1.5907739400863647, 'reward_std': 0.1200367659330368, 'kl': 0.0408935546875, 'epoch': 0.14}
+ 14%|█▍        | 609/4286 [3:42:27<22:27:19, 21.99s/it] 14%|█▍        | 610/4286 [3:42:50<22:56:39, 22.47s/it]                                                       {'loss': 0.0016, 'grad_norm': 0.7137198419689917, 'learning_rate': 8.576761549230051e-07, 'completion_length': 358.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.6183035671710968, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6093751192092896, 'reward_std': 0.15635737031698227, 'kl': 0.038818359375, 'epoch': 0.14}
+ 14%|█▍        | 610/4286 [3:42:50<22:56:39, 22.47s/it] 14%|█▍        | 611/4286 [3:43:12<22:44:43, 22.28s/it]                                                       {'loss': 0.0015, 'grad_norm': 0.3955923169675903, 'learning_rate': 8.574428371441903e-07, 'completion_length': 373.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.6425596177577972, 'rewards/format_reward': 1.0, 'reward': 1.6425595879554749, 'reward_std': 0.10649236291646957, 'kl': 0.03759765625, 'epoch': 0.14}
+ 14%|█▍        | 611/4286 [3:43:12<22:44:43, 22.28s/it] 14%|█▍        | 612/4286 [3:43:35<22:47:14, 22.33s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.36318102076002035, 'learning_rate': 8.572095193653755e-07, 'completion_length': 357.15179443359375, 'rewards/only_full_func_accuracy_reward': 0.5729166865348816, 'rewards/format_reward': 1.0, 'reward': 1.5729168057441711, 'reward_std': 0.06033879332244396, 'kl': 0.03271484375, 'epoch': 0.14}
+ 14%|█▍        | 612/4286 [3:43:35<22:47:14, 22.33s/it] 14%|█▍        | 613/4286 [3:43:58<22:58:18, 22.52s/it]                                                       {'loss': 0.0016, 'grad_norm': 0.6620650153964724, 'learning_rate': 8.569762015865608e-07, 'completion_length': 362.5803680419922, 'rewards/only_full_func_accuracy_reward': 0.6071428954601288, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.598214328289032, 'reward_std': 0.1523466259241104, 'kl': 0.039306640625, 'epoch': 0.14}
+ 14%|█▍        | 613/4286 [3:43:58<22:58:18, 22.52s/it] 14%|█▍        | 614/4286 [3:44:20<22:56:00, 22.48s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.14424087658675064, 'learning_rate': 8.567428838077461e-07, 'completion_length': 377.58038330078125, 'rewards/only_full_func_accuracy_reward': 0.6744048297405243, 'rewards/format_reward': 1.0, 'reward': 1.6744049191474915, 'reward_std': 0.02303887065500021, 'kl': 0.0323486328125, 'epoch': 0.14}
+ 14%|█▍        | 614/4286 [3:44:20<22:56:00, 22.48s/it] 14%|█▍        | 615/4286 [3:44:42<22:48:43, 22.37s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.24429420582419484, 'learning_rate': 8.565095660289313e-07, 'completion_length': 336.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.6889881789684296, 'rewards/format_reward': 1.0, 'reward': 1.688988208770752, 'reward_std': 0.04745693039149046, 'kl': 0.0357666015625, 'epoch': 0.14}
+ 14%|█▍        | 615/4286 [3:44:42<22:48:43, 22.37s/it] 14%|█▍        | 616/4286 [3:45:05<22:56:59, 22.51s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.541800229811717, 'learning_rate': 8.562762482501165e-07, 'completion_length': 377.30357360839844, 'rewards/only_full_func_accuracy_reward': 0.7502976655960083, 'rewards/format_reward': 1.0, 'reward': 1.750297725200653, 'reward_std': 0.11732303351163864, 'kl': 0.0341796875, 'epoch': 0.14}
+ 14%|█▍        | 616/4286 [3:45:05<22:56:59, 22.51s/it] 14%|█▍        | 617/4286 [3:45:28<23:09:46, 22.73s/it]                                                       {'loss': 0.0015, 'grad_norm': 0.3728294387484818, 'learning_rate': 8.560429304713019e-07, 'completion_length': 367.65179443359375, 'rewards/only_full_func_accuracy_reward': 0.5312500596046448, 'rewards/format_reward': 1.0, 'reward': 1.5312500596046448, 'reward_std': 0.04891069419682026, 'kl': 0.0382080078125, 'epoch': 0.14}
+ 14%|█▍        | 617/4286 [3:45:28<23:09:46, 22.73s/it] 14%|█▍        | 618/4286 [3:45:51<23:17:39, 22.86s/it]                                                       {'loss': 0.0016, 'grad_norm': 0.3362325536872607, 'learning_rate': 8.558096126924871e-07, 'completion_length': 365.5357360839844, 'rewards/only_full_func_accuracy_reward': 0.6254464387893677, 'rewards/format_reward': 1.0, 'reward': 1.6254464983940125, 'reward_std': 0.09367583878338337, 'kl': 0.040283203125, 'epoch': 0.14}
+ 14%|█▍        | 618/4286 [3:45:51<23:17:39, 22.86s/it] 14%|█▍        | 619/4286 [3:46:14<23:19:45, 22.90s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.30918674921861283, 'learning_rate': 8.555762949136723e-07, 'completion_length': 347.48216247558594, 'rewards/only_full_func_accuracy_reward': 0.6965402066707611, 'rewards/format_reward': 1.0, 'reward': 1.6965402960777283, 'reward_std': 0.06602523103356361, 'kl': 0.0345458984375, 'epoch': 0.14}
+ 14%|█▍        | 619/4286 [3:46:14<23:19:45, 22.90s/it] 14%|█▍        | 620/4286 [3:46:37<23:08:22, 22.72s/it]                                                       {'loss': 0.0018, 'grad_norm': 0.4079287094669289, 'learning_rate': 8.553429771348576e-07, 'completion_length': 356.08929443359375, 'rewards/only_full_func_accuracy_reward': 0.6875000298023224, 'rewards/format_reward': 1.0, 'reward': 1.6875000596046448, 'reward_std': 0.1358834207057953, 'kl': 0.0443115234375, 'epoch': 0.14}
+ 14%|█▍        | 620/4286 [3:46:37<23:08:22, 22.72s/it] 14%|█▍        | 621/4286 [3:47:02<23:51:35, 23.44s/it]                                                       {'loss': 0.0016, 'grad_norm': 0.4342910172740838, 'learning_rate': 8.551096593560429e-07, 'completion_length': 419.3303680419922, 'rewards/only_full_func_accuracy_reward': 0.4888392835855484, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.4799107909202576, 'reward_std': 0.1150093674659729, 'kl': 0.040283203125, 'epoch': 0.14}
+ 14%|█▍        | 621/4286 [3:47:02<23:51:35, 23.44s/it] 15%|█▍        | 622/4286 [3:47:25<23:42:44, 23.30s/it]                                                       {'loss': 0.0015, 'grad_norm': 0.3797056719172488, 'learning_rate': 8.548763415772281e-07, 'completion_length': 383.9018096923828, 'rewards/only_full_func_accuracy_reward': 0.7485119104385376, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7395834922790527, 'reward_std': 0.11516742035746574, 'kl': 0.037841796875, 'epoch': 0.15}
+ 15%|█▍        | 622/4286 [3:47:25<23:42:44, 23.30s/it] 15%|█▍        | 623/4286 [3:47:48<23:35:41, 23.19s/it]                                                       {'loss': 0.0015, 'grad_norm': 0.3726093029257365, 'learning_rate': 8.546430237984134e-07, 'completion_length': 358.83929443359375, 'rewards/only_full_func_accuracy_reward': 0.7642857432365417, 'rewards/format_reward': 1.0, 'reward': 1.7642857432365417, 'reward_std': 0.11377662047743797, 'kl': 0.0367431640625, 'epoch': 0.15}
+ 15%|█▍        | 623/4286 [3:47:48<23:35:41, 23.19s/it] 15%|█▍        | 624/4286 [3:48:13<24:09:34, 23.75s/it]                                                       {'loss': 0.0016, 'grad_norm': 0.5279564687583614, 'learning_rate': 8.544097060195986e-07, 'completion_length': 401.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.500148817896843, 'rewards/format_reward': 1.0, 'reward': 1.5001489520072937, 'reward_std': 0.08197705820202827, 'kl': 0.0391845703125, 'epoch': 0.15}
+ 15%|█▍        | 624/4286 [3:48:13<24:09:34, 23.75s/it] 15%|█▍        | 625/4286 [3:48:36<23:55:37, 23.53s/it]                                                       {'loss': 0.0015, 'grad_norm': 0.48445429618069075, 'learning_rate': 8.541763882407838e-07, 'completion_length': 386.16966247558594, 'rewards/only_full_func_accuracy_reward': 0.6369048058986664, 'rewards/format_reward': 1.0, 'reward': 1.6369048953056335, 'reward_std': 0.20165413618087769, 'kl': 0.0364990234375, 'epoch': 0.15}
+ 15%|█▍        | 625/4286 [3:48:36<23:55:37, 23.53s/it] 15%|█▍        | 626/4286 [3:48:59<23:47:46, 23.41s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.5724159896128193, 'learning_rate': 8.539430704619691e-07, 'completion_length': 390.9643096923828, 'rewards/only_full_func_accuracy_reward': 0.4880952388048172, 'rewards/format_reward': 1.0, 'reward': 1.4880953431129456, 'reward_std': 0.12805689126253128, 'kl': 0.0345458984375, 'epoch': 0.15}
+ 15%|█▍        | 626/4286 [3:48:59<23:47:46, 23.41s/it] 15%|█▍        | 627/4286 [3:49:23<23:50:59, 23.47s/it]                                                       {'loss': 0.0015, 'grad_norm': 0.5612812844689091, 'learning_rate': 8.537097526831544e-07, 'completion_length': 398.3393096923828, 'rewards/only_full_func_accuracy_reward': 0.5245535671710968, 'rewards/format_reward': 1.0, 'reward': 1.5245537161827087, 'reward_std': 0.09124992415308952, 'kl': 0.03759765625, 'epoch': 0.15}
+ 15%|█▍        | 627/4286 [3:49:23<23:50:59, 23.47s/it] 15%|█▍        | 628/4286 [3:49:46<23:53:04, 23.51s/it]                                                       {'loss': 0.0015, 'grad_norm': 0.7917474485866575, 'learning_rate': 8.534764349043396e-07, 'completion_length': 365.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.5558035969734192, 'rewards/format_reward': 1.0, 'reward': 1.5558037161827087, 'reward_std': 0.08892717584967613, 'kl': 0.0374755859375, 'epoch': 0.15}
+ 15%|█▍        | 628/4286 [3:49:46<23:53:04, 23.51s/it] 15%|█▍        | 629/4286 [3:50:10<23:59:07, 23.61s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.4302237230141788, 'learning_rate': 8.532431171255248e-07, 'completion_length': 390.7946472167969, 'rewards/only_full_func_accuracy_reward': 0.5562500357627869, 'rewards/format_reward': 1.0, 'reward': 1.5562500953674316, 'reward_std': 0.12184661626815796, 'kl': 0.035888671875, 'epoch': 0.15}
+ 15%|█▍        | 629/4286 [3:50:10<23:59:07, 23.61s/it] 15%|█▍        | 630/4286 [3:50:33<23:43:38, 23.36s/it]                                                       {'loss': 0.0015, 'grad_norm': 0.3347451335859261, 'learning_rate': 8.530097993467102e-07, 'completion_length': 378.9553680419922, 'rewards/only_full_func_accuracy_reward': 0.6389881074428558, 'rewards/format_reward': 1.0, 'reward': 1.638988196849823, 'reward_std': 0.05897495523095131, 'kl': 0.03857421875, 'epoch': 0.15}
+ 15%|█▍        | 630/4286 [3:50:33<23:43:38, 23.36s/it] 15%|█▍        | 631/4286 [3:50:57<23:51:16, 23.50s/it]                                                       {'loss': 0.0015, 'grad_norm': 0.5563651005227751, 'learning_rate': 8.527764815678954e-07, 'completion_length': 388.31251525878906, 'rewards/only_full_func_accuracy_reward': 0.5263392925262451, 'rewards/format_reward': 1.0, 'reward': 1.5263394117355347, 'reward_std': 0.1172938421368599, 'kl': 0.037353515625, 'epoch': 0.15}
+ 15%|█▍        | 631/4286 [3:50:57<23:51:16, 23.50s/it] 15%|█▍        | 632/4286 [3:51:21<24:06:15, 23.75s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.23071043693290366, 'learning_rate': 8.525431637890806e-07, 'completion_length': 399.39288330078125, 'rewards/only_full_func_accuracy_reward': 0.6643229722976685, 'rewards/format_reward': 1.0, 'reward': 1.6643230319023132, 'reward_std': 0.07738473080098629, 'kl': 0.03173828125, 'epoch': 0.15}
+ 15%|█▍        | 632/4286 [3:51:21<24:06:15, 23.75s/it] 15%|█▍        | 633/4286 [3:51:44<23:49:11, 23.47s/it]                                                       {'loss': 0.0017, 'grad_norm': 0.4345317843147212, 'learning_rate': 8.523098460102659e-07, 'completion_length': 380.60716247558594, 'rewards/only_full_func_accuracy_reward': 0.5224702507257462, 'rewards/format_reward': 1.0, 'reward': 1.5224702954292297, 'reward_std': 0.1268133595585823, 'kl': 0.0413818359375, 'epoch': 0.15}
+ 15%|█▍        | 633/4286 [3:51:44<23:49:11, 23.47s/it] 15%|█▍        | 634/4286 [3:52:08<23:53:29, 23.55s/it]                                                       {'loss': 0.0016, 'grad_norm': 0.6755117619296883, 'learning_rate': 8.520765282314512e-07, 'completion_length': 360.8482208251953, 'rewards/only_full_func_accuracy_reward': 0.688244104385376, 'rewards/format_reward': 1.0, 'reward': 1.6882441639900208, 'reward_std': 0.11051320284605026, 'kl': 0.039794921875, 'epoch': 0.15}
+ 15%|█▍        | 634/4286 [3:52:08<23:53:29, 23.55s/it] 15%|█▍        | 635/4286 [3:52:30<23:33:36, 23.23s/it]                                                       {'loss': 0.0017, 'grad_norm': 0.4313978303404276, 'learning_rate': 8.518432104526364e-07, 'completion_length': 374.5803680419922, 'rewards/only_full_func_accuracy_reward': 0.553146243095398, 'rewards/format_reward': 1.0, 'reward': 1.5531463623046875, 'reward_std': 0.08699744567275047, 'kl': 0.041748046875, 'epoch': 0.15}
+ 15%|█▍        | 635/4286 [3:52:30<23:33:36, 23.23s/it] 15%|█▍        | 636/4286 [3:52:54<23:46:58, 23.46s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.32260445075200045, 'learning_rate': 8.516098926738216e-07, 'completion_length': 406.1518096923828, 'rewards/only_full_func_accuracy_reward': 0.6767113506793976, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6677829027175903, 'reward_std': 0.14122387766838074, 'kl': 0.03564453125, 'epoch': 0.15}
+ 15%|█▍        | 636/4286 [3:52:54<23:46:58, 23.46s/it] 15%|█▍        | 637/4286 [3:53:16<23:17:33, 22.98s/it]                                                       {'loss': 0.0017, 'grad_norm': 0.6457460585640372, 'learning_rate': 8.513765748950069e-07, 'completion_length': 352.9107208251953, 'rewards/only_full_func_accuracy_reward': 0.600446492433548, 'rewards/format_reward': 1.0, 'reward': 1.6004465222358704, 'reward_std': 0.15370335802435875, 'kl': 0.0435791015625, 'epoch': 0.15}
+ 15%|█▍        | 637/4286 [3:53:16<23:17:33, 22.98s/it] 15%|█▍        | 638/4286 [3:53:39<23:25:56, 23.12s/it]                                                       {'loss': 0.0018, 'grad_norm': 0.6415834790928773, 'learning_rate': 8.511432571161922e-07, 'completion_length': 369.2678680419922, 'rewards/only_full_func_accuracy_reward': 0.5322917401790619, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5233632326126099, 'reward_std': 0.14093292132019997, 'kl': 0.0438232421875, 'epoch': 0.15}
+ 15%|█▍        | 638/4286 [3:53:39<23:25:56, 23.12s/it] 15%|█▍        | 639/4286 [3:54:03<23:33:21, 23.25s/it]                                                       {'loss': 0.0015, 'grad_norm': 3.8981791081641313, 'learning_rate': 8.509099393373774e-07, 'completion_length': 397.4018096923828, 'rewards/only_full_func_accuracy_reward': 0.47410720586776733, 'rewards/format_reward': 1.0, 'reward': 1.4741072058677673, 'reward_std': 0.14480741322040558, 'kl': 0.0386962890625, 'epoch': 0.15}
+ 15%|█▍        | 639/4286 [3:54:03<23:33:21, 23.25s/it] 15%|█▍        | 640/4286 [3:54:25<23:20:29, 23.05s/it]                                                       {'loss': 0.0017, 'grad_norm': 0.5058541929602447, 'learning_rate': 8.506766215585627e-07, 'completion_length': 358.4643096923828, 'rewards/only_full_func_accuracy_reward': 0.5840402543544769, 'rewards/format_reward': 1.0, 'reward': 1.584040343761444, 'reward_std': 0.11798040196299553, 'kl': 0.0419921875, 'epoch': 0.15}
+ 15%|█▍        | 640/4286 [3:54:25<23:20:29, 23.05s/it] 15%|█▍        | 641/4286 [3:54:49<23:31:42, 23.24s/it]                                                       {'loss': 0.0015, 'grad_norm': 1.038704148215663, 'learning_rate': 8.504433037797479e-07, 'completion_length': 393.9375305175781, 'rewards/only_full_func_accuracy_reward': 0.6653274297714233, 'rewards/format_reward': 1.0, 'reward': 1.6653274297714233, 'reward_std': 0.15629733353853226, 'kl': 0.0367431640625, 'epoch': 0.15}
+ 15%|█▍        | 641/4286 [3:54:49<23:31:42, 23.24s/it] 15%|█▍        | 642/4286 [3:55:13<23:42:33, 23.42s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.4977602366428444, 'learning_rate': 8.502099860009332e-07, 'completion_length': 410.9464416503906, 'rewards/only_full_func_accuracy_reward': 0.6891369521617889, 'rewards/format_reward': 1.0, 'reward': 1.6891369819641113, 'reward_std': 0.13057690858840942, 'kl': 0.034423828125, 'epoch': 0.15}
+ 15%|█▍        | 642/4286 [3:55:13<23:42:33, 23.42s/it] 15%|█▌        | 643/4286 [3:55:37<23:48:57, 23.53s/it]                                                       {'loss': 0.0016, 'grad_norm': 0.975430849708744, 'learning_rate': 8.499766682221185e-07, 'completion_length': 392.8482360839844, 'rewards/only_full_func_accuracy_reward': 0.5590774118900299, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.550148844718933, 'reward_std': 0.13073135539889336, 'kl': 0.041259765625, 'epoch': 0.15}
+ 15%|█▌        | 643/4286 [3:55:37<23:48:57, 23.53s/it] 15%|█▌        | 644/4286 [3:55:59<23:30:49, 23.24s/it]                                                       {'loss': 0.0018, 'grad_norm': 2.3896614038891397, 'learning_rate': 8.497433504433037e-07, 'completion_length': 370.54466247558594, 'rewards/only_full_func_accuracy_reward': 0.5088170021772385, 'rewards/format_reward': 1.0, 'reward': 1.5088171362876892, 'reward_std': 0.15761001408100128, 'kl': 0.0443115234375, 'epoch': 0.15}
+ 15%|█▌        | 644/4286 [3:55:59<23:30:49, 23.24s/it] 15%|█▌        | 645/4286 [3:56:21<23:09:01, 22.89s/it]                                                       {'loss': 0.0016, 'grad_norm': 1.0130267449751873, 'learning_rate': 8.495100326644889e-07, 'completion_length': 333.45538330078125, 'rewards/only_full_func_accuracy_reward': 0.6041666865348816, 'rewards/format_reward': 1.0, 'reward': 1.6041668057441711, 'reward_std': 0.0459943450987339, 'kl': 0.0399169921875, 'epoch': 0.15}
+ 15%|█▌        | 645/4286 [3:56:21<23:09:01, 22.89s/it] 15%|█▌        | 646/4286 [3:56:45<23:29:17, 23.23s/it]                                                       {'loss': 0.0017, 'grad_norm': 0.5570600298121167, 'learning_rate': 8.492767148856743e-07, 'completion_length': 354.15179443359375, 'rewards/only_full_func_accuracy_reward': 0.6315476894378662, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6226191520690918, 'reward_std': 0.17856016010046005, 'kl': 0.0426025390625, 'epoch': 0.15}
+ 15%|█▌        | 646/4286 [3:56:45<23:29:17, 23.23s/it] 15%|█▌        | 647/4286 [3:57:09<23:41:10, 23.43s/it]                                                       {'loss': 0.0016, 'grad_norm': 0.4251414525375345, 'learning_rate': 8.490433971068595e-07, 'completion_length': 383.2143096923828, 'rewards/only_full_func_accuracy_reward': 0.6164434850215912, 'rewards/format_reward': 1.0, 'reward': 1.6164435744285583, 'reward_std': 0.1002749539911747, 'kl': 0.0396728515625, 'epoch': 0.15}
+ 15%|█▌        | 647/4286 [3:57:09<23:41:10, 23.43s/it] 15%|█▌        | 648/4286 [3:57:32<23:25:06, 23.17s/it]                                                       {'loss': 0.0017, 'grad_norm': 0.51538913962848, 'learning_rate': 8.488100793280447e-07, 'completion_length': 336.2053680419922, 'rewards/only_full_func_accuracy_reward': 0.7371652126312256, 'rewards/format_reward': 1.0, 'reward': 1.7371652722358704, 'reward_std': 0.11757156997919083, 'kl': 0.0416259765625, 'epoch': 0.15}
+ 15%|█▌        | 648/4286 [3:57:32<23:25:06, 23.17s/it] 15%|█▌        | 649/4286 [3:57:55<23:19:52, 23.09s/it]                                                       {'loss': 0.0015, 'grad_norm': 0.3147476435583646, 'learning_rate': 8.485767615492299e-07, 'completion_length': 351.77679443359375, 'rewards/only_full_func_accuracy_reward': 0.574404776096344, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5654763579368591, 'reward_std': 0.060696148313581944, 'kl': 0.0379638671875, 'epoch': 0.15}
+ 15%|█▌        | 649/4286 [3:57:55<23:19:52, 23.09s/it] 15%|█▌        | 650/4286 [3:58:18<23:26:34, 23.21s/it]                                                       {'loss': 0.0015, 'grad_norm': 0.6340283788729779, 'learning_rate': 8.483434437704153e-07, 'completion_length': 392.8571472167969, 'rewards/only_full_func_accuracy_reward': 0.6980655193328857, 'rewards/format_reward': 1.0, 'reward': 1.6980656385421753, 'reward_std': 0.12821003422141075, 'kl': 0.0367431640625, 'epoch': 0.15}
+ 15%|█▌        | 650/4286 [3:58:18<23:26:34, 23.21s/it] 15%|█▌        | 651/4286 [3:58:41<23:09:31, 22.94s/it]                                                       {'loss': 0.0018, 'grad_norm': 0.4542111928633035, 'learning_rate': 8.481101259916005e-07, 'completion_length': 354.4107360839844, 'rewards/only_full_func_accuracy_reward': 0.6239583790302277, 'rewards/format_reward': 1.0, 'reward': 1.6239584684371948, 'reward_std': 0.18369636684656143, 'kl': 0.0455322265625, 'epoch': 0.15}
+ 15%|█▌        | 651/4286 [3:58:41<23:09:31, 22.94s/it] 15%|█▌        | 652/4286 [3:59:03<22:58:52, 22.77s/it]                                                       {'loss': 0.0018, 'grad_norm': 0.8680606388295481, 'learning_rate': 8.478768082127857e-07, 'completion_length': 355.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.5671131312847137, 'rewards/format_reward': 1.0, 'reward': 1.5671131610870361, 'reward_std': 0.11834795773029327, 'kl': 0.044189453125, 'epoch': 0.15}
+ 15%|█▌        | 652/4286 [3:59:03<22:58:52, 22.77s/it] 15%|█▌        | 653/4286 [3:59:27<23:24:11, 23.19s/it]                                                       {'loss': 0.0018, 'grad_norm': 0.4132230755368526, 'learning_rate': 8.47643490433971e-07, 'completion_length': 382.4107360839844, 'rewards/only_full_func_accuracy_reward': 0.6220238208770752, 'rewards/format_reward': 1.0, 'reward': 1.6220239400863647, 'reward_std': 0.1247146800160408, 'kl': 0.0460205078125, 'epoch': 0.15}
+ 15%|█▌        | 653/4286 [3:59:27<23:24:11, 23.19s/it] 15%|█▌        | 654/4286 [3:59:50<23:17:52, 23.09s/it]                                                       {'loss': 0.0014, 'grad_norm': 0.4028358686558927, 'learning_rate': 8.474101726551562e-07, 'completion_length': 364.3303680419922, 'rewards/only_full_func_accuracy_reward': 0.7345238029956818, 'rewards/format_reward': 1.0, 'reward': 1.7345238327980042, 'reward_std': 0.07658425346016884, 'kl': 0.0340576171875, 'epoch': 0.15}
+ 15%|█▌        | 654/4286 [3:59:50<23:17:52, 23.09s/it] 15%|█▌        | 655/4286 [4:00:13<23:11:41, 23.00s/it]                                                       {'loss': 0.0013, 'grad_norm': 0.49167898254987813, 'learning_rate': 8.471768548763415e-07, 'completion_length': 393.0357208251953, 'rewards/only_full_func_accuracy_reward': 0.7455357909202576, 'rewards/format_reward': 1.0, 'reward': 1.7455358505249023, 'reward_std': 0.11579721048474312, 'kl': 0.03369140625, 'epoch': 0.15}
+ 15%|█▌        | 655/4286 [4:00:13<23:11:41, 23.00s/it] 15%|█▌        | 656/4286 [4:00:36<23:15:51, 23.07s/it]                                                       {'loss': 0.0019, 'grad_norm': 0.45552440916207254, 'learning_rate': 8.469435370975268e-07, 'completion_length': 360.8482360839844, 'rewards/only_full_func_accuracy_reward': 0.629464328289032, 'rewards/format_reward': 1.0, 'reward': 1.6294643878936768, 'reward_std': 0.12816666439175606, 'kl': 0.0465087890625, 'epoch': 0.15}
+ 15%|█▌        | 656/4286 [4:00:36<23:15:51, 23.07s/it] 15%|█▌        | 657/4286 [4:00:59<23:13:34, 23.04s/it]                                                       {'loss': 0.0015, 'grad_norm': 0.42955939507613083, 'learning_rate': 8.46710219318712e-07, 'completion_length': 389.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.6784226894378662, 'rewards/format_reward': 1.0, 'reward': 1.6784226894378662, 'reward_std': 0.11582570150494576, 'kl': 0.0364990234375, 'epoch': 0.15}
+ 15%|█▌        | 657/4286 [4:00:59<23:13:34, 23.04s/it] 15%|█▌        | 658/4286 [4:01:22<23:17:56, 23.12s/it]                                                       {'loss': 0.0017, 'grad_norm': 1.0215286070831868, 'learning_rate': 8.464769015398972e-07, 'completion_length': 383.08929443359375, 'rewards/only_full_func_accuracy_reward': 0.642857164144516, 'rewards/format_reward': 1.0, 'reward': 1.6428572535514832, 'reward_std': 0.09631907939910889, 'kl': 0.04150390625, 'epoch': 0.15}
+ 15%|█▌        | 658/4286 [4:01:22<23:17:56, 23.12s/it] 15%|█▌        | 659/4286 [4:01:44<22:57:29, 22.79s/it]                                                       {'loss': 0.002, 'grad_norm': 0.6719447723686085, 'learning_rate': 8.462435837610825e-07, 'completion_length': 353.31251525878906, 'rewards/only_full_func_accuracy_reward': 0.6227678656578064, 'rewards/format_reward': 1.0, 'reward': 1.622767984867096, 'reward_std': 0.09643279388546944, 'kl': 0.0499267578125, 'epoch': 0.15}
+ 15%|█▌        | 659/4286 [4:01:44<22:57:29, 22.79s/it] 15%|█▌        | 660/4286 [4:02:07<23:03:47, 22.90s/it]                                                       {'loss': 0.0017, 'grad_norm': 0.5220232882889511, 'learning_rate': 8.460102659822678e-07, 'completion_length': 390.0714416503906, 'rewards/only_full_func_accuracy_reward': 0.4843750298023224, 'rewards/format_reward': 1.0, 'reward': 1.4843750596046448, 'reward_std': 0.1283230446279049, 'kl': 0.043212890625, 'epoch': 0.15}
+ 15%|█▌        | 660/4286 [4:02:07<23:03:47, 22.90s/it] 15%|█▌        | 661/4286 [4:02:30<23:01:56, 22.87s/it]                                                       {'loss': 0.0016, 'grad_norm': 0.5156338004079485, 'learning_rate': 8.45776948203453e-07, 'completion_length': 370.0714569091797, 'rewards/only_full_func_accuracy_reward': 0.6325892806053162, 'rewards/format_reward': 1.0, 'reward': 1.6325893998146057, 'reward_std': 0.1512957438826561, 'kl': 0.0411376953125, 'epoch': 0.15}
+ 15%|█▌        | 661/4286 [4:02:30<23:01:56, 22.87s/it] 15%|█▌        | 662/4286 [4:02:52<22:47:33, 22.64s/it]                                                       {'loss': 0.0016, 'grad_norm': 0.41238677985749184, 'learning_rate': 8.455436304246382e-07, 'completion_length': 353.02679443359375, 'rewards/only_full_func_accuracy_reward': 0.6962797939777374, 'rewards/format_reward': 1.0, 'reward': 1.6962798237800598, 'reward_std': 0.1174561120569706, 'kl': 0.0390625, 'epoch': 0.15}
+ 15%|█▌        | 662/4286 [4:02:52<22:47:33, 22.64s/it] 15%|█▌        | 663/4286 [4:03:16<23:08:06, 22.99s/it]                                                       {'loss': 0.0018, 'grad_norm': 0.9759665533655794, 'learning_rate': 8.453103126458236e-07, 'completion_length': 395.35716247558594, 'rewards/only_full_func_accuracy_reward': 0.4988095462322235, 'rewards/format_reward': 1.0, 'reward': 1.4988096356391907, 'reward_std': 0.056425679475069046, 'kl': 0.0450439453125, 'epoch': 0.15}
+ 15%|█▌        | 663/4286 [4:03:16<23:08:06, 22.99s/it] 15%|█▌        | 664/4286 [4:03:39<23:00:33, 22.87s/it]                                                       {'loss': 0.0018, 'grad_norm': 0.92241636064851, 'learning_rate': 8.450769948670088e-07, 'completion_length': 349.83929443359375, 'rewards/only_full_func_accuracy_reward': 0.6436012089252472, 'rewards/format_reward': 1.0, 'reward': 1.6436012387275696, 'reward_std': 0.14069050922989845, 'kl': 0.045166015625, 'epoch': 0.15}
+ 15%|█▌        | 664/4286 [4:03:39<23:00:33, 22.87s/it] 16%|█▌        | 665/4286 [4:04:00<22:33:03, 22.42s/it]                                                       {'loss': 0.0016, 'grad_norm': 0.4491383541152791, 'learning_rate': 8.44843677088194e-07, 'completion_length': 347.0982208251953, 'rewards/only_full_func_accuracy_reward': 0.5967262983322144, 'rewards/format_reward': 1.0, 'reward': 1.5967263579368591, 'reward_std': 0.05916369520127773, 'kl': 0.0396728515625, 'epoch': 0.16}
+ 16%|█▌        | 665/4286 [4:04:00<22:33:03, 22.42s/it] 16%|█▌        | 666/4286 [4:04:22<22:24:06, 22.28s/it]                                                       {'loss': 0.0019, 'grad_norm': 0.8041058812062342, 'learning_rate': 8.446103593093793e-07, 'completion_length': 357.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.5837797522544861, 'rewards/format_reward': 1.0, 'reward': 1.5837798118591309, 'reward_std': 0.12944555282592773, 'kl': 0.047119140625, 'epoch': 0.16}
+ 16%|█▌        | 666/4286 [4:04:22<22:24:06, 22.28s/it] 16%|█▌        | 667/4286 [4:04:45<22:28:15, 22.35s/it]                                                       {'loss': 0.0018, 'grad_norm': 0.7396151566056407, 'learning_rate': 8.443770415305646e-07, 'completion_length': 347.3482208251953, 'rewards/only_full_func_accuracy_reward': 0.6778274178504944, 'rewards/format_reward': 1.0, 'reward': 1.6778274774551392, 'reward_std': 0.13403195515275002, 'kl': 0.0452880859375, 'epoch': 0.16}
+ 16%|█▌        | 667/4286 [4:04:45<22:28:15, 22.35s/it] 16%|█▌        | 668/4286 [4:05:08<22:47:52, 22.68s/it]                                                       {'loss': 0.0017, 'grad_norm': 0.6150284492373614, 'learning_rate': 8.441437237517498e-07, 'completion_length': 376.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.59270840883255, 'rewards/format_reward': 1.0, 'reward': 1.5927084684371948, 'reward_std': 0.07684715278446674, 'kl': 0.041748046875, 'epoch': 0.16}
+ 16%|█▌        | 668/4286 [4:05:08<22:47:52, 22.68s/it] 16%|█▌        | 669/4286 [4:05:30<22:26:18, 22.33s/it]                                                       {'loss': 0.0017, 'grad_norm': 0.5747234039291286, 'learning_rate': 8.439104059729351e-07, 'completion_length': 342.0178680419922, 'rewards/only_full_func_accuracy_reward': 0.6778274476528168, 'rewards/format_reward': 1.0, 'reward': 1.6778274774551392, 'reward_std': 0.1087888590991497, 'kl': 0.043701171875, 'epoch': 0.16}
+ 16%|█▌        | 669/4286 [4:05:30<22:26:18, 22.33s/it] 16%|█▌        | 670/4286 [4:05:54<23:12:27, 23.11s/it]                                                       {'loss': 0.0017, 'grad_norm': 0.44321024107352597, 'learning_rate': 8.436770881941203e-07, 'completion_length': 401.2857208251953, 'rewards/only_full_func_accuracy_reward': 0.5691592693328857, 'rewards/format_reward': 1.0, 'reward': 1.5691593289375305, 'reward_std': 0.10529821924865246, 'kl': 0.0428466796875, 'epoch': 0.16}
+ 16%|█▌        | 670/4286 [4:05:54<23:12:27, 23.11s/it] 16%|█▌        | 671/4286 [4:06:16<22:42:18, 22.61s/it]                                                       {'loss': 0.0017, 'grad_norm': 0.40572002875476904, 'learning_rate': 8.434437704153056e-07, 'completion_length': 353.68751525878906, 'rewards/only_full_func_accuracy_reward': 0.6495536267757416, 'rewards/format_reward': 1.0, 'reward': 1.6495537161827087, 'reward_std': 0.0824907198548317, 'kl': 0.04248046875, 'epoch': 0.16}
+ 16%|█▌        | 671/4286 [4:06:16<22:42:18, 22.61s/it] 16%|█▌        | 672/4286 [4:06:37<22:15:49, 22.18s/it]                                                       {'loss': 0.0018, 'grad_norm': 1.3111429469567975, 'learning_rate': 8.432104526364908e-07, 'completion_length': 334.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.7254464626312256, 'rewards/format_reward': 1.0, 'reward': 1.7254465818405151, 'reward_std': 0.07039464078843594, 'kl': 0.0443115234375, 'epoch': 0.16}
+ 16%|█▌        | 672/4286 [4:06:37<22:15:49, 22.18s/it] 16%|█▌        | 673/4286 [4:07:00<22:35:24, 22.51s/it]                                                       {'loss': 0.0022, 'grad_norm': 0.46570455238790853, 'learning_rate': 8.429771348576761e-07, 'completion_length': 372.8214416503906, 'rewards/only_full_func_accuracy_reward': 0.5959821939468384, 'rewards/format_reward': 1.0, 'reward': 1.5959822535514832, 'reward_std': 0.13803880289196968, 'kl': 0.0552978515625, 'epoch': 0.16}
+ 16%|█▌        | 673/4286 [4:07:00<22:35:24, 22.51s/it] 16%|█▌        | 674/4286 [4:07:23<22:41:16, 22.61s/it]                                                       {'loss': 0.0019, 'grad_norm': 0.5064450247516847, 'learning_rate': 8.427438170788613e-07, 'completion_length': 374.02679443359375, 'rewards/only_full_func_accuracy_reward': 0.7455357313156128, 'rewards/format_reward': 1.0, 'reward': 1.7455359101295471, 'reward_std': 0.155481718480587, 'kl': 0.0467529296875, 'epoch': 0.16}
+ 16%|█▌        | 674/4286 [4:07:23<22:41:16, 22.61s/it] 16%|█▌        | 675/4286 [4:07:45<22:32:39, 22.48s/it]                                                       {'loss': 0.0016, 'grad_norm': 0.3908004321169404, 'learning_rate': 8.425104993000465e-07, 'completion_length': 374.25001525878906, 'rewards/only_full_func_accuracy_reward': 0.6998512148857117, 'rewards/format_reward': 1.0, 'reward': 1.6998512148857117, 'reward_std': 0.048561375588178635, 'kl': 0.0406494140625, 'epoch': 0.16}
+ 16%|█▌        | 675/4286 [4:07:45<22:32:39, 22.48s/it] 16%|█▌        | 676/4286 [4:08:08<22:32:30, 22.48s/it]                                                       {'loss': 0.0019, 'grad_norm': 0.9922134131994323, 'learning_rate': 8.422771815212319e-07, 'completion_length': 372.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.5735119581222534, 'rewards/format_reward': 1.0, 'reward': 1.5735120177268982, 'reward_std': 0.11345596611499786, 'kl': 0.0472412109375, 'epoch': 0.16}
+ 16%|█▌        | 676/4286 [4:08:08<22:32:30, 22.48s/it] 16%|█▌        | 677/4286 [4:08:30<22:34:23, 22.52s/it]                                                       {'loss': 0.0017, 'grad_norm': 0.43224991552441594, 'learning_rate': 8.420438637424171e-07, 'completion_length': 383.2857360839844, 'rewards/only_full_func_accuracy_reward': 0.51413694024086, 'rewards/format_reward': 1.0, 'reward': 1.5141369700431824, 'reward_std': 0.0921045783907175, 'kl': 0.0419921875, 'epoch': 0.16}
+ 16%|█▌        | 677/4286 [4:08:30<22:34:23, 22.52s/it] 16%|█▌        | 678/4286 [4:08:54<22:46:58, 22.73s/it]                                                       {'loss': 0.0022, 'grad_norm': 0.5493881664958277, 'learning_rate': 8.418105459636023e-07, 'completion_length': 351.01788330078125, 'rewards/only_full_func_accuracy_reward': 0.7386905550956726, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7297620177268982, 'reward_std': 0.13681691884994507, 'kl': 0.05419921875, 'epoch': 0.16}
+ 16%|█▌        | 678/4286 [4:08:54<22:46:58, 22.73s/it] 16%|█▌        | 679/4286 [4:09:14<22:08:14, 22.09s/it]                                                       {'loss': 0.0016, 'grad_norm': 0.5874561261780413, 'learning_rate': 8.415772281847876e-07, 'completion_length': 335.0535888671875, 'rewards/only_full_func_accuracy_reward': 0.8492063581943512, 'rewards/format_reward': 1.0, 'reward': 1.8492064476013184, 'reward_std': 0.10363159328699112, 'kl': 0.0390625, 'epoch': 0.16}
+ 16%|█▌        | 679/4286 [4:09:14<22:08:14, 22.09s/it] 16%|█▌        | 680/4286 [4:09:36<22:00:58, 21.98s/it]                                                       {'loss': 0.0024, 'grad_norm': 1.0994115173576666, 'learning_rate': 8.413439104059729e-07, 'completion_length': 327.6607360839844, 'rewards/only_full_func_accuracy_reward': 0.6123512387275696, 'rewards/format_reward': 1.0, 'reward': 1.6123512983322144, 'reward_std': 0.11680405214428902, 'kl': 0.06103515625, 'epoch': 0.16}
+ 16%|█▌        | 680/4286 [4:09:36<22:00:58, 21.98s/it] 16%|█▌        | 681/4286 [4:09:59<22:25:45, 22.40s/it]                                                       {'loss': 0.0016, 'grad_norm': 0.3353518599454256, 'learning_rate': 8.411105926271581e-07, 'completion_length': 406.4553680419922, 'rewards/only_full_func_accuracy_reward': 0.598363071680069, 'rewards/format_reward': 1.0, 'reward': 1.5983631014823914, 'reward_std': 0.08413209021091461, 'kl': 0.0401611328125, 'epoch': 0.16}
+ 16%|█▌        | 681/4286 [4:09:59<22:25:45, 22.40s/it] 16%|█▌        | 682/4286 [4:10:22<22:23:55, 22.37s/it]                                                       {'loss': 0.0023, 'grad_norm': 0.4348621271860606, 'learning_rate': 8.408772748483433e-07, 'completion_length': 342.20538330078125, 'rewards/only_full_func_accuracy_reward': 0.6964285969734192, 'rewards/format_reward': 1.0, 'reward': 1.696428656578064, 'reward_std': 0.13241150602698326, 'kl': 0.057373046875, 'epoch': 0.16}
+ 16%|█▌        | 682/4286 [4:10:22<22:23:55, 22.37s/it] 16%|█▌        | 683/4286 [4:10:45<22:40:26, 22.66s/it]                                                       {'loss': 0.002, 'grad_norm': 0.36500827758675713, 'learning_rate': 8.406439570695286e-07, 'completion_length': 381.65179443359375, 'rewards/only_full_func_accuracy_reward': 0.6927083432674408, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6748512983322144, 'reward_std': 0.10572347790002823, 'kl': 0.050537109375, 'epoch': 0.16}
+ 16%|█▌        | 683/4286 [4:10:45<22:40:26, 22.66s/it] 16%|█▌        | 684/4286 [4:11:09<22:55:09, 22.91s/it]                                                       {'loss': 0.0022, 'grad_norm': 1.8508543202640706, 'learning_rate': 8.404106392907139e-07, 'completion_length': 376.8571472167969, 'rewards/only_full_func_accuracy_reward': 0.5255580842494965, 'rewards/format_reward': 1.0, 'reward': 1.5255581140518188, 'reward_std': 0.13500582426786423, 'kl': 0.0552978515625, 'epoch': 0.16}
+ 16%|█▌        | 684/4286 [4:11:09<22:55:09, 22.91s/it] 16%|█▌        | 685/4286 [4:11:31<22:55:34, 22.92s/it]                                                       {'loss': 0.0022, 'grad_norm': 0.45632892276521014, 'learning_rate': 8.401773215118991e-07, 'completion_length': 366.7410888671875, 'rewards/only_full_func_accuracy_reward': 0.6212797909975052, 'rewards/format_reward': 1.0, 'reward': 1.6212798953056335, 'reward_std': 0.139354906976223, 'kl': 0.0560302734375, 'epoch': 0.16}
+ 16%|█▌        | 685/4286 [4:11:31<22:55:34, 22.92s/it] 16%|█▌        | 686/4286 [4:11:53<22:37:40, 22.63s/it]                                                       {'loss': 0.0022, 'grad_norm': 0.5420885161903017, 'learning_rate': 8.399440037330844e-07, 'completion_length': 347.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.6755951941013336, 'rewards/format_reward': 1.0, 'reward': 1.6755953431129456, 'reward_std': 0.16794954985380173, 'kl': 0.0556640625, 'epoch': 0.16}
+ 16%|█▌        | 686/4286 [4:11:53<22:37:40, 22.63s/it] 16%|█▌        | 687/4286 [4:12:17<23:01:35, 23.03s/it]                                                       {'loss': 0.0015, 'grad_norm': 0.39137352165553846, 'learning_rate': 8.397106859542696e-07, 'completion_length': 404.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.7041667103767395, 'rewards/format_reward': 1.0, 'reward': 1.7041667103767395, 'reward_std': 0.09754875302314758, 'kl': 0.0369873046875, 'epoch': 0.16}
+ 16%|█▌        | 687/4286 [4:12:17<23:01:35, 23.03s/it] 16%|█▌        | 688/4286 [4:12:40<22:52:08, 22.88s/it]                                                       {'loss': 0.0019, 'grad_norm': 0.3564002298786582, 'learning_rate': 8.394773681754549e-07, 'completion_length': 360.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.7157738506793976, 'rewards/format_reward': 1.0, 'reward': 1.71577388048172, 'reward_std': 0.04419377539306879, 'kl': 0.0465087890625, 'epoch': 0.16}
+ 16%|█▌        | 688/4286 [4:12:40<22:52:08, 22.88s/it] 16%|█▌        | 689/4286 [4:13:03<22:46:35, 22.80s/it]                                                       {'loss': 0.0023, 'grad_norm': 0.5022853844460656, 'learning_rate': 8.392440503966402e-07, 'completion_length': 361.86607360839844, 'rewards/only_full_func_accuracy_reward': 0.6517857313156128, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6428572535514832, 'reward_std': 0.10223501548171043, 'kl': 0.0570068359375, 'epoch': 0.16}
+ 16%|█▌        | 689/4286 [4:13:03<22:46:35, 22.80s/it] 16%|█▌        | 690/4286 [4:13:25<22:32:41, 22.57s/it]                                                       {'loss': 0.0016, 'grad_norm': 1.0491654801656538, 'learning_rate': 8.390107326178254e-07, 'completion_length': 373.5893096923828, 'rewards/only_full_func_accuracy_reward': 0.5879464149475098, 'rewards/format_reward': 1.0, 'reward': 1.587946593761444, 'reward_std': 0.1210220493376255, 'kl': 0.0408935546875, 'epoch': 0.16}
+ 16%|█▌        | 690/4286 [4:13:25<22:32:41, 22.57s/it] 16%|█▌        | 691/4286 [4:13:46<22:19:10, 22.35s/it]                                                       {'loss': 0.002, 'grad_norm': 0.5995132428024856, 'learning_rate': 8.387774148390106e-07, 'completion_length': 374.8482360839844, 'rewards/only_full_func_accuracy_reward': 0.5647321939468384, 'rewards/format_reward': 1.0, 'reward': 1.564732313156128, 'reward_std': 0.12213588878512383, 'kl': 0.0496826171875, 'epoch': 0.16}
+ 16%|█▌        | 691/4286 [4:13:46<22:19:10, 22.35s/it] 16%|█▌        | 692/4286 [4:14:10<22:46:05, 22.81s/it]                                                       {'loss': 0.0018, 'grad_norm': 1.546491436114655, 'learning_rate': 8.38544097060196e-07, 'completion_length': 401.8660888671875, 'rewards/only_full_func_accuracy_reward': 0.5355655401945114, 'rewards/format_reward': 1.0, 'reward': 1.5355656147003174, 'reward_std': 0.08895638585090637, 'kl': 0.046142578125, 'epoch': 0.16}
+ 16%|█▌        | 692/4286 [4:14:10<22:46:05, 22.81s/it] 16%|█▌        | 693/4286 [4:14:32<22:19:23, 22.37s/it]                                                       {'loss': 0.0019, 'grad_norm': 0.4704297546077165, 'learning_rate': 8.383107792813812e-07, 'completion_length': 344.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.6730655133724213, 'rewards/format_reward': 1.0, 'reward': 1.6730654835700989, 'reward_std': 0.07589311897754669, 'kl': 0.0478515625, 'epoch': 0.16}
+ 16%|█▌        | 693/4286 [4:14:32<22:19:23, 22.37s/it] 16%|█▌        | 694/4286 [4:14:57<23:06:32, 23.16s/it]                                                       {'loss': 0.002, 'grad_norm': 0.40085890954498066, 'learning_rate': 8.380774615025664e-07, 'completion_length': 389.1607208251953, 'rewards/only_full_func_accuracy_reward': 0.4479166865348816, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.4300596117973328, 'reward_std': 0.1389968805015087, 'kl': 0.050537109375, 'epoch': 0.16}
+ 16%|█▌        | 694/4286 [4:14:57<23:06:32, 23.16s/it] 16%|█▌        | 695/4286 [4:15:21<23:21:38, 23.42s/it]                                                       {'loss': 0.002, 'grad_norm': 0.4091430456523231, 'learning_rate': 8.378441437237516e-07, 'completion_length': 390.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.6468750238418579, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6379465460777283, 'reward_std': 0.13660375773906708, 'kl': 0.05029296875, 'epoch': 0.16}
+ 16%|█▌        | 695/4286 [4:15:21<23:21:38, 23.42s/it] 16%|█▌        | 696/4286 [4:15:42<22:50:10, 22.90s/it]                                                       {'loss': 0.0019, 'grad_norm': 0.36821955620792235, 'learning_rate': 8.37610825944937e-07, 'completion_length': 347.9732208251953, 'rewards/only_full_func_accuracy_reward': 0.6675595641136169, 'rewards/format_reward': 1.0, 'reward': 1.6675596237182617, 'reward_std': 0.13465926051139832, 'kl': 0.0478515625, 'epoch': 0.16}
+ 16%|█▌        | 696/4286 [4:15:42<22:50:10, 22.90s/it] 16%|█▋        | 697/4286 [4:16:05<22:45:25, 22.83s/it]                                                       {'loss': 0.0018, 'grad_norm': 0.6575886790111755, 'learning_rate': 8.373775081661222e-07, 'completion_length': 384.89288330078125, 'rewards/only_full_func_accuracy_reward': 0.650297611951828, 'rewards/format_reward': 1.0, 'reward': 1.6502977013587952, 'reward_std': 0.07320049777626991, 'kl': 0.0455322265625, 'epoch': 0.16}
+ 16%|█▋        | 697/4286 [4:16:05<22:45:25, 22.83s/it] 16%|█▋        | 698/4286 [4:16:28<22:48:36, 22.89s/it]                                                       {'loss': 0.0021, 'grad_norm': 0.44536390916468727, 'learning_rate': 8.371441903873074e-07, 'completion_length': 374.66966247558594, 'rewards/only_full_func_accuracy_reward': 0.5465774387121201, 'rewards/format_reward': 1.0, 'reward': 1.546577513217926, 'reward_std': 0.15076205879449844, 'kl': 0.0533447265625, 'epoch': 0.16}
+ 16%|█▋        | 698/4286 [4:16:28<22:48:36, 22.89s/it] 16%|█▋        | 699/4286 [4:16:51<22:51:06, 22.93s/it]                                                       {'loss': 0.0024, 'grad_norm': 0.30652678778055714, 'learning_rate': 8.369108726084927e-07, 'completion_length': 356.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.49538692831993103, 'rewards/format_reward': 1.0, 'reward': 1.4953870177268982, 'reward_std': 0.08002419583499432, 'kl': 0.0599365234375, 'epoch': 0.16}
+ 16%|█▋        | 699/4286 [4:16:51<22:51:06, 22.93s/it] 16%|█▋        | 700/4286 [4:17:14<22:53:06, 22.97s/it]                                                       {'loss': 0.0027, 'grad_norm': 1.7221164976630325, 'learning_rate': 8.36677554829678e-07, 'completion_length': 357.12501525878906, 'rewards/only_full_func_accuracy_reward': 0.6718750298023224, 'rewards/format_reward': 1.0, 'reward': 1.6718751192092896, 'reward_std': 0.15642853826284409, 'kl': 0.06640625, 'epoch': 0.16}
+ 16%|█▋        | 700/4286 [4:17:14<22:53:06, 22.97s/it] 16%|█▋        | 701/4286 [4:18:45<43:16:39, 43.46s/it]                                                       {'loss': 0.0021, 'grad_norm': 0.5123348536778722, 'learning_rate': 8.364442370508632e-07, 'completion_length': 379.6607208251953, 'rewards/only_full_func_accuracy_reward': 0.595548152923584, 'rewards/format_reward': 1.0, 'reward': 1.5955482721328735, 'reward_std': 0.13454639539122581, 'kl': 0.0528564453125, 'epoch': 0.16}
+ 16%|█▋        | 701/4286 [4:18:45<43:16:39, 43.46s/it] 16%|█▋        | 702/4286 [4:19:07<36:49:34, 36.99s/it]                                                       {'loss': 0.0025, 'grad_norm': 1.062729104939561, 'learning_rate': 8.362109192720485e-07, 'completion_length': 338.4732360839844, 'rewards/only_full_func_accuracy_reward': 0.6011905372142792, 'rewards/format_reward': 1.0, 'reward': 1.6011905670166016, 'reward_std': 0.11600644886493683, 'kl': 0.0634765625, 'epoch': 0.16}
+ 16%|█▋        | 702/4286 [4:19:07<36:49:34, 36.99s/it] 16%|█▋        | 703/4286 [4:19:31<32:43:53, 32.89s/it]                                                       {'loss': 0.0019, 'grad_norm': 0.720460087473841, 'learning_rate': 8.359776014932337e-07, 'completion_length': 381.5982360839844, 'rewards/only_full_func_accuracy_reward': 0.5066964626312256, 'rewards/format_reward': 1.0, 'reward': 1.5066965222358704, 'reward_std': 0.08429264277219772, 'kl': 0.047119140625, 'epoch': 0.16}
+ 16%|█▋        | 703/4286 [4:19:31<32:43:53, 32.89s/it] 16%|█▋        | 704/4286 [4:19:52<29:17:01, 29.43s/it]                                                       {'loss': 0.0026, 'grad_norm': 1.1090339933360986, 'learning_rate': 8.357442837144189e-07, 'completion_length': 344.6607360839844, 'rewards/only_full_func_accuracy_reward': 0.6007441133260727, 'rewards/format_reward': 1.0, 'reward': 1.6007441282272339, 'reward_std': 0.19217214733362198, 'kl': 0.0643310546875, 'epoch': 0.16}
+ 16%|█▋        | 704/4286 [4:19:52<29:17:01, 29.43s/it] 16%|█▋        | 705/4286 [4:20:15<27:24:33, 27.55s/it]                                                       {'loss': 0.0022, 'grad_norm': 0.34851133112920124, 'learning_rate': 8.355109659356042e-07, 'completion_length': 352.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.7544642984867096, 'rewards/format_reward': 1.0, 'reward': 1.7544643878936768, 'reward_std': 0.09821098670363426, 'kl': 0.054443359375, 'epoch': 0.16}
+ 16%|█▋        | 705/4286 [4:20:15<27:24:33, 27.55s/it] 16%|█▋        | 706/4286 [4:20:37<25:47:05, 25.93s/it]                                                       {'loss': 0.0026, 'grad_norm': 0.6828365550493728, 'learning_rate': 8.352776481567895e-07, 'completion_length': 321.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.6302083730697632, 'rewards/format_reward': 1.0, 'reward': 1.6302084922790527, 'reward_std': 0.12693969905376434, 'kl': 0.0655517578125, 'epoch': 0.16}
+ 16%|█▋        | 706/4286 [4:20:37<25:47:05, 25.93s/it] 16%|█▋        | 707/4286 [4:21:00<24:56:34, 25.09s/it]                                                       {'loss': 0.0025, 'grad_norm': 0.6705753918930574, 'learning_rate': 8.350443303779747e-07, 'completion_length': 369.0357208251953, 'rewards/only_full_func_accuracy_reward': 0.5836310088634491, 'rewards/format_reward': 1.0, 'reward': 1.583631157875061, 'reward_std': 0.1438721865415573, 'kl': 0.063232421875, 'epoch': 0.16}
+ 16%|█▋        | 707/4286 [4:21:00<24:56:34, 25.09s/it] 17%|█▋        | 708/4286 [4:21:23<24:11:20, 24.34s/it]                                                       {'loss': 0.0022, 'grad_norm': 0.44850928032792403, 'learning_rate': 8.348110125991599e-07, 'completion_length': 369.35716247558594, 'rewards/only_full_func_accuracy_reward': 0.7566964626312256, 'rewards/format_reward': 1.0, 'reward': 1.7566965818405151, 'reward_std': 0.07920997217297554, 'kl': 0.055419921875, 'epoch': 0.17}
+ 17%|█▋        | 708/4286 [4:21:23<24:11:20, 24.34s/it] 17%|█▋        | 709/4286 [4:21:46<23:38:13, 23.79s/it]                                                       {'loss': 0.0031, 'grad_norm': 0.806448261762755, 'learning_rate': 8.345776948203453e-07, 'completion_length': 322.2321472167969, 'rewards/only_full_func_accuracy_reward': 0.6540179252624512, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6450893878936768, 'reward_std': 0.18124914914369583, 'kl': 0.077880859375, 'epoch': 0.17}
+ 17%|█▋        | 709/4286 [4:21:46<23:38:13, 23.79s/it] 17%|█▋        | 710/4286 [4:22:08<23:17:20, 23.45s/it]                                                       {'loss': 0.0019, 'grad_norm': 0.41573606163422316, 'learning_rate': 8.343443770415305e-07, 'completion_length': 345.8303680419922, 'rewards/only_full_func_accuracy_reward': 0.7498512268066406, 'rewards/format_reward': 1.0, 'reward': 1.7498512864112854, 'reward_std': 0.12456832081079483, 'kl': 0.048583984375, 'epoch': 0.17}
+ 17%|█▋        | 710/4286 [4:22:08<23:17:20, 23.45s/it] 17%|█▋        | 711/4286 [4:22:31<23:04:24, 23.23s/it]                                                       {'loss': 0.0024, 'grad_norm': 0.4297268405734799, 'learning_rate': 8.341110592627157e-07, 'completion_length': 366.1518096923828, 'rewards/only_full_func_accuracy_reward': 0.7023809850215912, 'rewards/format_reward': 1.0, 'reward': 1.7023810744285583, 'reward_std': 0.09274313226342201, 'kl': 0.0601806640625, 'epoch': 0.17}
+ 17%|█▋        | 711/4286 [4:22:31<23:04:24, 23.23s/it] 17%|█▋        | 712/4286 [4:22:54<23:00:45, 23.18s/it]                                                       {'loss': 0.0025, 'grad_norm': 0.401001479165631, 'learning_rate': 8.33877741483901e-07, 'completion_length': 346.58038330078125, 'rewards/only_full_func_accuracy_reward': 0.622172623872757, 'rewards/format_reward': 1.0, 'reward': 1.622172772884369, 'reward_std': 0.16503937542438507, 'kl': 0.0621337890625, 'epoch': 0.17}
+ 17%|█▋        | 712/4286 [4:22:54<23:00:45, 23.18s/it] 17%|█▋        | 713/4286 [4:23:15<22:25:13, 22.59s/it]                                                       {'loss': 0.0026, 'grad_norm': 1.2273494899621995, 'learning_rate': 8.336444237050863e-07, 'completion_length': 330.0982208251953, 'rewards/only_full_func_accuracy_reward': 0.7715774178504944, 'rewards/format_reward': 1.0, 'reward': 1.771577537059784, 'reward_std': 0.10261636972427368, 'kl': 0.0657958984375, 'epoch': 0.17}
+ 17%|█▋        | 713/4286 [4:23:15<22:25:13, 22.59s/it] 17%|█▋        | 714/4286 [4:23:39<22:39:53, 22.84s/it]                                                       {'loss': 0.0029, 'grad_norm': 0.6834944934082898, 'learning_rate': 8.334111059262715e-07, 'completion_length': 347.39288330078125, 'rewards/only_full_func_accuracy_reward': 0.6197916269302368, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.610863208770752, 'reward_std': 0.11137597635388374, 'kl': 0.072998046875, 'epoch': 0.17}
+ 17%|█▋        | 714/4286 [4:23:39<22:39:53, 22.84s/it] 17%|█▋        | 715/4286 [4:23:59<22:00:35, 22.19s/it]                                                       {'loss': 0.0029, 'grad_norm': 0.8741164999863213, 'learning_rate': 8.331777881474568e-07, 'completion_length': 328.65179443359375, 'rewards/only_full_func_accuracy_reward': 0.6141369342803955, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.605208396911621, 'reward_std': 0.1374577432870865, 'kl': 0.071533203125, 'epoch': 0.17}
+ 17%|█▋        | 715/4286 [4:23:59<22:00:35, 22.19s/it] 17%|█▋        | 716/4286 [4:24:21<21:47:42, 21.98s/it]                                                       {'loss': 0.0021, 'grad_norm': 0.6538762662500848, 'learning_rate': 8.32944470368642e-07, 'completion_length': 346.0268096923828, 'rewards/only_full_func_accuracy_reward': 0.771763414144516, 'rewards/format_reward': 1.0, 'reward': 1.7717634439468384, 'reward_std': 0.08492620289325714, 'kl': 0.0521240234375, 'epoch': 0.17}
+ 17%|█▋        | 716/4286 [4:24:21<21:47:42, 21.98s/it] 17%|█▋        | 717/4286 [4:24:43<21:44:30, 21.93s/it]                                                       {'loss': 0.0027, 'grad_norm': 0.6764221415520948, 'learning_rate': 8.327111525898273e-07, 'completion_length': 365.1607360839844, 'rewards/only_full_func_accuracy_reward': 0.6532738208770752, 'rewards/format_reward': 1.0, 'reward': 1.65327388048172, 'reward_std': 0.11430849507451057, 'kl': 0.06689453125, 'epoch': 0.17}
+ 17%|█▋        | 717/4286 [4:24:43<21:44:30, 21.93s/it] 17%|█▋        | 718/4286 [4:25:05<22:01:05, 22.22s/it]                                                       {'loss': 0.0039, 'grad_norm': 0.764201691034919, 'learning_rate': 8.324778348110125e-07, 'completion_length': 331.0357360839844, 'rewards/only_full_func_accuracy_reward': 0.47064732015132904, 'rewards/format_reward': 0.973214328289032, 'reward': 1.443861722946167, 'reward_std': 0.18552234023809433, 'kl': 0.096923828125, 'epoch': 0.17}
+ 17%|█▋        | 718/4286 [4:25:05<22:01:05, 22.22s/it] 17%|█▋        | 719/4286 [4:25:28<22:14:56, 22.45s/it]                                                       {'loss': 0.003, 'grad_norm': 0.624990111101781, 'learning_rate': 8.322445170321978e-07, 'completion_length': 358.77679443359375, 'rewards/only_full_func_accuracy_reward': 0.6666666567325592, 'rewards/format_reward': 1.0, 'reward': 1.6666668057441711, 'reward_std': 0.12231535091996193, 'kl': 0.07421875, 'epoch': 0.17}
+ 17%|█▋        | 719/4286 [4:25:28<22:14:56, 22.45s/it] 17%|█▋        | 720/4286 [4:25:50<22:05:06, 22.30s/it]                                                       {'loss': 0.0029, 'grad_norm': 0.6801992161092038, 'learning_rate': 8.32011199253383e-07, 'completion_length': 338.75001525878906, 'rewards/only_full_func_accuracy_reward': 0.6160714328289032, 'rewards/format_reward': 1.0, 'reward': 1.6160715818405151, 'reward_std': 0.10018178448081017, 'kl': 0.07275390625, 'epoch': 0.17}
+ 17%|█▋        | 720/4286 [4:25:50<22:05:06, 22.30s/it] 17%|█▋        | 721/4286 [4:26:13<22:03:56, 22.28s/it]                                                       {'loss': 0.0032, 'grad_norm': 0.5469535997151586, 'learning_rate': 8.317778814745683e-07, 'completion_length': 339.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.643415242433548, 'rewards/format_reward': 1.0, 'reward': 1.6434153318405151, 'reward_std': 0.10608993843197823, 'kl': 0.08056640625, 'epoch': 0.17}
+ 17%|█▋        | 721/4286 [4:26:13<22:03:56, 22.28s/it] 17%|█▋        | 722/4286 [4:26:36<22:15:29, 22.48s/it]                                                       {'loss': 0.0037, 'grad_norm': 0.8633365590936699, 'learning_rate': 8.315445636957536e-07, 'completion_length': 349.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.5915178954601288, 'rewards/format_reward': 0.973214328289032, 'reward': 1.564732313156128, 'reward_std': 0.20616474747657776, 'kl': 0.09228515625, 'epoch': 0.17}
+ 17%|█▋        | 722/4286 [4:26:36<22:15:29, 22.48s/it] 17%|█▋        | 723/4286 [4:26:59<22:26:09, 22.67s/it]                                                       {'loss': 0.0036, 'grad_norm': 0.4277602741246248, 'learning_rate': 8.313112459169388e-07, 'completion_length': 332.6339416503906, 'rewards/only_full_func_accuracy_reward': 0.6452381312847137, 'rewards/format_reward': 1.0, 'reward': 1.6452381610870361, 'reward_std': 0.09705773741006851, 'kl': 0.0908203125, 'epoch': 0.17}
+ 17%|█▋        | 723/4286 [4:26:59<22:26:09, 22.67s/it] 17%|█▋        | 724/4286 [4:27:20<22:03:10, 22.29s/it]                                                       {'loss': 0.0057, 'grad_norm': 0.85326311016037, 'learning_rate': 8.31077928138124e-07, 'completion_length': 305.3839416503906, 'rewards/only_full_func_accuracy_reward': 0.6541667282581329, 'rewards/format_reward': 1.0, 'reward': 1.6541668176651, 'reward_std': 0.13099301978945732, 'kl': 0.142578125, 'epoch': 0.17}
+ 17%|█▋        | 724/4286 [4:27:20<22:03:10, 22.29s/it] 17%|█▋        | 725/4286 [4:27:43<22:17:29, 22.54s/it]                                                       {'loss': 0.0047, 'grad_norm': 2.327642775587055, 'learning_rate': 8.308446103593094e-07, 'completion_length': 366.5268096923828, 'rewards/only_full_func_accuracy_reward': 0.45260417461395264, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.4347470998764038, 'reward_std': 0.1931026726961136, 'kl': 0.1162109375, 'epoch': 0.17}
+ 17%|█▋        | 725/4286 [4:27:43<22:17:29, 22.54s/it] 17%|█▋        | 726/4286 [4:28:08<22:52:58, 23.14s/it]                                                       {'loss': 0.0064, 'grad_norm': 1.1553451791445941, 'learning_rate': 8.306112925804946e-07, 'completion_length': 368.0268096923828, 'rewards/only_full_func_accuracy_reward': 0.4647817462682724, 'rewards/format_reward': 0.973214328289032, 'reward': 1.4379961490631104, 'reward_std': 0.2221905067563057, 'kl': 0.15966796875, 'epoch': 0.17}
+ 17%|█▋        | 726/4286 [4:28:08<22:52:58, 23.14s/it] 17%|█▋        | 727/4286 [4:28:30<22:44:54, 23.01s/it]                                                       {'loss': 0.0056, 'grad_norm': 1.0647438976691994, 'learning_rate': 8.303779748016798e-07, 'completion_length': 361.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.6421131491661072, 'rewards/format_reward': 1.0, 'reward': 1.642113208770752, 'reward_std': 0.1249903216958046, 'kl': 0.13916015625, 'epoch': 0.17}
+ 17%|█▋        | 727/4286 [4:28:30<22:44:54, 23.01s/it] 17%|█▋        | 728/4286 [4:28:54<22:54:59, 23.19s/it]                                                       {'loss': 0.0057, 'grad_norm': 1.3008115841373724, 'learning_rate': 8.30144657022865e-07, 'completion_length': 378.8482360839844, 'rewards/only_full_func_accuracy_reward': 0.5046131014823914, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.4867560863494873, 'reward_std': 0.18969710171222687, 'kl': 0.143798828125, 'epoch': 0.17}
+ 17%|█▋        | 728/4286 [4:28:54<22:54:59, 23.19s/it] 17%|█▋        | 729/4286 [4:29:18<23:07:36, 23.41s/it]                                                       {'loss': 0.007, 'grad_norm': 1.184738157047035, 'learning_rate': 8.299113392440503e-07, 'completion_length': 383.2410888671875, 'rewards/only_full_func_accuracy_reward': 0.45848213136196136, 'rewards/format_reward': 0.955357164144516, 'reward': 1.4138393998146057, 'reward_std': 0.24948175996541977, 'kl': 0.17431640625, 'epoch': 0.17}
+ 17%|█▋        | 729/4286 [4:29:18<23:07:36, 23.41s/it] 17%|█▋        | 730/4286 [4:29:42<23:24:26, 23.70s/it]                                                       {'loss': 0.0095, 'grad_norm': 1.987194248189536, 'learning_rate': 8.296780214652356e-07, 'completion_length': 356.8393096923828, 'rewards/only_full_func_accuracy_reward': 0.6220734715461731, 'rewards/format_reward': 0.973214328289032, 'reward': 1.595287799835205, 'reward_std': 0.2531294748187065, 'kl': 0.23681640625, 'epoch': 0.17}
+ 17%|█▋        | 730/4286 [4:29:42<23:24:26, 23.70s/it] 17%|█▋        | 731/4286 [4:30:07<23:49:55, 24.13s/it]                                                       {'loss': 0.0081, 'grad_norm': 1.3871108296822945, 'learning_rate': 8.294447036864208e-07, 'completion_length': 405.65179443359375, 'rewards/only_full_func_accuracy_reward': 0.41086310148239136, 'rewards/format_reward': 0.973214328289032, 'reward': 1.3840774893760681, 'reward_std': 0.21172188967466354, 'kl': 0.20166015625, 'epoch': 0.17}
+ 17%|█▋        | 731/4286 [4:30:08<23:49:55, 24.13s/it] 17%|█▋        | 732/4286 [4:30:31<23:42:22, 24.01s/it]                                                       {'loss': 0.013, 'grad_norm': 1.4121750511680649, 'learning_rate': 8.292113859076061e-07, 'completion_length': 361.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.5998512208461761, 'rewards/format_reward': 0.9464286267757416, 'reward': 1.5462798476219177, 'reward_std': 0.2708761617541313, 'kl': 0.32421875, 'epoch': 0.17}
+ 17%|█▋        | 732/4286 [4:30:31<23:42:22, 24.01s/it] 17%|█▋        | 733/4286 [4:30:55<23:35:24, 23.90s/it]                                                       {'loss': 0.0125, 'grad_norm': 2.9107946246106886, 'learning_rate': 8.289780681287913e-07, 'completion_length': 365.1428680419922, 'rewards/only_full_func_accuracy_reward': 0.5776785910129547, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.5598214864730835, 'reward_std': 0.2556578442454338, 'kl': 0.3125, 'epoch': 0.17}
+ 17%|█▋        | 733/4286 [4:30:55<23:35:24, 23.90s/it] 17%|█▋        | 734/4286 [4:31:18<23:12:40, 23.52s/it]                                                       {'loss': 0.0125, 'grad_norm': 2.0829227075359684, 'learning_rate': 8.287447503499766e-07, 'completion_length': 356.1071472167969, 'rewards/only_full_func_accuracy_reward': 0.4959077686071396, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.4691221714019775, 'reward_std': 0.2302212491631508, 'kl': 0.3115234375, 'epoch': 0.17}
+ 17%|█▋        | 734/4286 [4:31:18<23:12:40, 23.52s/it] 17%|█▋        | 735/4286 [4:31:39<22:42:38, 23.02s/it]                                                       {'loss': 0.0181, 'grad_norm': 1.92915456592911, 'learning_rate': 8.285114325711619e-07, 'completion_length': 307.5714416503906, 'rewards/only_full_func_accuracy_reward': 0.5156250149011612, 'rewards/format_reward': 0.9375000298023224, 'reward': 1.4531251192092896, 'reward_std': 0.2778901383280754, 'kl': 0.451171875, 'epoch': 0.17}
+ 17%|█▋        | 735/4286 [4:31:39<22:42:38, 23.02s/it] 17%|█▋        | 736/4286 [4:32:04<23:15:15, 23.58s/it]                                                       {'loss': 0.0235, 'grad_norm': 2.337605096734121, 'learning_rate': 8.282781147923471e-07, 'completion_length': 354.6607208251953, 'rewards/only_full_func_accuracy_reward': 0.5714286267757416, 'rewards/format_reward': 0.8750000596046448, 'reward': 1.4464287161827087, 'reward_std': 0.4135460704565048, 'kl': 0.587890625, 'epoch': 0.17}
+ 17%|█▋        | 736/4286 [4:32:04<23:15:15, 23.58s/it] 17%|█▋        | 737/4286 [4:32:29<23:26:47, 23.78s/it]                                                       {'loss': 0.0231, 'grad_norm': 2.433236478395838, 'learning_rate': 8.280447970135323e-07, 'completion_length': 333.7857208251953, 'rewards/only_full_func_accuracy_reward': 0.5011904835700989, 'rewards/format_reward': 0.8571428954601288, 'reward': 1.3583334684371948, 'reward_std': 0.44390062987804413, 'kl': 0.576171875, 'epoch': 0.17}
+ 17%|█▋        | 737/4286 [4:32:29<23:26:47, 23.78s/it] 17%|█▋        | 738/4286 [4:32:53<23:45:16, 24.10s/it]                                                       {'loss': 0.0274, 'grad_norm': 2.3840075323544836, 'learning_rate': 8.278114792347177e-07, 'completion_length': 374.26788330078125, 'rewards/only_full_func_accuracy_reward': 0.5796131193637848, 'rewards/format_reward': 0.767857164144516, 'reward': 1.3474703431129456, 'reward_std': 0.5902173221111298, 'kl': 0.68359375, 'epoch': 0.17}
+ 17%|█▋        | 738/4286 [4:32:53<23:45:16, 24.10s/it] 17%|█▋        | 739/4286 [4:33:18<23:59:05, 24.34s/it]                                                       {'loss': 0.0345, 'grad_norm': 2.5183603207486387, 'learning_rate': 8.275781614559029e-07, 'completion_length': 377.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.5208333432674408, 'rewards/format_reward': 0.6339285969734192, 'reward': 1.1547619700431824, 'reward_std': 0.5812717378139496, 'kl': 0.86328125, 'epoch': 0.17}
+ 17%|█▋        | 739/4286 [4:33:18<23:59:05, 24.34s/it] 17%|█▋        | 740/4286 [4:33:45<24:32:44, 24.92s/it]                                                       {'loss': 0.0322, 'grad_norm': 4.61890510492797, 'learning_rate': 8.273448436770881e-07, 'completion_length': 433.1964416503906, 'rewards/only_full_func_accuracy_reward': 0.5930059552192688, 'rewards/format_reward': 0.6071428954601288, 'reward': 1.20014888048172, 'reward_std': 0.5800471305847168, 'kl': 0.802734375, 'epoch': 0.17}
+ 17%|█▋        | 740/4286 [4:33:45<24:32:44, 24.92s/it] 17%|█▋        | 741/4286 [4:34:11<25:04:42, 25.47s/it]                                                       {'loss': 0.0512, 'grad_norm': 6.580465684891025, 'learning_rate': 8.271115258982733e-07, 'completion_length': 496.4375305175781, 'rewards/only_full_func_accuracy_reward': 0.3249008357524872, 'rewards/format_reward': 0.4821428656578064, 'reward': 0.807043731212616, 'reward_std': 0.6006720960140228, 'kl': 1.283203125, 'epoch': 0.17}
+ 17%|█▋        | 741/4286 [4:34:11<25:04:42, 25.47s/it] 17%|█▋        | 742/4286 [4:34:38<25:34:48, 25.98s/it]                                                       {'loss': 0.0659, 'grad_norm': 4.655527437430257, 'learning_rate': 8.268782081194587e-07, 'completion_length': 518.5178985595703, 'rewards/only_full_func_accuracy_reward': 0.3524925857782364, 'rewards/format_reward': 0.464285746216774, 'reward': 0.8167783617973328, 'reward_std': 0.5170725435018539, 'kl': 1.6484375, 'epoch': 0.17}
+ 17%|█▋        | 742/4286 [4:34:38<25:34:48, 25.98s/it] 17%|█▋        | 743/4286 [4:35:05<25:41:00, 26.10s/it]                                                       {'loss': 0.0663, 'grad_norm': 6.145228581072987, 'learning_rate': 8.266448903406439e-07, 'completion_length': 465.9464569091797, 'rewards/only_full_func_accuracy_reward': 0.527678593993187, 'rewards/format_reward': 0.580357164144516, 'reward': 1.1080358028411865, 'reward_std': 0.6222199201583862, 'kl': 1.66015625, 'epoch': 0.17}
+ 17%|█▋        | 743/4286 [4:35:05<25:41:00, 26.10s/it] 17%|█▋        | 744/4286 [4:35:31<25:41:51, 26.12s/it]                                                       {'loss': 0.0682, 'grad_norm': 3.610423594191623, 'learning_rate': 8.264115725618291e-07, 'completion_length': 450.6607360839844, 'rewards/only_full_func_accuracy_reward': 0.6259301006793976, 'rewards/format_reward': 0.6250000298023224, 'reward': 1.25093013048172, 'reward_std': 0.543185293674469, 'kl': 1.70703125, 'epoch': 0.17}
+ 17%|█▋        | 744/4286 [4:35:31<25:41:51, 26.12s/it] 17%|█▋        | 745/4286 [4:35:59<26:06:17, 26.54s/it]                                                       {'loss': 0.1181, 'grad_norm': 2.5287044393248976, 'learning_rate': 8.261782547830144e-07, 'completion_length': 512.8214416503906, 'rewards/only_full_func_accuracy_reward': 0.4427083730697632, 'rewards/format_reward': 0.4642857313156128, 'reward': 0.906994104385376, 'reward_std': 0.6399118006229401, 'kl': 2.953125, 'epoch': 0.17}
+ 17%|█▋        | 745/4286 [4:35:59<26:06:17, 26.54s/it] 17%|█▋        | 746/4286 [4:36:24<25:54:19, 26.34s/it]                                                       {'loss': 0.096, 'grad_norm': 2.510603405075438, 'learning_rate': 8.259449370041997e-07, 'completion_length': 437.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.52194944024086, 'rewards/format_reward': 0.5535714328289032, 'reward': 1.0755208432674408, 'reward_std': 0.5307383239269257, 'kl': 2.40625, 'epoch': 0.17}
+ 17%|█▋        | 746/4286 [4:36:24<25:54:19, 26.34s/it] 17%|█▋        | 747/4286 [4:36:51<26:01:33, 26.47s/it]                                                       {'loss': 0.1057, 'grad_norm': 3.9095903639235, 'learning_rate': 8.257116192253849e-07, 'completion_length': 480.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.5177827477455139, 'rewards/format_reward': 0.5625000298023224, 'reward': 1.0802828073501587, 'reward_std': 0.6067143976688385, 'kl': 2.64453125, 'epoch': 0.17}
+ 17%|█▋        | 747/4286 [4:36:51<26:01:33, 26.47s/it] 17%|█▋        | 748/4286 [4:37:18<26:06:40, 26.57s/it]                                                       {'loss': 0.1047, 'grad_norm': 3.4468790338086386, 'learning_rate': 8.254783014465702e-07, 'completion_length': 499.7857360839844, 'rewards/only_full_func_accuracy_reward': 0.4076318293809891, 'rewards/format_reward': 0.535714328289032, 'reward': 0.9433461725711823, 'reward_std': 0.5621271878480911, 'kl': 2.6171875, 'epoch': 0.17}
+ 17%|█▋        | 748/4286 [4:37:18<26:06:40, 26.57s/it] 17%|█▋        | 749/4286 [4:37:43<25:43:16, 26.18s/it]                                                       {'loss': 0.0568, 'grad_norm': 5.376155192740012, 'learning_rate': 8.252449836677554e-07, 'completion_length': 396.5535888671875, 'rewards/only_full_func_accuracy_reward': 0.5491496920585632, 'rewards/format_reward': 0.7142857611179352, 'reward': 1.2634354829788208, 'reward_std': 0.6160525381565094, 'kl': 1.41796875, 'epoch': 0.17}
+ 17%|█▋        | 749/4286 [4:37:43<25:43:16, 26.18s/it] 17%|█▋        | 750/4286 [4:38:09<25:32:12, 26.00s/it]                                                       {'loss': 0.0606, 'grad_norm': 7.558030640314026, 'learning_rate': 8.250116658889406e-07, 'completion_length': 390.26788330078125, 'rewards/only_full_func_accuracy_reward': 0.5617559850215912, 'rewards/format_reward': 0.7500000298023224, 'reward': 1.3117560744285583, 'reward_std': 0.3968045264482498, 'kl': 1.51171875, 'epoch': 0.17}
+ 17%|█▋        | 750/4286 [4:38:09<25:32:12, 26.00s/it] 18%|█▊        | 751/4286 [4:38:34<25:18:07, 25.77s/it]                                                       {'loss': 0.0545, 'grad_norm': 3.4426990013838497, 'learning_rate': 8.247783481101259e-07, 'completion_length': 399.90179443359375, 'rewards/only_full_func_accuracy_reward': 0.629533439874649, 'rewards/format_reward': 0.803571492433548, 'reward': 1.433104932308197, 'reward_std': 0.4062395691871643, 'kl': 1.365234375, 'epoch': 0.18}
+ 18%|█▊        | 751/4286 [4:38:34<25:18:07, 25.77s/it] 18%|█▊        | 752/4286 [4:38:59<25:08:55, 25.62s/it]                                                       {'loss': 0.1161, 'grad_norm': 4.05784182481808, 'learning_rate': 8.245450303313112e-07, 'completion_length': 389.4732208251953, 'rewards/only_full_func_accuracy_reward': 0.5535714030265808, 'rewards/format_reward': 0.7410714626312256, 'reward': 1.294642984867096, 'reward_std': 0.6234181821346283, 'kl': 2.8984375, 'epoch': 0.18}
+ 18%|█▊        | 752/4286 [4:38:59<25:08:55, 25.62s/it] 18%|█▊        | 753/4286 [4:39:25<25:02:26, 25.52s/it]                                                       {'loss': 0.1266, 'grad_norm': 4.487793397966666, 'learning_rate': 8.243117125524964e-07, 'completion_length': 406.7232360839844, 'rewards/only_full_func_accuracy_reward': 0.5171131193637848, 'rewards/format_reward': 0.7678571939468384, 'reward': 1.2849703431129456, 'reward_std': 0.5221991539001465, 'kl': 3.171875, 'epoch': 0.18}
+ 18%|█▊        | 753/4286 [4:39:25<25:02:26, 25.52s/it] 18%|█▊        | 754/4286 [4:39:49<24:43:33, 25.20s/it]                                                       {'loss': 0.0505, 'grad_norm': 1.8115582265756147, 'learning_rate': 8.240783947736816e-07, 'completion_length': 352.0982208251953, 'rewards/only_full_func_accuracy_reward': 0.5639881491661072, 'rewards/format_reward': 0.9196428954601288, 'reward': 1.4836310744285583, 'reward_std': 0.22271545976400375, 'kl': 1.2568359375, 'epoch': 0.18}
+ 18%|█▊        | 754/4286 [4:39:49<24:43:33, 25.20s/it] 18%|█▊        | 755/4286 [4:40:14<24:33:06, 25.03s/it]                                                       {'loss': 0.1527, 'grad_norm': 5.799966872180642, 'learning_rate': 8.23845076994867e-07, 'completion_length': 369.43751525878906, 'rewards/only_full_func_accuracy_reward': 0.617559552192688, 'rewards/format_reward': 0.8660714626312256, 'reward': 1.4836310744285583, 'reward_std': 0.41666293144226074, 'kl': 3.8125, 'epoch': 0.18}
+ 18%|█▊        | 755/4286 [4:40:14<24:33:06, 25.03s/it] 18%|█▊        | 756/4286 [4:40:39<24:29:46, 24.98s/it]                                                       {'loss': 0.0689, 'grad_norm': 1.7718808196937677, 'learning_rate': 8.236117592160522e-07, 'completion_length': 342.01788330078125, 'rewards/only_full_func_accuracy_reward': 0.5766369700431824, 'rewards/format_reward': 0.9375000298023224, 'reward': 1.5141369700431824, 'reward_std': 0.29620084166526794, 'kl': 1.72265625, 'epoch': 0.18}
+ 18%|█▊        | 756/4286 [4:40:39<24:29:46, 24.98s/it] 18%|█▊        | 757/4286 [4:41:03<24:18:45, 24.80s/it]                                                       {'loss': 0.2556, 'grad_norm': 10.069062698594635, 'learning_rate': 8.233784414372374e-07, 'completion_length': 349.3839416503906, 'rewards/only_full_func_accuracy_reward': 0.6450892984867096, 'rewards/format_reward': 0.7946428954601288, 'reward': 1.4397322535514832, 'reward_std': 0.456426277756691, 'kl': 6.3828125, 'epoch': 0.18}
+ 18%|█▊        | 757/4286 [4:41:03<24:18:45, 24.80s/it] 18%|█▊        | 758/4286 [4:41:26<23:49:55, 24.32s/it]                                                       {'loss': 0.1286, 'grad_norm': 4.886309689867883, 'learning_rate': 8.231451236584227e-07, 'completion_length': 364.8750305175781, 'rewards/only_full_func_accuracy_reward': 0.5788690745830536, 'rewards/format_reward': 0.830357164144516, 'reward': 1.4092262983322144, 'reward_std': 0.27268238738179207, 'kl': 3.2236328125, 'epoch': 0.18}
+ 18%|█▊        | 758/4286 [4:41:26<23:49:55, 24.32s/it] 18%|█▊        | 759/4286 [4:41:51<23:59:20, 24.49s/it]                                                       {'loss': 0.155, 'grad_norm': 3.835029871477321, 'learning_rate': 8.22911805879608e-07, 'completion_length': 352.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.5364583730697632, 'rewards/format_reward': 0.848214328289032, 'reward': 1.3846727013587952, 'reward_std': 0.35917770862579346, 'kl': 3.8671875, 'epoch': 0.18}
+ 18%|█▊        | 759/4286 [4:41:51<23:59:20, 24.49s/it] 18%|█▊        | 760/4286 [4:42:15<23:45:39, 24.26s/it]                                                       {'loss': 0.1432, 'grad_norm': 4.373175218691908, 'learning_rate': 8.226784881007932e-07, 'completion_length': 313.5535888671875, 'rewards/only_full_func_accuracy_reward': 0.4947917014360428, 'rewards/format_reward': 0.8303571939468384, 'reward': 1.3251489400863647, 'reward_std': 0.39815567433834076, 'kl': 3.5859375, 'epoch': 0.18}
+ 18%|█▊        | 760/4286 [4:42:15<23:45:39, 24.26s/it] 18%|█▊        | 761/4286 [4:42:39<23:44:39, 24.25s/it]                                                       {'loss': 0.0299, 'grad_norm': 1.2867072692408241, 'learning_rate': 8.224451703219785e-07, 'completion_length': 330.60716247558594, 'rewards/only_full_func_accuracy_reward': 0.4888392984867096, 'rewards/format_reward': 0.910714328289032, 'reward': 1.399553656578064, 'reward_std': 0.25799787044525146, 'kl': 0.74609375, 'epoch': 0.18}
+ 18%|█▊        | 761/4286 [4:42:39<23:44:39, 24.25s/it] 18%|█▊        | 762/4286 [4:43:01<23:10:56, 23.68s/it]                                                       {'loss': 0.0672, 'grad_norm': 3.5943144132279534, 'learning_rate': 8.222118525431637e-07, 'completion_length': 321.96429443359375, 'rewards/only_full_func_accuracy_reward': 0.6019345223903656, 'rewards/format_reward': 0.8839285969734192, 'reward': 1.485863208770752, 'reward_std': 0.3258286118507385, 'kl': 1.681640625, 'epoch': 0.18}
+ 18%|█▊        | 762/4286 [4:43:01<23:10:56, 23.68s/it] 18%|█▊        | 763/4286 [4:43:26<23:32:01, 24.05s/it]                                                       {'loss': 0.0675, 'grad_norm': 2.1577247257624665, 'learning_rate': 8.21978534764349e-07, 'completion_length': 328.68751525878906, 'rewards/only_full_func_accuracy_reward': 0.536644384264946, 'rewards/format_reward': 0.8839286267757416, 'reward': 1.4205730557441711, 'reward_std': 0.24464593082666397, 'kl': 1.6875, 'epoch': 0.18}
+ 18%|█▊        | 763/4286 [4:43:26<23:32:01, 24.05s/it] 18%|█▊        | 764/4286 [4:43:48<22:54:51, 23.42s/it]                                                       {'loss': 0.0186, 'grad_norm': 1.2943295566105832, 'learning_rate': 8.217452169855342e-07, 'completion_length': 362.35716247558594, 'rewards/only_full_func_accuracy_reward': 0.5565476417541504, 'rewards/format_reward': 0.973214328289032, 'reward': 1.529762089252472, 'reward_std': 0.20541075617074966, 'kl': 0.46484375, 'epoch': 0.18}
+ 18%|█▊        | 764/4286 [4:43:48<22:54:51, 23.42s/it] 18%|█▊        | 765/4286 [4:44:11<22:39:32, 23.17s/it]                                                       {'loss': 0.0616, 'grad_norm': 3.719154600526995, 'learning_rate': 8.215118992067195e-07, 'completion_length': 348.66966247558594, 'rewards/only_full_func_accuracy_reward': 0.4806547909975052, 'rewards/format_reward': 0.8839285969734192, 'reward': 1.3645834922790527, 'reward_std': 0.36117561161518097, 'kl': 1.5401611328125, 'epoch': 0.18}
+ 18%|█▊        | 765/4286 [4:44:11<22:39:32, 23.17s/it] 18%|█▊        | 766/4286 [4:44:33<22:27:09, 22.96s/it]                                                       {'loss': 0.0204, 'grad_norm': 2.6601523251994856, 'learning_rate': 8.212785814279047e-07, 'completion_length': 332.5803680419922, 'rewards/only_full_func_accuracy_reward': 0.6275297999382019, 'rewards/format_reward': 0.955357164144516, 'reward': 1.5828869938850403, 'reward_std': 0.2533872500061989, 'kl': 0.51171875, 'epoch': 0.18}
+ 18%|█▊        | 766/4286 [4:44:33<22:27:09, 22.96s/it] 18%|█▊        | 767/4286 [4:44:54<21:40:04, 22.17s/it]                                                       {'loss': 0.0133, 'grad_norm': 1.2907643733598475, 'learning_rate': 8.2104526364909e-07, 'completion_length': 321.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.5133928805589676, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.4776787161827087, 'reward_std': 0.19366751238703728, 'kl': 0.3321533203125, 'epoch': 0.18}
+ 18%|█▊        | 767/4286 [4:44:54<21:40:04, 22.17s/it] 18%|█▊        | 768/4286 [4:45:16<21:45:30, 22.27s/it]                                                       {'loss': 0.0477, 'grad_norm': 1.553367655770203, 'learning_rate': 8.208119458702753e-07, 'completion_length': 319.2410888671875, 'rewards/only_full_func_accuracy_reward': 0.5472470819950104, 'rewards/format_reward': 0.910714328289032, 'reward': 1.45796138048172, 'reward_std': 0.20849131792783737, 'kl': 1.1904296875, 'epoch': 0.18}
+ 18%|█▊        | 768/4286 [4:45:16<21:45:30, 22.27s/it] 18%|█▊        | 769/4286 [4:45:38<21:43:05, 22.23s/it]                                                       {'loss': 0.0678, 'grad_norm': 2.244410824421021, 'learning_rate': 8.205786280914605e-07, 'completion_length': 332.4018096923828, 'rewards/only_full_func_accuracy_reward': 0.5761905014514923, 'rewards/format_reward': 0.9196428954601288, 'reward': 1.4958335161209106, 'reward_std': 0.3221646696329117, 'kl': 1.69140625, 'epoch': 0.18}
+ 18%|█▊        | 769/4286 [4:45:38<21:43:05, 22.23s/it] 18%|█▊        | 770/4286 [4:46:00<21:39:14, 22.17s/it]                                                       {'loss': 0.1021, 'grad_norm': 2.179070666490561, 'learning_rate': 8.203453103126457e-07, 'completion_length': 285.7232360839844, 'rewards/only_full_func_accuracy_reward': 0.5518353581428528, 'rewards/format_reward': 0.8392857611179352, 'reward': 1.3911211490631104, 'reward_std': 0.41217561066150665, 'kl': 2.546875, 'epoch': 0.18}
+ 18%|█▊        | 770/4286 [4:46:00<21:39:14, 22.17s/it] 18%|█▊        | 771/4286 [4:46:24<22:10:17, 22.71s/it]                                                       {'loss': 0.0457, 'grad_norm': 2.1449694753345905, 'learning_rate': 8.201119925338311e-07, 'completion_length': 327.91966247558594, 'rewards/only_full_func_accuracy_reward': 0.6808036267757416, 'rewards/format_reward': 0.9464285969734192, 'reward': 1.627232313156128, 'reward_std': 0.3122863471508026, 'kl': 1.14453125, 'epoch': 0.18}
+ 18%|█▊        | 771/4286 [4:46:24<22:10:17, 22.71s/it] 18%|█▊        | 772/4286 [4:46:49<22:51:16, 23.41s/it]                                                       {'loss': 0.126, 'grad_norm': 2.13049815944738, 'learning_rate': 8.198786747550163e-07, 'completion_length': 353.40179443359375, 'rewards/only_full_func_accuracy_reward': 0.5632440745830536, 'rewards/format_reward': 0.8660714626312256, 'reward': 1.4293155670166016, 'reward_std': 0.38761886954307556, 'kl': 3.15625, 'epoch': 0.18}
+ 18%|█▊        | 772/4286 [4:46:49<22:51:16, 23.41s/it] 18%|█▊        | 773/4286 [4:47:12<22:35:42, 23.15s/it]                                                       {'loss': 0.1576, 'grad_norm': 3.9139303622192116, 'learning_rate': 8.196453569762015e-07, 'completion_length': 313.1339416503906, 'rewards/only_full_func_accuracy_reward': 0.5994047522544861, 'rewards/format_reward': 0.8214286267757416, 'reward': 1.4208334684371948, 'reward_std': 0.4984114021062851, 'kl': 3.9453125, 'epoch': 0.18}
+ 18%|█▊        | 773/4286 [4:47:12<22:35:42, 23.15s/it] 18%|█▊        | 774/4286 [4:47:37<23:06:41, 23.69s/it]                                                       {'loss': 0.1879, 'grad_norm': 3.413278267180754, 'learning_rate': 8.194120391973867e-07, 'completion_length': 382.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.526636928319931, 'rewards/format_reward': 0.8035714626312256, 'reward': 1.330208420753479, 'reward_std': 0.46928368508815765, 'kl': 4.6875, 'epoch': 0.18}
+ 18%|█▊        | 774/4286 [4:47:37<23:06:41, 23.69s/it] 18%|█▊        | 775/4286 [4:48:01<23:10:56, 23.77s/it]                                                       {'loss': 0.2337, 'grad_norm': 6.426559862285146, 'learning_rate': 8.19178721418572e-07, 'completion_length': 349.6785888671875, 'rewards/only_full_func_accuracy_reward': 0.4575149118900299, 'rewards/format_reward': 0.7500000298023224, 'reward': 1.207515001296997, 'reward_std': 0.4650595486164093, 'kl': 5.8359375, 'epoch': 0.18}
+ 18%|█▊        | 775/4286 [4:48:01<23:10:56, 23.77s/it] 18%|█▊        | 776/4286 [4:48:25<23:21:18, 23.95s/it]                                                       {'loss': 0.2248, 'grad_norm': 4.919287916376983, 'learning_rate': 8.189454036397573e-07, 'completion_length': 377.6785888671875, 'rewards/only_full_func_accuracy_reward': 0.4791666865348816, 'rewards/format_reward': 0.8035714626312256, 'reward': 1.282738208770752, 'reward_std': 0.5413135886192322, 'kl': 5.609375, 'epoch': 0.18}
+ 18%|█▊        | 776/4286 [4:48:25<23:21:18, 23.95s/it] 18%|█▊        | 777/4286 [4:48:50<23:43:53, 24.35s/it]                                                       {'loss': 0.3673, 'grad_norm': 10.754599173460026, 'learning_rate': 8.187120858609425e-07, 'completion_length': 366.6785888671875, 'rewards/only_full_func_accuracy_reward': 0.4563988596200943, 'rewards/format_reward': 0.6875000298023224, 'reward': 1.1438989043235779, 'reward_std': 0.5405415296554565, 'kl': 9.1875, 'epoch': 0.18}
+ 18%|█▊        | 777/4286 [4:48:50<23:43:53, 24.35s/it] 18%|█▊        | 778/4286 [4:49:16<24:05:40, 24.73s/it]                                                       {'loss': 0.3423, 'grad_norm': 10.402545401582687, 'learning_rate': 8.184787680821278e-07, 'completion_length': 425.0714416503906, 'rewards/only_full_func_accuracy_reward': 0.493675634264946, 'rewards/format_reward': 0.6607142984867096, 'reward': 1.1543899774551392, 'reward_std': 0.6537135392427444, 'kl': 8.5625, 'epoch': 0.18}
+ 18%|█▊        | 778/4286 [4:49:16<24:05:40, 24.73s/it] 18%|█▊        | 779/4286 [4:49:41<24:11:22, 24.83s/it]                                                       {'loss': 0.2538, 'grad_norm': 8.71968977206034, 'learning_rate': 8.18245450303313e-07, 'completion_length': 384.0535888671875, 'rewards/only_full_func_accuracy_reward': 0.5699405074119568, 'rewards/format_reward': 0.7321428954601288, 'reward': 1.302083432674408, 'reward_std': 0.7482890784740448, 'kl': 6.34375, 'epoch': 0.18}
+ 18%|█▊        | 779/4286 [4:49:41<24:11:22, 24.83s/it] 18%|█▊        | 780/4286 [4:50:06<24:18:07, 24.95s/it]                                                       {'loss': 0.1714, 'grad_norm': 5.343647136808157, 'learning_rate': 8.180121325244983e-07, 'completion_length': 404.04466247558594, 'rewards/only_full_func_accuracy_reward': 0.5200893431901932, 'rewards/format_reward': 0.7410714626312256, 'reward': 1.2611607909202576, 'reward_std': 0.5307942777872086, 'kl': 4.28125, 'epoch': 0.18}
+ 18%|█▊        | 780/4286 [4:50:06<24:18:07, 24.95s/it] 18%|█▊        | 781/4286 [4:50:32<24:37:54, 25.30s/it]                                                       {'loss': 0.1666, 'grad_norm': 5.0640245624116575, 'learning_rate': 8.177788147456836e-07, 'completion_length': 454.17860412597656, 'rewards/only_full_func_accuracy_reward': 0.500552698969841, 'rewards/format_reward': 0.7142857611179352, 'reward': 1.2148385643959045, 'reward_std': 0.5873617827892303, 'kl': 4.1640625, 'epoch': 0.18}
+ 18%|█▊        | 781/4286 [4:50:32<24:37:54, 25.30s/it] 18%|█▊        | 782/4286 [4:50:57<24:28:09, 25.14s/it]                                                       {'loss': 0.2004, 'grad_norm': 6.694201746025175, 'learning_rate': 8.175454969668688e-07, 'completion_length': 366.1339569091797, 'rewards/only_full_func_accuracy_reward': 0.537202388048172, 'rewards/format_reward': 0.6785714626312256, 'reward': 1.21577388048172, 'reward_std': 0.7112773060798645, 'kl': 5.0, 'epoch': 0.18}
+ 18%|█▊        | 782/4286 [4:50:57<24:28:09, 25.14s/it] 18%|█▊        | 783/4286 [4:51:24<24:52:14, 25.56s/it]                                                       {'loss': 0.1414, 'grad_norm': 8.78150293674669, 'learning_rate': 8.17312179188054e-07, 'completion_length': 448.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.5835193395614624, 'rewards/format_reward': 0.7678571939468384, 'reward': 1.3513765335083008, 'reward_std': 0.5791081488132477, 'kl': 3.5390625, 'epoch': 0.18}
+ 18%|█▊        | 783/4286 [4:51:24<24:52:14, 25.56s/it] 18%|█▊        | 784/4286 [4:51:49<24:50:05, 25.53s/it]                                                       {'loss': 0.0844, 'grad_norm': 6.794507711079504, 'learning_rate': 8.170788614092394e-07, 'completion_length': 411.83929443359375, 'rewards/only_full_func_accuracy_reward': 0.5543579906225204, 'rewards/format_reward': 0.8660714626312256, 'reward': 1.4204294681549072, 'reward_std': 0.4576932340860367, 'kl': 2.11328125, 'epoch': 0.18}
+ 18%|█▊        | 784/4286 [4:51:49<24:50:05, 25.53s/it] 18%|█▊        | 785/4286 [4:52:15<24:48:56, 25.52s/it]                                                       {'loss': 0.2084, 'grad_norm': 5.530941869917626, 'learning_rate': 8.168455436304246e-07, 'completion_length': 410.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.533234179019928, 'rewards/format_reward': 0.6875000298023224, 'reward': 1.2207342386245728, 'reward_std': 0.6425557881593704, 'kl': 5.203125, 'epoch': 0.18}
+ 18%|█▊        | 785/4286 [4:52:15<24:48:56, 25.52s/it] 18%|█▊        | 786/4286 [4:52:40<24:48:35, 25.52s/it]                                                       {'loss': 0.1314, 'grad_norm': 5.1339742633059124, 'learning_rate': 8.166122258516098e-07, 'completion_length': 418.0714569091797, 'rewards/only_full_func_accuracy_reward': 0.4241071492433548, 'rewards/format_reward': 0.8392857611179352, 'reward': 1.2633928656578064, 'reward_std': 0.4584697186946869, 'kl': 3.2890625, 'epoch': 0.18}
+ 18%|█▊        | 786/4286 [4:52:40<24:48:35, 25.52s/it] 18%|█▊        | 787/4286 [4:53:06<24:54:05, 25.62s/it]                                                       {'loss': 0.2534, 'grad_norm': 3.5318185026480124, 'learning_rate': 8.16378908072795e-07, 'completion_length': 435.14288330078125, 'rewards/only_full_func_accuracy_reward': 0.47901788353919983, 'rewards/format_reward': 0.767857164144516, 'reward': 1.2468750476837158, 'reward_std': 0.6111166179180145, 'kl': 6.328125, 'epoch': 0.18}
+ 18%|█▊        | 787/4286 [4:53:06<24:54:05, 25.62s/it] 18%|█▊        | 788/4286 [4:53:32<24:55:18, 25.65s/it]                                                       {'loss': 0.208, 'grad_norm': 3.2619037833707134, 'learning_rate': 8.161455902939804e-07, 'completion_length': 428.8214416503906, 'rewards/only_full_func_accuracy_reward': 0.5930059552192688, 'rewards/format_reward': 0.8392857313156128, 'reward': 1.4322918057441711, 'reward_std': 0.6362114548683167, 'kl': 5.1875, 'epoch': 0.18}
+ 18%|█▊        | 788/4286 [4:53:32<24:55:18, 25.65s/it] 18%|█▊        | 789/4286 [4:53:59<25:18:34, 26.05s/it]                                                       {'loss': 0.3637, 'grad_norm': 29.97439714738447, 'learning_rate': 8.159122725151656e-07, 'completion_length': 474.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.507440522313118, 'rewards/format_reward': 0.7500000298023224, 'reward': 1.2574405670166016, 'reward_std': 0.5486965477466583, 'kl': 9.09375, 'epoch': 0.18}
+ 18%|█▊        | 789/4286 [4:53:59<25:18:34, 26.05s/it] 18%|█▊        | 790/4286 [4:54:25<25:18:23, 26.06s/it]                                                       {'loss': 0.3451, 'grad_norm': 7.597397485266092, 'learning_rate': 8.156789547363508e-07, 'completion_length': 452.0714569091797, 'rewards/only_full_func_accuracy_reward': 0.3846726268529892, 'rewards/format_reward': 0.7410714626312256, 'reward': 1.125744104385376, 'reward_std': 0.6463516652584076, 'kl': 8.625, 'epoch': 0.18}
+ 18%|█▊        | 790/4286 [4:54:25<25:18:23, 26.06s/it] 18%|█▊        | 791/4286 [4:54:51<25:13:06, 25.98s/it]                                                       {'loss': 0.3335, 'grad_norm': 9.836408022109604, 'learning_rate': 8.154456369575361e-07, 'completion_length': 441.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.5136905312538147, 'rewards/format_reward': 0.7946428954601288, 'reward': 1.3083334565162659, 'reward_std': 0.5128909200429916, 'kl': 8.34375, 'epoch': 0.18}
+ 18%|█▊        | 791/4286 [4:54:51<25:13:06, 25.98s/it] 18%|█▊        | 792/4286 [4:55:15<24:51:31, 25.61s/it]                                                       {'loss': 0.196, 'grad_norm': 3.0562448875483286, 'learning_rate': 8.152123191787214e-07, 'completion_length': 372.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.517113134264946, 'rewards/format_reward': 0.8839285969734192, 'reward': 1.4010418057441711, 'reward_std': 0.4354502856731415, 'kl': 4.8984375, 'epoch': 0.18}
+ 18%|█▊        | 792/4286 [4:55:15<24:51:31, 25.61s/it] 19%|█▊        | 793/4286 [4:55:41<24:44:49, 25.51s/it]                                                       {'loss': 0.2724, 'grad_norm': 3.4774610268230117, 'learning_rate': 8.149790013999066e-07, 'completion_length': 405.9285888671875, 'rewards/only_full_func_accuracy_reward': 0.4937996119260788, 'rewards/format_reward': 0.8125000298023224, 'reward': 1.30629962682724, 'reward_std': 0.6419495344161987, 'kl': 6.8125, 'epoch': 0.19}
+ 19%|█▊        | 793/4286 [4:55:41<24:44:49, 25.51s/it] 19%|█▊        | 794/4286 [4:56:06<24:44:20, 25.50s/it]                                                       {'loss': 0.2494, 'grad_norm': 5.044778591724209, 'learning_rate': 8.147456836210919e-07, 'completion_length': 385.2321472167969, 'rewards/only_full_func_accuracy_reward': 0.5193452835083008, 'rewards/format_reward': 0.8214285969734192, 'reward': 1.3407739400863647, 'reward_std': 0.5215642750263214, 'kl': 6.234375, 'epoch': 0.19}
+ 19%|█▊        | 794/4286 [4:56:06<24:44:20, 25.50s/it] 19%|█▊        | 795/4286 [4:56:31<24:30:04, 25.27s/it]                                                       {'loss': 0.1728, 'grad_norm': 4.2313504679754965, 'learning_rate': 8.145123658422771e-07, 'completion_length': 368.33929443359375, 'rewards/only_full_func_accuracy_reward': 0.6711986064910889, 'rewards/format_reward': 0.8392857611179352, 'reward': 1.5104843974113464, 'reward_std': 0.6174355447292328, 'kl': 4.328125, 'epoch': 0.19}
+ 19%|█▊        | 795/4286 [4:56:31<24:30:04, 25.27s/it] 19%|█▊        | 796/4286 [4:56:56<24:29:47, 25.27s/it]                                                       {'loss': 0.1723, 'grad_norm': 26.506711377056778, 'learning_rate': 8.142790480634624e-07, 'completion_length': 398.9553680419922, 'rewards/only_full_func_accuracy_reward': 0.535714328289032, 'rewards/format_reward': 0.8214285969734192, 'reward': 1.357142984867096, 'reward_std': 0.4523983895778656, 'kl': 4.3125, 'epoch': 0.19}
+ 19%|█▊        | 796/4286 [4:56:56<24:29:47, 25.27s/it] 19%|█▊        | 797/4286 [4:57:21<24:20:12, 25.11s/it]                                                       {'loss': 0.0484, 'grad_norm': 4.3263151767897705, 'learning_rate': 8.140457302846476e-07, 'completion_length': 363.3928680419922, 'rewards/only_full_func_accuracy_reward': 0.6168155074119568, 'rewards/format_reward': 0.9553571939468384, 'reward': 1.5721728205680847, 'reward_std': 0.258209228515625, 'kl': 1.2109375, 'epoch': 0.19}
+ 19%|█▊        | 797/4286 [4:57:21<24:20:12, 25.11s/it] 19%|█▊        | 798/4286 [4:57:46<24:27:13, 25.24s/it]                                                       {'loss': 0.0676, 'grad_norm': 2.6860012417907053, 'learning_rate': 8.138124125058329e-07, 'completion_length': 414.8035888671875, 'rewards/only_full_func_accuracy_reward': 0.6013393104076385, 'rewards/format_reward': 0.910714328289032, 'reward': 1.5120536088943481, 'reward_std': 0.3261823058128357, 'kl': 1.6953125, 'epoch': 0.19}
+ 19%|█▊        | 798/4286 [4:57:46<24:27:13, 25.24s/it] 19%|█▊        | 799/4286 [4:58:12<24:31:35, 25.32s/it]                                                       {'loss': 0.1785, 'grad_norm': 2.716058193274934, 'learning_rate': 8.135790947270181e-07, 'completion_length': 405.2053680419922, 'rewards/only_full_func_accuracy_reward': 0.5531179010868073, 'rewards/format_reward': 0.8214285969734192, 'reward': 1.3745465874671936, 'reward_std': 0.6128700971603394, 'kl': 4.46875, 'epoch': 0.19}
+ 19%|█▊        | 799/4286 [4:58:12<24:31:35, 25.32s/it] 19%|█▊        | 800/4286 [4:58:36<24:18:42, 25.11s/it]                                                       {'loss': 0.12, 'grad_norm': 4.779876758897777, 'learning_rate': 8.133457769482033e-07, 'completion_length': 352.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.6739583313465118, 'rewards/format_reward': 0.8928571939468384, 'reward': 1.5668155550956726, 'reward_std': 0.5448251962661743, 'kl': 3.0, 'epoch': 0.19}
+ 19%|█▊        | 800/4286 [4:58:36<24:18:42, 25.11s/it] 19%|█▊        | 801/4286 [4:59:51<38:37:34, 39.90s/it]                                                       {'loss': 0.2283, 'grad_norm': 2.6354087634319043, 'learning_rate': 8.131124591693887e-07, 'completion_length': 418.96429443359375, 'rewards/only_full_func_accuracy_reward': 0.5223891288042068, 'rewards/format_reward': 0.8125000596046448, 'reward': 1.3348891139030457, 'reward_std': 0.5705779790878296, 'kl': 5.703125, 'epoch': 0.19}
+ 19%|█▊        | 801/4286 [4:59:51<38:37:34, 39.90s/it] 19%|█▊        | 802/4286 [5:00:17<34:35:27, 35.74s/it]                                                       {'loss': 0.45, 'grad_norm': 13.305101000692082, 'learning_rate': 8.128791413905739e-07, 'completion_length': 447.50001525878906, 'rewards/only_full_func_accuracy_reward': 0.38148385286331177, 'rewards/format_reward': 0.6785714626312256, 'reward': 1.0600553452968597, 'reward_std': 0.6888333857059479, 'kl': 11.25, 'epoch': 0.19}
+ 19%|█▊        | 802/4286 [5:00:17<34:35:27, 35.74s/it] 19%|█▊        | 803/4286 [5:00:42<31:25:50, 32.49s/it]                                                       {'loss': 0.352, 'grad_norm': 8.900273992305738, 'learning_rate': 8.126458236117591e-07, 'completion_length': 367.7232360839844, 'rewards/only_full_func_accuracy_reward': 0.4332522004842758, 'rewards/format_reward': 0.7142857611179352, 'reward': 1.1475379467010498, 'reward_std': 0.6120339930057526, 'kl': 8.796875, 'epoch': 0.19}
+ 19%|█▊        | 803/4286 [5:00:42<31:25:50, 32.49s/it] 19%|█▉        | 804/4286 [5:01:07<29:23:48, 30.39s/it]                                                       {'loss': 0.4253, 'grad_norm': 8.131124042529146, 'learning_rate': 8.124125058329444e-07, 'completion_length': 405.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.4625543802976608, 'rewards/format_reward': 0.6875000298023224, 'reward': 1.1500544548034668, 'reward_std': 0.7436927556991577, 'kl': 10.65625, 'epoch': 0.19}
+ 19%|█▉        | 804/4286 [5:01:07<29:23:48, 30.39s/it] 19%|█▉        | 805/4286 [5:01:32<27:41:53, 28.65s/it]                                                       {'loss': 0.2516, 'grad_norm': 2.6300865162507643, 'learning_rate': 8.121791880541297e-07, 'completion_length': 348.35716247558594, 'rewards/only_full_func_accuracy_reward': 0.557575136423111, 'rewards/format_reward': 0.7767857313156128, 'reward': 1.3343608379364014, 'reward_std': 0.6053918302059174, 'kl': 6.28125, 'epoch': 0.19}
+ 19%|█▉        | 805/4286 [5:01:32<27:41:53, 28.65s/it] 19%|█▉        | 806/4286 [5:01:57<26:33:07, 27.47s/it]                                                       {'loss': 0.3096, 'grad_norm': 3.472930576241626, 'learning_rate': 8.119458702753149e-07, 'completion_length': 355.8214416503906, 'rewards/only_full_func_accuracy_reward': 0.3452381044626236, 'rewards/format_reward': 0.7321428954601288, 'reward': 1.0773810148239136, 'reward_std': 0.6104133725166321, 'kl': 7.71875, 'epoch': 0.19}
+ 19%|█▉        | 806/4286 [5:01:57<26:33:07, 27.47s/it] 19%|█▉        | 807/4286 [5:02:22<25:53:45, 26.80s/it]                                                       {'loss': 0.3028, 'grad_norm': 4.511694347836844, 'learning_rate': 8.117125524965002e-07, 'completion_length': 339.04466247558594, 'rewards/only_full_func_accuracy_reward': 0.4717262238264084, 'rewards/format_reward': 0.7232142984867096, 'reward': 1.1949405074119568, 'reward_std': 0.6660095751285553, 'kl': 7.578125, 'epoch': 0.19}
+ 19%|█▉        | 807/4286 [5:02:22<25:53:45, 26.80s/it] 19%|█▉        | 808/4286 [5:02:47<25:29:01, 26.38s/it]                                                       {'loss': 0.2227, 'grad_norm': 3.4023806188188837, 'learning_rate': 8.114792347176854e-07, 'completion_length': 366.04466247558594, 'rewards/only_full_func_accuracy_reward': 0.5173611342906952, 'rewards/format_reward': 0.7142857313156128, 'reward': 1.2316468954086304, 'reward_std': 0.67582106590271, 'kl': 5.578125, 'epoch': 0.19}
+ 19%|█▉        | 808/4286 [5:02:47<25:29:01, 26.38s/it] 19%|█▉        | 809/4286 [5:03:12<25:07:12, 26.01s/it]                                                       {'loss': 0.2654, 'grad_norm': 3.2809455154468385, 'learning_rate': 8.112459169388707e-07, 'completion_length': 385.8303680419922, 'rewards/only_full_func_accuracy_reward': 0.5761808753013611, 'rewards/format_reward': 0.6696428954601288, 'reward': 1.2458238005638123, 'reward_std': 0.7045896947383881, 'kl': 6.640625, 'epoch': 0.19}
+ 19%|█▉        | 809/4286 [5:03:12<25:07:12, 26.01s/it] 19%|█▉        | 810/4286 [5:03:37<24:46:42, 25.66s/it]                                                       {'loss': 0.1904, 'grad_norm': 3.062376603381973, 'learning_rate': 8.110125991600559e-07, 'completion_length': 364.35716247558594, 'rewards/only_full_func_accuracy_reward': 0.527210921049118, 'rewards/format_reward': 0.598214328289032, 'reward': 1.1254252791404724, 'reward_std': 0.6702894270420074, 'kl': 4.765625, 'epoch': 0.19}
+ 19%|█▉        | 810/4286 [5:03:37<24:46:42, 25.66s/it] 19%|█▉        | 811/4286 [5:04:01<24:13:50, 25.10s/it]                                                       {'loss': 0.2741, 'grad_norm': 4.143402264309172, 'learning_rate': 8.107792813812412e-07, 'completion_length': 296.16966247558594, 'rewards/only_full_func_accuracy_reward': 0.488839328289032, 'rewards/format_reward': 0.5267857313156128, 'reward': 1.0156251192092896, 'reward_std': 0.7465564608573914, 'kl': 6.859375, 'epoch': 0.19}
+ 19%|█▉        | 811/4286 [5:04:01<24:13:50, 25.10s/it] 19%|█▉        | 812/4286 [5:04:25<23:54:18, 24.77s/it]                                                       {'loss': 0.4519, 'grad_norm': 10.350049097666304, 'learning_rate': 8.105459636024264e-07, 'completion_length': 309.65179443359375, 'rewards/only_full_func_accuracy_reward': 0.2959064543247223, 'rewards/format_reward': 0.4285714477300644, 'reward': 0.7244779169559479, 'reward_std': 0.6774548292160034, 'kl': 11.3125, 'epoch': 0.19}
+ 19%|█▉        | 812/4286 [5:04:25<23:54:18, 24.77s/it] 19%|█▉        | 813/4286 [5:04:49<23:41:25, 24.56s/it]                                                       {'loss': 0.4958, 'grad_norm': 15.976268080253664, 'learning_rate': 8.103126458236117e-07, 'completion_length': 301.0357208251953, 'rewards/only_full_func_accuracy_reward': 0.23153901100158691, 'rewards/format_reward': 0.2767857313156128, 'reward': 0.5083247721195221, 'reward_std': 0.5483403503894806, 'kl': 12.40625, 'epoch': 0.19}
+ 19%|█▉        | 813/4286 [5:04:49<23:41:25, 24.56s/it] 19%|█▉        | 814/4286 [5:05:13<23:29:24, 24.36s/it]                                                       {'loss': 0.3756, 'grad_norm': 9.895180355604102, 'learning_rate': 8.10079328044797e-07, 'completion_length': 261.43751525878906, 'rewards/only_full_func_accuracy_reward': 0.2454446405172348, 'rewards/format_reward': 0.3482142984867096, 'reward': 0.5936589241027832, 'reward_std': 0.68189936876297, 'kl': 9.40625, 'epoch': 0.19}
+ 19%|█▉        | 814/4286 [5:05:13<23:29:24, 24.36s/it] 19%|█▉        | 815/4286 [5:05:35<22:45:04, 23.60s/it]                                                       {'loss': 0.2735, 'grad_norm': 3.1952536361425965, 'learning_rate': 8.098460102659822e-07, 'completion_length': 262.81251525878906, 'rewards/only_full_func_accuracy_reward': 0.3869047909975052, 'rewards/format_reward': 0.5357142984867096, 'reward': 0.9226191341876984, 'reward_std': 0.7131917476654053, 'kl': 6.84375, 'epoch': 0.19}
+ 19%|█▉        | 815/4286 [5:05:35<22:45:04, 23.60s/it] 19%|█▉        | 816/4286 [5:05:58<22:36:17, 23.45s/it]                                                       {'loss': 0.1505, 'grad_norm': 4.457538299877487, 'learning_rate': 8.096126924871674e-07, 'completion_length': 335.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.3482143133878708, 'rewards/format_reward': 0.6696428954601288, 'reward': 1.0178571939468384, 'reward_std': 0.5859213471412659, 'kl': 3.7578125, 'epoch': 0.19}
+ 19%|█▉        | 816/4286 [5:05:58<22:36:17, 23.45s/it] 19%|█▉        | 817/4286 [5:06:19<21:49:12, 22.64s/it]                                                       {'loss': 0.0843, 'grad_norm': 6.994720201325692, 'learning_rate': 8.093793747083528e-07, 'completion_length': 312.46429443359375, 'rewards/only_full_func_accuracy_reward': 0.6136267185211182, 'rewards/format_reward': 0.8214286267757416, 'reward': 1.4350553750991821, 'reward_std': 0.5004914402961731, 'kl': 2.109375, 'epoch': 0.19}
+ 19%|█▉        | 817/4286 [5:06:19<21:49:12, 22.64s/it] 19%|█▉        | 818/4286 [5:06:41<21:40:56, 22.51s/it]                                                       {'loss': 0.1109, 'grad_norm': 6.584414136706753, 'learning_rate': 8.09146056929538e-07, 'completion_length': 311.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.46317487955093384, 'rewards/format_reward': 0.7500000298023224, 'reward': 1.2131749391555786, 'reward_std': 0.5668600797653198, 'kl': 2.7734375, 'epoch': 0.19}
+ 19%|█▉        | 818/4286 [5:06:41<21:40:56, 22.51s/it] 19%|█▉        | 819/4286 [5:07:04<21:42:30, 22.54s/it]                                                       {'loss': 0.1382, 'grad_norm': 4.997244519322934, 'learning_rate': 8.089127391507232e-07, 'completion_length': 373.0178680419922, 'rewards/only_full_func_accuracy_reward': 0.5452097952365875, 'rewards/format_reward': 0.7321428656578064, 'reward': 1.2773526310920715, 'reward_std': 0.6492434144020081, 'kl': 3.4453125, 'epoch': 0.19}
+ 19%|█▉        | 819/4286 [5:07:04<21:42:30, 22.54s/it] 19%|█▉        | 820/4286 [5:07:26<21:43:55, 22.57s/it]                                                       {'loss': 0.2124, 'grad_norm': 3.938704109179868, 'learning_rate': 8.086794213719084e-07, 'completion_length': 276.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.4380691349506378, 'rewards/format_reward': 0.5982142984867096, 'reward': 1.0362834334373474, 'reward_std': 0.7293569147586823, 'kl': 5.296875, 'epoch': 0.19}
+ 19%|█▉        | 820/4286 [5:07:26<21:43:55, 22.57s/it] 19%|█▉        | 821/4286 [5:07:50<22:05:39, 22.96s/it]                                                       {'loss': 0.3211, 'grad_norm': 3.0540708040967313, 'learning_rate': 8.084461035930938e-07, 'completion_length': 274.1964416503906, 'rewards/only_full_func_accuracy_reward': 0.35132673382759094, 'rewards/format_reward': 0.4553571790456772, 'reward': 0.8066839277744293, 'reward_std': 0.7839560508728027, 'kl': 8.03125, 'epoch': 0.19}
+ 19%|█▉        | 821/4286 [5:07:50<22:05:39, 22.96s/it] 19%|█▉        | 822/4286 [5:08:11<21:36:25, 22.46s/it]                                                       {'loss': 0.312, 'grad_norm': 5.225887815185437, 'learning_rate': 8.08212785814279e-07, 'completion_length': 276.5803680419922, 'rewards/only_full_func_accuracy_reward': 0.33794642984867096, 'rewards/format_reward': 0.5000000298023224, 'reward': 0.8379464447498322, 'reward_std': 0.6642244458198547, 'kl': 7.8125, 'epoch': 0.19}
+ 19%|█▉        | 822/4286 [5:08:11<21:36:25, 22.46s/it] 19%|█▉        | 823/4286 [5:08:34<21:42:01, 22.56s/it]                                                       {'loss': 0.3534, 'grad_norm': 4.934649464022082, 'learning_rate': 8.079794680354642e-07, 'completion_length': 285.08929443359375, 'rewards/only_full_func_accuracy_reward': 0.35089288651943207, 'rewards/format_reward': 0.6160714626312256, 'reward': 0.9669643342494965, 'reward_std': 0.7076806128025055, 'kl': 8.84375, 'epoch': 0.19}
+ 19%|█▉        | 823/4286 [5:08:34<21:42:01, 22.56s/it] 19%|█▉        | 824/4286 [5:08:55<21:21:20, 22.21s/it]                                                       {'loss': 0.2758, 'grad_norm': 2.2453184056881597, 'learning_rate': 8.077461502566495e-07, 'completion_length': 269.06251525878906, 'rewards/only_full_func_accuracy_reward': 0.3834821432828903, 'rewards/format_reward': 0.6785714626312256, 'reward': 1.062053620815277, 'reward_std': 0.7482014000415802, 'kl': 6.90625, 'epoch': 0.19}
+ 19%|█▉        | 824/4286 [5:08:55<21:21:20, 22.21s/it] 19%|█▉        | 825/4286 [5:09:17<21:11:36, 22.04s/it]                                                       {'loss': 0.2039, 'grad_norm': 4.591420611349935, 'learning_rate': 8.075128324778347e-07, 'completion_length': 308.83038330078125, 'rewards/only_full_func_accuracy_reward': 0.5017857253551483, 'rewards/format_reward': 0.7500000596046448, 'reward': 1.2517858147621155, 'reward_std': 0.6910677552223206, 'kl': 5.09375, 'epoch': 0.19}
+ 19%|█▉        | 825/4286 [5:09:17<21:11:36, 22.04s/it] 19%|█▉        | 826/4286 [5:09:40<21:29:02, 22.35s/it]                                                       {'loss': 0.249, 'grad_norm': 2.3277023091076616, 'learning_rate': 8.0727951469902e-07, 'completion_length': 324.4464416503906, 'rewards/only_full_func_accuracy_reward': 0.4085672050714493, 'rewards/format_reward': 0.7142857611179352, 'reward': 1.1228529810905457, 'reward_std': 0.6590794622898102, 'kl': 6.234375, 'epoch': 0.19}
+ 19%|█▉        | 826/4286 [5:09:40<21:29:02, 22.35s/it] 19%|█▉        | 827/4286 [5:10:02<21:11:06, 22.05s/it]                                                       {'loss': 0.1916, 'grad_norm': 2.8166621138866765, 'learning_rate': 8.070461969202053e-07, 'completion_length': 343.5446472167969, 'rewards/only_full_func_accuracy_reward': 0.4062499850988388, 'rewards/format_reward': 0.7410714626312256, 'reward': 1.1473215222358704, 'reward_std': 0.5905479490756989, 'kl': 4.7890625, 'epoch': 0.19}
+ 19%|█▉        | 827/4286 [5:10:02<21:11:06, 22.05s/it] 19%|█▉        | 828/4286 [5:10:21<20:20:48, 21.18s/it]                                                       {'loss': 0.25, 'grad_norm': 3.4564464165139377, 'learning_rate': 8.068128791413905e-07, 'completion_length': 257.42857360839844, 'rewards/only_full_func_accuracy_reward': 0.336309552192688, 'rewards/format_reward': 0.5446428954601288, 'reward': 0.8809524476528168, 'reward_std': 0.6369659006595612, 'kl': 6.25, 'epoch': 0.19}
+ 19%|█▉        | 828/4286 [5:10:21<20:20:48, 21.18s/it] 19%|█▉        | 829/4286 [5:10:42<20:13:40, 21.06s/it]                                                       {'loss': 0.4144, 'grad_norm': 8.627743553454197, 'learning_rate': 8.065795613625757e-07, 'completion_length': 250.96429443359375, 'rewards/only_full_func_accuracy_reward': 0.36316291987895966, 'rewards/format_reward': 0.5267857313156128, 'reward': 0.8899486660957336, 'reward_std': 0.7197019457817078, 'kl': 10.375, 'epoch': 0.19}
+ 19%|█▉        | 829/4286 [5:10:42<20:13:40, 21.06s/it] 19%|█▉        | 830/4286 [5:11:02<20:01:47, 20.86s/it]                                                       {'loss': 0.2816, 'grad_norm': 2.8491327292118953, 'learning_rate': 8.063462435837611e-07, 'completion_length': 277.4732360839844, 'rewards/only_full_func_accuracy_reward': 0.42500002682209015, 'rewards/format_reward': 0.6785714626312256, 'reward': 1.1035714745521545, 'reward_std': 0.6607537865638733, 'kl': 7.046875, 'epoch': 0.19}
+ 19%|█▉        | 830/4286 [5:11:02<20:01:47, 20.86s/it] 19%|█▉        | 831/4286 [5:11:23<19:56:44, 20.78s/it]                                                       {'loss': 0.2621, 'grad_norm': 2.625556395929463, 'learning_rate': 8.061129258049463e-07, 'completion_length': 269.40179443359375, 'rewards/only_full_func_accuracy_reward': 0.4618055671453476, 'rewards/format_reward': 0.7232142984867096, 'reward': 1.1850199103355408, 'reward_std': 0.6262011528015137, 'kl': 6.5625, 'epoch': 0.19}
+ 19%|█▉        | 831/4286 [5:11:23<19:56:44, 20.78s/it] 19%|█▉        | 832/4286 [5:11:43<19:57:56, 20.81s/it]                                                       {'loss': 0.1445, 'grad_norm': 3.958046657911741, 'learning_rate': 8.058796080261315e-07, 'completion_length': 313.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.502232164144516, 'rewards/format_reward': 0.9375000298023224, 'reward': 1.4397322535514832, 'reward_std': 0.36770448088645935, 'kl': 3.609375, 'epoch': 0.19}
+ 19%|█▉        | 832/4286 [5:11:43<19:57:56, 20.81s/it] 19%|█▉        | 833/4286 [5:12:05<20:11:21, 21.05s/it]                                                       {'loss': 0.1691, 'grad_norm': 5.919052089795636, 'learning_rate': 8.056462902473167e-07, 'completion_length': 304.5357360839844, 'rewards/only_full_func_accuracy_reward': 0.4891369044780731, 'rewards/format_reward': 0.8660714626312256, 'reward': 1.3552083373069763, 'reward_std': 0.5202007591724396, 'kl': 4.234375, 'epoch': 0.19}
+ 19%|█▉        | 833/4286 [5:12:05<20:11:21, 21.05s/it] 19%|█▉        | 834/4286 [5:12:26<20:04:18, 20.93s/it]                                                       {'loss': 0.1179, 'grad_norm': 3.323335255562151, 'learning_rate': 8.054129724685021e-07, 'completion_length': 284.9553680419922, 'rewards/only_full_func_accuracy_reward': 0.4809524118900299, 'rewards/format_reward': 0.9196428954601288, 'reward': 1.4005953669548035, 'reward_std': 0.3758295625448227, 'kl': 2.9453125, 'epoch': 0.19}
+ 19%|█▉        | 834/4286 [5:12:26<20:04:18, 20.93s/it] 19%|█▉        | 835/4286 [5:12:47<20:14:08, 21.11s/it]                                                       {'loss': 0.1833, 'grad_norm': 5.230319199712174, 'learning_rate': 8.051796546896873e-07, 'completion_length': 279.9107360839844, 'rewards/only_full_func_accuracy_reward': 0.4345238506793976, 'rewards/format_reward': 0.8750000298023224, 'reward': 1.3095239400863647, 'reward_std': 0.4210866540670395, 'kl': 4.578125, 'epoch': 0.19}
+ 19%|█▉        | 835/4286 [5:12:47<20:14:08, 21.11s/it] 20%|█▉        | 836/4286 [5:13:08<20:00:36, 20.88s/it]                                                       {'loss': 0.2119, 'grad_norm': 1.9202903845420118, 'learning_rate': 8.049463369108725e-07, 'completion_length': 282.6518096923828, 'rewards/only_full_func_accuracy_reward': 0.5431548058986664, 'rewards/format_reward': 0.7946428954601288, 'reward': 1.3377977013587952, 'reward_std': 0.5556534230709076, 'kl': 5.296875, 'epoch': 0.2}
+ 20%|█▉        | 836/4286 [5:13:08<20:00:36, 20.88s/it] 20%|█▉        | 837/4286 [5:13:32<21:00:25, 21.93s/it]                                                       {'loss': 0.2374, 'grad_norm': 2.174748587072858, 'learning_rate': 8.047130191320578e-07, 'completion_length': 364.04466247558594, 'rewards/only_full_func_accuracy_reward': 0.6592262387275696, 'rewards/format_reward': 0.785714328289032, 'reward': 1.4449405670166016, 'reward_std': 0.5750615447759628, 'kl': 5.9375, 'epoch': 0.2}
+ 20%|█▉        | 837/4286 [5:13:32<21:00:25, 21.93s/it] 20%|█▉        | 838/4286 [5:13:53<20:54:37, 21.83s/it]                                                       {'loss': 0.228, 'grad_norm': 2.791829556618927, 'learning_rate': 8.044797013532431e-07, 'completion_length': 311.875, 'rewards/only_full_func_accuracy_reward': 0.48549114167690277, 'rewards/format_reward': 0.7946428954601288, 'reward': 1.2801339626312256, 'reward_std': 0.5501013696193695, 'kl': 5.6953125, 'epoch': 0.2}
+ 20%|█▉        | 838/4286 [5:13:53<20:54:37, 21.83s/it] 20%|█▉        | 839/4286 [5:14:14<20:33:44, 21.48s/it]                                                       {'loss': 0.2978, 'grad_norm': 3.691467200819658, 'learning_rate': 8.042463835744283e-07, 'completion_length': 303.3839416503906, 'rewards/only_full_func_accuracy_reward': 0.4303343743085861, 'rewards/format_reward': 0.723214328289032, 'reward': 1.1535486578941345, 'reward_std': 0.6614681780338287, 'kl': 7.4375, 'epoch': 0.2}
+ 20%|█▉        | 839/4286 [5:14:14<20:33:44, 21.48s/it] 20%|█▉        | 840/4286 [5:14:37<20:53:48, 21.83s/it]                                                       {'loss': 0.2122, 'grad_norm': 1.9919373225691324, 'learning_rate': 8.040130657956136e-07, 'completion_length': 348.16966247558594, 'rewards/only_full_func_accuracy_reward': 0.4635417014360428, 'rewards/format_reward': 0.848214328289032, 'reward': 1.3117560744285583, 'reward_std': 0.46944843232631683, 'kl': 5.3046875, 'epoch': 0.2}
+ 20%|█▉        | 840/4286 [5:14:37<20:53:48, 21.83s/it] 20%|█▉        | 841/4286 [5:14:59<21:00:46, 21.96s/it]                                                       {'loss': 0.1191, 'grad_norm': 1.8398947228709843, 'learning_rate': 8.037797480167988e-07, 'completion_length': 343.7678680419922, 'rewards/only_full_func_accuracy_reward': 0.5241815894842148, 'rewards/format_reward': 0.8660714626312256, 'reward': 1.3902531266212463, 'reward_std': 0.4026118814945221, 'kl': 2.9765625, 'epoch': 0.2}
+ 20%|█▉        | 841/4286 [5:14:59<21:00:46, 21.96s/it] 20%|█▉        | 842/4286 [5:15:20<20:46:40, 21.72s/it]                                                       {'loss': 0.1192, 'grad_norm': 2.9527791054636334, 'learning_rate': 8.035464302379841e-07, 'completion_length': 332.16966247558594, 'rewards/only_full_func_accuracy_reward': 0.507440522313118, 'rewards/format_reward': 0.9285714626312256, 'reward': 1.436012089252472, 'reward_std': 0.3391069024801254, 'kl': 2.9765625, 'epoch': 0.2}
+ 20%|█▉        | 842/4286 [5:15:20<20:46:40, 21.72s/it] 20%|█▉        | 843/4286 [5:15:44<21:18:15, 22.28s/it]                                                       {'loss': 0.062, 'grad_norm': 1.7097446335579023, 'learning_rate': 8.033131124591693e-07, 'completion_length': 398.2678680419922, 'rewards/only_full_func_accuracy_reward': 0.5417343825101852, 'rewards/format_reward': 0.9375000298023224, 'reward': 1.4792344570159912, 'reward_std': 0.21226626634597778, 'kl': 1.5546875, 'epoch': 0.2}
+ 20%|█▉        | 843/4286 [5:15:44<21:18:15, 22.28s/it] 20%|█▉        | 844/4286 [5:16:06<21:14:45, 22.22s/it]                                                       {'loss': 0.127, 'grad_norm': 1.458175356559715, 'learning_rate': 8.030797946803546e-07, 'completion_length': 344.0982208251953, 'rewards/only_full_func_accuracy_reward': 0.6227678656578064, 'rewards/format_reward': 0.8839285969734192, 'reward': 1.5066965818405151, 'reward_std': 0.40393777191638947, 'kl': 3.171875, 'epoch': 0.2}
+ 20%|█▉        | 844/4286 [5:16:06<21:14:45, 22.22s/it] 20%|█▉        | 845/4286 [5:16:27<20:51:07, 21.82s/it]                                                       {'loss': 0.069, 'grad_norm': 14.511049353236583, 'learning_rate': 8.028464769015398e-07, 'completion_length': 333.9732208251953, 'rewards/only_full_func_accuracy_reward': 0.6250000596046448, 'rewards/format_reward': 0.9464285969734192, 'reward': 1.571428656578064, 'reward_std': 0.1987489089369774, 'kl': 1.71875, 'epoch': 0.2}
+ 20%|█▉        | 845/4286 [5:16:27<20:51:07, 21.82s/it] 20%|█▉        | 846/4286 [5:16:49<20:54:39, 21.88s/it]                                                       {'loss': 0.0517, 'grad_norm': 1.9777416171945923, 'learning_rate': 8.02613159122725e-07, 'completion_length': 376.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.68601194024086, 'rewards/format_reward': 0.9285714626312256, 'reward': 1.614583432674408, 'reward_std': 0.2459021955728531, 'kl': 1.29296875, 'epoch': 0.2}
+ 20%|█▉        | 846/4286 [5:16:49<20:54:39, 21.88s/it] 20%|█▉        | 847/4286 [5:17:12<21:22:10, 22.37s/it]                                                       {'loss': 0.0934, 'grad_norm': 3.0311897394717984, 'learning_rate': 8.023798413439104e-07, 'completion_length': 402.1518096923828, 'rewards/only_full_func_accuracy_reward': 0.35788694024086, 'rewards/format_reward': 0.9375000298023224, 'reward': 1.2953869700431824, 'reward_std': 0.2355981171131134, 'kl': 2.333984375, 'epoch': 0.2}
+ 20%|█▉        | 847/4286 [5:17:12<21:22:10, 22.37s/it] 20%|█▉        | 848/4286 [5:17:35<21:33:22, 22.57s/it]                                                       {'loss': 0.0493, 'grad_norm': 0.8874871814020541, 'learning_rate': 8.021465235650956e-07, 'completion_length': 393.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.5654762089252472, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.5476191639900208, 'reward_std': 0.13816972076892853, 'kl': 1.234375, 'epoch': 0.2}
+ 20%|█▉        | 848/4286 [5:17:35<21:33:22, 22.57s/it] 20%|█▉        | 849/4286 [5:17:58<21:36:22, 22.63s/it]                                                       {'loss': 0.0856, 'grad_norm': 1.503473326367835, 'learning_rate': 8.019132057862808e-07, 'completion_length': 397.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.5885416865348816, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.5528274774551392, 'reward_std': 0.19495169818401337, 'kl': 2.13671875, 'epoch': 0.2}
+ 20%|█▉        | 849/4286 [5:17:58<21:36:22, 22.63s/it] 20%|█▉        | 850/4286 [5:18:21<21:42:24, 22.74s/it]                                                       {'loss': 0.0486, 'grad_norm': 1.1979800603284008, 'learning_rate': 8.016798880074662e-07, 'completion_length': 382.9732360839844, 'rewards/only_full_func_accuracy_reward': 0.4345238655805588, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.4166668057441711, 'reward_std': 0.13282428123056889, 'kl': 1.2138671875, 'epoch': 0.2}
+ 20%|█▉        | 850/4286 [5:18:21<21:42:24, 22.74s/it] 20%|█▉        | 851/4286 [5:18:43<21:19:17, 22.35s/it]                                                       {'loss': 0.0036, 'grad_norm': 0.6078257990733944, 'learning_rate': 8.014465702286514e-07, 'completion_length': 371.1964416503906, 'rewards/only_full_func_accuracy_reward': 0.6078869253396988, 'rewards/format_reward': 1.0, 'reward': 1.6078870296478271, 'reward_std': 0.07159329205751419, 'kl': 0.09033203125, 'epoch': 0.2}
+ 20%|█▉        | 851/4286 [5:18:43<21:19:17, 22.35s/it] 20%|█▉        | 852/4286 [5:19:05<21:28:34, 22.51s/it]                                                       {'loss': 0.0043, 'grad_norm': 0.46755184182375836, 'learning_rate': 8.012132524498366e-07, 'completion_length': 382.1339569091797, 'rewards/only_full_func_accuracy_reward': 0.5595238506793976, 'rewards/format_reward': 1.0, 'reward': 1.5595239400863647, 'reward_std': 0.04105912055820227, 'kl': 0.10791015625, 'epoch': 0.2}
+ 20%|█▉        | 852/4286 [5:19:05<21:28:34, 22.51s/it] 20%|█▉        | 853/4286 [5:19:28<21:27:44, 22.51s/it]                                                       {'loss': 0.027, 'grad_norm': 0.7849518624200982, 'learning_rate': 8.009799346710219e-07, 'completion_length': 369.1339416503906, 'rewards/only_full_func_accuracy_reward': 0.6770833730697632, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6681548953056335, 'reward_std': 0.07172327768057585, 'kl': 0.67626953125, 'epoch': 0.2}
+ 20%|█▉        | 853/4286 [5:19:28<21:27:44, 22.51s/it] 20%|█▉        | 854/4286 [5:19:49<21:00:25, 22.04s/it]                                                       {'loss': 0.0095, 'grad_norm': 1.0159846429533492, 'learning_rate': 8.007466168922071e-07, 'completion_length': 345.8035888671875, 'rewards/only_full_func_accuracy_reward': 0.7324405312538147, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7235119938850403, 'reward_std': 0.10810477286577225, 'kl': 0.23828125, 'epoch': 0.2}
+ 20%|█▉        | 854/4286 [5:19:49<21:00:25, 22.04s/it] 20%|█▉        | 855/4286 [5:20:10<20:49:06, 21.84s/it]                                                       {'loss': 0.0031, 'grad_norm': 2.0046402693035534, 'learning_rate': 8.005132991133924e-07, 'completion_length': 350.6607208251953, 'rewards/only_full_func_accuracy_reward': 0.7260417342185974, 'rewards/format_reward': 1.0, 'reward': 1.7260417342185974, 'reward_std': 0.07180093042552471, 'kl': 0.0782470703125, 'epoch': 0.2}
+ 20%|█▉        | 855/4286 [5:20:10<20:49:06, 21.84s/it] 20%|█▉        | 856/4286 [5:20:34<21:16:07, 22.32s/it]                                                       {'loss': 0.0084, 'grad_norm': 0.701657983640083, 'learning_rate': 8.002799813345776e-07, 'completion_length': 391.8928680419922, 'rewards/only_full_func_accuracy_reward': 0.6352678537368774, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6263394355773926, 'reward_std': 0.10749852377921343, 'kl': 0.208984375, 'epoch': 0.2}
+ 20%|█▉        | 856/4286 [5:20:34<21:16:07, 22.32s/it] 20%|█▉        | 857/4286 [5:20:58<21:46:52, 22.87s/it]                                                       {'loss': 0.0176, 'grad_norm': 1.9742191561319482, 'learning_rate': 8.000466635557629e-07, 'completion_length': 436.5357360839844, 'rewards/only_full_func_accuracy_reward': 0.7061012089252472, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6971727013587952, 'reward_std': 0.12777211144566536, 'kl': 0.43994140625, 'epoch': 0.2}
+ 20%|█▉        | 857/4286 [5:20:58<21:46:52, 22.87s/it] 20%|██        | 858/4286 [5:21:19<21:19:29, 22.39s/it]                                                       {'loss': 0.135, 'grad_norm': 4.72909644186732, 'learning_rate': 7.998133457769481e-07, 'completion_length': 313.42857360839844, 'rewards/only_full_func_accuracy_reward': 0.509672686457634, 'rewards/format_reward': 0.8839286267757416, 'reward': 1.3936012983322144, 'reward_std': 0.3872891664505005, 'kl': 3.390625, 'epoch': 0.2}
+ 20%|██        | 858/4286 [5:21:19<21:19:29, 22.39s/it] 20%|██        | 859/4286 [5:21:39<20:42:26, 21.75s/it]                                                       {'loss': 0.9251, 'grad_norm': 54.60152794018161, 'learning_rate': 7.995800279981334e-07, 'completion_length': 199.23214721679688, 'rewards/only_full_func_accuracy_reward': 0.22366072237491608, 'rewards/format_reward': 0.4017857313156128, 'reward': 0.6254464983940125, 'reward_std': 0.7745852470397949, 'kl': 23.125, 'epoch': 0.2}
+ 20%|██        | 859/4286 [5:21:39<20:42:26, 21.75s/it] 20%|██        | 860/4286 [5:21:58<19:43:07, 20.72s/it]                                                       {'loss': 1.2152, 'grad_norm': 79.55907713012681, 'learning_rate': 7.993467102193187e-07, 'completion_length': 131.8660774230957, 'rewards/only_full_func_accuracy_reward': 0.0855654813349247, 'rewards/format_reward': 0.3482142984867096, 'reward': 0.4337798058986664, 'reward_std': 0.5933465361595154, 'kl': 30.375, 'epoch': 0.2}
+ 20%|██        | 860/4286 [5:21:58<19:43:07, 20.72s/it] 20%|██        | 861/4286 [5:22:16<19:08:08, 20.11s/it]                                                       {'loss': 0.7747, 'grad_norm': 46.33210543752882, 'learning_rate': 7.991133924405039e-07, 'completion_length': 181.61608123779297, 'rewards/only_full_func_accuracy_reward': 0.13750001788139343, 'rewards/format_reward': 0.5535714626312256, 'reward': 0.6910714507102966, 'reward_std': 0.6078844964504242, 'kl': 19.375, 'epoch': 0.2}
+ 20%|██        | 861/4286 [5:22:16<19:08:08, 20.11s/it] 20%|██        | 862/4286 [5:22:38<19:40:04, 20.68s/it]                                                       {'loss': 0.247, 'grad_norm': 6.52235157331364, 'learning_rate': 7.988800746616891e-07, 'completion_length': 274.1607208251953, 'rewards/only_full_func_accuracy_reward': 0.45699408650398254, 'rewards/format_reward': 0.830357164144516, 'reward': 1.2873512506484985, 'reward_std': 0.5772174894809723, 'kl': 6.15625, 'epoch': 0.2}
+ 20%|██        | 862/4286 [5:22:38<19:40:04, 20.68s/it] 20%|██        | 863/4286 [5:23:02<20:37:25, 21.69s/it]                                                       {'loss': 0.0603, 'grad_norm': 4.727115881829289, 'learning_rate': 7.986467568828745e-07, 'completion_length': 410.48216247558594, 'rewards/only_full_func_accuracy_reward': 0.57663694024086, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.54092276096344, 'reward_std': 0.21399374306201935, 'kl': 1.5078125, 'epoch': 0.2}
+ 20%|██        | 863/4286 [5:23:02<20:37:25, 21.69s/it] 20%|██        | 864/4286 [5:23:24<20:33:03, 21.62s/it]                                                       {'loss': 0.2622, 'grad_norm': 4.445490488355336, 'learning_rate': 7.984134391040597e-07, 'completion_length': 273.68751525878906, 'rewards/only_full_func_accuracy_reward': 0.4854166805744171, 'rewards/format_reward': 0.8303571939468384, 'reward': 1.3157739043235779, 'reward_std': 0.6424017250537872, 'kl': 6.5625, 'epoch': 0.2}
+ 20%|██        | 864/4286 [5:23:24<20:33:03, 21.62s/it] 20%|██        | 865/4286 [5:23:43<19:44:40, 20.78s/it]                                                       {'loss': 0.5199, 'grad_norm': 37.444891513833845, 'learning_rate': 7.981801213252449e-07, 'completion_length': 165.6607208251953, 'rewards/only_full_func_accuracy_reward': 0.18705358356237411, 'rewards/format_reward': 0.6250000298023224, 'reward': 0.8120536208152771, 'reward_std': 0.6295998394489288, 'kl': 13.0, 'epoch': 0.2}
+ 20%|██        | 865/4286 [5:23:43<19:44:40, 20.78s/it] 20%|██        | 866/4286 [5:24:01<18:53:44, 19.89s/it]                                                       {'loss': 0.5118, 'grad_norm': 30.23291489334508, 'learning_rate': 7.979468035464301e-07, 'completion_length': 150.4464340209961, 'rewards/only_full_func_accuracy_reward': 0.191964291036129, 'rewards/format_reward': 0.6696428954601288, 'reward': 0.861607164144516, 'reward_std': 0.5777807235717773, 'kl': 12.78125, 'epoch': 0.2}
+ 20%|██        | 866/4286 [5:24:01<18:53:44, 19.89s/it] 20%|██        | 867/4286 [5:24:20<18:40:15, 19.66s/it]                                                       {'loss': 0.3993, 'grad_norm': 21.57439467528376, 'learning_rate': 7.977134857676155e-07, 'completion_length': 175.73214721679688, 'rewards/only_full_func_accuracy_reward': 0.20269984006881714, 'rewards/format_reward': 0.785714328289032, 'reward': 0.9884142279624939, 'reward_std': 0.5211292207241058, 'kl': 9.96875, 'epoch': 0.2}
+ 20%|██        | 867/4286 [5:24:20<18:40:15, 19.66s/it] 20%|██        | 868/4286 [5:24:42<19:27:22, 20.49s/it]                                                       {'loss': 0.1611, 'grad_norm': 7.272877375974133, 'learning_rate': 7.974801679888007e-07, 'completion_length': 260.5803680419922, 'rewards/only_full_func_accuracy_reward': 0.4214285761117935, 'rewards/format_reward': 0.910714328289032, 'reward': 1.332142949104309, 'reward_std': 0.446110263466835, 'kl': 4.0234375, 'epoch': 0.2}
+ 20%|██        | 868/4286 [5:24:42<19:27:22, 20.49s/it] 20%|██        | 869/4286 [5:25:05<20:10:12, 21.25s/it]                                                       {'loss': 0.0195, 'grad_norm': 4.029891138309252, 'learning_rate': 7.972468502099859e-07, 'completion_length': 406.5803680419922, 'rewards/only_full_func_accuracy_reward': 0.5093005895614624, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.4825149774551392, 'reward_std': 0.23458675295114517, 'kl': 0.486328125, 'epoch': 0.2}
+ 20%|██        | 869/4286 [5:25:05<20:10:12, 21.25s/it] 20%|██        | 870/4286 [5:25:27<20:20:06, 21.43s/it]                                                       {'loss': 0.0236, 'grad_norm': 6.443524074451047, 'learning_rate': 7.970135324311712e-07, 'completion_length': 375.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.4933035671710968, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.4754465222358704, 'reward_std': 0.16321459412574768, 'kl': 0.5888671875, 'epoch': 0.2}
+ 20%|██        | 870/4286 [5:25:27<20:20:06, 21.43s/it] 20%|██        | 871/4286 [5:25:51<20:59:28, 22.13s/it]                                                       {'loss': 0.0271, 'grad_norm': 3.926196189460222, 'learning_rate': 7.967802146523565e-07, 'completion_length': 382.0714416503906, 'rewards/only_full_func_accuracy_reward': 0.479166716337204, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.4523810744285583, 'reward_std': 0.22627702355384827, 'kl': 0.6767578125, 'epoch': 0.2}
+ 20%|██        | 871/4286 [5:25:51<20:59:28, 22.13s/it] 20%|██        | 872/4286 [5:26:13<21:02:49, 22.19s/it]                                                       {'loss': 0.1186, 'grad_norm': 6.515613646612319, 'learning_rate': 7.965468968735417e-07, 'completion_length': 306.7857208251953, 'rewards/only_full_func_accuracy_reward': 0.5441468358039856, 'rewards/format_reward': 0.910714328289032, 'reward': 1.4548611640930176, 'reward_std': 0.4675288498401642, 'kl': 2.9609375, 'epoch': 0.2}
+ 20%|██        | 872/4286 [5:26:13<21:02:49, 22.19s/it] 20%|██        | 873/4286 [5:26:35<20:52:05, 22.01s/it]                                                       {'loss': 0.2897, 'grad_norm': 8.6814270388827, 'learning_rate': 7.96313579094727e-07, 'completion_length': 207.5089340209961, 'rewards/only_full_func_accuracy_reward': 0.2428571581840515, 'rewards/format_reward': 0.8035714626312256, 'reward': 1.0464286804199219, 'reward_std': 0.5255227982997894, 'kl': 7.234375, 'epoch': 0.2}
+ 20%|██        | 873/4286 [5:26:35<20:52:05, 22.01s/it] 20%|██        | 874/4286 [5:26:54<20:01:10, 21.12s/it]                                                       {'loss': 0.3492, 'grad_norm': 16.481013549036792, 'learning_rate': 7.960802613159122e-07, 'completion_length': 191.8571548461914, 'rewards/only_full_func_accuracy_reward': 0.3083333671092987, 'rewards/format_reward': 0.7500000298023224, 'reward': 1.0583334565162659, 'reward_std': 0.5752266645431519, 'kl': 8.71875, 'epoch': 0.2}
+ 20%|██        | 874/4286 [5:26:54<20:01:10, 21.12s/it] 20%|██        | 875/4286 [5:27:12<19:13:59, 20.30s/it]                                                       {'loss': 0.3033, 'grad_norm': 11.873314765785285, 'learning_rate': 7.958469435370974e-07, 'completion_length': 173.87500762939453, 'rewards/only_full_func_accuracy_reward': 0.2526148185133934, 'rewards/format_reward': 0.7767857611179352, 'reward': 1.0294005870819092, 'reward_std': 0.5731843113899231, 'kl': 7.59375, 'epoch': 0.2}
+ 20%|██        | 875/4286 [5:27:12<19:13:59, 20.30s/it] 20%|██        | 876/4286 [5:27:32<19:14:37, 20.32s/it]                                                       {'loss': 0.2065, 'grad_norm': 3.8485697260279728, 'learning_rate': 7.956136257582828e-07, 'completion_length': 253.83930206298828, 'rewards/only_full_func_accuracy_reward': 0.3717634081840515, 'rewards/format_reward': 0.848214328289032, 'reward': 1.2199777364730835, 'reward_std': 0.5815734565258026, 'kl': 5.171875, 'epoch': 0.2}
+ 20%|██        | 876/4286 [5:27:32<19:14:37, 20.32s/it] 20%|██        | 877/4286 [5:27:55<19:59:48, 21.12s/it]                                                       {'loss': 0.1142, 'grad_norm': 5.091210595688423, 'learning_rate': 7.95380307979468e-07, 'completion_length': 330.7589416503906, 'rewards/only_full_func_accuracy_reward': 0.4910714775323868, 'rewards/format_reward': 0.8928571939468384, 'reward': 1.3839287161827087, 'reward_std': 0.4564930498600006, 'kl': 2.8515625, 'epoch': 0.2}
+ 20%|██        | 877/4286 [5:27:55<19:59:48, 21.12s/it] 20%|██        | 878/4286 [5:28:17<20:04:44, 21.21s/it]                                                       {'loss': 0.0839, 'grad_norm': 4.322223681553202, 'learning_rate': 7.951469902006532e-07, 'completion_length': 330.8303680419922, 'rewards/only_full_func_accuracy_reward': 0.5572916865348816, 'rewards/format_reward': 0.9285714626312256, 'reward': 1.485863208770752, 'reward_std': 0.3334914743900299, 'kl': 2.09765625, 'epoch': 0.2}
+ 20%|██        | 878/4286 [5:28:17<20:04:44, 21.21s/it] 21%|██        | 879/4286 [5:28:40<20:35:02, 21.75s/it]                                                       {'loss': 0.0969, 'grad_norm': 5.177009628828359, 'learning_rate': 7.949136724218384e-07, 'completion_length': 345.4643096923828, 'rewards/only_full_func_accuracy_reward': 0.5025297850370407, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.4668155312538147, 'reward_std': 0.3241594508290291, 'kl': 2.421875, 'epoch': 0.21}
+ 21%|██        | 879/4286 [5:28:40<20:35:02, 21.75s/it] 21%|██        | 880/4286 [5:29:01<20:23:15, 21.55s/it]                                                       {'loss': 0.1706, 'grad_norm': 4.1693845301730486, 'learning_rate': 7.946803546430238e-07, 'completion_length': 256.37500762939453, 'rewards/only_full_func_accuracy_reward': 0.395833358168602, 'rewards/format_reward': 0.9017857313156128, 'reward': 1.297619104385376, 'reward_std': 0.4010145515203476, 'kl': 4.265625, 'epoch': 0.21}
+ 21%|██        | 880/4286 [5:29:01<20:23:15, 21.55s/it] 21%|██        | 881/4286 [5:29:23<20:27:55, 21.64s/it]                                                       {'loss': 0.1734, 'grad_norm': 5.355905201609993, 'learning_rate': 7.94447036864209e-07, 'completion_length': 276.12500762939453, 'rewards/only_full_func_accuracy_reward': 0.44330359995365143, 'rewards/format_reward': 0.8839286267757416, 'reward': 1.327232301235199, 'reward_std': 0.518847644329071, 'kl': 4.3359375, 'epoch': 0.21}
+ 21%|██        | 881/4286 [5:29:23<20:27:55, 21.64s/it] 21%|██        | 882/4286 [5:29:45<20:42:22, 21.90s/it]                                                       {'loss': 0.109, 'grad_norm': 6.386184579776474, 'learning_rate': 7.942137190853942e-07, 'completion_length': 350.6607360839844, 'rewards/only_full_func_accuracy_reward': 0.4888392984867096, 'rewards/format_reward': 0.9375000298023224, 'reward': 1.426339328289032, 'reward_std': 0.40393082797527313, 'kl': 2.7265625, 'epoch': 0.21}
+ 21%|██        | 882/4286 [5:29:45<20:42:22, 21.90s/it] 21%|██        | 883/4286 [5:30:08<20:56:25, 22.15s/it]                                                       {'loss': 0.1174, 'grad_norm': 5.406233581074434, 'learning_rate': 7.939804013065795e-07, 'completion_length': 358.0982208251953, 'rewards/only_full_func_accuracy_reward': 0.5046131461858749, 'rewards/format_reward': 0.9196428954601288, 'reward': 1.4242560267448425, 'reward_std': 0.37128521502017975, 'kl': 2.93359375, 'epoch': 0.21}
+ 21%|██        | 883/4286 [5:30:08<20:56:25, 22.15s/it] 21%|██        | 884/4286 [5:30:31<21:02:19, 22.26s/it]                                                       {'loss': 0.0741, 'grad_norm': 3.394016754126652, 'learning_rate': 7.937470835277648e-07, 'completion_length': 354.2232360839844, 'rewards/only_full_func_accuracy_reward': 0.5483630895614624, 'rewards/format_reward': 0.9464285969734192, 'reward': 1.4947917461395264, 'reward_std': 0.24698231369256973, 'kl': 1.8515625, 'epoch': 0.21}
+ 21%|██        | 884/4286 [5:30:31<21:02:19, 22.26s/it] 21%|██        | 885/4286 [5:30:52<20:49:40, 22.05s/it]                                                       {'loss': 0.2049, 'grad_norm': 2.4914478029567357, 'learning_rate': 7.9351376574895e-07, 'completion_length': 295.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.5122236758470535, 'rewards/format_reward': 0.8571428954601288, 'reward': 1.3693665862083435, 'reward_std': 0.4402678608894348, 'kl': 5.125, 'epoch': 0.21}
+ 21%|██        | 885/4286 [5:30:52<20:49:40, 22.05s/it] 21%|██        | 886/4286 [5:31:14<20:39:32, 21.87s/it]                                                       {'loss': 0.2017, 'grad_norm': 2.277957430430747, 'learning_rate': 7.932804479701353e-07, 'completion_length': 329.5357360839844, 'rewards/only_full_func_accuracy_reward': 0.5652777850627899, 'rewards/format_reward': 0.848214328289032, 'reward': 1.4134920835494995, 'reward_std': 0.4507122039794922, 'kl': 5.0234375, 'epoch': 0.21}
+ 21%|██        | 886/4286 [5:31:14<20:39:32, 21.87s/it] 21%|██        | 887/4286 [5:31:36<20:47:20, 22.02s/it]                                                       {'loss': 0.1692, 'grad_norm': 2.4835980441359364, 'learning_rate': 7.930471301913205e-07, 'completion_length': 367.9821472167969, 'rewards/only_full_func_accuracy_reward': 0.5416666567325592, 'rewards/format_reward': 0.8839286267757416, 'reward': 1.4255953431129456, 'reward_std': 0.3959428668022156, 'kl': 4.234375, 'epoch': 0.21}
+ 21%|██        | 887/4286 [5:31:36<20:47:20, 22.02s/it] 21%|██        | 888/4286 [5:31:58<20:44:31, 21.98s/it]                                                       {'loss': 0.2716, 'grad_norm': 3.491119343407153, 'learning_rate': 7.928138124125058e-07, 'completion_length': 327.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.4962797611951828, 'rewards/format_reward': 0.848214328289032, 'reward': 1.344494104385376, 'reward_std': 0.47547395527362823, 'kl': 6.796875, 'epoch': 0.21}
+ 21%|██        | 888/4286 [5:31:58<20:44:31, 21.98s/it] 21%|██        | 889/4286 [5:32:19<20:38:57, 21.88s/it]                                                       {'loss': 0.1751, 'grad_norm': 2.6710185863618148, 'learning_rate': 7.92580494633691e-07, 'completion_length': 346.2410888671875, 'rewards/only_full_func_accuracy_reward': 0.5066964775323868, 'rewards/format_reward': 0.9017857611179352, 'reward': 1.408482313156128, 'reward_std': 0.3340590298175812, 'kl': 4.3828125, 'epoch': 0.21}
+ 21%|██        | 889/4286 [5:32:19<20:38:57, 21.88s/it] 21%|██        | 890/4286 [5:32:41<20:37:51, 21.87s/it]                                                       {'loss': 0.1749, 'grad_norm': 2.105878753729807, 'learning_rate': 7.923471768548763e-07, 'completion_length': 338.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.5736607611179352, 'rewards/format_reward': 0.9196428954601288, 'reward': 1.4933035969734192, 'reward_std': 0.40002815425395966, 'kl': 4.3828125, 'epoch': 0.21}
+ 21%|██        | 890/4286 [5:32:41<20:37:51, 21.87s/it] 21%|██        | 891/4286 [5:33:02<20:14:19, 21.46s/it]                                                       {'loss': 0.235, 'grad_norm': 2.137518803639664, 'learning_rate': 7.921138590760615e-07, 'completion_length': 313.2321472167969, 'rewards/only_full_func_accuracy_reward': 0.6279762387275696, 'rewards/format_reward': 0.910714328289032, 'reward': 1.5386906862258911, 'reward_std': 0.42969636619091034, 'kl': 5.875, 'epoch': 0.21}
+ 21%|██        | 891/4286 [5:33:02<20:14:19, 21.46s/it] 21%|██        | 892/4286 [5:33:24<20:28:32, 21.72s/it]                                                       {'loss': 0.0585, 'grad_norm': 1.9543138002998848, 'learning_rate': 7.918805412972468e-07, 'completion_length': 344.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.5788690745830536, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5699405670166016, 'reward_std': 0.10763232782483101, 'kl': 1.46484375, 'epoch': 0.21}
+ 21%|██        | 892/4286 [5:33:24<20:28:32, 21.72s/it] 21%|██        | 893/4286 [5:33:46<20:37:58, 21.89s/it]                                                       {'loss': 0.0688, 'grad_norm': 1.4642754886465916, 'learning_rate': 7.916472235184321e-07, 'completion_length': 361.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.518601194024086, 'rewards/format_reward': 0.973214328289032, 'reward': 1.4918155670166016, 'reward_std': 0.15019318833947182, 'kl': 1.7265625, 'epoch': 0.21}
+ 21%|██        | 893/4286 [5:33:46<20:37:58, 21.89s/it] 21%|██        | 894/4286 [5:34:08<20:33:34, 21.82s/it]                                                       {'loss': 0.0355, 'grad_norm': 0.9933847267420892, 'learning_rate': 7.914139057396173e-07, 'completion_length': 383.5089416503906, 'rewards/only_full_func_accuracy_reward': 0.611607164144516, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6026787161827087, 'reward_std': 0.08109752461314201, 'kl': 0.888671875, 'epoch': 0.21}
+ 21%|██        | 894/4286 [5:34:08<20:33:34, 21.82s/it] 21%|██        | 895/4286 [5:34:31<20:53:45, 22.18s/it]                                                       {'loss': 0.0426, 'grad_norm': 2.691916142618897, 'learning_rate': 7.911805879608025e-07, 'completion_length': 398.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.505208358168602, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.4784227013587952, 'reward_std': 0.12558452039957047, 'kl': 1.071533203125, 'epoch': 0.21}
+ 21%|██        | 895/4286 [5:34:31<20:53:45, 22.18s/it] 21%|██        | 896/4286 [5:34:52<20:28:26, 21.74s/it]                                                       {'loss': 0.0182, 'grad_norm': 0.7727060299067888, 'learning_rate': 7.909472701819879e-07, 'completion_length': 347.85716247558594, 'rewards/only_full_func_accuracy_reward': 0.5446428954601288, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5357143878936768, 'reward_std': 0.11158176511526108, 'kl': 0.456787109375, 'epoch': 0.21}
+ 21%|██        | 896/4286 [5:34:52<20:28:26, 21.74s/it] 21%|██        | 897/4286 [5:35:15<20:48:20, 22.10s/it]                                                       {'loss': 0.0515, 'grad_norm': 1.1544329154898034, 'learning_rate': 7.907139524031731e-07, 'completion_length': 381.9732208251953, 'rewards/only_full_func_accuracy_reward': 0.5907738208770752, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5818453431129456, 'reward_std': 0.15143557637929916, 'kl': 1.287109375, 'epoch': 0.21}
+ 21%|██        | 897/4286 [5:35:15<20:48:20, 22.10s/it] 21%|██        | 898/4286 [5:35:39<21:17:52, 22.63s/it]                                                       {'loss': 0.1039, 'grad_norm': 1.906962499876536, 'learning_rate': 7.904806346243583e-07, 'completion_length': 399.3839416503906, 'rewards/only_full_func_accuracy_reward': 0.6270833909511566, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.600297749042511, 'reward_std': 0.1962263323366642, 'kl': 2.59765625, 'epoch': 0.21}
+ 21%|██        | 898/4286 [5:35:39<21:17:52, 22.63s/it] 21%|██        | 899/4286 [5:36:00<20:50:12, 22.15s/it]                                                       {'loss': 0.1032, 'grad_norm': 1.3502764057915957, 'learning_rate': 7.902473168455436e-07, 'completion_length': 323.0535888671875, 'rewards/only_full_func_accuracy_reward': 0.7455357611179352, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7366071939468384, 'reward_std': 0.13039688114076853, 'kl': 2.58203125, 'epoch': 0.21}
+ 21%|██        | 899/4286 [5:36:00<20:50:12, 22.15s/it] 21%|██        | 900/4286 [5:36:23<21:13:37, 22.57s/it]                                                       {'loss': 0.0437, 'grad_norm': 0.8530764017527983, 'learning_rate': 7.900139990667289e-07, 'completion_length': 412.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.4449405074119568, 'rewards/format_reward': 0.973214328289032, 'reward': 1.4181548953056335, 'reward_std': 0.1618456095457077, 'kl': 1.091796875, 'epoch': 0.21}
+ 21%|██        | 900/4286 [5:36:23<21:13:37, 22.57s/it] 21%|██        | 901/4286 [5:37:34<34:52:55, 37.10s/it]                                                       {'loss': 0.0506, 'grad_norm': 1.352574936382557, 'learning_rate': 7.897806812879141e-07, 'completion_length': 400.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.5870536118745804, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.5602679252624512, 'reward_std': 0.14847781509160995, 'kl': 1.263671875, 'epoch': 0.21}
+ 21%|██        | 901/4286 [5:37:34<34:52:55, 37.10s/it] 21%|██        | 902/4286 [5:37:56<30:33:08, 32.50s/it]                                                       {'loss': 0.0676, 'grad_norm': 1.0402522239283407, 'learning_rate': 7.895473635090993e-07, 'completion_length': 347.06251525878906, 'rewards/only_full_func_accuracy_reward': 0.7775297462940216, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.7418155670166016, 'reward_std': 0.16767771914601326, 'kl': 1.69140625, 'epoch': 0.21}
+ 21%|██        | 902/4286 [5:37:56<30:33:08, 32.50s/it] 21%|██        | 903/4286 [5:38:20<28:09:20, 29.96s/it]                                                       {'loss': 0.0394, 'grad_norm': 2.5776397939075997, 'learning_rate': 7.893140457302846e-07, 'completion_length': 413.66966247558594, 'rewards/only_full_func_accuracy_reward': 0.6328869163990021, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6150299906730652, 'reward_std': 0.14349402114748955, 'kl': 0.982421875, 'epoch': 0.21}
+ 21%|██        | 903/4286 [5:38:20<28:09:20, 29.96s/it] 21%|██        | 904/4286 [5:38:42<25:53:39, 27.56s/it]                                                       {'loss': 0.0142, 'grad_norm': 1.046762976148409, 'learning_rate': 7.890807279514698e-07, 'completion_length': 382.8660888671875, 'rewards/only_full_func_accuracy_reward': 0.7061011791229248, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.69717276096344, 'reward_std': 0.0669664666056633, 'kl': 0.35595703125, 'epoch': 0.21}
+ 21%|██        | 904/4286 [5:38:42<25:53:39, 27.56s/it] 21%|██        | 905/4286 [5:39:06<24:46:03, 26.37s/it]                                                       {'loss': 0.0478, 'grad_norm': 0.9282747578637999, 'learning_rate': 7.888474101726551e-07, 'completion_length': 436.4464416503906, 'rewards/only_full_func_accuracy_reward': 0.5005952566862106, 'rewards/format_reward': 0.973214328289032, 'reward': 1.473809540271759, 'reward_std': 0.2050437182188034, 'kl': 1.1953125, 'epoch': 0.21}
+ 21%|██        | 905/4286 [5:39:06<24:46:03, 26.37s/it] 21%|██        | 906/4286 [5:39:29<23:49:27, 25.37s/it]                                                       {'loss': 0.0368, 'grad_norm': 1.4205339771661039, 'learning_rate': 7.886140923938404e-07, 'completion_length': 377.9553680419922, 'rewards/only_full_func_accuracy_reward': 0.5729167312383652, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.563988208770752, 'reward_std': 0.05206207185983658, 'kl': 0.921630859375, 'epoch': 0.21}
+ 21%|██        | 906/4286 [5:39:29<23:49:27, 25.37s/it] 21%|██        | 907/4286 [5:39:53<23:37:31, 25.17s/it]                                                       {'loss': 0.0055, 'grad_norm': 1.2656344317760801, 'learning_rate': 7.883807746150256e-07, 'completion_length': 393.25001525878906, 'rewards/only_full_func_accuracy_reward': 0.5558035671710968, 'rewards/format_reward': 1.0, 'reward': 1.555803656578064, 'reward_std': 0.05756977014243603, 'kl': 0.137939453125, 'epoch': 0.21}
+ 21%|██        | 907/4286 [5:39:53<23:37:31, 25.17s/it] 21%|██        | 908/4286 [5:40:16<22:50:21, 24.34s/it]                                                       {'loss': 0.0223, 'grad_norm': 1.1464679369138964, 'learning_rate': 7.881474568362108e-07, 'completion_length': 382.40179443359375, 'rewards/only_full_func_accuracy_reward': 0.6867559850215912, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6778274774551392, 'reward_std': 0.105744868516922, 'kl': 0.5576171875, 'epoch': 0.21}
+ 21%|██        | 908/4286 [5:40:16<22:50:21, 24.34s/it] 21%|██        | 909/4286 [5:40:39<22:29:32, 23.98s/it]                                                       {'loss': 0.0025, 'grad_norm': 0.49667038899397636, 'learning_rate': 7.879141390573962e-07, 'completion_length': 391.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.6808035969734192, 'rewards/format_reward': 1.0, 'reward': 1.680803656578064, 'reward_std': 0.026902304030954838, 'kl': 0.0623779296875, 'epoch': 0.21}
+ 21%|██        | 909/4286 [5:40:39<22:29:32, 23.98s/it] 21%|██        | 910/4286 [5:41:01<22:03:41, 23.53s/it]                                                       {'loss': 0.0286, 'grad_norm': 1.1746039383527438, 'learning_rate': 7.876808212785814e-07, 'completion_length': 352.96429443359375, 'rewards/only_full_func_accuracy_reward': 0.6227679252624512, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6049108505249023, 'reward_std': 0.07844466902315617, 'kl': 0.714599609375, 'epoch': 0.21}
+ 21%|██        | 910/4286 [5:41:01<22:03:41, 23.53s/it] 21%|██▏       | 911/4286 [5:41:22<21:09:43, 22.57s/it]                                                       {'loss': 0.0185, 'grad_norm': 0.656583123577417, 'learning_rate': 7.874475034997666e-07, 'completion_length': 320.0803680419922, 'rewards/only_full_func_accuracy_reward': 0.6352678686380386, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6263393759727478, 'reward_std': 0.11093087494373322, 'kl': 0.463134765625, 'epoch': 0.21}
+ 21%|██▏       | 911/4286 [5:41:22<21:09:43, 22.57s/it] 21%|██▏       | 912/4286 [5:41:44<21:04:52, 22.49s/it]                                                       {'loss': 0.0024, 'grad_norm': 0.5502458628991544, 'learning_rate': 7.872141857209518e-07, 'completion_length': 407.6160888671875, 'rewards/only_full_func_accuracy_reward': 0.7004465162754059, 'rewards/format_reward': 1.0, 'reward': 1.700446605682373, 'reward_std': 0.06509972922503948, 'kl': 0.0599365234375, 'epoch': 0.21}
+ 21%|██▏       | 912/4286 [5:41:44<21:04:52, 22.49s/it] 21%|██▏       | 913/4286 [5:42:08<21:26:39, 22.89s/it]                                                       {'loss': 0.0033, 'grad_norm': 0.6826264669822483, 'learning_rate': 7.869808679421372e-07, 'completion_length': 415.5982360839844, 'rewards/only_full_func_accuracy_reward': 0.5729166567325592, 'rewards/format_reward': 1.0, 'reward': 1.5729167461395264, 'reward_std': 0.030322049744427204, 'kl': 0.0830078125, 'epoch': 0.21}
+ 21%|██▏       | 913/4286 [5:42:08<21:26:39, 22.89s/it] 21%|██▏       | 914/4286 [5:42:30<21:16:45, 22.72s/it]                                                       {'loss': 0.0024, 'grad_norm': 0.6279299242038288, 'learning_rate': 7.867475501633224e-07, 'completion_length': 385.3839416503906, 'rewards/only_full_func_accuracy_reward': 0.6444940865039825, 'rewards/format_reward': 1.0, 'reward': 1.644494116306305, 'reward_std': 0.040389759466052055, 'kl': 0.0609130859375, 'epoch': 0.21}
+ 21%|██▏       | 914/4286 [5:42:30<21:16:45, 22.72s/it] 21%|██▏       | 915/4286 [5:42:52<20:58:55, 22.41s/it]                                                       {'loss': 0.0029, 'grad_norm': 0.19450798760558996, 'learning_rate': 7.865142323845076e-07, 'completion_length': 361.46429443359375, 'rewards/only_full_func_accuracy_reward': 0.491666704416275, 'rewards/format_reward': 1.0, 'reward': 1.4916667342185974, 'reward_std': 0.006883030291646719, 'kl': 0.073486328125, 'epoch': 0.21}
+ 21%|██▏       | 915/4286 [5:42:52<20:58:55, 22.41s/it] 21%|██▏       | 916/4286 [5:43:15<21:13:02, 22.67s/it]                                                       {'loss': 0.0022, 'grad_norm': 2.8652643742512383, 'learning_rate': 7.862809146056929e-07, 'completion_length': 429.5982360839844, 'rewards/only_full_func_accuracy_reward': 0.758928656578064, 'rewards/format_reward': 1.0, 'reward': 1.7589287161827087, 'reward_std': 0.08076868392527103, 'kl': 0.054443359375, 'epoch': 0.21}
+ 21%|██▏       | 916/4286 [5:43:15<21:13:02, 22.67s/it] 21%|██▏       | 917/4286 [5:43:38<21:22:03, 22.83s/it]                                                       {'loss': 0.0226, 'grad_norm': 50.54676584852364, 'learning_rate': 7.860475968268782e-07, 'completion_length': 418.06251525878906, 'rewards/only_full_func_accuracy_reward': 0.5663690567016602, 'rewards/format_reward': 1.0, 'reward': 1.5663691759109497, 'reward_std': 0.04764220677316189, 'kl': 0.564453125, 'epoch': 0.21}
+ 21%|██▏       | 917/4286 [5:43:38<21:22:03, 22.83s/it] 21%|██▏       | 918/4286 [5:44:00<21:09:25, 22.61s/it]                                                       {'loss': 0.0026, 'grad_norm': 0.9736034754456385, 'learning_rate': 7.858142790480634e-07, 'completion_length': 346.6428680419922, 'rewards/only_full_func_accuracy_reward': 0.7016369998455048, 'rewards/format_reward': 1.0, 'reward': 1.7016370296478271, 'reward_std': 0.035320243798196316, 'kl': 0.064208984375, 'epoch': 0.21}
+ 21%|██▏       | 918/4286 [5:44:00<21:09:25, 22.61s/it] 21%|██▏       | 919/4286 [5:44:22<20:59:26, 22.44s/it]                                                       {'loss': 0.0025, 'grad_norm': 0.3114178306864283, 'learning_rate': 7.855809612692487e-07, 'completion_length': 368.0089416503906, 'rewards/only_full_func_accuracy_reward': 0.6403274238109589, 'rewards/format_reward': 1.0, 'reward': 1.6403274536132812, 'reward_std': 0.018037888454273343, 'kl': 0.063720703125, 'epoch': 0.21}
+ 21%|██▏       | 919/4286 [5:44:22<20:59:26, 22.44s/it] 21%|██▏       | 920/4286 [5:44:45<20:55:21, 22.38s/it]                                                       {'loss': 0.002, 'grad_norm': 0.46576845387178106, 'learning_rate': 7.853476434904339e-07, 'completion_length': 391.75001525878906, 'rewards/only_full_func_accuracy_reward': 0.6061011850833893, 'rewards/format_reward': 1.0, 'reward': 1.6061012744903564, 'reward_std': 0.0527753634378314, 'kl': 0.0489501953125, 'epoch': 0.21}
+ 21%|██▏       | 920/4286 [5:44:45<20:55:21, 22.38s/it] 21%|██▏       | 921/4286 [5:45:07<20:56:21, 22.40s/it]                                                       {'loss': 0.003, 'grad_norm': 0.5580096609389795, 'learning_rate': 7.851143257116192e-07, 'completion_length': 390.8214569091797, 'rewards/only_full_func_accuracy_reward': 0.6875000298023224, 'rewards/format_reward': 1.0, 'reward': 1.6875001192092896, 'reward_std': 0.06932510063052177, 'kl': 0.0753173828125, 'epoch': 0.21}
+ 21%|██▏       | 921/4286 [5:45:07<20:56:21, 22.40s/it] 22%|██▏       | 922/4286 [5:45:28<20:36:03, 22.05s/it]                                                       {'loss': 0.0031, 'grad_norm': 0.3671937655141381, 'learning_rate': 7.848810079328045e-07, 'completion_length': 372.12501525878906, 'rewards/only_full_func_accuracy_reward': 0.7395833432674408, 'rewards/format_reward': 1.0, 'reward': 1.739583432674408, 'reward_std': 0.029804393649101257, 'kl': 0.0777587890625, 'epoch': 0.22}
+ 22%|██▏       | 922/4286 [5:45:28<20:36:03, 22.05s/it] 22%|██▏       | 923/4286 [5:45:51<20:51:00, 22.32s/it]                                                       {'loss': 0.0025, 'grad_norm': 0.3465583382439357, 'learning_rate': 7.846476901539897e-07, 'completion_length': 391.0268096923828, 'rewards/only_full_func_accuracy_reward': 0.5610119700431824, 'rewards/format_reward': 1.0, 'reward': 1.561012089252472, 'reward_std': 0.033520061522722244, 'kl': 0.0618896484375, 'epoch': 0.22}
+ 22%|██▏       | 923/4286 [5:45:51<20:51:00, 22.32s/it] 22%|██▏       | 924/4286 [5:46:13<20:37:49, 22.09s/it]                                                       {'loss': 0.0034, 'grad_norm': 0.3769162601282731, 'learning_rate': 7.844143723751749e-07, 'completion_length': 356.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.6659226566553116, 'rewards/format_reward': 1.0, 'reward': 1.66592276096344, 'reward_std': 0.028585223481059074, 'kl': 0.08447265625, 'epoch': 0.22}
+ 22%|██▏       | 924/4286 [5:46:13<20:37:49, 22.09s/it] 22%|██▏       | 925/4286 [5:46:34<20:24:34, 21.86s/it]                                                       {'loss': 0.0198, 'grad_norm': 1.4921415133675802, 'learning_rate': 7.841810545963601e-07, 'completion_length': 369.8660888671875, 'rewards/only_full_func_accuracy_reward': 0.5721726715564728, 'rewards/format_reward': 1.0, 'reward': 1.5721727013587952, 'reward_std': 0.05682108551263809, 'kl': 0.494140625, 'epoch': 0.22}
+ 22%|██▏       | 925/4286 [5:46:34<20:24:34, 21.86s/it] 22%|██▏       | 926/4286 [5:46:55<20:15:11, 21.70s/it]                                                       {'loss': 0.0041, 'grad_norm': 0.3870558946253442, 'learning_rate': 7.839477368175455e-07, 'completion_length': 335.5178680419922, 'rewards/only_full_func_accuracy_reward': 0.5763393044471741, 'rewards/format_reward': 1.0, 'reward': 1.5763393640518188, 'reward_std': 0.036460183560848236, 'kl': 0.102294921875, 'epoch': 0.22}
+ 22%|██▏       | 926/4286 [5:46:55<20:15:11, 21.70s/it] 22%|██▏       | 927/4286 [5:47:16<19:58:46, 21.41s/it]                                                       {'loss': 0.0025, 'grad_norm': 0.5130694793539591, 'learning_rate': 7.837144190387307e-07, 'completion_length': 338.00001525878906, 'rewards/only_full_func_accuracy_reward': 0.5505952686071396, 'rewards/format_reward': 1.0, 'reward': 1.5505953431129456, 'reward_std': 0.02227177284657955, 'kl': 0.0626220703125, 'epoch': 0.22}
+ 22%|██▏       | 927/4286 [5:47:16<19:58:46, 21.41s/it] 22%|██▏       | 928/4286 [5:47:39<20:13:53, 21.69s/it]                                                       {'loss': 0.0026, 'grad_norm': 0.42898974557384567, 'learning_rate': 7.834811012599159e-07, 'completion_length': 397.2857360839844, 'rewards/only_full_func_accuracy_reward': 0.6994048357009888, 'rewards/format_reward': 1.0, 'reward': 1.6994048953056335, 'reward_std': 0.03239127993583679, 'kl': 0.0648193359375, 'epoch': 0.22}
+ 22%|██▏       | 928/4286 [5:47:39<20:13:53, 21.69s/it] 22%|██▏       | 929/4286 [5:48:00<20:13:17, 21.69s/it]                                                       {'loss': 0.0021, 'grad_norm': 0.357059810168706, 'learning_rate': 7.832477834811012e-07, 'completion_length': 368.23216247558594, 'rewards/only_full_func_accuracy_reward': 0.6845238506793976, 'rewards/format_reward': 1.0, 'reward': 1.6845239400863647, 'reward_std': 0.02495044283568859, 'kl': 0.05126953125, 'epoch': 0.22}
+ 22%|██▏       | 929/4286 [5:48:00<20:13:17, 21.69s/it] 22%|██▏       | 930/4286 [5:48:22<20:15:53, 21.74s/it]                                                       {'loss': 0.0021, 'grad_norm': 0.2774913514710061, 'learning_rate': 7.830144657022865e-07, 'completion_length': 388.8214569091797, 'rewards/only_full_func_accuracy_reward': 0.6474703252315521, 'rewards/format_reward': 1.0, 'reward': 1.6474703550338745, 'reward_std': 0.03745982609689236, 'kl': 0.052734375, 'epoch': 0.22}
+ 22%|██▏       | 930/4286 [5:48:22<20:15:53, 21.74s/it] 22%|██▏       | 931/4286 [5:48:44<20:12:30, 21.68s/it]                                                       {'loss': 0.0027, 'grad_norm': 1.2996018854812343, 'learning_rate': 7.827811479234717e-07, 'completion_length': 345.15179443359375, 'rewards/only_full_func_accuracy_reward': 0.7482143640518188, 'rewards/format_reward': 1.0, 'reward': 1.7482144236564636, 'reward_std': 0.042401235550642014, 'kl': 0.068603515625, 'epoch': 0.22}
+ 22%|██▏       | 931/4286 [5:48:44<20:12:30, 21.68s/it] 22%|██▏       | 932/4286 [5:49:06<20:21:44, 21.86s/it]                                                       {'loss': 0.0023, 'grad_norm': 0.194459196310973, 'learning_rate': 7.82547830144657e-07, 'completion_length': 379.54466247558594, 'rewards/only_full_func_accuracy_reward': 0.6577380895614624, 'rewards/format_reward': 1.0, 'reward': 1.657738208770752, 'reward_std': 0.00841793604195118, 'kl': 0.0584716796875, 'epoch': 0.22}
+ 22%|██▏       | 932/4286 [5:49:06<20:21:44, 21.86s/it] 22%|██▏       | 933/4286 [5:49:27<20:03:00, 21.53s/it]                                                       {'loss': 0.0164, 'grad_norm': 2.4815576397950276, 'learning_rate': 7.823145123658422e-07, 'completion_length': 348.16966247558594, 'rewards/only_full_func_accuracy_reward': 0.6391369104385376, 'rewards/format_reward': 1.0, 'reward': 1.6391370296478271, 'reward_std': 0.120106291025877, 'kl': 0.407958984375, 'epoch': 0.22}
+ 22%|██▏       | 933/4286 [5:49:27<20:03:00, 21.53s/it] 22%|██▏       | 934/4286 [5:49:48<20:04:22, 21.56s/it]                                                       {'loss': 0.0021, 'grad_norm': 0.6060905237539743, 'learning_rate': 7.820811945870275e-07, 'completion_length': 377.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.6577381789684296, 'rewards/format_reward': 1.0, 'reward': 1.657738208770752, 'reward_std': 0.03346726577728987, 'kl': 0.0517578125, 'epoch': 0.22}
+ 22%|██▏       | 934/4286 [5:49:48<20:04:22, 21.56s/it] 22%|██▏       | 935/4286 [5:50:10<20:01:13, 21.51s/it]                                                       {'loss': 0.0031, 'grad_norm': 0.8477358617253523, 'learning_rate': 7.818478768082127e-07, 'completion_length': 341.1696472167969, 'rewards/only_full_func_accuracy_reward': 0.6651785671710968, 'rewards/format_reward': 1.0, 'reward': 1.6651787161827087, 'reward_std': 0.09738914668560028, 'kl': 0.07861328125, 'epoch': 0.22}
+ 22%|██▏       | 935/4286 [5:50:10<20:01:13, 21.51s/it] 22%|██▏       | 936/4286 [5:50:31<20:04:01, 21.56s/it]                                                       {'loss': 0.0132, 'grad_norm': 0.4908158223903103, 'learning_rate': 7.81614559029398e-07, 'completion_length': 384.5625305175781, 'rewards/only_full_func_accuracy_reward': 0.7455357611179352, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.736607313156128, 'reward_std': 0.06606303434818983, 'kl': 0.329345703125, 'epoch': 0.22}
+ 22%|██▏       | 936/4286 [5:50:31<20:04:01, 21.56s/it] 22%|██▏       | 937/4286 [5:50:53<20:05:27, 21.60s/it]                                                       {'loss': 0.0021, 'grad_norm': 0.2751592764934695, 'learning_rate': 7.813812412505832e-07, 'completion_length': 374.4464416503906, 'rewards/only_full_func_accuracy_reward': 0.5818452537059784, 'rewards/format_reward': 1.0, 'reward': 1.5818453431129456, 'reward_std': 0.026577072218060493, 'kl': 0.0535888671875, 'epoch': 0.22}
+ 22%|██▏       | 937/4286 [5:50:53<20:05:27, 21.60s/it] 22%|██▏       | 938/4286 [5:51:14<19:58:04, 21.47s/it]                                                       {'loss': 0.0025, 'grad_norm': 0.5316113719828562, 'learning_rate': 7.811479234717685e-07, 'completion_length': 350.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.666666716337204, 'rewards/format_reward': 1.0, 'reward': 1.6666668057441711, 'reward_std': 0.03818017989397049, 'kl': 0.0631103515625, 'epoch': 0.22}
+ 22%|██▏       | 938/4286 [5:51:14<19:58:04, 21.47s/it] 22%|██▏       | 939/4286 [5:51:36<19:54:23, 21.41s/it]                                                       {'loss': 0.0025, 'grad_norm': 0.24055205493889478, 'learning_rate': 7.809146056929538e-07, 'completion_length': 324.2410888671875, 'rewards/only_full_func_accuracy_reward': 0.7102679312229156, 'rewards/format_reward': 1.0, 'reward': 1.710267961025238, 'reward_std': 0.015407649800181389, 'kl': 0.0626220703125, 'epoch': 0.22}
+ 22%|██▏       | 939/4286 [5:51:36<19:54:23, 21.41s/it] 22%|██▏       | 940/4286 [5:51:58<20:12:29, 21.74s/it]                                                       {'loss': 0.0076, 'grad_norm': 1.3266687926071234, 'learning_rate': 7.80681287914139e-07, 'completion_length': 382.2410888671875, 'rewards/only_full_func_accuracy_reward': 0.6427083611488342, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6337798833847046, 'reward_std': 0.11564868688583374, 'kl': 0.1898193359375, 'epoch': 0.22}
+ 22%|██▏       | 940/4286 [5:51:58<20:12:29, 21.74s/it] 22%|██▏       | 941/4286 [5:52:20<20:09:58, 21.70s/it]                                                       {'loss': 0.0142, 'grad_norm': 1.058529443926987, 'learning_rate': 7.804479701353242e-07, 'completion_length': 337.7053680419922, 'rewards/only_full_func_accuracy_reward': 0.6755952537059784, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6666667461395264, 'reward_std': 0.06605818122625351, 'kl': 0.354248046875, 'epoch': 0.22}
+ 22%|██▏       | 941/4286 [5:52:20<20:09:58, 21.70s/it] 22%|██▏       | 942/4286 [5:52:42<20:12:37, 21.76s/it]                                                       {'loss': 0.0026, 'grad_norm': 0.5180317441971296, 'learning_rate': 7.802146523565096e-07, 'completion_length': 373.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.6857142746448517, 'rewards/format_reward': 1.0, 'reward': 1.6857143640518188, 'reward_std': 0.08219876885414124, 'kl': 0.066162109375, 'epoch': 0.22}
+ 22%|██▏       | 942/4286 [5:52:42<20:12:37, 21.76s/it] 22%|██▏       | 943/4286 [5:53:04<20:18:11, 21.86s/it]                                                       {'loss': 0.0024, 'grad_norm': 0.4038239898224976, 'learning_rate': 7.799813345776948e-07, 'completion_length': 375.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.6229167282581329, 'rewards/format_reward': 1.0, 'reward': 1.6229167580604553, 'reward_std': 0.03136855736374855, 'kl': 0.06103515625, 'epoch': 0.22}
+ 22%|██▏       | 943/4286 [5:53:04<20:18:11, 21.86s/it] 22%|██▏       | 944/4286 [5:53:26<20:19:10, 21.89s/it]                                                       {'loss': 0.0046, 'grad_norm': 0.41914298475528405, 'learning_rate': 7.7974801679888e-07, 'completion_length': 400.9107360839844, 'rewards/only_full_func_accuracy_reward': 0.6264881491661072, 'rewards/format_reward': 1.0, 'reward': 1.626488208770752, 'reward_std': 0.03727210499346256, 'kl': 0.1156005859375, 'epoch': 0.22}
+ 22%|██▏       | 944/4286 [5:53:26<20:19:10, 21.89s/it] 22%|██▏       | 945/4286 [5:53:48<20:25:41, 22.01s/it]                                                       {'loss': 0.002, 'grad_norm': 0.6573795400455279, 'learning_rate': 7.795146990200653e-07, 'completion_length': 391.25001525878906, 'rewards/only_full_func_accuracy_reward': 0.6475978195667267, 'rewards/format_reward': 1.0, 'reward': 1.647597849369049, 'reward_std': 0.08137583825737238, 'kl': 0.0489501953125, 'epoch': 0.22}
+ 22%|██▏       | 945/4286 [5:53:48<20:25:41, 22.01s/it] 22%|██▏       | 946/4286 [5:54:10<20:28:37, 22.07s/it]                                                       {'loss': 0.0018, 'grad_norm': 0.1756896140398638, 'learning_rate': 7.792813812412506e-07, 'completion_length': 388.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.6101190745830536, 'rewards/format_reward': 1.0, 'reward': 1.6101191639900208, 'reward_std': 0.016532503068447113, 'kl': 0.0455322265625, 'epoch': 0.22}
+ 22%|██▏       | 946/4286 [5:54:10<20:28:37, 22.07s/it] 22%|██▏       | 947/4286 [5:54:31<20:14:26, 21.82s/it]                                                       {'loss': 0.0022, 'grad_norm': 0.3151433913716978, 'learning_rate': 7.790480634624358e-07, 'completion_length': 376.8928680419922, 'rewards/only_full_func_accuracy_reward': 0.7083334028720856, 'rewards/format_reward': 1.0, 'reward': 1.708333432674408, 'reward_std': 0.08587299287319183, 'kl': 0.05517578125, 'epoch': 0.22}
+ 22%|██▏       | 947/4286 [5:54:31<20:14:26, 21.82s/it] 22%|██▏       | 948/4286 [5:54:52<19:47:55, 21.35s/it]                                                       {'loss': 0.0025, 'grad_norm': 0.600749421683038, 'learning_rate': 7.78814745683621e-07, 'completion_length': 334.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.6197916567325592, 'rewards/format_reward': 1.0, 'reward': 1.6197917461395264, 'reward_std': 0.029962027445435524, 'kl': 0.0626220703125, 'epoch': 0.22}
+ 22%|██▏       | 948/4286 [5:54:52<19:47:55, 21.35s/it] 22%|██▏       | 949/4286 [5:55:13<19:55:03, 21.49s/it]                                                       {'loss': 0.0023, 'grad_norm': 0.4161128530255338, 'learning_rate': 7.785814279048063e-07, 'completion_length': 361.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.6800595223903656, 'rewards/format_reward': 1.0, 'reward': 1.6800596714019775, 'reward_std': 0.02399473125115037, 'kl': 0.056640625, 'epoch': 0.22}
+ 22%|██▏       | 949/4286 [5:55:13<19:55:03, 21.49s/it] 22%|██▏       | 950/4286 [5:55:36<20:06:02, 21.69s/it]                                                       {'loss': 0.002, 'grad_norm': 1.2717521041201454, 'learning_rate': 7.783481101259915e-07, 'completion_length': 385.16966247558594, 'rewards/only_full_func_accuracy_reward': 0.728422611951828, 'rewards/format_reward': 1.0, 'reward': 1.7284227013587952, 'reward_std': 0.07331585325300694, 'kl': 0.0501708984375, 'epoch': 0.22}
+ 22%|██▏       | 950/4286 [5:55:36<20:06:02, 21.69s/it] 22%|██▏       | 951/4286 [5:55:59<20:28:55, 22.11s/it]                                                       {'loss': 0.0019, 'grad_norm': 0.4619670199949501, 'learning_rate': 7.781147923471768e-07, 'completion_length': 416.8214569091797, 'rewards/only_full_func_accuracy_reward': 0.7424107193946838, 'rewards/format_reward': 1.0, 'reward': 1.7424108386039734, 'reward_std': 0.054438259452581406, 'kl': 0.0465087890625, 'epoch': 0.22}
+ 22%|██▏       | 951/4286 [5:55:59<20:28:55, 22.11s/it] 22%|██▏       | 952/4286 [5:56:20<20:23:56, 22.03s/it]                                                       {'loss': 0.0106, 'grad_norm': 1.056900156165733, 'learning_rate': 7.778814745683621e-07, 'completion_length': 370.5446472167969, 'rewards/only_full_func_accuracy_reward': 0.5178571790456772, 'rewards/format_reward': 1.0, 'reward': 1.517857313156128, 'reward_std': 0.024950443767011166, 'kl': 0.2646484375, 'epoch': 0.22}
+ 22%|██▏       | 952/4286 [5:56:20<20:23:56, 22.03s/it] 22%|██▏       | 953/4286 [5:56:42<20:07:17, 21.73s/it]                                                       {'loss': 0.0023, 'grad_norm': 0.6068363330083876, 'learning_rate': 7.776481567895473e-07, 'completion_length': 358.7321472167969, 'rewards/only_full_func_accuracy_reward': 0.740327388048172, 'rewards/format_reward': 1.0, 'reward': 1.740327537059784, 'reward_std': 0.04922519810497761, 'kl': 0.0562744140625, 'epoch': 0.22}
+ 22%|██▏       | 953/4286 [5:56:42<20:07:17, 21.73s/it] 22%|██▏       | 954/4286 [5:57:04<20:25:06, 22.06s/it]                                                       {'loss': 0.013, 'grad_norm': 0.7180683435358505, 'learning_rate': 7.774148390107325e-07, 'completion_length': 389.7500305175781, 'rewards/only_full_func_accuracy_reward': 0.7236607372760773, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7147322297096252, 'reward_std': 0.083008773624897, 'kl': 0.3251953125, 'epoch': 0.22}
+ 22%|██▏       | 954/4286 [5:57:04<20:25:06, 22.06s/it] 22%|██▏       | 955/4286 [5:57:26<20:19:32, 21.97s/it]                                                       {'loss': 0.0022, 'grad_norm': 0.7431761985181946, 'learning_rate': 7.771815212319179e-07, 'completion_length': 377.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.5476190894842148, 'rewards/format_reward': 1.0, 'reward': 1.547619104385376, 'reward_std': 0.02374839596450329, 'kl': 0.05615234375, 'epoch': 0.22}
+ 22%|██▏       | 955/4286 [5:57:26<20:19:32, 21.97s/it] 22%|██▏       | 956/4286 [5:57:49<20:32:23, 22.21s/it]                                                       {'loss': 0.0186, 'grad_norm': 0.7932038350324159, 'learning_rate': 7.769482034531031e-07, 'completion_length': 373.5178680419922, 'rewards/only_full_func_accuracy_reward': 0.7529762387275696, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7440477013587952, 'reward_std': 0.06959771923720837, 'kl': 0.4656982421875, 'epoch': 0.22}
+ 22%|██▏       | 956/4286 [5:57:49<20:32:23, 22.21s/it] 22%|██▏       | 957/4286 [5:58:11<20:24:15, 22.07s/it]                                                       {'loss': 0.0138, 'grad_norm': 0.592347333057167, 'learning_rate': 7.767148856742883e-07, 'completion_length': 381.9643096923828, 'rewards/only_full_func_accuracy_reward': 0.770089328289032, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7611607909202576, 'reward_std': 0.0747840628027916, 'kl': 0.3465576171875, 'epoch': 0.22}
+ 22%|██▏       | 957/4286 [5:58:11<20:24:15, 22.07s/it] 22%|██▏       | 958/4286 [5:58:32<20:13:34, 21.88s/it]                                                       {'loss': 0.0025, 'grad_norm': 0.899172918938735, 'learning_rate': 7.764815678954735e-07, 'completion_length': 368.1250305175781, 'rewards/only_full_func_accuracy_reward': 0.5193452835083008, 'rewards/format_reward': 1.0, 'reward': 1.5193453431129456, 'reward_std': 0.0427386648952961, 'kl': 0.063720703125, 'epoch': 0.22}
+ 22%|██▏       | 958/4286 [5:58:32<20:13:34, 21.88s/it] 22%|██▏       | 959/4286 [5:58:55<20:23:16, 22.06s/it]                                                       {'loss': 0.0147, 'grad_norm': 0.9771870319652755, 'learning_rate': 7.762482501166589e-07, 'completion_length': 364.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.6098214536905289, 'rewards/format_reward': 1.0, 'reward': 1.6098215579986572, 'reward_std': 0.032763395458459854, 'kl': 0.365966796875, 'epoch': 0.22}
+ 22%|██▏       | 959/4286 [5:58:55<20:23:16, 22.06s/it] 22%|██▏       | 960/4286 [5:59:16<20:21:15, 22.03s/it]                                                       {'loss': 0.002, 'grad_norm': 0.5053555788040337, 'learning_rate': 7.760149323378441e-07, 'completion_length': 388.33038330078125, 'rewards/only_full_func_accuracy_reward': 0.6662202477455139, 'rewards/format_reward': 1.0, 'reward': 1.6662203669548035, 'reward_std': 0.0558281634002924, 'kl': 0.048828125, 'epoch': 0.22}
+ 22%|██▏       | 960/4286 [5:59:16<20:21:15, 22.03s/it] 22%|██▏       | 961/4286 [5:59:39<20:22:16, 22.06s/it]                                                       {'loss': 0.0054, 'grad_norm': 0.7150095923493798, 'learning_rate': 7.757816145590293e-07, 'completion_length': 370.9107208251953, 'rewards/only_full_func_accuracy_reward': 0.6449405252933502, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6360120177268982, 'reward_std': 0.08361126855015755, 'kl': 0.1357421875, 'epoch': 0.22}
+ 22%|██▏       | 961/4286 [5:59:39<20:22:16, 22.06s/it] 22%|██▏       | 962/4286 [6:00:02<20:40:07, 22.38s/it]                                                       {'loss': 0.0249, 'grad_norm': 1.3880303523961732, 'learning_rate': 7.755482967802146e-07, 'completion_length': 392.25001525878906, 'rewards/only_full_func_accuracy_reward': 0.6443452537059784, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.626488208770752, 'reward_std': 0.15063123404979706, 'kl': 0.62109375, 'epoch': 0.22}
+ 22%|██▏       | 962/4286 [6:00:02<20:40:07, 22.38s/it] 22%|██▏       | 963/4286 [6:00:23<20:14:22, 21.93s/it]                                                       {'loss': 0.0022, 'grad_norm': 0.3468430310680117, 'learning_rate': 7.753149790013999e-07, 'completion_length': 336.5535888671875, 'rewards/only_full_func_accuracy_reward': 0.6904762387275696, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.68154776096344, 'reward_std': 0.030622804537415504, 'kl': 0.053955078125, 'epoch': 0.22}
+ 22%|██▏       | 963/4286 [6:00:23<20:14:22, 21.93s/it] 22%|██▏       | 964/4286 [6:00:44<20:06:02, 21.78s/it]                                                       {'loss': 0.002, 'grad_norm': 0.6762010634901092, 'learning_rate': 7.750816612225851e-07, 'completion_length': 392.9732360839844, 'rewards/only_full_func_accuracy_reward': 0.542410746216774, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5334822535514832, 'reward_std': 0.10181098058819771, 'kl': 0.0491943359375, 'epoch': 0.22}
+ 22%|██▏       | 964/4286 [6:00:44<20:06:02, 21.78s/it] 23%|██▎       | 965/4286 [6:01:07<20:33:01, 22.28s/it]                                                       {'loss': 0.0018, 'grad_norm': 0.23377825210692124, 'learning_rate': 7.748483434437704e-07, 'completion_length': 393.20538330078125, 'rewards/only_full_func_accuracy_reward': 0.6299107074737549, 'rewards/format_reward': 1.0, 'reward': 1.6299108266830444, 'reward_std': 0.02116143424063921, 'kl': 0.045166015625, 'epoch': 0.23}
+ 23%|██▎       | 965/4286 [6:01:07<20:33:01, 22.28s/it] 23%|██▎       | 966/4286 [6:01:30<20:35:49, 22.33s/it]                                                       {'loss': 0.0281, 'grad_norm': 0.7733226635281895, 'learning_rate': 7.746150256649556e-07, 'completion_length': 392.6428680419922, 'rewards/only_full_func_accuracy_reward': 0.5473214387893677, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.5294644236564636, 'reward_std': 0.14059357345104218, 'kl': 0.7021484375, 'epoch': 0.23}
+ 23%|██▎       | 966/4286 [6:01:30<20:35:49, 22.33s/it] 23%|██▎       | 967/4286 [6:01:53<20:47:54, 22.56s/it]                                                       {'loss': 0.0025, 'grad_norm': 0.38904798176960775, 'learning_rate': 7.743817078861409e-07, 'completion_length': 376.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.5873512029647827, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.578422725200653, 'reward_std': 0.07310368586331606, 'kl': 0.06298828125, 'epoch': 0.23}
+ 23%|██▎       | 967/4286 [6:01:53<20:47:54, 22.56s/it] 23%|██▎       | 968/4286 [6:02:14<20:19:01, 22.04s/it]                                                       {'loss': 0.0028, 'grad_norm': 0.608260823153932, 'learning_rate': 7.741483901073262e-07, 'completion_length': 342.4018096923828, 'rewards/only_full_func_accuracy_reward': 0.7976190745830536, 'rewards/format_reward': 1.0, 'reward': 1.797619104385376, 'reward_std': 0.047827258706092834, 'kl': 0.070068359375, 'epoch': 0.23}
+ 23%|██▎       | 968/4286 [6:02:14<20:19:01, 22.04s/it] 23%|██▎       | 969/4286 [6:02:34<19:43:55, 21.42s/it]                                                       {'loss': 0.003, 'grad_norm': 0.3664464830034709, 'learning_rate': 7.739150723285114e-07, 'completion_length': 309.0803680419922, 'rewards/only_full_func_accuracy_reward': 0.6095238327980042, 'rewards/format_reward': 1.0, 'reward': 1.609523892402649, 'reward_std': 0.04401170834898949, 'kl': 0.074462890625, 'epoch': 0.23}
+ 23%|██▎       | 969/4286 [6:02:34<19:43:55, 21.42s/it] 23%|██▎       | 970/4286 [6:02:56<20:02:27, 21.76s/it]                                                       {'loss': 0.0039, 'grad_norm': 1.0986418991594722, 'learning_rate': 7.736817545496966e-07, 'completion_length': 369.3839416503906, 'rewards/only_full_func_accuracy_reward': 0.601934552192688, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5930060744285583, 'reward_std': 0.12201584875583649, 'kl': 0.097412109375, 'epoch': 0.23}
+ 23%|██▎       | 970/4286 [6:02:56<20:02:27, 21.76s/it] 23%|██▎       | 971/4286 [6:03:18<19:54:50, 21.63s/it]                                                       {'loss': 0.002, 'grad_norm': 0.5893456596119333, 'learning_rate': 7.734484367708819e-07, 'completion_length': 369.6964416503906, 'rewards/only_full_func_accuracy_reward': 0.6523809731006622, 'rewards/format_reward': 1.0, 'reward': 1.6523810625076294, 'reward_std': 0.07962998002767563, 'kl': 0.049560546875, 'epoch': 0.23}
+ 23%|██▎       | 971/4286 [6:03:18<19:54:50, 21.63s/it] 23%|██▎       | 972/4286 [6:03:40<20:10:38, 21.92s/it]                                                       {'loss': 0.0019, 'grad_norm': 0.4106236518829087, 'learning_rate': 7.732151189920672e-07, 'completion_length': 399.20538330078125, 'rewards/only_full_func_accuracy_reward': 0.6525298357009888, 'rewards/format_reward': 1.0, 'reward': 1.6525298357009888, 'reward_std': 0.060941606760025024, 'kl': 0.047119140625, 'epoch': 0.23}
+ 23%|██▎       | 972/4286 [6:03:40<20:10:38, 21.92s/it] 23%|██▎       | 973/4286 [6:04:02<20:02:57, 21.79s/it]                                                       {'loss': 0.0023, 'grad_norm': 12.394231273664472, 'learning_rate': 7.729818012132524e-07, 'completion_length': 353.12501525878906, 'rewards/only_full_func_accuracy_reward': 0.668154776096344, 'rewards/format_reward': 1.0, 'reward': 1.6681548953056335, 'reward_std': 0.03176314756274223, 'kl': 0.0577392578125, 'epoch': 0.23}
+ 23%|██▎       | 973/4286 [6:04:02<20:02:57, 21.79s/it] 23%|██▎       | 974/4286 [6:04:25<20:21:54, 22.14s/it]                                                       {'loss': 0.012, 'grad_norm': 0.8791203498152821, 'learning_rate': 7.727484834344376e-07, 'completion_length': 408.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.6678571403026581, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6589286923408508, 'reward_std': 0.1368272304534912, 'kl': 0.3009033203125, 'epoch': 0.23}
+ 23%|██▎       | 974/4286 [6:04:25<20:21:54, 22.14s/it] 23%|██▎       | 975/4286 [6:04:45<19:57:34, 21.70s/it]                                                       {'loss': 0.0044, 'grad_norm': 0.6673722630916337, 'learning_rate': 7.72515165655623e-07, 'completion_length': 347.85716247558594, 'rewards/only_full_func_accuracy_reward': 0.7391369640827179, 'rewards/format_reward': 1.0, 'reward': 1.739137053489685, 'reward_std': 0.0491340346634388, 'kl': 0.10888671875, 'epoch': 0.23}
+ 23%|██▎       | 975/4286 [6:04:45<19:57:34, 21.70s/it] 23%|██▎       | 976/4286 [6:05:09<20:26:03, 22.22s/it]                                                       {'loss': 0.0017, 'grad_norm': 0.3530790950532792, 'learning_rate': 7.722818478768082e-07, 'completion_length': 436.2410888671875, 'rewards/only_full_func_accuracy_reward': 0.7589286863803864, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7500001788139343, 'reward_std': 0.09425381198525429, 'kl': 0.0435791015625, 'epoch': 0.23}
+ 23%|██▎       | 976/4286 [6:05:09<20:26:03, 22.22s/it] 23%|██▎       | 977/4286 [6:05:33<20:49:42, 22.66s/it]                                                       {'loss': 0.0031, 'grad_norm': 0.7688612564258925, 'learning_rate': 7.720485300979934e-07, 'completion_length': 418.65179443359375, 'rewards/only_full_func_accuracy_reward': 0.5982142984867096, 'rewards/format_reward': 1.0, 'reward': 1.598214328289032, 'reward_std': 0.04471481218934059, 'kl': 0.076416015625, 'epoch': 0.23}
+ 23%|██▎       | 977/4286 [6:05:33<20:49:42, 22.66s/it] 23%|██▎       | 978/4286 [6:05:56<21:00:27, 22.86s/it]                                                       {'loss': 0.0144, 'grad_norm': 0.8726945433726436, 'learning_rate': 7.718152123191787e-07, 'completion_length': 424.9107360839844, 'rewards/only_full_func_accuracy_reward': 0.4799107313156128, 'rewards/format_reward': 1.0, 'reward': 1.4799107909202576, 'reward_std': 0.033310916274785995, 'kl': 0.3590087890625, 'epoch': 0.23}
+ 23%|██▎       | 978/4286 [6:05:56<21:00:27, 22.86s/it] 23%|██▎       | 979/4286 [6:06:20<21:21:03, 23.24s/it]                                                       {'loss': 0.002, 'grad_norm': 0.4064628083716135, 'learning_rate': 7.715818945403639e-07, 'completion_length': 407.89288330078125, 'rewards/only_full_func_accuracy_reward': 0.6517857611179352, 'rewards/format_reward': 1.0, 'reward': 1.6517857909202576, 'reward_std': 0.07875411584973335, 'kl': 0.05078125, 'epoch': 0.23}
+ 23%|██▎       | 979/4286 [6:06:20<21:21:03, 23.24s/it] 23%|██▎       | 980/4286 [6:06:43<21:15:46, 23.15s/it]                                                       {'loss': 0.0027, 'grad_norm': 0.5263381627865145, 'learning_rate': 7.713485767615492e-07, 'completion_length': 412.4464416503906, 'rewards/only_full_func_accuracy_reward': 0.4657738208770752, 'rewards/format_reward': 1.0, 'reward': 1.46577388048172, 'reward_std': 0.04772415105253458, 'kl': 0.067138671875, 'epoch': 0.23}
+ 23%|██▎       | 980/4286 [6:06:43<21:15:46, 23.15s/it] 23%|██▎       | 981/4286 [6:07:06<21:14:29, 23.14s/it]                                                       {'loss': 0.0123, 'grad_norm': 0.8894268526150029, 'learning_rate': 7.711152589827344e-07, 'completion_length': 381.5357360839844, 'rewards/only_full_func_accuracy_reward': 0.6183035969734192, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6093750596046448, 'reward_std': 0.08033936843276024, 'kl': 0.30810546875, 'epoch': 0.23}
+ 23%|██▎       | 981/4286 [6:07:06<21:14:29, 23.14s/it] 23%|██▎       | 982/4286 [6:07:28<20:56:02, 22.81s/it]                                                       {'loss': 0.0062, 'grad_norm': 0.5056989784765734, 'learning_rate': 7.708819412039197e-07, 'completion_length': 350.5357208251953, 'rewards/only_full_func_accuracy_reward': 0.665922611951828, 'rewards/format_reward': 1.0, 'reward': 1.6659227013587952, 'reward_std': 0.014731389470398426, 'kl': 0.15478515625, 'epoch': 0.23}
+ 23%|██▎       | 982/4286 [6:07:28<20:56:02, 22.81s/it] 23%|██▎       | 983/4286 [6:07:53<21:29:38, 23.43s/it]                                                       {'loss': 0.0017, 'grad_norm': 0.37608489333114387, 'learning_rate': 7.706486234251049e-07, 'completion_length': 489.5893096923828, 'rewards/only_full_func_accuracy_reward': 0.6696428954601288, 'rewards/format_reward': 1.0, 'reward': 1.6696429252624512, 'reward_std': 0.062436169013381004, 'kl': 0.0416259765625, 'epoch': 0.23}
+ 23%|██▎       | 983/4286 [6:07:53<21:29:38, 23.43s/it] 23%|██▎       | 984/4286 [6:08:15<21:13:36, 23.14s/it]                                                       {'loss': 0.0023, 'grad_norm': 0.6442347774511842, 'learning_rate': 7.704153056462902e-07, 'completion_length': 393.1428680419922, 'rewards/only_full_func_accuracy_reward': 0.5803571790456772, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.571428656578064, 'reward_std': 0.12348675355315208, 'kl': 0.056396484375, 'epoch': 0.23}
+ 23%|██▎       | 984/4286 [6:08:15<21:13:36, 23.14s/it] 23%|██▎       | 985/4286 [6:08:40<21:33:19, 23.51s/it]                                                       {'loss': 0.0023, 'grad_norm': 0.5171264473595837, 'learning_rate': 7.701819878674755e-07, 'completion_length': 433.0089416503906, 'rewards/only_full_func_accuracy_reward': 0.6748512089252472, 'rewards/format_reward': 1.0, 'reward': 1.6748512983322144, 'reward_std': 0.03900400083512068, 'kl': 0.05810546875, 'epoch': 0.23}
+ 23%|██▎       | 985/4286 [6:08:40<21:33:19, 23.51s/it] 23%|██▎       | 986/4286 [6:09:01<20:47:20, 22.68s/it]                                                       {'loss': 0.0032, 'grad_norm': 0.16974189843309193, 'learning_rate': 7.699486700886607e-07, 'completion_length': 315.6160888671875, 'rewards/only_full_func_accuracy_reward': 0.6156250238418579, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6066965460777283, 'reward_std': 0.062106892466545105, 'kl': 0.0789794921875, 'epoch': 0.23}
+ 23%|██▎       | 986/4286 [6:09:01<20:47:20, 22.68s/it] 23%|██▎       | 987/4286 [6:09:24<20:59:52, 22.91s/it]                                                       {'loss': 0.0116, 'grad_norm': 0.6854910968762838, 'learning_rate': 7.697153523098459e-07, 'completion_length': 382.60716247558594, 'rewards/only_full_func_accuracy_reward': 0.5782738327980042, 'rewards/format_reward': 1.0, 'reward': 1.5782738327980042, 'reward_std': 0.09783299826085567, 'kl': 0.2890625, 'epoch': 0.23}
+ 23%|██▎       | 987/4286 [6:09:24<20:59:52, 22.91s/it] 23%|██▎       | 988/4286 [6:09:47<20:55:24, 22.84s/it]                                                       {'loss': 0.0019, 'grad_norm': 0.5292957522528908, 'learning_rate': 7.694820345310313e-07, 'completion_length': 399.39288330078125, 'rewards/only_full_func_accuracy_reward': 0.674107164144516, 'rewards/format_reward': 1.0, 'reward': 1.6741072535514832, 'reward_std': 0.053818002343177795, 'kl': 0.04833984375, 'epoch': 0.23}
+ 23%|██▎       | 988/4286 [6:09:47<20:55:24, 22.84s/it] 23%|██▎       | 989/4286 [6:10:08<20:36:51, 22.51s/it]                                                       {'loss': 0.0193, 'grad_norm': 1.1829775617194656, 'learning_rate': 7.692487167522165e-07, 'completion_length': 386.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.5952381491661072, 'rewards/format_reward': 1.0, 'reward': 1.595238208770752, 'reward_std': 0.06253417208790779, 'kl': 0.482177734375, 'epoch': 0.23}
+ 23%|██▎       | 989/4286 [6:10:08<20:36:51, 22.51s/it] 23%|██▎       | 990/4286 [6:10:31<20:43:38, 22.64s/it]                                                       {'loss': 0.0025, 'grad_norm': 2.0201638811133, 'learning_rate': 7.690153989734017e-07, 'completion_length': 421.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.6193452775478363, 'rewards/format_reward': 1.0, 'reward': 1.6193453073501587, 'reward_std': 0.10997184924781322, 'kl': 0.0633544921875, 'epoch': 0.23}
+ 23%|██▎       | 990/4286 [6:10:31<20:43:38, 22.64s/it] 23%|██▎       | 991/4286 [6:10:55<21:02:19, 22.99s/it]                                                       {'loss': 0.003, 'grad_norm': 0.8251275226022248, 'learning_rate': 7.68782081194587e-07, 'completion_length': 415.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.6377976536750793, 'rewards/format_reward': 1.0, 'reward': 1.6377977132797241, 'reward_std': 0.04534309729933739, 'kl': 0.0753173828125, 'epoch': 0.23}
+ 23%|██▎       | 991/4286 [6:10:55<21:02:19, 22.99s/it] 23%|██▎       | 992/4286 [6:11:19<21:17:38, 23.27s/it]                                                       {'loss': 0.0024, 'grad_norm': 0.5047452782145602, 'learning_rate': 7.685487634157723e-07, 'completion_length': 439.43751525878906, 'rewards/only_full_func_accuracy_reward': 0.5863095223903656, 'rewards/format_reward': 1.0, 'reward': 1.5863096714019775, 'reward_std': 0.0729399062693119, 'kl': 0.0609130859375, 'epoch': 0.23}
+ 23%|██▎       | 992/4286 [6:11:19<21:17:38, 23.27s/it] 23%|██▎       | 993/4286 [6:11:43<21:34:18, 23.58s/it]                                                       {'loss': 0.0015, 'grad_norm': 0.19001320503962868, 'learning_rate': 7.683154456369575e-07, 'completion_length': 453.6518096923828, 'rewards/only_full_func_accuracy_reward': 0.711756020784378, 'rewards/format_reward': 1.0, 'reward': 1.7117561101913452, 'reward_std': 0.022545873653143644, 'kl': 0.0386962890625, 'epoch': 0.23}
+ 23%|██▎       | 993/4286 [6:11:43<21:34:18, 23.58s/it] 23%|██▎       | 994/4286 [6:12:07<21:32:36, 23.56s/it]                                                       {'loss': 0.0018, 'grad_norm': 0.2570801153342935, 'learning_rate': 7.680821278581427e-07, 'completion_length': 434.9018096923828, 'rewards/only_full_func_accuracy_reward': 0.646577388048172, 'rewards/format_reward': 1.0, 'reward': 1.646577537059784, 'reward_std': 0.0722365751862526, 'kl': 0.0457763671875, 'epoch': 0.23}
+ 23%|██▎       | 994/4286 [6:12:07<21:32:36, 23.56s/it] 23%|██▎       | 995/4286 [6:12:30<21:31:09, 23.54s/it]                                                       {'loss': 0.0018, 'grad_norm': 0.6435254579324948, 'learning_rate': 7.67848810079328e-07, 'completion_length': 425.4107360839844, 'rewards/only_full_func_accuracy_reward': 0.7827381789684296, 'rewards/format_reward': 1.0, 'reward': 1.782738208770752, 'reward_std': 0.0756290815770626, 'kl': 0.044189453125, 'epoch': 0.23}
+ 23%|██▎       | 995/4286 [6:12:30<21:31:09, 23.54s/it] 23%|██▎       | 996/4286 [6:12:53<21:12:18, 23.20s/it]                                                       {'loss': 0.0022, 'grad_norm': 0.3117629666576535, 'learning_rate': 7.676154923005133e-07, 'completion_length': 374.8660888671875, 'rewards/only_full_func_accuracy_reward': 0.756696492433548, 'rewards/format_reward': 1.0, 'reward': 1.7566965818405151, 'reward_std': 0.03128528129309416, 'kl': 0.0552978515625, 'epoch': 0.23}
+ 23%|██▎       | 996/4286 [6:12:53<21:12:18, 23.20s/it] 23%|██▎       | 997/4286 [6:13:16<21:14:14, 23.25s/it]                                                       {'loss': 0.0037, 'grad_norm': 0.26233166938948943, 'learning_rate': 7.673821745216985e-07, 'completion_length': 442.9018096923828, 'rewards/only_full_func_accuracy_reward': 0.7523809969425201, 'rewards/format_reward': 1.0, 'reward': 1.7523810863494873, 'reward_std': 0.014398620463907719, 'kl': 0.0926513671875, 'epoch': 0.23}
+ 23%|██▎       | 997/4286 [6:13:16<21:14:14, 23.25s/it] 23%|██▎       | 998/4286 [6:13:41<21:45:56, 23.83s/it]                                                       {'loss': 0.0015, 'grad_norm': 0.280301772005899, 'learning_rate': 7.671488567428838e-07, 'completion_length': 460.6964416503906, 'rewards/only_full_func_accuracy_reward': 0.71577388048172, 'rewards/format_reward': 1.0, 'reward': 1.7157739400863647, 'reward_std': 0.026252310257405043, 'kl': 0.037353515625, 'epoch': 0.23}
+ 23%|██▎       | 998/4286 [6:13:41<21:45:56, 23.83s/it] 23%|██▎       | 999/4286 [6:14:04<21:29:09, 23.53s/it]                                                       {'loss': 0.0029, 'grad_norm': 0.18109028232161056, 'learning_rate': 7.66915538964069e-07, 'completion_length': 402.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.5796131193637848, 'rewards/format_reward': 1.0, 'reward': 1.579613208770752, 'reward_std': 0.03222736995667219, 'kl': 0.0732421875, 'epoch': 0.23}
+ 23%|██▎       | 999/4286 [6:14:04<21:29:09, 23.53s/it] 23%|██▎       | 1000/4286 [6:14:28<21:27:08, 23.50s/it]                                                        {'loss': 0.0021, 'grad_norm': 0.27386744903663335, 'learning_rate': 7.666822211852542e-07, 'completion_length': 405.3839569091797, 'rewards/only_full_func_accuracy_reward': 0.695684552192688, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6867560744285583, 'reward_std': 0.06880217418074608, 'kl': 0.0528564453125, 'epoch': 0.23}
+ 23%|██▎       | 1000/4286 [6:14:28<21:27:08, 23.50s/it] 23%|██▎       | 1001/4286 [6:15:39<34:33:46, 37.88s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.5594375503968412, 'learning_rate': 7.664489034064396e-07, 'completion_length': 459.83038330078125, 'rewards/only_full_func_accuracy_reward': 0.6019344925880432, 'rewards/format_reward': 1.0, 'reward': 1.6019346117973328, 'reward_std': 0.03032747656106949, 'kl': 0.04248046875, 'epoch': 0.23}
+ 23%|██▎       | 1001/4286 [6:15:39<34:33:46, 37.88s/it] 23%|██▎       | 1002/4286 [6:16:02<30:27:30, 33.39s/it]                                                        {'loss': 0.0019, 'grad_norm': 0.20935231378068397, 'learning_rate': 7.662155856276248e-07, 'completion_length': 398.5089569091797, 'rewards/only_full_func_accuracy_reward': 0.7157738506793976, 'rewards/format_reward': 1.0, 'reward': 1.7157739400863647, 'reward_std': 0.03889967501163483, 'kl': 0.0462646484375, 'epoch': 0.23}
+ 23%|██▎       | 1002/4286 [6:16:02<30:27:30, 33.39s/it] 23%|██▎       | 1003/4286 [6:16:25<27:40:09, 30.34s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.1357463043574672, 'learning_rate': 7.6598226784881e-07, 'completion_length': 438.7053680419922, 'rewards/only_full_func_accuracy_reward': 0.6965773701667786, 'rewards/format_reward': 1.0, 'reward': 1.6965774893760681, 'reward_std': 0.04270205181092024, 'kl': 0.044921875, 'epoch': 0.23}
+ 23%|██▎       | 1003/4286 [6:16:25<27:40:09, 30.34s/it] 23%|██▎       | 1004/4286 [6:16:47<25:25:59, 27.90s/it]                                                        {'loss': 0.0068, 'grad_norm': 0.9598440332238429, 'learning_rate': 7.657489500699952e-07, 'completion_length': 369.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.7843750417232513, 'rewards/format_reward': 1.0, 'reward': 1.7843750715255737, 'reward_std': 0.07891003787517548, 'kl': 0.1708984375, 'epoch': 0.23}
+ 23%|██▎       | 1004/4286 [6:16:47<25:25:59, 27.90s/it] 23%|██▎       | 1005/4286 [6:17:11<24:16:49, 26.64s/it]                                                        {'loss': 0.0024, 'grad_norm': 0.17000234075440268, 'learning_rate': 7.655156322911806e-07, 'completion_length': 415.4107360839844, 'rewards/only_full_func_accuracy_reward': 0.5944940745830536, 'rewards/format_reward': 1.0, 'reward': 1.594494104385376, 'reward_std': 0.03840135969221592, 'kl': 0.059326171875, 'epoch': 0.23}
+ 23%|██▎       | 1005/4286 [6:17:11<24:16:49, 26.64s/it] 23%|██▎       | 1006/4286 [6:17:36<23:40:55, 25.99s/it]                                                        {'loss': 0.0022, 'grad_norm': 0.35955513290383684, 'learning_rate': 7.652823145123658e-07, 'completion_length': 444.20538330078125, 'rewards/only_full_func_accuracy_reward': 0.6464285850524902, 'rewards/format_reward': 1.0, 'reward': 1.646428644657135, 'reward_std': 0.07145049795508385, 'kl': 0.0552978515625, 'epoch': 0.23}
+ 23%|██▎       | 1006/4286 [6:17:36<23:40:55, 25.99s/it] 23%|██▎       | 1007/4286 [6:18:00<23:22:12, 25.66s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.18183913579621094, 'learning_rate': 7.65048996733551e-07, 'completion_length': 473.6607360839844, 'rewards/only_full_func_accuracy_reward': 0.5061012208461761, 'rewards/format_reward': 1.0, 'reward': 1.506101369857788, 'reward_std': 0.05397756211459637, 'kl': 0.04052734375, 'epoch': 0.23}
+ 23%|██▎       | 1007/4286 [6:18:00<23:22:12, 25.66s/it] 24%|██▎       | 1008/4286 [6:18:24<22:52:31, 25.12s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.14717192011489247, 'learning_rate': 7.648156789547363e-07, 'completion_length': 454.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.613095223903656, 'rewards/format_reward': 1.0, 'reward': 1.6130953431129456, 'reward_std': 0.04293649643659592, 'kl': 0.041259765625, 'epoch': 0.24}
+ 24%|██▎       | 1008/4286 [6:18:24<22:52:31, 25.12s/it] 24%|██▎       | 1009/4286 [6:18:47<22:08:03, 24.32s/it]                                                        {'loss': 0.0022, 'grad_norm': 0.45480258717670063, 'learning_rate': 7.645823611759216e-07, 'completion_length': 386.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.7187500298023224, 'rewards/format_reward': 1.0, 'reward': 1.7187501192092896, 'reward_std': 0.021044842898845673, 'kl': 0.055419921875, 'epoch': 0.24}
+ 24%|██▎       | 1009/4286 [6:18:47<22:08:03, 24.32s/it] 24%|██▎       | 1010/4286 [6:19:10<21:57:49, 24.14s/it]                                                        {'loss': 0.002, 'grad_norm': 0.5403604002854617, 'learning_rate': 7.643490433971068e-07, 'completion_length': 434.6785888671875, 'rewards/only_full_func_accuracy_reward': 0.4389881044626236, 'rewards/format_reward': 1.0, 'reward': 1.438988208770752, 'reward_std': 0.09948228299617767, 'kl': 0.049072265625, 'epoch': 0.24}
+ 24%|██▎       | 1010/4286 [6:19:10<21:57:49, 24.14s/it] 24%|██▎       | 1011/4286 [6:19:34<21:41:32, 23.85s/it]                                                        {'loss': 0.0116, 'grad_norm': 0.69641445916185, 'learning_rate': 7.641157256182921e-07, 'completion_length': 413.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.6599702835083008, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6421131491661072, 'reward_std': 0.13449032604694366, 'kl': 0.288818359375, 'epoch': 0.24}
+ 24%|██▎       | 1011/4286 [6:19:34<21:41:32, 23.85s/it] 24%|██▎       | 1012/4286 [6:19:57<21:40:31, 23.83s/it]                                                        {'loss': 0.002, 'grad_norm': 0.2476639120294743, 'learning_rate': 7.638824078394773e-07, 'completion_length': 413.81251525878906, 'rewards/only_full_func_accuracy_reward': 0.7816964983940125, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7727680206298828, 'reward_std': 0.05359957925975323, 'kl': 0.0499267578125, 'epoch': 0.24}
+ 24%|██▎       | 1012/4286 [6:19:57<21:40:31, 23.83s/it] 24%|██▎       | 1013/4286 [6:20:21<21:30:28, 23.66s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.6046030772984176, 'learning_rate': 7.636490900606626e-07, 'completion_length': 427.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.711309552192688, 'rewards/format_reward': 1.0, 'reward': 1.7113096714019775, 'reward_std': 0.049594705924391747, 'kl': 0.0423583984375, 'epoch': 0.24}
+ 24%|██▎       | 1013/4286 [6:20:21<21:30:28, 23.66s/it] 24%|██▎       | 1014/4286 [6:20:46<21:53:10, 24.08s/it]                                                        {'loss': 0.002, 'grad_norm': 0.11672475150868875, 'learning_rate': 7.634157722818479e-07, 'completion_length': 471.75001525878906, 'rewards/only_full_func_accuracy_reward': 0.568452388048172, 'rewards/format_reward': 1.0, 'reward': 1.568452537059784, 'reward_std': 0.02755417302250862, 'kl': 0.048828125, 'epoch': 0.24}
+ 24%|██▎       | 1014/4286 [6:20:46<21:53:10, 24.08s/it] 24%|██▎       | 1015/4286 [6:21:09<21:39:34, 23.84s/it]                                                        {'loss': 0.006, 'grad_norm': 1.0904123774818038, 'learning_rate': 7.631824545030331e-07, 'completion_length': 411.77679443359375, 'rewards/only_full_func_accuracy_reward': 0.682886928319931, 'rewards/format_reward': 1.0, 'reward': 1.6828870177268982, 'reward_std': 0.12919265776872635, 'kl': 0.1485595703125, 'epoch': 0.24}
+ 24%|██▎       | 1015/4286 [6:21:09<21:39:34, 23.84s/it] 24%|██▎       | 1016/4286 [6:21:31<21:15:34, 23.40s/it]                                                        {'loss': 0.0019, 'grad_norm': 0.13572067749776467, 'learning_rate': 7.629491367242183e-07, 'completion_length': 393.23216247558594, 'rewards/only_full_func_accuracy_reward': 0.6770833730697632, 'rewards/format_reward': 1.0, 'reward': 1.6770834922790527, 'reward_std': 0.012626906856894493, 'kl': 0.0478515625, 'epoch': 0.24}
+ 24%|██▎       | 1016/4286 [6:21:31<21:15:34, 23.40s/it] 24%|██▎       | 1017/4286 [6:21:56<21:27:41, 23.63s/it]                                                        {'loss': 0.0021, 'grad_norm': 0.18526274289233705, 'learning_rate': 7.627158189454036e-07, 'completion_length': 414.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.6312500536441803, 'rewards/format_reward': 1.0, 'reward': 1.6312501430511475, 'reward_std': 0.03120297286659479, 'kl': 0.0533447265625, 'epoch': 0.24}
+ 24%|██▎       | 1017/4286 [6:21:56<21:27:41, 23.63s/it] 24%|██▍       | 1018/4286 [6:22:18<21:02:51, 23.19s/it]                                                        {'loss': 0.0022, 'grad_norm': 0.36541023324479327, 'learning_rate': 7.624825011665889e-07, 'completion_length': 374.52679443359375, 'rewards/only_full_func_accuracy_reward': 0.6555059850215912, 'rewards/format_reward': 1.0, 'reward': 1.6555060744285583, 'reward_std': 0.05591095983982086, 'kl': 0.0552978515625, 'epoch': 0.24}
+ 24%|██▍       | 1018/4286 [6:22:18<21:02:51, 23.19s/it] 24%|██▍       | 1019/4286 [6:22:41<20:55:42, 23.06s/it]                                                        {'loss': 0.0019, 'grad_norm': 0.25245897434321757, 'learning_rate': 7.622491833877741e-07, 'completion_length': 389.0714569091797, 'rewards/only_full_func_accuracy_reward': 0.6627976298332214, 'rewards/format_reward': 1.0, 'reward': 1.6627976894378662, 'reward_std': 0.036899128928780556, 'kl': 0.0474853515625, 'epoch': 0.24}
+ 24%|██▍       | 1019/4286 [6:22:41<20:55:42, 23.06s/it] 24%|██▍       | 1020/4286 [6:23:03<20:48:44, 22.94s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.19094798642177874, 'learning_rate': 7.620158656089593e-07, 'completion_length': 430.46429443359375, 'rewards/only_full_func_accuracy_reward': 0.6206845641136169, 'rewards/format_reward': 1.0, 'reward': 1.6206846237182617, 'reward_std': 0.03595701418817043, 'kl': 0.0413818359375, 'epoch': 0.24}
+ 24%|██▍       | 1020/4286 [6:23:03<20:48:44, 22.94s/it] 24%|██▍       | 1021/4286 [6:23:27<21:01:39, 23.19s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.31390696514585803, 'learning_rate': 7.617825478301447e-07, 'completion_length': 444.1607360839844, 'rewards/only_full_func_accuracy_reward': 0.7485119700431824, 'rewards/format_reward': 1.0, 'reward': 1.7485119700431824, 'reward_std': 0.03273836895823479, 'kl': 0.044189453125, 'epoch': 0.24}
+ 24%|██▍       | 1021/4286 [6:23:27<21:01:39, 23.19s/it] 24%|██▍       | 1022/4286 [6:23:52<21:29:42, 23.71s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.6047706031586138, 'learning_rate': 7.615492300513299e-07, 'completion_length': 452.5982360839844, 'rewards/only_full_func_accuracy_reward': 0.5590774416923523, 'rewards/format_reward': 1.0, 'reward': 1.5590774416923523, 'reward_std': 0.08011497557163239, 'kl': 0.0460205078125, 'epoch': 0.24}
+ 24%|██▍       | 1022/4286 [6:23:52<21:29:42, 23.71s/it] 24%|██▍       | 1023/4286 [6:24:15<21:16:36, 23.47s/it]                                                        {'loss': 0.0023, 'grad_norm': 0.19597742412494795, 'learning_rate': 7.613159122725151e-07, 'completion_length': 388.85716247558594, 'rewards/only_full_func_accuracy_reward': 0.6903274059295654, 'rewards/format_reward': 1.0, 'reward': 1.6903274655342102, 'reward_std': 0.021973268128931522, 'kl': 0.0582275390625, 'epoch': 0.24}
+ 24%|██▍       | 1023/4286 [6:24:15<21:16:36, 23.47s/it] 24%|██▍       | 1024/4286 [6:24:39<21:34:30, 23.81s/it]                                                        {'loss': 0.0029, 'grad_norm': 0.4619124920455408, 'learning_rate': 7.610825944937004e-07, 'completion_length': 453.6339416503906, 'rewards/only_full_func_accuracy_reward': 0.5908801555633545, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.58195161819458, 'reward_std': 0.1163199134171009, 'kl': 0.0712890625, 'epoch': 0.24}
+ 24%|██▍       | 1024/4286 [6:24:39<21:34:30, 23.81s/it] 24%|██▍       | 1025/4286 [6:25:03<21:30:02, 23.74s/it]                                                        {'loss': 0.0019, 'grad_norm': 0.4396706850470978, 'learning_rate': 7.608492767148857e-07, 'completion_length': 420.0714416503906, 'rewards/only_full_func_accuracy_reward': 0.7581846117973328, 'rewards/format_reward': 1.0, 'reward': 1.7581846714019775, 'reward_std': 0.06980401277542114, 'kl': 0.04736328125, 'epoch': 0.24}
+ 24%|██▍       | 1025/4286 [6:25:03<21:30:02, 23.74s/it] 24%|██▍       | 1026/4286 [6:25:26<21:19:12, 23.54s/it]                                                        {'loss': 0.0024, 'grad_norm': 0.3253251278266518, 'learning_rate': 7.606159589360709e-07, 'completion_length': 369.2232208251953, 'rewards/only_full_func_accuracy_reward': 0.8215773701667786, 'rewards/format_reward': 1.0, 'reward': 1.8215774893760681, 'reward_std': 0.05734797567129135, 'kl': 0.061279296875, 'epoch': 0.24}
+ 24%|██▍       | 1026/4286 [6:25:26<21:19:12, 23.54s/it] 24%|██▍       | 1027/4286 [6:25:47<20:35:50, 22.75s/it]                                                        {'loss': 0.0032, 'grad_norm': 0.12955984131400483, 'learning_rate': 7.603826411572561e-07, 'completion_length': 347.1071472167969, 'rewards/only_full_func_accuracy_reward': 0.6577380895614624, 'rewards/format_reward': 1.0, 'reward': 1.657738208770752, 'reward_std': 0.01232259813696146, 'kl': 0.0802001953125, 'epoch': 0.24}
+ 24%|██▍       | 1027/4286 [6:25:47<20:35:50, 22.75s/it] 24%|██▍       | 1028/4286 [6:26:11<20:50:13, 23.02s/it]                                                        {'loss': 0.002, 'grad_norm': 2.0908499169150967, 'learning_rate': 7.601493233784414e-07, 'completion_length': 407.3035888671875, 'rewards/only_full_func_accuracy_reward': 0.6607142984867096, 'rewards/format_reward': 1.0, 'reward': 1.6607143878936768, 'reward_std': 0.10229403898119926, 'kl': 0.05029296875, 'epoch': 0.24}
+ 24%|██▍       | 1028/4286 [6:26:11<20:50:13, 23.02s/it] 24%|██▍       | 1029/4286 [6:26:36<21:27:29, 23.72s/it]                                                        {'loss': 0.002, 'grad_norm': 0.3018656925876151, 'learning_rate': 7.599160055996266e-07, 'completion_length': 483.26788330078125, 'rewards/only_full_func_accuracy_reward': 0.6964286267757416, 'rewards/format_reward': 1.0, 'reward': 1.6964287161827087, 'reward_std': 0.08416747115552425, 'kl': 0.05078125, 'epoch': 0.24}
+ 24%|██▍       | 1029/4286 [6:26:36<21:27:29, 23.72s/it] 24%|██▍       | 1030/4286 [6:27:00<21:34:30, 23.85s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.3892634540261972, 'learning_rate': 7.596826878208119e-07, 'completion_length': 429.4464416503906, 'rewards/only_full_func_accuracy_reward': 0.7119048237800598, 'rewards/format_reward': 1.0, 'reward': 1.7119048833847046, 'reward_std': 0.057411154732108116, 'kl': 0.0445556640625, 'epoch': 0.24}
+ 24%|██▍       | 1030/4286 [6:27:00<21:34:30, 23.85s/it] 24%|██▍       | 1031/4286 [6:27:23<21:13:20, 23.47s/it]                                                        {'loss': 0.013, 'grad_norm': 0.35207847323170766, 'learning_rate': 7.594493700419972e-07, 'completion_length': 410.31251525878906, 'rewards/only_full_func_accuracy_reward': 0.6547619104385376, 'rewards/format_reward': 1.0, 'reward': 1.6547620296478271, 'reward_std': 0.04779500141739845, 'kl': 0.326416015625, 'epoch': 0.24}
+ 24%|██▍       | 1031/4286 [6:27:23<21:13:20, 23.47s/it] 24%|██▍       | 1032/4286 [6:27:46<21:07:48, 23.38s/it]                                                        {'loss': 0.0025, 'grad_norm': 0.29113328892723644, 'learning_rate': 7.592160522631824e-07, 'completion_length': 401.12501525878906, 'rewards/only_full_func_accuracy_reward': 0.688244104385376, 'rewards/format_reward': 1.0, 'reward': 1.6882442235946655, 'reward_std': 0.0758022665977478, 'kl': 0.062255859375, 'epoch': 0.24}
+ 24%|██▍       | 1032/4286 [6:27:46<21:07:48, 23.38s/it] 24%|██▍       | 1033/4286 [6:28:10<21:26:07, 23.72s/it]                                                        {'loss': 0.0024, 'grad_norm': 0.21674543577643923, 'learning_rate': 7.589827344843676e-07, 'completion_length': 436.64288330078125, 'rewards/only_full_func_accuracy_reward': 0.6912203133106232, 'rewards/format_reward': 1.0, 'reward': 1.6912203431129456, 'reward_std': 0.054208267480134964, 'kl': 0.060546875, 'epoch': 0.24}
+ 24%|██▍       | 1033/4286 [6:28:10<21:26:07, 23.72s/it] 24%|██▍       | 1034/4286 [6:28:33<21:14:02, 23.51s/it]                                                        {'loss': 0.0034, 'grad_norm': 0.2902439430422793, 'learning_rate': 7.58749416705553e-07, 'completion_length': 386.9910888671875, 'rewards/only_full_func_accuracy_reward': 0.6748512387275696, 'rewards/format_reward': 1.0, 'reward': 1.6748513579368591, 'reward_std': 0.05093014519661665, 'kl': 0.084716796875, 'epoch': 0.24}
+ 24%|██▍       | 1034/4286 [6:28:33<21:14:02, 23.51s/it] 24%|██▍       | 1035/4286 [6:28:57<21:12:16, 23.48s/it]                                                        {'loss': 0.0023, 'grad_norm': 0.28672407448002996, 'learning_rate': 7.585160989267382e-07, 'completion_length': 433.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.7061012089252472, 'rewards/format_reward': 1.0, 'reward': 1.7061013579368591, 'reward_std': 0.023064233362674713, 'kl': 0.057373046875, 'epoch': 0.24}
+ 24%|██▍       | 1035/4286 [6:28:57<21:12:16, 23.48s/it] 24%|██▍       | 1036/4286 [6:29:21<21:17:50, 23.59s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.5031386861644302, 'learning_rate': 7.582827811479234e-07, 'completion_length': 447.70538330078125, 'rewards/only_full_func_accuracy_reward': 0.7671131789684296, 'rewards/format_reward': 1.0, 'reward': 1.767113208770752, 'reward_std': 0.08274190127849579, 'kl': 0.0423583984375, 'epoch': 0.24}
+ 24%|██▍       | 1036/4286 [6:29:21<21:17:50, 23.59s/it] 24%|██▍       | 1037/4286 [6:29:44<21:15:21, 23.55s/it]                                                        {'loss': 0.0229, 'grad_norm': 0.7265661605282181, 'learning_rate': 7.580494633691087e-07, 'completion_length': 399.6071472167969, 'rewards/only_full_func_accuracy_reward': 0.7488095462322235, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7398810982704163, 'reward_std': 0.08956193830817938, 'kl': 0.572265625, 'epoch': 0.24}
+ 24%|██▍       | 1037/4286 [6:29:44<21:15:21, 23.55s/it] 24%|██▍       | 1038/4286 [6:30:08<21:13:19, 23.52s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.2679101303117145, 'learning_rate': 7.57816145590294e-07, 'completion_length': 437.6607208251953, 'rewards/only_full_func_accuracy_reward': 0.5732143521308899, 'rewards/format_reward': 1.0, 'reward': 1.5732144117355347, 'reward_std': 0.09264812245965004, 'kl': 0.044921875, 'epoch': 0.24}
+ 24%|██▍       | 1038/4286 [6:30:08<21:13:19, 23.52s/it] 24%|██▍       | 1039/4286 [6:30:33<21:39:18, 24.01s/it]                                                        {'loss': 0.0131, 'grad_norm': 1.601009462769197, 'learning_rate': 7.575828278114792e-07, 'completion_length': 446.50001525878906, 'rewards/only_full_func_accuracy_reward': 0.625, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6160715818405151, 'reward_std': 0.11417615413665771, 'kl': 0.3260498046875, 'epoch': 0.24}
+ 24%|██▍       | 1039/4286 [6:30:33<21:39:18, 24.01s/it] 24%|██▍       | 1040/4286 [6:30:55<21:08:58, 23.46s/it]                                                        {'loss': 0.0025, 'grad_norm': 0.24177017253557892, 'learning_rate': 7.573495100326644e-07, 'completion_length': 383.3571472167969, 'rewards/only_full_func_accuracy_reward': 0.4717262089252472, 'rewards/format_reward': 1.0, 'reward': 1.4717262387275696, 'reward_std': 0.03214177396148443, 'kl': 0.0621337890625, 'epoch': 0.24}
+ 24%|██▍       | 1040/4286 [6:30:55<21:08:58, 23.46s/it] 24%|██▍       | 1041/4286 [6:31:18<21:01:24, 23.32s/it]                                                        {'loss': 0.0024, 'grad_norm': 0.35931627065477084, 'learning_rate': 7.571161922538497e-07, 'completion_length': 381.2410888671875, 'rewards/only_full_func_accuracy_reward': 0.7892486155033112, 'rewards/format_reward': 1.0, 'reward': 1.7892485857009888, 'reward_std': 0.055800603702664375, 'kl': 0.060791015625, 'epoch': 0.24}
+ 24%|██▍       | 1041/4286 [6:31:18<21:01:24, 23.32s/it] 24%|██▍       | 1042/4286 [6:31:41<20:52:30, 23.17s/it]                                                        {'loss': 0.0023, 'grad_norm': 0.44979707235671146, 'learning_rate': 7.56882874475035e-07, 'completion_length': 413.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.7008928954601288, 'rewards/format_reward': 1.0, 'reward': 1.700892984867096, 'reward_std': 0.05491050984710455, 'kl': 0.0584716796875, 'epoch': 0.24}
+ 24%|██▍       | 1042/4286 [6:31:41<20:52:30, 23.17s/it] 24%|██▍       | 1043/4286 [6:32:05<21:16:32, 23.62s/it]                                                        {'loss': 0.0049, 'grad_norm': 0.3385733142733967, 'learning_rate': 7.566495566962202e-07, 'completion_length': 452.0357360839844, 'rewards/only_full_func_accuracy_reward': 0.6351190507411957, 'rewards/format_reward': 1.0, 'reward': 1.6351191401481628, 'reward_std': 0.04217559192329645, 'kl': 0.12158203125, 'epoch': 0.24}
+ 24%|██▍       | 1043/4286 [6:32:05<21:16:32, 23.62s/it] 24%|██▍       | 1044/4286 [6:32:31<21:44:02, 24.13s/it]                                                        {'loss': 0.0023, 'grad_norm': 0.9637101329448992, 'learning_rate': 7.564162389174055e-07, 'completion_length': 433.9464569091797, 'rewards/only_full_func_accuracy_reward': 0.5416666865348816, 'rewards/format_reward': 1.0, 'reward': 1.5416666865348816, 'reward_std': 0.09471110254526138, 'kl': 0.056396484375, 'epoch': 0.24}
+ 24%|██▍       | 1044/4286 [6:32:31<21:44:02, 24.13s/it] 24%|██▍       | 1045/4286 [6:32:55<21:44:54, 24.16s/it]                                                        {'loss': 0.0042, 'grad_norm': 1.2220046504383508, 'learning_rate': 7.561829211385907e-07, 'completion_length': 442.2232360839844, 'rewards/only_full_func_accuracy_reward': 0.6697916984558105, 'rewards/format_reward': 1.0, 'reward': 1.6697917580604553, 'reward_std': 0.07447296008467674, 'kl': 0.1048583984375, 'epoch': 0.24}
+ 24%|██▍       | 1045/4286 [6:32:55<21:44:54, 24.16s/it] 24%|██▍       | 1046/4286 [6:33:17<21:17:43, 23.66s/it]                                                        {'loss': 0.0175, 'grad_norm': 2.231371759795803, 'learning_rate': 7.55949603359776e-07, 'completion_length': 363.58038330078125, 'rewards/only_full_func_accuracy_reward': 0.7169643640518188, 'rewards/format_reward': 1.0, 'reward': 1.7169644236564636, 'reward_std': 0.10570680536329746, 'kl': 0.4375, 'epoch': 0.24}
+ 24%|██▍       | 1046/4286 [6:33:17<21:17:43, 23.66s/it] 24%|██▍       | 1047/4286 [6:33:41<21:17:30, 23.66s/it]                                                        {'loss': 0.0038, 'grad_norm': 0.6181924857525789, 'learning_rate': 7.557162855809613e-07, 'completion_length': 410.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.6479166746139526, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6389882564544678, 'reward_std': 0.10725945234298706, 'kl': 0.093994140625, 'epoch': 0.24}
+ 24%|██▍       | 1047/4286 [6:33:41<21:17:30, 23.66s/it] 24%|██▍       | 1048/4286 [6:34:06<21:37:23, 24.04s/it]                                                        {'loss': 0.0198, 'grad_norm': 0.8927501932890191, 'learning_rate': 7.554829678021465e-07, 'completion_length': 431.4018096923828, 'rewards/only_full_func_accuracy_reward': 0.7373512387275696, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7284226417541504, 'reward_std': 0.10282019898295403, 'kl': 0.49462890625, 'epoch': 0.24}
+ 24%|██▍       | 1048/4286 [6:34:06<21:37:23, 24.04s/it] 24%|██▍       | 1049/4286 [6:34:28<21:02:37, 23.40s/it]                                                        {'loss': 0.0719, 'grad_norm': 2.604464889820869, 'learning_rate': 7.552496500233317e-07, 'completion_length': 351.31251525878906, 'rewards/only_full_func_accuracy_reward': 0.609375, 'rewards/format_reward': 0.955357164144516, 'reward': 1.5647322535514832, 'reward_std': 0.15420345962047577, 'kl': 1.796875, 'epoch': 0.24}
+ 24%|██▍       | 1049/4286 [6:34:28<21:02:37, 23.40s/it] 24%|██▍       | 1050/4286 [6:34:53<21:34:16, 24.00s/it]                                                        {'loss': 0.0434, 'grad_norm': 0.9576222642554088, 'learning_rate': 7.55016332244517e-07, 'completion_length': 382.7143096923828, 'rewards/only_full_func_accuracy_reward': 0.6936865448951721, 'rewards/format_reward': 0.9464285969734192, 'reward': 1.6401152610778809, 'reward_std': 0.24935780465602875, 'kl': 1.0859375, 'epoch': 0.24}
+ 24%|██▍       | 1050/4286 [6:34:53<21:34:16, 24.00s/it] 25%|██▍       | 1051/4286 [6:35:16<21:19:22, 23.73s/it]                                                        {'loss': 0.0271, 'grad_norm': 0.857135888408999, 'learning_rate': 7.547830144657023e-07, 'completion_length': 393.5714416503906, 'rewards/only_full_func_accuracy_reward': 0.5493055731058121, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.5314485430717468, 'reward_std': 0.14176372438669205, 'kl': 0.67578125, 'epoch': 0.25}
+ 25%|██▍       | 1051/4286 [6:35:16<21:19:22, 23.73s/it] 25%|██▍       | 1052/4286 [6:35:39<20:59:47, 23.37s/it]                                                        {'loss': 0.0084, 'grad_norm': 0.23738317099498124, 'learning_rate': 7.545496966868875e-07, 'completion_length': 364.12501525878906, 'rewards/only_full_func_accuracy_reward': 0.6662946939468384, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6573662161827087, 'reward_std': 0.10369361564517021, 'kl': 0.210205078125, 'epoch': 0.25}
+ 25%|██▍       | 1052/4286 [6:35:39<20:59:47, 23.37s/it] 25%|██▍       | 1053/4286 [6:36:02<20:56:29, 23.32s/it]                                                        {'loss': 0.0577, 'grad_norm': 0.9834914784231428, 'learning_rate': 7.543163789080727e-07, 'completion_length': 382.85716247558594, 'rewards/only_full_func_accuracy_reward': 0.7566964626312256, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.7299108505249023, 'reward_std': 0.14016568288207054, 'kl': 1.443359375, 'epoch': 0.25}
+ 25%|██▍       | 1053/4286 [6:36:02<20:56:29, 23.32s/it] 25%|██▍       | 1054/4286 [6:36:25<20:56:02, 23.32s/it]                                                        {'loss': 0.0087, 'grad_norm': 0.5550782670261029, 'learning_rate': 7.54083061129258e-07, 'completion_length': 409.6875305175781, 'rewards/only_full_func_accuracy_reward': 0.6921131014823914, 'rewards/format_reward': 1.0, 'reward': 1.692113220691681, 'reward_std': 0.05411042086780071, 'kl': 0.2177734375, 'epoch': 0.25}
+ 25%|██▍       | 1054/4286 [6:36:25<20:56:02, 23.32s/it] 25%|██▍       | 1055/4286 [6:36:49<21:05:03, 23.49s/it]                                                        {'loss': 0.0022, 'grad_norm': 0.6009250121967205, 'learning_rate': 7.538497433504433e-07, 'completion_length': 447.3303680419922, 'rewards/only_full_func_accuracy_reward': 0.764009416103363, 'rewards/format_reward': 1.0, 'reward': 1.764009416103363, 'reward_std': 0.0763129722326994, 'kl': 0.05419921875, 'epoch': 0.25}
+ 25%|██▍       | 1055/4286 [6:36:49<21:05:03, 23.49s/it] 25%|██▍       | 1056/4286 [6:37:15<21:31:23, 23.99s/it]                                                        {'loss': 0.0063, 'grad_norm': 0.4894949938387797, 'learning_rate': 7.536164255716285e-07, 'completion_length': 452.5625305175781, 'rewards/only_full_func_accuracy_reward': 0.6622024178504944, 'rewards/format_reward': 1.0, 'reward': 1.662202537059784, 'reward_std': 0.058120991103351116, 'kl': 0.156494140625, 'epoch': 0.25}
+ 25%|██▍       | 1056/4286 [6:37:15<21:31:23, 23.99s/it] 25%|██▍       | 1057/4286 [6:37:38<21:17:46, 23.74s/it]                                                        {'loss': 0.008, 'grad_norm': 0.5925139916446347, 'learning_rate': 7.533831077928138e-07, 'completion_length': 422.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.5370536148548126, 'rewards/format_reward': 1.0, 'reward': 1.537053644657135, 'reward_std': 0.05758816748857498, 'kl': 0.19970703125, 'epoch': 0.25}
+ 25%|██▍       | 1057/4286 [6:37:38<21:17:46, 23.74s/it] 25%|██▍       | 1058/4286 [6:38:01<21:04:51, 23.51s/it]                                                        {'loss': 0.0149, 'grad_norm': 0.4196580602606062, 'learning_rate': 7.53149790013999e-07, 'completion_length': 408.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.5182968378067017, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.4825826287269592, 'reward_std': 0.114171102643013, 'kl': 0.373046875, 'epoch': 0.25}
+ 25%|██▍       | 1058/4286 [6:38:01<21:04:51, 23.51s/it] 25%|██▍       | 1059/4286 [6:38:24<20:55:20, 23.34s/it]                                                        {'loss': 0.0022, 'grad_norm': 0.31151437068621535, 'learning_rate': 7.529164722351843e-07, 'completion_length': 417.26788330078125, 'rewards/only_full_func_accuracy_reward': 0.7232142984867096, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7142859101295471, 'reward_std': 0.08313218504190445, 'kl': 0.0546875, 'epoch': 0.25}
+ 25%|██▍       | 1059/4286 [6:38:24<20:55:20, 23.34s/it] 25%|██▍       | 1060/4286 [6:38:46<20:46:39, 23.19s/it]                                                        {'loss': 0.0023, 'grad_norm': 0.48724139641503444, 'learning_rate': 7.526831544563696e-07, 'completion_length': 388.54466247558594, 'rewards/only_full_func_accuracy_reward': 0.7351190745830536, 'rewards/format_reward': 1.0, 'reward': 1.7351191639900208, 'reward_std': 0.05586788430809975, 'kl': 0.057861328125, 'epoch': 0.25}
+ 25%|██▍       | 1060/4286 [6:38:46<20:46:39, 23.19s/it] 25%|██▍       | 1061/4286 [6:39:09<20:36:26, 23.00s/it]                                                        {'loss': 0.009, 'grad_norm': 0.5093679565068122, 'learning_rate': 7.524498366775548e-07, 'completion_length': 383.2589569091797, 'rewards/only_full_func_accuracy_reward': 0.5558035671710968, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5468751192092896, 'reward_std': 0.09204283356666565, 'kl': 0.22509765625, 'epoch': 0.25}
+ 25%|██▍       | 1061/4286 [6:39:09<20:36:26, 23.00s/it] 25%|██▍       | 1062/4286 [6:39:33<20:47:59, 23.23s/it]                                                        {'loss': 0.0173, 'grad_norm': 0.4939937989632157, 'learning_rate': 7.5221651889874e-07, 'completion_length': 408.2232360839844, 'rewards/only_full_func_accuracy_reward': 0.6321428716182709, 'rewards/format_reward': 1.0, 'reward': 1.632142961025238, 'reward_std': 0.06488887220621109, 'kl': 0.43310546875, 'epoch': 0.25}
+ 25%|██▍       | 1062/4286 [6:39:33<20:47:59, 23.23s/it] 25%|██▍       | 1063/4286 [6:39:56<20:48:23, 23.24s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.1937669572859378, 'learning_rate': 7.519832011199253e-07, 'completion_length': 417.3125305175781, 'rewards/only_full_func_accuracy_reward': 0.6480655372142792, 'rewards/format_reward': 1.0, 'reward': 1.6480655670166016, 'reward_std': 0.0762790646404028, 'kl': 0.040771484375, 'epoch': 0.25}
+ 25%|██▍       | 1063/4286 [6:39:56<20:48:23, 23.24s/it] 25%|██▍       | 1064/4286 [6:40:19<20:38:23, 23.06s/it]                                                        {'loss': 0.0108, 'grad_norm': 0.7390340068774117, 'learning_rate': 7.517498833411106e-07, 'completion_length': 378.6518096923828, 'rewards/only_full_func_accuracy_reward': 0.7328869998455048, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7239584922790527, 'reward_std': 0.11611419916152954, 'kl': 0.27001953125, 'epoch': 0.25}
+ 25%|██▍       | 1064/4286 [6:40:19<20:38:23, 23.06s/it] 25%|██▍       | 1065/4286 [6:40:41<20:33:59, 22.99s/it]                                                        {'loss': 0.0112, 'grad_norm': 1.180426535155031, 'learning_rate': 7.515165655622958e-07, 'completion_length': 374.5535888671875, 'rewards/only_full_func_accuracy_reward': 0.611607164144516, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.602678656578064, 'reward_std': 0.06851507909595966, 'kl': 0.2794189453125, 'epoch': 0.25}
+ 25%|██▍       | 1065/4286 [6:40:41<20:33:59, 22.99s/it] 25%|██▍       | 1066/4286 [6:41:04<20:33:48, 22.99s/it]                                                        {'loss': 0.0045, 'grad_norm': 0.4574164565363042, 'learning_rate': 7.51283247783481e-07, 'completion_length': 377.9285888671875, 'rewards/only_full_func_accuracy_reward': 0.4687500447034836, 'rewards/format_reward': 1.0, 'reward': 1.4687501192092896, 'reward_std': 0.04922715947031975, 'kl': 0.11181640625, 'epoch': 0.25}
+ 25%|██▍       | 1066/4286 [6:41:04<20:33:48, 22.99s/it] 25%|██▍       | 1067/4286 [6:41:28<20:45:21, 23.21s/it]                                                        {'loss': 0.0035, 'grad_norm': 0.26814431343971074, 'learning_rate': 7.510499300046664e-07, 'completion_length': 397.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.7008928954601288, 'rewards/format_reward': 1.0, 'reward': 1.700892984867096, 'reward_std': 0.05954594165086746, 'kl': 0.087158203125, 'epoch': 0.25}
+ 25%|██▍       | 1067/4286 [6:41:28<20:45:21, 23.21s/it] 25%|██▍       | 1068/4286 [6:41:51<20:42:10, 23.16s/it]                                                        {'loss': 0.0105, 'grad_norm': 0.9382007843677446, 'learning_rate': 7.508166122258516e-07, 'completion_length': 407.0178680419922, 'rewards/only_full_func_accuracy_reward': 0.7078869342803955, 'rewards/format_reward': 1.0, 'reward': 1.7078869938850403, 'reward_std': 0.05871081165969372, 'kl': 0.26318359375, 'epoch': 0.25}
+ 25%|██▍       | 1068/4286 [6:41:51<20:42:10, 23.16s/it] 25%|██▍       | 1069/4286 [6:42:14<20:30:00, 22.94s/it]                                                        {'loss': 0.003, 'grad_norm': 0.14490301421524776, 'learning_rate': 7.505832944470368e-07, 'completion_length': 376.8125305175781, 'rewards/only_full_func_accuracy_reward': 0.6860119700431824, 'rewards/format_reward': 1.0, 'reward': 1.6860120296478271, 'reward_std': 0.0042089722119271755, 'kl': 0.073974609375, 'epoch': 0.25}
+ 25%|██▍       | 1069/4286 [6:42:14<20:30:00, 22.94s/it] 25%|██▍       | 1070/4286 [6:42:37<20:31:54, 22.98s/it]                                                        {'loss': 0.0026, 'grad_norm': 0.26437011076471406, 'learning_rate': 7.503499766682221e-07, 'completion_length': 382.70538330078125, 'rewards/only_full_func_accuracy_reward': 0.6190476417541504, 'rewards/format_reward': 1.0, 'reward': 1.61904776096344, 'reward_std': 0.06547674164175987, 'kl': 0.06396484375, 'epoch': 0.25}
+ 25%|██▍       | 1070/4286 [6:42:37<20:31:54, 22.98s/it] 25%|██▍       | 1071/4286 [6:42:59<20:23:38, 22.84s/it]                                                        {'loss': 0.0029, 'grad_norm': 0.39739248744214295, 'learning_rate': 7.501166588894074e-07, 'completion_length': 393.8571472167969, 'rewards/only_full_func_accuracy_reward': 0.7224702537059784, 'rewards/format_reward': 1.0, 'reward': 1.7224703431129456, 'reward_std': 0.039355386048555374, 'kl': 0.071533203125, 'epoch': 0.25}
+ 25%|██▍       | 1071/4286 [6:42:59<20:23:38, 22.84s/it] 25%|██▌       | 1072/4286 [6:43:22<20:22:55, 22.83s/it]                                                        {'loss': 0.0323, 'grad_norm': 0.7397240459934663, 'learning_rate': 7.498833411105926e-07, 'completion_length': 391.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.6830357611179352, 'rewards/format_reward': 1.0, 'reward': 1.6830358505249023, 'reward_std': 0.09604886174201965, 'kl': 0.810302734375, 'epoch': 0.25}
+ 25%|██▌       | 1072/4286 [6:43:22<20:22:55, 22.83s/it] 25%|██▌       | 1073/4286 [6:43:45<20:29:40, 22.96s/it]                                                        {'loss': 0.0073, 'grad_norm': 0.7813129574978981, 'learning_rate': 7.496500233317778e-07, 'completion_length': 409.3125305175781, 'rewards/only_full_func_accuracy_reward': 0.6794643104076385, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6705358624458313, 'reward_std': 0.052642833441495895, 'kl': 0.183349609375, 'epoch': 0.25}
+ 25%|██▌       | 1073/4286 [6:43:45<20:29:40, 22.96s/it] 25%|██▌       | 1074/4286 [6:44:08<20:32:07, 23.02s/it]                                                        {'loss': 0.0045, 'grad_norm': 0.860136154790976, 'learning_rate': 7.494167055529631e-07, 'completion_length': 411.6964569091797, 'rewards/only_full_func_accuracy_reward': 0.7410714626312256, 'rewards/format_reward': 1.0, 'reward': 1.7410715222358704, 'reward_std': 0.0502625647932291, 'kl': 0.111328125, 'epoch': 0.25}
+ 25%|██▌       | 1074/4286 [6:44:08<20:32:07, 23.02s/it] 25%|██▌       | 1075/4286 [6:44:31<20:17:23, 22.75s/it]                                                        {'loss': 0.0067, 'grad_norm': 1.0047719647815498, 'learning_rate': 7.491833877741483e-07, 'completion_length': 349.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.7224703133106232, 'rewards/format_reward': 1.0, 'reward': 1.7224703431129456, 'reward_std': 0.07182822749018669, 'kl': 0.16796875, 'epoch': 0.25}
+ 25%|██▌       | 1075/4286 [6:44:31<20:17:23, 22.75s/it] 25%|██▌       | 1076/4286 [6:44:54<20:25:24, 22.90s/it]                                                        {'loss': 0.0165, 'grad_norm': 0.5330546753008689, 'learning_rate': 7.489500699953336e-07, 'completion_length': 416.2857360839844, 'rewards/only_full_func_accuracy_reward': 0.6194940507411957, 'rewards/format_reward': 0.973214328289032, 'reward': 1.5927085280418396, 'reward_std': 0.1042502298951149, 'kl': 0.4130859375, 'epoch': 0.25}
+ 25%|██▌       | 1076/4286 [6:44:54<20:25:24, 22.90s/it] 25%|██▌       | 1077/4286 [6:45:16<20:07:12, 22.57s/it]                                                        {'loss': 0.0049, 'grad_norm': 0.7215274523552261, 'learning_rate': 7.487167522165189e-07, 'completion_length': 386.50001525878906, 'rewards/only_full_func_accuracy_reward': 0.6145833432674408, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6056548953056335, 'reward_std': 0.09511164017021656, 'kl': 0.121826171875, 'epoch': 0.25}
+ 25%|██▌       | 1077/4286 [6:45:16<20:07:12, 22.57s/it] 25%|██▌       | 1078/4286 [6:45:39<20:11:46, 22.66s/it]                                                        {'loss': 0.0036, 'grad_norm': 0.3351025121653001, 'learning_rate': 7.484834344377041e-07, 'completion_length': 390.7589416503906, 'rewards/only_full_func_accuracy_reward': 0.6924107372760773, 'rewards/format_reward': 1.0, 'reward': 1.6924108266830444, 'reward_std': 0.04907821025699377, 'kl': 0.08984375, 'epoch': 0.25}
+ 25%|██▌       | 1078/4286 [6:45:39<20:11:46, 22.66s/it] 25%|██▌       | 1079/4286 [6:46:01<20:06:49, 22.58s/it]                                                        {'loss': 0.0046, 'grad_norm': 1.503219583426767, 'learning_rate': 7.482501166588893e-07, 'completion_length': 362.8660888671875, 'rewards/only_full_func_accuracy_reward': 0.753571480512619, 'rewards/format_reward': 1.0, 'reward': 1.7535715103149414, 'reward_std': 0.11757728457450867, 'kl': 0.114990234375, 'epoch': 0.25}
+ 25%|██▌       | 1079/4286 [6:46:01<20:06:49, 22.58s/it] 25%|██▌       | 1080/4286 [6:46:24<20:16:28, 22.77s/it]                                                        {'loss': 0.0103, 'grad_norm': 0.6390362600382153, 'learning_rate': 7.480167988800747e-07, 'completion_length': 392.7143096923828, 'rewards/only_full_func_accuracy_reward': 0.630952388048172, 'rewards/format_reward': 0.973214328289032, 'reward': 1.6041667461395264, 'reward_std': 0.1545899659395218, 'kl': 0.2578125, 'epoch': 0.25}
+ 25%|██▌       | 1080/4286 [6:46:24<20:16:28, 22.77s/it] 25%|██▌       | 1081/4286 [6:46:47<20:21:29, 22.87s/it]                                                        {'loss': 0.0168, 'grad_norm': 0.8339421165671034, 'learning_rate': 7.477834811012599e-07, 'completion_length': 379.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.75, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.7142857909202576, 'reward_std': 0.15739810839295387, 'kl': 0.41943359375, 'epoch': 0.25}
+ 25%|██▌       | 1081/4286 [6:46:47<20:21:29, 22.87s/it] 25%|██▌       | 1082/4286 [6:47:09<19:59:45, 22.47s/it]                                                        {'loss': 0.0045, 'grad_norm': 0.6587885523420057, 'learning_rate': 7.475501633224451e-07, 'completion_length': 355.7857360839844, 'rewards/only_full_func_accuracy_reward': 0.642857164144516, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6339287161827087, 'reward_std': 0.10129829123616219, 'kl': 0.1123046875, 'epoch': 0.25}
+ 25%|██▌       | 1082/4286 [6:47:09<19:59:45, 22.47s/it] 25%|██▌       | 1083/4286 [6:47:32<20:11:16, 22.69s/it]                                                        {'loss': 0.0052, 'grad_norm': 0.5303816658225314, 'learning_rate': 7.473168455436303e-07, 'completion_length': 415.2857360839844, 'rewards/only_full_func_accuracy_reward': 0.6453869342803955, 'rewards/format_reward': 1.0, 'reward': 1.645387053489685, 'reward_std': 0.11638648435473442, 'kl': 0.130859375, 'epoch': 0.25}
+ 25%|██▌       | 1083/4286 [6:47:32<20:11:16, 22.69s/it] 25%|██▌       | 1084/4286 [6:47:55<20:10:00, 22.67s/it]                                                        {'loss': 0.0587, 'grad_norm': 1.8613866779830324, 'learning_rate': 7.470835277648157e-07, 'completion_length': 373.46429443359375, 'rewards/only_full_func_accuracy_reward': 0.615228146314621, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.579513967037201, 'reward_std': 0.2456415519118309, 'kl': 1.46875, 'epoch': 0.25}
+ 25%|██▌       | 1084/4286 [6:47:55<20:10:00, 22.67s/it] 25%|██▌       | 1085/4286 [6:48:18<20:13:49, 22.75s/it]                                                        {'loss': 0.0074, 'grad_norm': 0.4693127916383734, 'learning_rate': 7.468502099860009e-07, 'completion_length': 387.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.7093962728977203, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7004678845405579, 'reward_std': 0.08831145986914635, 'kl': 0.1868896484375, 'epoch': 0.25}
+ 25%|██▌       | 1085/4286 [6:48:18<20:13:49, 22.75s/it] 25%|██▌       | 1086/4286 [6:48:42<20:46:15, 23.37s/it]                                                        {'loss': 0.0243, 'grad_norm': 0.8035216280036324, 'learning_rate': 7.466168922071861e-07, 'completion_length': 425.9732208251953, 'rewards/only_full_func_accuracy_reward': 0.65667524933815, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.6209610104560852, 'reward_std': 0.1837569922208786, 'kl': 0.607421875, 'epoch': 0.25}
+ 25%|██▌       | 1086/4286 [6:48:42<20:46:15, 23.37s/it] 25%|██▌       | 1087/4286 [6:49:07<21:02:38, 23.68s/it]                                                        {'loss': 0.0029, 'grad_norm': 0.8519932229069769, 'learning_rate': 7.463835744283714e-07, 'completion_length': 467.08038330078125, 'rewards/only_full_func_accuracy_reward': 0.6629464328289032, 'rewards/format_reward': 1.0, 'reward': 1.6629465222358704, 'reward_std': 0.05102826654911041, 'kl': 0.072998046875, 'epoch': 0.25}
+ 25%|██▌       | 1087/4286 [6:49:07<21:02:38, 23.68s/it] 25%|██▌       | 1088/4286 [6:49:30<20:48:34, 23.43s/it]                                                        {'loss': 0.0151, 'grad_norm': 0.5879158490325088, 'learning_rate': 7.461502566495567e-07, 'completion_length': 384.48216247558594, 'rewards/only_full_func_accuracy_reward': 0.7373512089252472, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.72842276096344, 'reward_std': 0.13099917396903038, 'kl': 0.378173828125, 'epoch': 0.25}
+ 25%|██▌       | 1088/4286 [6:49:30<20:48:34, 23.43s/it] 25%|██▌       | 1089/4286 [6:49:51<20:19:31, 22.89s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.4877433074862098, 'learning_rate': 7.459169388707419e-07, 'completion_length': 377.8928680419922, 'rewards/only_full_func_accuracy_reward': 0.70014888048172, 'rewards/format_reward': 1.0, 'reward': 1.70014888048172, 'reward_std': 0.03203168697655201, 'kl': 0.0460205078125, 'epoch': 0.25}
+ 25%|██▌       | 1089/4286 [6:49:51<20:19:31, 22.89s/it] 25%|██▌       | 1090/4286 [6:50:16<20:42:21, 23.32s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.3956334506411892, 'learning_rate': 7.456836210919272e-07, 'completion_length': 461.5982360839844, 'rewards/only_full_func_accuracy_reward': 0.6361607611179352, 'rewards/format_reward': 1.0, 'reward': 1.6361608505249023, 'reward_std': 0.07014217041432858, 'kl': 0.03955078125, 'epoch': 0.25}
+ 25%|██▌       | 1090/4286 [6:50:16<20:42:21, 23.32s/it] 25%|██▌       | 1091/4286 [6:50:41<21:13:30, 23.92s/it]                                                        {'loss': 0.0023, 'grad_norm': 0.5327307579499863, 'learning_rate': 7.454503033131124e-07, 'completion_length': 436.9464416503906, 'rewards/only_full_func_accuracy_reward': 0.5342262387275696, 'rewards/format_reward': 1.0, 'reward': 1.5342262983322144, 'reward_std': 0.06216899864375591, 'kl': 0.056884765625, 'epoch': 0.25}
+ 25%|██▌       | 1091/4286 [6:50:41<21:13:30, 23.92s/it] 25%|██▌       | 1092/4286 [6:51:05<21:12:45, 23.91s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.16454552176082626, 'learning_rate': 7.452169855342977e-07, 'completion_length': 445.1250305175781, 'rewards/only_full_func_accuracy_reward': 0.7693452835083008, 'rewards/format_reward': 1.0, 'reward': 1.7693454027175903, 'reward_std': 0.020788748748600483, 'kl': 0.040283203125, 'epoch': 0.25}
+ 25%|██▌       | 1092/4286 [6:51:05<21:12:45, 23.91s/it] 26%|██▌       | 1093/4286 [6:51:29<21:18:53, 24.03s/it]                                                        {'loss': 0.002, 'grad_norm': 0.3799050367698368, 'learning_rate': 7.44983667755483e-07, 'completion_length': 456.74110412597656, 'rewards/only_full_func_accuracy_reward': 0.5843750387430191, 'rewards/format_reward': 1.0, 'reward': 1.5843750834465027, 'reward_std': 0.05929590668529272, 'kl': 0.05078125, 'epoch': 0.26}
+ 26%|██▌       | 1093/4286 [6:51:29<21:18:53, 24.03s/it] 26%|██▌       | 1094/4286 [6:51:52<20:59:24, 23.67s/it]                                                        {'loss': 0.002, 'grad_norm': 0.44574807553895424, 'learning_rate': 7.447503499766682e-07, 'completion_length': 378.91966247558594, 'rewards/only_full_func_accuracy_reward': 0.7105655074119568, 'rewards/format_reward': 1.0, 'reward': 1.7105655670166016, 'reward_std': 0.058122310787439346, 'kl': 0.0509033203125, 'epoch': 0.26}
+ 26%|██▌       | 1094/4286 [6:51:52<20:59:24, 23.67s/it] 26%|██▌       | 1095/4286 [6:52:16<20:59:29, 23.68s/it]                                                        {'loss': 0.0161, 'grad_norm': 1.0502001385716155, 'learning_rate': 7.445170321978534e-07, 'completion_length': 395.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.588541716337204, 'rewards/format_reward': 1.0, 'reward': 1.5885417461395264, 'reward_std': 0.03466016240417957, 'kl': 0.401611328125, 'epoch': 0.26}
+ 26%|██▌       | 1095/4286 [6:52:16<20:59:29, 23.68s/it] 26%|██▌       | 1096/4286 [6:52:41<21:20:14, 24.08s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.1904739280243929, 'learning_rate': 7.442837144190387e-07, 'completion_length': 464.5178680419922, 'rewards/only_full_func_accuracy_reward': 0.6904762089252472, 'rewards/format_reward': 1.0, 'reward': 1.6904763579368591, 'reward_std': 0.030461275950074196, 'kl': 0.039306640625, 'epoch': 0.26}
+ 26%|██▌       | 1096/4286 [6:52:41<21:20:14, 24.08s/it] 26%|██▌       | 1097/4286 [6:53:05<21:26:45, 24.21s/it]                                                        {'loss': 0.0019, 'grad_norm': 0.34460955479837463, 'learning_rate': 7.44050396640224e-07, 'completion_length': 475.48216247558594, 'rewards/only_full_func_accuracy_reward': 0.5781250298023224, 'rewards/format_reward': 1.0, 'reward': 1.5781251788139343, 'reward_std': 0.033525653183460236, 'kl': 0.046875, 'epoch': 0.26}
+ 26%|██▌       | 1097/4286 [6:53:05<21:26:45, 24.21s/it] 26%|██▌       | 1098/4286 [6:53:30<21:34:39, 24.37s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.17580942046418702, 'learning_rate': 7.438170788614092e-07, 'completion_length': 486.3839416503906, 'rewards/only_full_func_accuracy_reward': 0.551339328289032, 'rewards/format_reward': 1.0, 'reward': 1.5513394474983215, 'reward_std': 0.022997640073299408, 'kl': 0.0401611328125, 'epoch': 0.26}
+ 26%|██▌       | 1098/4286 [6:53:30<21:34:39, 24.37s/it] 26%|██▌       | 1099/4286 [6:53:55<21:44:13, 24.55s/it]                                                        {'loss': 0.0022, 'grad_norm': 1.011603624083241, 'learning_rate': 7.435837610825944e-07, 'completion_length': 451.9018096923828, 'rewards/only_full_func_accuracy_reward': 0.6580357551574707, 'rewards/format_reward': 1.0, 'reward': 1.6580358147621155, 'reward_std': 0.0406158771365881, 'kl': 0.0538330078125, 'epoch': 0.26}
+ 26%|██▌       | 1099/4286 [6:53:55<21:44:13, 24.55s/it] 26%|██▌       | 1100/4286 [6:54:19<21:43:52, 24.56s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.2973287541455277, 'learning_rate': 7.433504433037798e-07, 'completion_length': 466.65179443359375, 'rewards/only_full_func_accuracy_reward': 0.556547611951828, 'rewards/format_reward': 1.0, 'reward': 1.5565477013587952, 'reward_std': 0.05235771834850311, 'kl': 0.0435791015625, 'epoch': 0.26}
+ 26%|██▌       | 1100/4286 [6:54:19<21:43:52, 24.56s/it] 26%|██▌       | 1101/4286 [6:55:32<34:21:54, 38.84s/it]                                                        {'loss': 0.0021, 'grad_norm': 0.15076102893820503, 'learning_rate': 7.43117125524965e-07, 'completion_length': 413.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.5870536267757416, 'rewards/format_reward': 1.0, 'reward': 1.5870537161827087, 'reward_std': 0.0063134534284472466, 'kl': 0.0518798828125, 'epoch': 0.26}
+ 26%|██▌       | 1101/4286 [6:55:32<34:21:54, 38.84s/it] 26%|██▌       | 1102/4286 [6:55:54<29:58:01, 33.88s/it]                                                        {'loss': 0.002, 'grad_norm': 0.31573850444402995, 'learning_rate': 7.428838077461502e-07, 'completion_length': 371.70538330078125, 'rewards/only_full_func_accuracy_reward': 0.7023809552192688, 'rewards/format_reward': 1.0, 'reward': 1.7023810744285583, 'reward_std': 0.018483899533748627, 'kl': 0.05078125, 'epoch': 0.26}
+ 26%|██▌       | 1102/4286 [6:55:54<29:58:01, 33.88s/it] 26%|██▌       | 1103/4286 [6:56:18<27:26:07, 31.03s/it]                                                        {'loss': 0.0023, 'grad_norm': 1.091546023298422, 'learning_rate': 7.426504899673355e-07, 'completion_length': 446.24110412597656, 'rewards/only_full_func_accuracy_reward': 0.7098214626312256, 'rewards/format_reward': 1.0, 'reward': 1.7098215818405151, 'reward_std': 0.09213187359273434, 'kl': 0.0587158203125, 'epoch': 0.26}
+ 26%|██▌       | 1103/4286 [6:56:18<27:26:07, 31.03s/it] 26%|██▌       | 1104/4286 [6:56:41<25:16:42, 28.60s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.33074338083041704, 'learning_rate': 7.424171721885207e-07, 'completion_length': 399.2946472167969, 'rewards/only_full_func_accuracy_reward': 0.7016369104385376, 'rewards/format_reward': 1.0, 'reward': 1.7016369700431824, 'reward_std': 0.03855304792523384, 'kl': 0.04052734375, 'epoch': 0.26}
+ 26%|██▌       | 1104/4286 [6:56:41<25:16:42, 28.60s/it] 26%|██▌       | 1105/4286 [6:57:03<23:27:30, 26.55s/it]                                                        {'loss': 0.0025, 'grad_norm': 0.31477190853400305, 'learning_rate': 7.42183854409706e-07, 'completion_length': 332.83038330078125, 'rewards/only_full_func_accuracy_reward': 0.6577381491661072, 'rewards/format_reward': 1.0, 'reward': 1.657738208770752, 'reward_std': 0.03457163739949465, 'kl': 0.062255859375, 'epoch': 0.26}
+ 26%|██▌       | 1105/4286 [6:57:03<23:27:30, 26.55s/it] 26%|██▌       | 1106/4286 [6:57:26<22:37:08, 25.61s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.222177316795846, 'learning_rate': 7.419505366308912e-07, 'completion_length': 392.02679443359375, 'rewards/only_full_func_accuracy_reward': 0.5453869104385376, 'rewards/format_reward': 1.0, 'reward': 1.5453869700431824, 'reward_std': 0.03143697511404753, 'kl': 0.04541015625, 'epoch': 0.26}
+ 26%|██▌       | 1106/4286 [6:57:26<22:37:08, 25.61s/it] 26%|██▌       | 1107/4286 [6:57:50<22:07:28, 25.05s/it]                                                        {'loss': 0.0021, 'grad_norm': 0.5713459720821898, 'learning_rate': 7.417172188520765e-07, 'completion_length': 401.6518096923828, 'rewards/only_full_func_accuracy_reward': 0.5937500298023224, 'rewards/format_reward': 1.0, 'reward': 1.5937500596046448, 'reward_std': 0.10927666164934635, 'kl': 0.0523681640625, 'epoch': 0.26}
+ 26%|██▌       | 1107/4286 [6:57:50<22:07:28, 25.05s/it] 26%|██▌       | 1108/4286 [6:58:13<21:25:10, 24.26s/it]                                                        {'loss': 0.0028, 'grad_norm': 0.11366033557444523, 'learning_rate': 7.414839010732617e-07, 'completion_length': 369.7143096923828, 'rewards/only_full_func_accuracy_reward': 0.640625, 'rewards/format_reward': 1.0, 'reward': 1.6406251192092896, 'reward_std': 0.0030806497670710087, 'kl': 0.0709228515625, 'epoch': 0.26}
+ 26%|██▌       | 1108/4286 [6:58:13<21:25:10, 24.26s/it] 26%|██▌       | 1109/4286 [6:58:35<20:59:07, 23.78s/it]                                                        {'loss': 0.0102, 'grad_norm': 0.262084940686986, 'learning_rate': 7.41250583294447e-07, 'completion_length': 387.4643096923828, 'rewards/only_full_func_accuracy_reward': 0.738839328289032, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7299107909202576, 'reward_std': 0.06010666489601135, 'kl': 0.25537109375, 'epoch': 0.26}
+ 26%|██▌       | 1109/4286 [6:58:35<20:59:07, 23.78s/it] 26%|██▌       | 1110/4286 [6:58:59<20:53:45, 23.69s/it]                                                        {'loss': 0.0076, 'grad_norm': 0.570482374765604, 'learning_rate': 7.410172655156323e-07, 'completion_length': 411.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.6361607611179352, 'rewards/format_reward': 1.0, 'reward': 1.6361609101295471, 'reward_std': 0.03156726714223623, 'kl': 0.1884765625, 'epoch': 0.26}
+ 26%|██▌       | 1110/4286 [6:58:59<20:53:45, 23.69s/it] 26%|██▌       | 1111/4286 [6:59:21<20:39:00, 23.41s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.13259828045784508, 'learning_rate': 7.407839477368175e-07, 'completion_length': 408.81251525878906, 'rewards/only_full_func_accuracy_reward': 0.7276785969734192, 'rewards/format_reward': 1.0, 'reward': 1.727678656578064, 'reward_std': 0.0474257655441761, 'kl': 0.0462646484375, 'epoch': 0.26}
+ 26%|██▌       | 1111/4286 [6:59:21<20:39:00, 23.41s/it] 26%|██▌       | 1112/4286 [6:59:46<20:58:48, 23.80s/it]                                                        {'loss': 0.0021, 'grad_norm': 3.2778479299032344, 'learning_rate': 7.405506299580027e-07, 'completion_length': 448.0535888671875, 'rewards/only_full_func_accuracy_reward': 0.6309523582458496, 'rewards/format_reward': 1.0, 'reward': 1.6309524774551392, 'reward_std': 0.027878002263605595, 'kl': 0.0528564453125, 'epoch': 0.26}
+ 26%|██▌       | 1112/4286 [6:59:46<20:58:48, 23.80s/it] 26%|██▌       | 1113/4286 [7:00:08<20:33:10, 23.32s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.28734655590114505, 'learning_rate': 7.403173121791881e-07, 'completion_length': 389.0893096923828, 'rewards/only_full_func_accuracy_reward': 0.6071428656578064, 'rewards/format_reward': 1.0, 'reward': 1.6071430444717407, 'reward_std': 0.0733440425246954, 'kl': 0.040771484375, 'epoch': 0.26}
+ 26%|██▌       | 1113/4286 [7:00:08<20:33:10, 23.32s/it] 26%|██▌       | 1114/4286 [7:00:33<20:49:09, 23.63s/it]                                                        {'loss': 0.0055, 'grad_norm': 0.3962079962764596, 'learning_rate': 7.400839944003733e-07, 'completion_length': 445.5357360839844, 'rewards/only_full_func_accuracy_reward': 0.6119047701358795, 'rewards/format_reward': 1.0, 'reward': 1.611904799938202, 'reward_std': 0.05059028975665569, 'kl': 0.1370849609375, 'epoch': 0.26}
+ 26%|██▌       | 1114/4286 [7:00:33<20:49:09, 23.63s/it] 26%|██▌       | 1115/4286 [7:00:57<21:04:02, 23.92s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.3578417204146819, 'learning_rate': 7.398506766215585e-07, 'completion_length': 455.9910888671875, 'rewards/only_full_func_accuracy_reward': 0.7642857432365417, 'rewards/format_reward': 1.0, 'reward': 1.7642857432365417, 'reward_std': 0.07334337942302227, 'kl': 0.0413818359375, 'epoch': 0.26}
+ 26%|██▌       | 1115/4286 [7:00:57<21:04:02, 23.92s/it] 26%|██▌       | 1116/4286 [7:01:20<20:46:00, 23.58s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.1368103633138535, 'learning_rate': 7.396173588427438e-07, 'completion_length': 376.7857208251953, 'rewards/only_full_func_accuracy_reward': 0.635416716337204, 'rewards/format_reward': 1.0, 'reward': 1.6354168057441711, 'reward_std': 0.04373771324753761, 'kl': 0.0443115234375, 'epoch': 0.26}
+ 26%|██▌       | 1116/4286 [7:01:20<20:46:00, 23.58s/it] 26%|██▌       | 1117/4286 [7:01:45<21:01:10, 23.88s/it]                                                        {'loss': 0.0013, 'grad_norm': 0.020796114832293672, 'learning_rate': 7.393840410639291e-07, 'completion_length': 502.3125305175781, 'rewards/only_full_func_accuracy_reward': 0.7440476417541504, 'rewards/format_reward': 1.0, 'reward': 1.7440477013587952, 'reward_std': 0.0, 'kl': 0.0313720703125, 'epoch': 0.26}
+ 26%|██▌       | 1117/4286 [7:01:45<21:01:10, 23.88s/it] 26%|██▌       | 1118/4286 [7:02:09<21:02:22, 23.91s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.22736242072971058, 'learning_rate': 7.391507232851143e-07, 'completion_length': 399.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.5007440894842148, 'rewards/format_reward': 1.0, 'reward': 1.5007441639900208, 'reward_std': 0.03156726714223623, 'kl': 0.0458984375, 'epoch': 0.26}
+ 26%|██▌       | 1118/4286 [7:02:09<21:02:22, 23.91s/it] 26%|██▌       | 1119/4286 [7:02:31<20:43:36, 23.56s/it]                                                        {'loss': 0.0023, 'grad_norm': 0.7969083237547493, 'learning_rate': 7.389174055062995e-07, 'completion_length': 403.91966247558594, 'rewards/only_full_func_accuracy_reward': 0.8005952835083008, 'rewards/format_reward': 1.0, 'reward': 1.8005953431129456, 'reward_std': 0.03629594296216965, 'kl': 0.057373046875, 'epoch': 0.26}
+ 26%|██▌       | 1119/4286 [7:02:31<20:43:36, 23.56s/it] 26%|██▌       | 1120/4286 [7:02:54<20:33:17, 23.37s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.08713823333229483, 'learning_rate': 7.386840877274848e-07, 'completion_length': 417.1607360839844, 'rewards/only_full_func_accuracy_reward': 0.7083333730697632, 'rewards/format_reward': 1.0, 'reward': 1.7083334922790527, 'reward_std': 0.012726726941764355, 'kl': 0.0443115234375, 'epoch': 0.26}
+ 26%|██▌       | 1120/4286 [7:02:54<20:33:17, 23.37s/it] 26%|██▌       | 1121/4286 [7:03:17<20:19:35, 23.12s/it]                                                        {'loss': 0.0019, 'grad_norm': 0.14266152852007014, 'learning_rate': 7.384507699486701e-07, 'completion_length': 391.6607360839844, 'rewards/only_full_func_accuracy_reward': 0.7903274595737457, 'rewards/format_reward': 1.0, 'reward': 1.790327548980713, 'reward_std': 0.020875373855233192, 'kl': 0.0465087890625, 'epoch': 0.26}
+ 26%|██▌       | 1121/4286 [7:03:17<20:19:35, 23.12s/it] 26%|██▌       | 1122/4286 [7:03:41<20:33:43, 23.40s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.1561732759782481, 'learning_rate': 7.382174521698553e-07, 'completion_length': 450.25001525878906, 'rewards/only_full_func_accuracy_reward': 0.7261905372142792, 'rewards/format_reward': 1.0, 'reward': 1.7261905670166016, 'reward_std': 0.052981067448854446, 'kl': 0.0367431640625, 'epoch': 0.26}
+ 26%|██▌       | 1122/4286 [7:03:41<20:33:43, 23.40s/it] 26%|██▌       | 1123/4286 [7:04:03<20:09:07, 22.94s/it]                                                        {'loss': 0.0051, 'grad_norm': 0.42917720433670703, 'learning_rate': 7.379841343910406e-07, 'completion_length': 347.51788330078125, 'rewards/only_full_func_accuracy_reward': 0.8563988506793976, 'rewards/format_reward': 1.0, 'reward': 1.8563989400863647, 'reward_std': 0.025387220084667206, 'kl': 0.1282958984375, 'epoch': 0.26}
+ 26%|██▌       | 1123/4286 [7:04:03<20:09:07, 22.94s/it] 26%|██▌       | 1124/4286 [7:04:28<20:38:12, 23.50s/it]                                                        {'loss': 0.0014, 'grad_norm': 0.4273930132696774, 'learning_rate': 7.377508166122258e-07, 'completion_length': 490.55360412597656, 'rewards/only_full_func_accuracy_reward': 0.7038690447807312, 'rewards/format_reward': 1.0, 'reward': 1.7038692235946655, 'reward_std': 0.04566884599626064, 'kl': 0.03466796875, 'epoch': 0.26}
+ 26%|██▌       | 1124/4286 [7:04:28<20:38:12, 23.50s/it] 26%|██▌       | 1125/4286 [7:04:51<20:29:36, 23.34s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.3284560611589321, 'learning_rate': 7.37517498833411e-07, 'completion_length': 411.7768096923828, 'rewards/only_full_func_accuracy_reward': 0.7693453133106232, 'rewards/format_reward': 1.0, 'reward': 1.7693453431129456, 'reward_std': 0.031210623681545258, 'kl': 0.04296875, 'epoch': 0.26}
+ 26%|██▌       | 1125/4286 [7:04:51<20:29:36, 23.34s/it] 26%|██▋       | 1126/4286 [7:05:15<20:54:10, 23.81s/it]                                                        {'loss': 0.0056, 'grad_norm': 0.6747414306965903, 'learning_rate': 7.372841810545964e-07, 'completion_length': 473.15179443359375, 'rewards/only_full_func_accuracy_reward': 0.6169643253087997, 'rewards/format_reward': 1.0, 'reward': 1.6169643998146057, 'reward_std': 0.06624536029994488, 'kl': 0.1392822265625, 'epoch': 0.26}
+ 26%|██▋       | 1126/4286 [7:05:15<20:54:10, 23.81s/it] 26%|██▋       | 1127/4286 [7:05:39<20:50:46, 23.76s/it]                                                        {'loss': 0.002, 'grad_norm': 1.9384717580246493, 'learning_rate': 7.370508632757816e-07, 'completion_length': 400.00001525878906, 'rewards/only_full_func_accuracy_reward': 0.638392835855484, 'rewards/format_reward': 1.0, 'reward': 1.6383930444717407, 'reward_std': 0.05604815389961004, 'kl': 0.0494384765625, 'epoch': 0.26}
+ 26%|██▋       | 1127/4286 [7:05:39<20:50:46, 23.76s/it] 26%|██▋       | 1128/4286 [7:06:03<20:59:59, 23.94s/it]                                                        {'loss': 0.0021, 'grad_norm': 0.4089031120904489, 'learning_rate': 7.368175454969668e-07, 'completion_length': 456.96429443359375, 'rewards/only_full_func_accuracy_reward': 0.6281250417232513, 'rewards/format_reward': 1.0, 'reward': 1.6281250715255737, 'reward_std': 0.07208457589149475, 'kl': 0.0533447265625, 'epoch': 0.26}
+ 26%|██▋       | 1128/4286 [7:06:03<20:59:59, 23.94s/it] 26%|██▋       | 1129/4286 [7:06:26<20:39:43, 23.56s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.3587662367840868, 'learning_rate': 7.36584227718152e-07, 'completion_length': 397.3571472167969, 'rewards/only_full_func_accuracy_reward': 0.8601191341876984, 'rewards/format_reward': 1.0, 'reward': 1.8601191639900208, 'reward_std': 0.016532503068447113, 'kl': 0.0438232421875, 'epoch': 0.26}
+ 26%|██▋       | 1129/4286 [7:06:26<20:39:43, 23.56s/it] 26%|██▋       | 1130/4286 [7:06:50<20:45:23, 23.68s/it]                                                        {'loss': 0.0019, 'grad_norm': 0.1607306207284587, 'learning_rate': 7.363509099393374e-07, 'completion_length': 425.5089416503906, 'rewards/only_full_func_accuracy_reward': 0.7849702835083008, 'rewards/format_reward': 1.0, 'reward': 1.7849703431129456, 'reward_std': 0.027940038591623306, 'kl': 0.0465087890625, 'epoch': 0.26}
+ 26%|██▋       | 1130/4286 [7:06:50<20:45:23, 23.68s/it] 26%|██▋       | 1131/4286 [7:07:14<20:52:32, 23.82s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.19629566041805527, 'learning_rate': 7.361175921605226e-07, 'completion_length': 463.4643096923828, 'rewards/only_full_func_accuracy_reward': 0.6561012268066406, 'rewards/format_reward': 1.0, 'reward': 1.6561012864112854, 'reward_std': 0.05540628917515278, 'kl': 0.0428466796875, 'epoch': 0.26}
+ 26%|██▋       | 1131/4286 [7:07:14<20:52:32, 23.82s/it] 26%|██▋       | 1132/4286 [7:07:37<20:31:28, 23.43s/it]                                                        {'loss': 0.0094, 'grad_norm': 0.8083970430085905, 'learning_rate': 7.358842743817078e-07, 'completion_length': 370.8214416503906, 'rewards/only_full_func_accuracy_reward': 0.703869104385376, 'rewards/format_reward': 1.0, 'reward': 1.703869104385376, 'reward_std': 0.0750030055642128, 'kl': 0.236572265625, 'epoch': 0.26}
+ 26%|██▋       | 1132/4286 [7:07:37<20:31:28, 23.43s/it] 26%|██▋       | 1133/4286 [7:08:00<20:33:01, 23.46s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.28427548882550413, 'learning_rate': 7.356509566028931e-07, 'completion_length': 439.95538330078125, 'rewards/only_full_func_accuracy_reward': 0.6279762089252472, 'rewards/format_reward': 1.0, 'reward': 1.6279762983322144, 'reward_std': 0.08151206374168396, 'kl': 0.039306640625, 'epoch': 0.26}
+ 26%|██▋       | 1133/4286 [7:08:00<20:33:01, 23.46s/it] 26%|██▋       | 1134/4286 [7:08:26<21:14:50, 24.27s/it]                                                        {'loss': 0.0012, 'grad_norm': 0.28520162580986225, 'learning_rate': 7.354176388240784e-07, 'completion_length': 525.044677734375, 'rewards/only_full_func_accuracy_reward': 0.6793154776096344, 'rewards/format_reward': 1.0, 'reward': 1.6793155670166016, 'reward_std': 0.03832809813320637, 'kl': 0.0308837890625, 'epoch': 0.26}
+ 26%|██▋       | 1134/4286 [7:08:26<21:14:50, 24.27s/it] 26%|██▋       | 1135/4286 [7:08:48<20:39:41, 23.61s/it]                                                        {'loss': 0.0177, 'grad_norm': 2.1561819056422826, 'learning_rate': 7.351843210452636e-07, 'completion_length': 350.00001525878906, 'rewards/only_full_func_accuracy_reward': 0.7641369104385376, 'rewards/format_reward': 1.0, 'reward': 1.7641370296478271, 'reward_std': 0.08537206798791885, 'kl': 0.4423828125, 'epoch': 0.26}
+ 26%|██▋       | 1135/4286 [7:08:48<20:39:41, 23.61s/it] 27%|██▋       | 1136/4286 [7:09:13<20:58:48, 23.98s/it]                                                        {'loss': 0.002, 'grad_norm': 1.482452330867235, 'learning_rate': 7.349510032664489e-07, 'completion_length': 478.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.5482143461704254, 'rewards/format_reward': 1.0, 'reward': 1.5482144355773926, 'reward_std': 0.1399739682674408, 'kl': 0.049560546875, 'epoch': 0.27}
+ 27%|██▋       | 1136/4286 [7:09:13<20:58:48, 23.98s/it] 27%|██▋       | 1137/4286 [7:09:35<20:22:43, 23.30s/it]                                                        {'loss': 0.0028, 'grad_norm': 0.428862528467797, 'learning_rate': 7.347176854876341e-07, 'completion_length': 375.43751525878906, 'rewards/only_full_func_accuracy_reward': 0.6486607491970062, 'rewards/format_reward': 1.0, 'reward': 1.6486607789993286, 'reward_std': 0.06245952285826206, 'kl': 0.07080078125, 'epoch': 0.27}
+ 27%|██▋       | 1137/4286 [7:09:35<20:22:43, 23.30s/it] 27%|██▋       | 1138/4286 [7:09:57<19:55:00, 22.78s/it]                                                        {'loss': 0.002, 'grad_norm': 0.3403896440014953, 'learning_rate': 7.344843677088194e-07, 'completion_length': 345.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.6666666865348816, 'rewards/format_reward': 1.0, 'reward': 1.6666667461395264, 'reward_std': 0.024326346814632416, 'kl': 0.05029296875, 'epoch': 0.27}
+ 27%|██▋       | 1138/4286 [7:09:57<19:55:00, 22.78s/it] 27%|██▋       | 1139/4286 [7:10:20<20:02:22, 22.92s/it]                                                        {'loss': 0.0023, 'grad_norm': 0.4809493162706256, 'learning_rate': 7.342510499300047e-07, 'completion_length': 408.35716247558594, 'rewards/only_full_func_accuracy_reward': 0.6532738208770752, 'rewards/format_reward': 1.0, 'reward': 1.6532739400863647, 'reward_std': 0.07694004848599434, 'kl': 0.0576171875, 'epoch': 0.27}
+ 27%|██▋       | 1139/4286 [7:10:20<20:02:22, 22.92s/it] 27%|██▋       | 1140/4286 [7:10:44<20:23:52, 23.34s/it]                                                        {'loss': 0.0199, 'grad_norm': 1.3603422305826904, 'learning_rate': 7.340177321511899e-07, 'completion_length': 378.46429443359375, 'rewards/only_full_func_accuracy_reward': 0.6331845223903656, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6242560148239136, 'reward_std': 0.08628062903881073, 'kl': 0.498779296875, 'epoch': 0.27}
+ 27%|██▋       | 1140/4286 [7:10:44<20:23:52, 23.34s/it] 27%|██▋       | 1141/4286 [7:11:08<20:34:09, 23.55s/it]                                                        {'loss': 0.0178, 'grad_norm': 0.6237470975849623, 'learning_rate': 7.337844143723751e-07, 'completion_length': 378.3035888671875, 'rewards/only_full_func_accuracy_reward': 0.7453231811523438, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7274660468101501, 'reward_std': 0.09434227272868156, 'kl': 0.4459228515625, 'epoch': 0.27}
+ 27%|██▋       | 1141/4286 [7:11:08<20:34:09, 23.55s/it] 27%|██▋       | 1142/4286 [7:11:32<20:37:06, 23.61s/it]                                                        {'loss': 0.0084, 'grad_norm': 0.49276510058893985, 'learning_rate': 7.335510965935604e-07, 'completion_length': 398.08038330078125, 'rewards/only_full_func_accuracy_reward': 0.7181548178195953, 'rewards/format_reward': 1.0, 'reward': 1.7181548476219177, 'reward_std': 0.09566428139805794, 'kl': 0.210205078125, 'epoch': 0.27}
+ 27%|██▋       | 1142/4286 [7:11:32<20:37:06, 23.61s/it] 27%|██▋       | 1143/4286 [7:11:57<20:54:49, 23.95s/it]                                                        {'loss': 0.0093, 'grad_norm': 1.1371650247472422, 'learning_rate': 7.333177788147457e-07, 'completion_length': 445.9910888671875, 'rewards/only_full_func_accuracy_reward': 0.5672619491815567, 'rewards/format_reward': 1.0, 'reward': 1.5672619938850403, 'reward_std': 0.09391980618238449, 'kl': 0.2320556640625, 'epoch': 0.27}
+ 27%|██▋       | 1143/4286 [7:11:57<20:54:49, 23.95s/it] 27%|██▋       | 1144/4286 [7:12:20<20:42:27, 23.73s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.29154288409392265, 'learning_rate': 7.330844610359309e-07, 'completion_length': 406.6785888671875, 'rewards/only_full_func_accuracy_reward': 0.6971727013587952, 'rewards/format_reward': 1.0, 'reward': 1.6971728205680847, 'reward_std': 0.06496242061257362, 'kl': 0.043701171875, 'epoch': 0.27}
+ 27%|██▋       | 1144/4286 [7:12:20<20:42:27, 23.73s/it] 27%|██▋       | 1145/4286 [7:12:47<21:28:02, 24.60s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.6579487521879526, 'learning_rate': 7.328511432571161e-07, 'completion_length': 488.9375305175781, 'rewards/only_full_func_accuracy_reward': 0.6703869700431824, 'rewards/format_reward': 1.0, 'reward': 1.6703870296478271, 'reward_std': 0.14746340364217758, 'kl': 0.0458984375, 'epoch': 0.27}
+ 27%|██▋       | 1145/4286 [7:12:47<21:28:02, 24.60s/it] 27%|██▋       | 1146/4286 [7:13:12<21:43:32, 24.91s/it]                                                        {'loss': 0.0095, 'grad_norm': 0.9120266141976522, 'learning_rate': 7.326178254783015e-07, 'completion_length': 481.55360412597656, 'rewards/only_full_func_accuracy_reward': 0.5794642865657806, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5705358386039734, 'reward_std': 0.09380249679088593, 'kl': 0.2374267578125, 'epoch': 0.27}
+ 27%|██▋       | 1146/4286 [7:13:12<21:43:32, 24.91s/it] 27%|██▋       | 1147/4286 [7:13:37<21:47:10, 24.99s/it]                                                        {'loss': 0.0107, 'grad_norm': 0.685824549079407, 'learning_rate': 7.323845076994867e-07, 'completion_length': 474.6339416503906, 'rewards/only_full_func_accuracy_reward': 0.6584821939468384, 'rewards/format_reward': 1.0, 'reward': 1.6584821939468384, 'reward_std': 0.13869677856564522, 'kl': 0.2684326171875, 'epoch': 0.27}
+ 27%|██▋       | 1147/4286 [7:13:37<21:47:10, 24.99s/it] 27%|██▋       | 1148/4286 [7:14:02<21:48:56, 25.03s/it]                                                        {'loss': 0.0348, 'grad_norm': 1.3154968886129756, 'learning_rate': 7.321511899206719e-07, 'completion_length': 439.1607360839844, 'rewards/only_full_func_accuracy_reward': 0.6535714566707611, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.6267858743667603, 'reward_std': 0.17299848794937134, 'kl': 0.87451171875, 'epoch': 0.27}
+ 27%|██▋       | 1148/4286 [7:14:02<21:48:56, 25.03s/it] 27%|██▋       | 1149/4286 [7:14:25<21:11:37, 24.32s/it]                                                        {'loss': 0.0175, 'grad_norm': 1.1471883717130624, 'learning_rate': 7.319178721418572e-07, 'completion_length': 394.5535888671875, 'rewards/only_full_func_accuracy_reward': 0.6180059909820557, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.600148856639862, 'reward_std': 0.12616059556603432, 'kl': 0.436767578125, 'epoch': 0.27}
+ 27%|██▋       | 1149/4286 [7:14:25<21:11:37, 24.32s/it] 27%|██▋       | 1150/4286 [7:14:49<21:03:54, 24.18s/it]                                                        {'loss': 0.0262, 'grad_norm': 1.9451525766457713, 'learning_rate': 7.316845543630425e-07, 'completion_length': 391.01788330078125, 'rewards/only_full_func_accuracy_reward': 0.6345451176166534, 'rewards/format_reward': 0.973214328289032, 'reward': 1.607759416103363, 'reward_std': 0.21003282070159912, 'kl': 0.654296875, 'epoch': 0.27}
+ 27%|██▋       | 1150/4286 [7:14:49<21:03:54, 24.18s/it] 27%|██▋       | 1151/4286 [7:15:14<21:23:43, 24.57s/it]                                                        {'loss': 0.0882, 'grad_norm': 3.6399935898480593, 'learning_rate': 7.314512365842277e-07, 'completion_length': 449.5803680419922, 'rewards/only_full_func_accuracy_reward': 0.5372024178504944, 'rewards/format_reward': 0.9285714626312256, 'reward': 1.4657739400863647, 'reward_std': 0.306853786110878, 'kl': 2.203125, 'epoch': 0.27}
+ 27%|██▋       | 1151/4286 [7:15:14<21:23:43, 24.57s/it] 27%|██▋       | 1152/4286 [7:15:40<21:39:33, 24.88s/it]                                                        {'loss': 0.0358, 'grad_norm': 1.6280117290836116, 'learning_rate': 7.312179188054129e-07, 'completion_length': 455.9285888671875, 'rewards/only_full_func_accuracy_reward': 0.5748724639415741, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.5391583442687988, 'reward_std': 0.2128094583749771, 'kl': 0.892578125, 'epoch': 0.27}
+ 27%|██▋       | 1152/4286 [7:15:40<21:39:33, 24.88s/it] 27%|██▋       | 1153/4286 [7:16:05<21:33:23, 24.77s/it]                                                        {'loss': 0.043, 'grad_norm': 1.4219638765331686, 'learning_rate': 7.309846010265982e-07, 'completion_length': 420.9464416503906, 'rewards/only_full_func_accuracy_reward': 0.662046879529953, 'rewards/format_reward': 0.9464285969734192, 'reward': 1.6084754467010498, 'reward_std': 0.2627564072608948, 'kl': 1.076171875, 'epoch': 0.27}
+ 27%|██▋       | 1153/4286 [7:16:05<21:33:23, 24.77s/it] 27%|██▋       | 1154/4286 [7:16:29<21:20:45, 24.54s/it]                                                        {'loss': 0.0513, 'grad_norm': 1.6372609391001411, 'learning_rate': 7.307512832477834e-07, 'completion_length': 386.5535888671875, 'rewards/only_full_func_accuracy_reward': 0.6203125268220901, 'rewards/format_reward': 0.9464285969734192, 'reward': 1.5667411088943481, 'reward_std': 0.19044893234968185, 'kl': 1.28125, 'epoch': 0.27}
+ 27%|██▋       | 1154/4286 [7:16:29<21:20:45, 24.54s/it] 27%|██▋       | 1155/4286 [7:16:53<21:24:42, 24.62s/it]                                                        {'loss': 0.0331, 'grad_norm': 1.6277312199898317, 'learning_rate': 7.305179654689687e-07, 'completion_length': 432.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.7123512029647827, 'rewards/format_reward': 0.973214328289032, 'reward': 1.6855656504631042, 'reward_std': 0.12412121146917343, 'kl': 0.82421875, 'epoch': 0.27}
+ 27%|██▋       | 1155/4286 [7:16:53<21:24:42, 24.62s/it] 27%|██▋       | 1156/4286 [7:17:17<21:15:22, 24.45s/it]                                                        {'loss': 0.009, 'grad_norm': 0.5845347448040717, 'learning_rate': 7.30284647690154e-07, 'completion_length': 382.6518096923828, 'rewards/only_full_func_accuracy_reward': 0.5422619581222534, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.5244048833847046, 'reward_std': 0.0782252224162221, 'kl': 0.224609375, 'epoch': 0.27}
+ 27%|██▋       | 1156/4286 [7:17:17<21:15:22, 24.45s/it] 27%|██▋       | 1157/4286 [7:17:42<21:11:47, 24.39s/it]                                                        {'loss': 0.0179, 'grad_norm': 0.8803457280785975, 'learning_rate': 7.300513299113392e-07, 'completion_length': 389.90179443359375, 'rewards/only_full_func_accuracy_reward': 0.5860119462013245, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5770834684371948, 'reward_std': 0.14273305237293243, 'kl': 0.44921875, 'epoch': 0.27}
+ 27%|██▋       | 1157/4286 [7:17:42<21:11:47, 24.39s/it] 27%|██▋       | 1158/4286 [7:18:05<20:56:10, 24.10s/it]                                                        {'loss': 0.0277, 'grad_norm': 0.8365175140731255, 'learning_rate': 7.298180121325244e-07, 'completion_length': 372.08038330078125, 'rewards/only_full_func_accuracy_reward': 0.688244104385376, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.670387089252472, 'reward_std': 0.16447017341852188, 'kl': 0.6953125, 'epoch': 0.27}
+ 27%|██▋       | 1158/4286 [7:18:05<20:56:10, 24.10s/it] 27%|██▋       | 1159/4286 [7:18:29<20:54:22, 24.07s/it]                                                        {'loss': 0.0045, 'grad_norm': 0.3454253334902306, 'learning_rate': 7.295846943537098e-07, 'completion_length': 433.7232360839844, 'rewards/only_full_func_accuracy_reward': 0.7537203133106232, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7447918057441711, 'reward_std': 0.13991296291351318, 'kl': 0.11376953125, 'epoch': 0.27}
+ 27%|██▋       | 1159/4286 [7:18:29<20:54:22, 24.07s/it] 27%|██▋       | 1160/4286 [7:18:53<20:52:11, 24.03s/it]                                                        {'loss': 0.005, 'grad_norm': 0.5702087044820483, 'learning_rate': 7.29351376574895e-07, 'completion_length': 411.9643096923828, 'rewards/only_full_func_accuracy_reward': 0.6061012148857117, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5971726775169373, 'reward_std': 0.07466181926429272, 'kl': 0.1240234375, 'epoch': 0.27}
+ 27%|██▋       | 1160/4286 [7:18:53<20:52:11, 24.03s/it] 27%|██▋       | 1161/4286 [7:19:17<20:42:56, 23.86s/it]                                                        {'loss': 0.0049, 'grad_norm': 1.0797807456608908, 'learning_rate': 7.291180587960802e-07, 'completion_length': 407.9910888671875, 'rewards/only_full_func_accuracy_reward': 0.5848214626312256, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.575892984867096, 'reward_std': 0.11655241996049881, 'kl': 0.1239013671875, 'epoch': 0.27}
+ 27%|██▋       | 1161/4286 [7:19:17<20:42:56, 23.86s/it] 27%|██▋       | 1162/4286 [7:19:41<20:57:06, 24.14s/it]                                                        {'loss': 0.0224, 'grad_norm': 0.8183969788702368, 'learning_rate': 7.288847410172655e-07, 'completion_length': 398.5268096923828, 'rewards/only_full_func_accuracy_reward': 0.6482142806053162, 'rewards/format_reward': 1.0, 'reward': 1.648214340209961, 'reward_std': 0.07213092036545277, 'kl': 0.5615234375, 'epoch': 0.27}
+ 27%|██▋       | 1162/4286 [7:19:41<20:57:06, 24.14s/it] 27%|██▋       | 1163/4286 [7:20:05<20:48:43, 23.99s/it]                                                        {'loss': 0.0029, 'grad_norm': 0.979398620624271, 'learning_rate': 7.286514232384508e-07, 'completion_length': 408.11610412597656, 'rewards/only_full_func_accuracy_reward': 0.6447916924953461, 'rewards/format_reward': 1.0, 'reward': 1.6447917819023132, 'reward_std': 0.06815020553767681, 'kl': 0.07177734375, 'epoch': 0.27}
+ 27%|██▋       | 1163/4286 [7:20:05<20:48:43, 23.99s/it] 27%|██▋       | 1164/4286 [7:20:31<21:13:30, 24.47s/it]                                                        {'loss': 0.0021, 'grad_norm': 0.43074324910412354, 'learning_rate': 7.28418105459636e-07, 'completion_length': 446.3035888671875, 'rewards/only_full_func_accuracy_reward': 0.5334821492433548, 'rewards/format_reward': 1.0, 'reward': 1.5334822535514832, 'reward_std': 0.060577381402254105, 'kl': 0.0521240234375, 'epoch': 0.27}
+ 27%|██▋       | 1164/4286 [7:20:31<21:13:30, 24.47s/it] 27%|██▋       | 1165/4286 [7:20:56<21:31:53, 24.84s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.3080899615970599, 'learning_rate': 7.281847876808212e-07, 'completion_length': 456.51788330078125, 'rewards/only_full_func_accuracy_reward': 0.597470223903656, 'rewards/format_reward': 1.0, 'reward': 1.5974703431129456, 'reward_std': 0.0485583720728755, 'kl': 0.0452880859375, 'epoch': 0.27}
+ 27%|██▋       | 1165/4286 [7:20:56<21:31:53, 24.84s/it] 27%|██▋       | 1166/4286 [7:21:20<21:20:41, 24.63s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.2953642034637159, 'learning_rate': 7.279514699020065e-07, 'completion_length': 452.0982360839844, 'rewards/only_full_func_accuracy_reward': 0.6309524178504944, 'rewards/format_reward': 1.0, 'reward': 1.6309524774551392, 'reward_std': 0.0593816339969635, 'kl': 0.0419921875, 'epoch': 0.27}
+ 27%|██▋       | 1166/4286 [7:21:20<21:20:41, 24.63s/it] 27%|██▋       | 1167/4286 [7:21:46<21:39:28, 25.00s/it]                                                        {'loss': 0.0342, 'grad_norm': 1.291991135148882, 'learning_rate': 7.277181521231918e-07, 'completion_length': 458.2678680419922, 'rewards/only_full_func_accuracy_reward': 0.7044359147548676, 'rewards/format_reward': 0.9464285969734192, 'reward': 1.6508646607398987, 'reward_std': 0.14024214446544647, 'kl': 0.85693359375, 'epoch': 0.27}
+ 27%|██▋       | 1167/4286 [7:21:46<21:39:28, 25.00s/it] 27%|██▋       | 1168/4286 [7:22:11<21:42:19, 25.06s/it]                                                        {'loss': 0.0023, 'grad_norm': 0.24991028588523248, 'learning_rate': 7.27484834344377e-07, 'completion_length': 422.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.7505952417850494, 'rewards/format_reward': 1.0, 'reward': 1.7505953907966614, 'reward_std': 0.029729037545621395, 'kl': 0.0574951171875, 'epoch': 0.27}
+ 27%|██▋       | 1168/4286 [7:22:11<21:42:19, 25.06s/it] 27%|██▋       | 1169/4286 [7:22:36<21:29:10, 24.82s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.32677793225995205, 'learning_rate': 7.272515165655623e-07, 'completion_length': 426.9732360839844, 'rewards/only_full_func_accuracy_reward': 0.7016369104385376, 'rewards/format_reward': 1.0, 'reward': 1.7016369700431824, 'reward_std': 0.03968015592545271, 'kl': 0.038330078125, 'epoch': 0.27}
+ 27%|██▋       | 1169/4286 [7:22:36<21:29:10, 24.82s/it] 27%|██▋       | 1170/4286 [7:22:59<21:06:32, 24.39s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.29221192300227716, 'learning_rate': 7.270181987867475e-07, 'completion_length': 424.9910888671875, 'rewards/only_full_func_accuracy_reward': 0.5822916626930237, 'rewards/format_reward': 1.0, 'reward': 1.5822917819023132, 'reward_std': 0.06953871250152588, 'kl': 0.044189453125, 'epoch': 0.27}
+ 27%|██▋       | 1170/4286 [7:22:59<21:06:32, 24.39s/it] 27%|██▋       | 1171/4286 [7:23:23<20:56:24, 24.20s/it]                                                        {'loss': 0.0019, 'grad_norm': 0.7410889757750734, 'learning_rate': 7.267848810079328e-07, 'completion_length': 398.5000305175781, 'rewards/only_full_func_accuracy_reward': 0.5758928954601288, 'rewards/format_reward': 1.0, 'reward': 1.5758929252624512, 'reward_std': 0.034647177904844284, 'kl': 0.0478515625, 'epoch': 0.27}
+ 27%|██▋       | 1171/4286 [7:23:23<20:56:24, 24.20s/it] 27%|██▋       | 1172/4286 [7:23:46<20:42:18, 23.94s/it]                                                        {'loss': 0.01, 'grad_norm': 0.5217390645676351, 'learning_rate': 7.265515632291181e-07, 'completion_length': 387.01788330078125, 'rewards/only_full_func_accuracy_reward': 0.7752976715564728, 'rewards/format_reward': 1.0, 'reward': 1.7752977013587952, 'reward_std': 0.05877387896180153, 'kl': 0.2510986328125, 'epoch': 0.27}
+ 27%|██▋       | 1172/4286 [7:23:46<20:42:18, 23.94s/it] 27%|██▋       | 1173/4286 [7:24:11<21:01:14, 24.31s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.31493178559365786, 'learning_rate': 7.263182454503033e-07, 'completion_length': 428.2143096923828, 'rewards/only_full_func_accuracy_reward': 0.584970235824585, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5760417580604553, 'reward_std': 0.054134003818035126, 'kl': 0.04296875, 'epoch': 0.27}
+ 27%|██▋       | 1173/4286 [7:24:11<21:01:14, 24.31s/it] 27%|██▋       | 1174/4286 [7:24:34<20:35:21, 23.82s/it]                                                        {'loss': 0.0087, 'grad_norm': 0.3704040787256611, 'learning_rate': 7.260849276714885e-07, 'completion_length': 366.5446472167969, 'rewards/only_full_func_accuracy_reward': 0.7187500596046448, 'rewards/format_reward': 1.0, 'reward': 1.7187501788139343, 'reward_std': 0.08442696928977966, 'kl': 0.21923828125, 'epoch': 0.27}
+ 27%|██▋       | 1174/4286 [7:24:34<20:35:21, 23.82s/it] 27%|██▋       | 1175/4286 [7:24:57<20:25:45, 23.64s/it]                                                        {'loss': 0.0069, 'grad_norm': 0.26318010242102663, 'learning_rate': 7.258516098926737e-07, 'completion_length': 365.7589569091797, 'rewards/only_full_func_accuracy_reward': 0.7611607909202576, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.752232313156128, 'reward_std': 0.08738328143954277, 'kl': 0.17236328125, 'epoch': 0.27}
+ 27%|██▋       | 1175/4286 [7:24:57<20:25:45, 23.64s/it] 27%|██▋       | 1176/4286 [7:25:21<20:32:24, 23.78s/it]                                                        {'loss': 0.002, 'grad_norm': 0.28422504475334504, 'learning_rate': 7.256182921138591e-07, 'completion_length': 418.0982360839844, 'rewards/only_full_func_accuracy_reward': 0.6614583730697632, 'rewards/format_reward': 1.0, 'reward': 1.661458432674408, 'reward_std': 0.05199059657752514, 'kl': 0.049560546875, 'epoch': 0.27}
+ 27%|██▋       | 1176/4286 [7:25:21<20:32:24, 23.78s/it] 27%|██▋       | 1177/4286 [7:25:45<20:35:19, 23.84s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.02127766356830642, 'learning_rate': 7.253849743350443e-07, 'completion_length': 427.7589569091797, 'rewards/only_full_func_accuracy_reward': 0.5892857015132904, 'rewards/format_reward': 1.0, 'reward': 1.5892858505249023, 'reward_std': 0.0, 'kl': 0.0390625, 'epoch': 0.27}
+ 27%|██▋       | 1177/4286 [7:25:45<20:35:19, 23.84s/it] 27%|██▋       | 1178/4286 [7:26:09<20:26:31, 23.68s/it]                                                        {'loss': 0.002, 'grad_norm': 0.2145163334848248, 'learning_rate': 7.251516565562295e-07, 'completion_length': 392.1428680419922, 'rewards/only_full_func_accuracy_reward': 0.7633928954601288, 'rewards/format_reward': 1.0, 'reward': 1.763392984867096, 'reward_std': 0.037002770230174065, 'kl': 0.0494384765625, 'epoch': 0.27}
+ 27%|██▋       | 1178/4286 [7:26:09<20:26:31, 23.68s/it] 28%|██▊       | 1179/4286 [7:26:33<20:38:18, 23.91s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.8357558218003658, 'learning_rate': 7.249183387774148e-07, 'completion_length': 406.2232208251953, 'rewards/only_full_func_accuracy_reward': 0.7641369700431824, 'rewards/format_reward': 1.0, 'reward': 1.7641370296478271, 'reward_std': 0.03824873734265566, 'kl': 0.0455322265625, 'epoch': 0.28}
+ 28%|██▊       | 1179/4286 [7:26:33<20:38:18, 23.91s/it] 28%|██▊       | 1180/4286 [7:26:58<20:59:21, 24.33s/it]                                                        {'loss': 0.0034, 'grad_norm': 2.0490097927478046, 'learning_rate': 7.246850209986001e-07, 'completion_length': 438.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.740327388048172, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7313989400863647, 'reward_std': 0.11628612503409386, 'kl': 0.0838623046875, 'epoch': 0.28}
+ 28%|██▊       | 1180/4286 [7:26:58<20:59:21, 24.33s/it] 28%|██▊       | 1181/4286 [7:27:24<21:23:33, 24.80s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.17221334430897134, 'learning_rate': 7.244517032197853e-07, 'completion_length': 429.33038330078125, 'rewards/only_full_func_accuracy_reward': 0.6815476715564728, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6726191639900208, 'reward_std': 0.06652170792222023, 'kl': 0.04296875, 'epoch': 0.28}
+ 28%|██▊       | 1181/4286 [7:27:24<21:23:33, 24.80s/it] 28%|██▊       | 1182/4286 [7:27:49<21:14:31, 24.64s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.667591240142446, 'learning_rate': 7.242183854409706e-07, 'completion_length': 427.2589416503906, 'rewards/only_full_func_accuracy_reward': 0.7486608028411865, 'rewards/format_reward': 1.0, 'reward': 1.7486608028411865, 'reward_std': 0.05899501405656338, 'kl': 0.038818359375, 'epoch': 0.28}
+ 28%|██▊       | 1182/4286 [7:27:49<21:14:31, 24.64s/it] 28%|██▊       | 1183/4286 [7:28:11<20:47:13, 24.12s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.4145956359182435, 'learning_rate': 7.239850676621558e-07, 'completion_length': 420.4553680419922, 'rewards/only_full_func_accuracy_reward': 0.7313988208770752, 'rewards/format_reward': 1.0, 'reward': 1.7313989400863647, 'reward_std': 0.024028305895626545, 'kl': 0.0379638671875, 'epoch': 0.28}
+ 28%|██▊       | 1183/4286 [7:28:11<20:47:13, 24.12s/it] 28%|██▊       | 1184/4286 [7:28:35<20:37:09, 23.93s/it]                                                        {'loss': 0.0019, 'grad_norm': 0.22515734637625368, 'learning_rate': 7.237517498833411e-07, 'completion_length': 406.05360412597656, 'rewards/only_full_func_accuracy_reward': 0.6488095819950104, 'rewards/format_reward': 1.0, 'reward': 1.6488096714019775, 'reward_std': 0.04408667702227831, 'kl': 0.047607421875, 'epoch': 0.28}
+ 28%|██▊       | 1184/4286 [7:28:35<20:37:09, 23.93s/it] 28%|██▊       | 1185/4286 [7:28:59<20:42:48, 24.05s/it]                                                        {'loss': 0.008, 'grad_norm': 0.7010718878730944, 'learning_rate': 7.235184321045264e-07, 'completion_length': 428.0803680419922, 'rewards/only_full_func_accuracy_reward': 0.5267857313156128, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5178572535514832, 'reward_std': 0.12981380429118872, 'kl': 0.2001953125, 'epoch': 0.28}
+ 28%|██▊       | 1185/4286 [7:28:59<20:42:48, 24.05s/it] 28%|██▊       | 1186/4286 [7:29:22<20:21:41, 23.65s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.2849214310140312, 'learning_rate': 7.232851143257116e-07, 'completion_length': 369.7678680419922, 'rewards/only_full_func_accuracy_reward': 0.6552083790302277, 'rewards/format_reward': 1.0, 'reward': 1.6552084684371948, 'reward_std': 0.050071464851498604, 'kl': 0.0458984375, 'epoch': 0.28}
+ 28%|██▊       | 1186/4286 [7:29:22<20:21:41, 23.65s/it] 28%|██▊       | 1187/4286 [7:29:45<20:05:32, 23.34s/it]                                                        {'loss': 0.0128, 'grad_norm': 1.9479560100836597, 'learning_rate': 7.230517965468968e-07, 'completion_length': 369.8482360839844, 'rewards/only_full_func_accuracy_reward': 0.7102679014205933, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7013394236564636, 'reward_std': 0.10737156122922897, 'kl': 0.3194580078125, 'epoch': 0.28}
+ 28%|██▊       | 1187/4286 [7:29:45<20:05:32, 23.34s/it] 28%|██▊       | 1188/4286 [7:30:08<20:09:37, 23.43s/it]                                                        {'loss': 0.0027, 'grad_norm': 0.5515437417095637, 'learning_rate': 7.228184787680821e-07, 'completion_length': 415.20538330078125, 'rewards/only_full_func_accuracy_reward': 0.693452388048172, 'rewards/format_reward': 1.0, 'reward': 1.693452537059784, 'reward_std': 0.055063686333596706, 'kl': 0.067138671875, 'epoch': 0.28}
+ 28%|██▊       | 1188/4286 [7:30:08<20:09:37, 23.43s/it] 28%|██▊       | 1189/4286 [7:30:31<20:00:42, 23.26s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.5932973656568582, 'learning_rate': 7.225851609892674e-07, 'completion_length': 425.26788330078125, 'rewards/only_full_func_accuracy_reward': 0.532738134264946, 'rewards/format_reward': 1.0, 'reward': 1.532738208770752, 'reward_std': 0.08196478709578514, 'kl': 0.042236328125, 'epoch': 0.28}
+ 28%|██▊       | 1189/4286 [7:30:31<20:00:42, 23.26s/it] 28%|██▊       | 1190/4286 [7:30:57<20:42:20, 24.08s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.3217745750314535, 'learning_rate': 7.223518432104526e-07, 'completion_length': 470.3928680419922, 'rewards/only_full_func_accuracy_reward': 0.651041716337204, 'rewards/format_reward': 1.0, 'reward': 1.6510417461395264, 'reward_std': 0.05154750496149063, 'kl': 0.037353515625, 'epoch': 0.28}
+ 28%|██▊       | 1190/4286 [7:30:57<20:42:20, 24.08s/it] 28%|██▊       | 1191/4286 [7:31:22<20:51:22, 24.26s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.8638059509699879, 'learning_rate': 7.221185254316378e-07, 'completion_length': 434.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.668154776096344, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6592262983322144, 'reward_std': 0.044864822179079056, 'kl': 0.0379638671875, 'epoch': 0.28}
+ 28%|██▊       | 1191/4286 [7:31:22<20:51:22, 24.26s/it] 28%|██▊       | 1192/4286 [7:31:46<20:46:17, 24.17s/it]                                                        {'loss': 0.0014, 'grad_norm': 0.5694254073757683, 'learning_rate': 7.218852076528232e-07, 'completion_length': 441.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.7686012387275696, 'rewards/format_reward': 1.0, 'reward': 1.7686012983322144, 'reward_std': 0.07039713487029076, 'kl': 0.0345458984375, 'epoch': 0.28}
+ 28%|██▊       | 1192/4286 [7:31:46<20:46:17, 24.17s/it] 28%|██▊       | 1193/4286 [7:32:10<20:50:27, 24.26s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.8906069145688209, 'learning_rate': 7.216518898740084e-07, 'completion_length': 453.2589569091797, 'rewards/only_full_func_accuracy_reward': 0.5416667014360428, 'rewards/format_reward': 1.0, 'reward': 1.5416668057441711, 'reward_std': 0.03446314297616482, 'kl': 0.04052734375, 'epoch': 0.28}
+ 28%|██▊       | 1193/4286 [7:32:10<20:50:27, 24.26s/it] 28%|██▊       | 1194/4286 [7:32:34<20:39:24, 24.05s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.2868306610072723, 'learning_rate': 7.214185720951936e-07, 'completion_length': 442.5893096923828, 'rewards/only_full_func_accuracy_reward': 0.7827381491661072, 'rewards/format_reward': 1.0, 'reward': 1.7827382683753967, 'reward_std': 0.03757641464471817, 'kl': 0.03759765625, 'epoch': 0.28}
+ 28%|██▊       | 1194/4286 [7:32:34<20:39:24, 24.05s/it] 28%|██▊       | 1195/4286 [7:32:59<20:52:19, 24.31s/it]                                                        {'loss': 0.008, 'grad_norm': 0.837389510374274, 'learning_rate': 7.211852543163789e-07, 'completion_length': 422.23216247558594, 'rewards/only_full_func_accuracy_reward': 0.7209821343421936, 'rewards/format_reward': 1.0, 'reward': 1.7209822535514832, 'reward_std': 0.03156726807355881, 'kl': 0.199462890625, 'epoch': 0.28}
+ 28%|██▊       | 1195/4286 [7:32:59<20:52:19, 24.31s/it] 28%|██▊       | 1196/4286 [7:33:23<20:49:17, 24.26s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.15481982352060483, 'learning_rate': 7.209519365375642e-07, 'completion_length': 459.8839569091797, 'rewards/only_full_func_accuracy_reward': 0.6107143461704254, 'rewards/format_reward': 1.0, 'reward': 1.6107143759727478, 'reward_std': 0.02015457395464182, 'kl': 0.0401611328125, 'epoch': 0.28}
+ 28%|██▊       | 1196/4286 [7:33:23<20:49:17, 24.26s/it] 28%|██▊       | 1197/4286 [7:33:46<20:33:21, 23.96s/it]                                                        {'loss': 0.0022, 'grad_norm': 0.24322528514038044, 'learning_rate': 7.207186187587494e-07, 'completion_length': 405.9643096923828, 'rewards/only_full_func_accuracy_reward': 0.627232164144516, 'rewards/format_reward': 1.0, 'reward': 1.6272321939468384, 'reward_std': 0.0578623590990901, 'kl': 0.055419921875, 'epoch': 0.28}
+ 28%|██▊       | 1197/4286 [7:33:46<20:33:21, 23.96s/it] 28%|██▊       | 1198/4286 [7:34:09<20:20:50, 23.72s/it]                                                        {'loss': 0.0278, 'grad_norm': 0.8109837526269955, 'learning_rate': 7.204853009799346e-07, 'completion_length': 397.5893096923828, 'rewards/only_full_func_accuracy_reward': 0.5694940984249115, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.5516369938850403, 'reward_std': 0.1363920196890831, 'kl': 0.6962890625, 'epoch': 0.28}
+ 28%|██▊       | 1198/4286 [7:34:09<20:20:50, 23.72s/it] 28%|██▊       | 1199/4286 [7:34:34<20:32:08, 23.95s/it]                                                        {'loss': 0.014, 'grad_norm': 0.6115390458972139, 'learning_rate': 7.202519832011199e-07, 'completion_length': 479.15179443359375, 'rewards/only_full_func_accuracy_reward': 0.572916716337204, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.563988208770752, 'reward_std': 0.07875411212444305, 'kl': 0.3499755859375, 'epoch': 0.28}
+ 28%|██▊       | 1199/4286 [7:34:34<20:32:08, 23.95s/it] 28%|██▊       | 1200/4286 [7:34:59<20:54:07, 24.38s/it]                                                        {'loss': 0.002, 'grad_norm': 0.9613086896028624, 'learning_rate': 7.200186654223051e-07, 'completion_length': 458.6607360839844, 'rewards/only_full_func_accuracy_reward': 0.7008928954601288, 'rewards/format_reward': 1.0, 'reward': 1.700892984867096, 'reward_std': 0.024693410377949476, 'kl': 0.049072265625, 'epoch': 0.28}
+ 28%|██▊       | 1200/4286 [7:34:59<20:54:07, 24.38s/it] 28%|██▊       | 1201/4286 [7:36:21<35:42:36, 41.67s/it]                                                        {'loss': 0.0016, 'grad_norm': 1.3815656632035154, 'learning_rate': 7.197853476434904e-07, 'completion_length': 480.50001525878906, 'rewards/only_full_func_accuracy_reward': 0.5513393580913544, 'rewards/format_reward': 1.0, 'reward': 1.5513394474983215, 'reward_std': 0.021900447085499763, 'kl': 0.03955078125, 'epoch': 0.28}
+ 28%|██▊       | 1201/4286 [7:36:21<35:42:36, 41.67s/it] 28%|██▊       | 1202/4286 [7:36:44<30:51:43, 36.03s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.14084442967523608, 'learning_rate': 7.195520298646757e-07, 'completion_length': 403.7589416503906, 'rewards/only_full_func_accuracy_reward': 0.7648809552192688, 'rewards/format_reward': 1.0, 'reward': 1.7648810744285583, 'reward_std': 0.023344267159700394, 'kl': 0.04296875, 'epoch': 0.28}
+ 28%|██▊       | 1202/4286 [7:36:44<30:51:43, 36.03s/it] 28%|██▊       | 1203/4286 [7:37:09<27:57:20, 32.64s/it]                                                        {'loss': 0.0119, 'grad_norm': 0.6805646139265185, 'learning_rate': 7.193187120858609e-07, 'completion_length': 454.43751525878906, 'rewards/only_full_func_accuracy_reward': 0.6941964030265808, 'rewards/format_reward': 1.0, 'reward': 1.6941965818405151, 'reward_std': 0.024021157529205084, 'kl': 0.2955322265625, 'epoch': 0.28}
+ 28%|██▊       | 1203/4286 [7:37:09<27:57:20, 32.64s/it] 28%|██▊       | 1204/4286 [7:37:32<25:36:26, 29.91s/it]                                                        {'loss': 0.0095, 'grad_norm': 0.7488403195896788, 'learning_rate': 7.190853943070461e-07, 'completion_length': 413.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.6922619342803955, 'rewards/format_reward': 1.0, 'reward': 1.6922619342803955, 'reward_std': 0.06744932290166616, 'kl': 0.23681640625, 'epoch': 0.28}
+ 28%|██▊       | 1204/4286 [7:37:32<25:36:26, 29.91s/it] 28%|██▊       | 1205/4286 [7:37:56<23:53:16, 27.91s/it]                                                        {'loss': 0.0151, 'grad_norm': 0.7401983789888906, 'learning_rate': 7.188520765282315e-07, 'completion_length': 412.4464416503906, 'rewards/only_full_func_accuracy_reward': 0.60788694024086, 'rewards/format_reward': 1.0, 'reward': 1.6078870296478271, 'reward_std': 0.06914723291993141, 'kl': 0.37744140625, 'epoch': 0.28}
+ 28%|██▊       | 1205/4286 [7:37:56<23:53:16, 27.91s/it] 28%|██▊       | 1206/4286 [7:38:20<23:00:39, 26.90s/it]                                                        {'loss': 0.002, 'grad_norm': 0.20489014181065449, 'learning_rate': 7.186187587494167e-07, 'completion_length': 427.46429443359375, 'rewards/only_full_func_accuracy_reward': 0.6953869462013245, 'rewards/format_reward': 1.0, 'reward': 1.6953869462013245, 'reward_std': 0.03338280227035284, 'kl': 0.0499267578125, 'epoch': 0.28}
+ 28%|██▊       | 1206/4286 [7:38:20<23:00:39, 26.90s/it] 28%|██▊       | 1207/4286 [7:38:43<21:52:50, 25.58s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.9780476544336468, 'learning_rate': 7.183854409706019e-07, 'completion_length': 391.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.7495536208152771, 'rewards/format_reward': 1.0, 'reward': 1.749553620815277, 'reward_std': 0.03884388878941536, 'kl': 0.0460205078125, 'epoch': 0.28}
+ 28%|██▊       | 1207/4286 [7:38:43<21:52:50, 25.58s/it] 28%|██▊       | 1208/4286 [7:39:07<21:32:27, 25.19s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.26875235949073123, 'learning_rate': 7.181521231917872e-07, 'completion_length': 440.91966247558594, 'rewards/only_full_func_accuracy_reward': 0.6946428418159485, 'rewards/format_reward': 1.0, 'reward': 1.694642961025238, 'reward_std': 0.04583367519080639, 'kl': 0.0369873046875, 'epoch': 0.28}
+ 28%|██▊       | 1208/4286 [7:39:07<21:32:27, 25.19s/it] 28%|██▊       | 1209/4286 [7:39:31<21:11:12, 24.79s/it]                                                        {'loss': 0.0022, 'grad_norm': 0.13160571384776562, 'learning_rate': 7.179188054129725e-07, 'completion_length': 405.81251525878906, 'rewards/only_full_func_accuracy_reward': 0.6726190745830536, 'rewards/format_reward': 1.0, 'reward': 1.6726191639900208, 'reward_std': 0.016835879534482956, 'kl': 0.055419921875, 'epoch': 0.28}
+ 28%|██▊       | 1209/4286 [7:39:31<21:11:12, 24.79s/it] 28%|██▊       | 1210/4286 [7:39:55<21:01:59, 24.62s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.42889025192480085, 'learning_rate': 7.176854876341577e-07, 'completion_length': 426.8482360839844, 'rewards/only_full_func_accuracy_reward': 0.7008928656578064, 'rewards/format_reward': 1.0, 'reward': 1.7008929252624512, 'reward_std': 0.0412721261382103, 'kl': 0.046142578125, 'epoch': 0.28}
+ 28%|██▊       | 1210/4286 [7:39:55<21:01:59, 24.62s/it] 28%|██▊       | 1211/4286 [7:40:19<20:57:47, 24.54s/it]                                                        {'loss': 0.0019, 'grad_norm': 0.15687300398084192, 'learning_rate': 7.174521698553429e-07, 'completion_length': 414.9464416503906, 'rewards/only_full_func_accuracy_reward': 0.648809552192688, 'rewards/format_reward': 1.0, 'reward': 1.6488096117973328, 'reward_std': 0.038804274052381516, 'kl': 0.0462646484375, 'epoch': 0.28}
+ 28%|██▊       | 1211/4286 [7:40:19<20:57:47, 24.54s/it] 28%|██▊       | 1212/4286 [7:40:44<20:54:27, 24.49s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.6397245314400624, 'learning_rate': 7.172188520765282e-07, 'completion_length': 459.20538330078125, 'rewards/only_full_func_accuracy_reward': 0.625744104385376, 'rewards/format_reward': 1.0, 'reward': 1.6257441639900208, 'reward_std': 0.048718828707933426, 'kl': 0.037109375, 'epoch': 0.28}
+ 28%|██▊       | 1212/4286 [7:40:44<20:54:27, 24.49s/it] 28%|██▊       | 1213/4286 [7:41:08<20:49:39, 24.40s/it]                                                        {'loss': 0.0035, 'grad_norm': 0.3873432619402045, 'learning_rate': 7.169855342977135e-07, 'completion_length': 414.0714569091797, 'rewards/only_full_func_accuracy_reward': 0.6571003943681717, 'rewards/format_reward': 1.0, 'reward': 1.6571004390716553, 'reward_std': 0.04990548640489578, 'kl': 0.0875244140625, 'epoch': 0.28}
+ 28%|██▊       | 1213/4286 [7:41:08<20:49:39, 24.40s/it] 28%|██▊       | 1214/4286 [7:41:32<20:47:08, 24.36s/it]                                                        {'loss': 0.0026, 'grad_norm': 0.23080879627644993, 'learning_rate': 7.167522165188987e-07, 'completion_length': 428.8660888671875, 'rewards/only_full_func_accuracy_reward': 0.7970238924026489, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7880953550338745, 'reward_std': 0.056215968914330006, 'kl': 0.06396484375, 'epoch': 0.28}
+ 28%|██▊       | 1214/4286 [7:41:32<20:47:08, 24.36s/it] 28%|██▊       | 1215/4286 [7:41:56<20:37:53, 24.19s/it]                                                        {'loss': 0.0032, 'grad_norm': 1.0524690197935125, 'learning_rate': 7.16518898740084e-07, 'completion_length': 420.0357360839844, 'rewards/only_full_func_accuracy_reward': 0.805059552192688, 'rewards/format_reward': 1.0, 'reward': 1.8050596117973328, 'reward_std': 0.07155247312039137, 'kl': 0.0802001953125, 'epoch': 0.28}
+ 28%|██▊       | 1215/4286 [7:41:56<20:37:53, 24.19s/it] 28%|██▊       | 1216/4286 [7:42:18<20:05:48, 23.57s/it]                                                        {'loss': 0.0021, 'grad_norm': 0.6742131881425031, 'learning_rate': 7.162855809612692e-07, 'completion_length': 345.91966247558594, 'rewards/only_full_func_accuracy_reward': 0.7433036267757416, 'rewards/format_reward': 1.0, 'reward': 1.743303656578064, 'reward_std': 0.009241949766874313, 'kl': 0.052001953125, 'epoch': 0.28}
+ 28%|██▊       | 1216/4286 [7:42:18<20:05:48, 23.57s/it] 28%|██▊       | 1217/4286 [7:42:44<20:35:54, 24.16s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.7920288836295023, 'learning_rate': 7.160522631824545e-07, 'completion_length': 451.7768096923828, 'rewards/only_full_func_accuracy_reward': 0.7020833492279053, 'rewards/format_reward': 1.0, 'reward': 1.7020834684371948, 'reward_std': 0.0652497373521328, 'kl': 0.03826904296875, 'epoch': 0.28}
+ 28%|██▊       | 1217/4286 [7:42:44<20:35:54, 24.16s/it] 28%|██▊       | 1218/4286 [7:43:08<20:42:41, 24.30s/it]                                                        {'loss': 0.0102, 'grad_norm': 0.9375581731211334, 'learning_rate': 7.158189454036398e-07, 'completion_length': 409.4464416503906, 'rewards/only_full_func_accuracy_reward': 0.7599703073501587, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7510417699813843, 'reward_std': 0.08523611724376678, 'kl': 0.2559814453125, 'epoch': 0.28}
+ 28%|██▊       | 1218/4286 [7:43:08<20:42:41, 24.30s/it] 28%|██▊       | 1219/4286 [7:43:32<20:35:26, 24.17s/it]                                                        {'loss': 0.0091, 'grad_norm': 0.9776267145064879, 'learning_rate': 7.15585627624825e-07, 'completion_length': 392.2053680419922, 'rewards/only_full_func_accuracy_reward': 0.7046131491661072, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6956846117973328, 'reward_std': 0.07289852574467659, 'kl': 0.2261962890625, 'epoch': 0.28}
+ 28%|██▊       | 1219/4286 [7:43:32<20:35:26, 24.17s/it] 28%|██▊       | 1220/4286 [7:43:57<20:39:50, 24.26s/it]                                                        {'loss': 0.0014, 'grad_norm': 0.1669939221380643, 'learning_rate': 7.153523098460102e-07, 'completion_length': 435.6250305175781, 'rewards/only_full_func_accuracy_reward': 0.7247024476528168, 'rewards/format_reward': 1.0, 'reward': 1.7247024774551392, 'reward_std': 0.03577428124845028, 'kl': 0.034912109375, 'epoch': 0.28}
+ 28%|██▊       | 1220/4286 [7:43:57<20:39:50, 24.26s/it] 28%|██▊       | 1221/4286 [7:44:20<20:27:10, 24.02s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.26823463688848376, 'learning_rate': 7.151189920671955e-07, 'completion_length': 412.3393096923828, 'rewards/only_full_func_accuracy_reward': 0.7879464626312256, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7790179252624512, 'reward_std': 0.06949077360332012, 'kl': 0.043701171875, 'epoch': 0.28}
+ 28%|██▊       | 1221/4286 [7:44:20<20:27:10, 24.02s/it] 29%|██▊       | 1222/4286 [7:44:45<20:38:59, 24.26s/it]                                                        {'loss': 0.011, 'grad_norm': 0.6328250015278831, 'learning_rate': 7.148856742883808e-07, 'completion_length': 424.60716247558594, 'rewards/only_full_func_accuracy_reward': 0.7046131193637848, 'rewards/format_reward': 1.0, 'reward': 1.704613208770752, 'reward_std': 0.038121938705444336, 'kl': 0.2769775390625, 'epoch': 0.29}
+ 29%|██▊       | 1222/4286 [7:44:45<20:38:59, 24.26s/it] 29%|██▊       | 1223/4286 [7:45:10<20:58:21, 24.65s/it]                                                        {'loss': 0.0065, 'grad_norm': 0.5250517898137076, 'learning_rate': 7.14652356509566e-07, 'completion_length': 460.70538330078125, 'rewards/only_full_func_accuracy_reward': 0.59226194024086, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.583333432674408, 'reward_std': 0.06302563659846783, 'kl': 0.1624755859375, 'epoch': 0.29}
+ 29%|██▊       | 1223/4286 [7:45:10<20:58:21, 24.65s/it] 29%|██▊       | 1224/4286 [7:45:34<20:44:12, 24.38s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.255837668467356, 'learning_rate': 7.144190387307512e-07, 'completion_length': 405.7857360839844, 'rewards/only_full_func_accuracy_reward': 0.6209821403026581, 'rewards/format_reward': 1.0, 'reward': 1.6209822297096252, 'reward_std': 0.01852227933704853, 'kl': 0.04443359375, 'epoch': 0.29}
+ 29%|██▊       | 1224/4286 [7:45:34<20:44:12, 24.38s/it] 29%|██▊       | 1225/4286 [7:46:00<21:06:26, 24.82s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.41292428176969664, 'learning_rate': 7.141857209519366e-07, 'completion_length': 469.89288330078125, 'rewards/only_full_func_accuracy_reward': 0.6316964626312256, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.622767984867096, 'reward_std': 0.12210516259074211, 'kl': 0.0367431640625, 'epoch': 0.29}
+ 29%|██▊       | 1225/4286 [7:46:00<21:06:26, 24.82s/it] 29%|██▊       | 1226/4286 [7:46:25<21:09:11, 24.89s/it]                                                        {'loss': 0.0106, 'grad_norm': 0.6154623133107702, 'learning_rate': 7.139524031731218e-07, 'completion_length': 436.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.7484056353569031, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7305485606193542, 'reward_std': 0.10552487149834633, 'kl': 0.26416015625, 'epoch': 0.29}
+ 29%|██▊       | 1226/4286 [7:46:25<21:09:11, 24.89s/it] 29%|██▊       | 1227/4286 [7:46:51<21:28:06, 25.27s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.7478652942539087, 'learning_rate': 7.13719085394307e-07, 'completion_length': 487.3839569091797, 'rewards/only_full_func_accuracy_reward': 0.7718750238418579, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7629464864730835, 'reward_std': 0.10000473819673061, 'kl': 0.037109375, 'epoch': 0.29}
+ 29%|██▊       | 1227/4286 [7:46:51<21:28:06, 25.27s/it] 29%|██▊       | 1228/4286 [7:47:16<21:20:04, 25.12s/it]                                                        {'loss': 0.0041, 'grad_norm': 0.290999175550835, 'learning_rate': 7.134857676154923e-07, 'completion_length': 404.12501525878906, 'rewards/only_full_func_accuracy_reward': 0.6892857551574707, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6803573369979858, 'reward_std': 0.07183271832764149, 'kl': 0.102783203125, 'epoch': 0.29}
+ 29%|██▊       | 1228/4286 [7:47:16<21:20:04, 25.12s/it] 29%|██▊       | 1229/4286 [7:47:41<21:24:51, 25.22s/it]                                                        {'loss': 0.0316, 'grad_norm': 0.8605823152293179, 'learning_rate': 7.132524498366775e-07, 'completion_length': 426.8214569091797, 'rewards/only_full_func_accuracy_reward': 0.7309736609458923, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7131166458129883, 'reward_std': 0.1268235146999359, 'kl': 0.79296875, 'epoch': 0.29}
+ 29%|██▊       | 1229/4286 [7:47:41<21:24:51, 25.22s/it] 29%|██▊       | 1230/4286 [7:48:05<21:02:20, 24.78s/it]                                                        {'loss': 0.0026, 'grad_norm': 0.39347078172828065, 'learning_rate': 7.130191320578628e-07, 'completion_length': 414.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.45967262983322144, 'rewards/format_reward': 1.0, 'reward': 1.459672749042511, 'reward_std': 0.03980216011404991, 'kl': 0.0638427734375, 'epoch': 0.29}
+ 29%|██▊       | 1230/4286 [7:48:05<21:02:20, 24.78s/it] 29%|██▊       | 1231/4286 [7:48:29<20:44:56, 24.45s/it]                                                        {'loss': 0.0018, 'grad_norm': 1.2196823724895092, 'learning_rate': 7.127858142790481e-07, 'completion_length': 400.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.6313988417387009, 'rewards/format_reward': 1.0, 'reward': 1.6313989162445068, 'reward_std': 0.052042338997125626, 'kl': 0.044189453125, 'epoch': 0.29}
+ 29%|██▊       | 1231/4286 [7:48:29<20:44:56, 24.45s/it] 29%|██▊       | 1232/4286 [7:48:52<20:28:24, 24.13s/it]                                                        {'loss': 0.0033, 'grad_norm': 0.500002833071341, 'learning_rate': 7.125524965002333e-07, 'completion_length': 413.9643096923828, 'rewards/only_full_func_accuracy_reward': 0.7098214626312256, 'rewards/format_reward': 1.0, 'reward': 1.7098215222358704, 'reward_std': 0.09230457246303558, 'kl': 0.08203125, 'epoch': 0.29}
+ 29%|██▊       | 1232/4286 [7:48:52<20:28:24, 24.13s/it] 29%|██▉       | 1233/4286 [7:49:17<20:44:33, 24.46s/it]                                                        {'loss': 0.0188, 'grad_norm': 1.738487222510718, 'learning_rate': 7.123191787214185e-07, 'completion_length': 379.25001525878906, 'rewards/only_full_func_accuracy_reward': 0.6145833432674408, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6056548357009888, 'reward_std': 0.16714246943593025, 'kl': 0.4716796875, 'epoch': 0.29}
+ 29%|██▉       | 1233/4286 [7:49:17<20:44:33, 24.46s/it] 29%|██▉       | 1234/4286 [7:49:43<20:58:31, 24.74s/it]                                                        {'loss': 0.0092, 'grad_norm': 0.5670860253649678, 'learning_rate': 7.120858609426038e-07, 'completion_length': 438.6964416503906, 'rewards/only_full_func_accuracy_reward': 0.6386905014514923, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6297619938850403, 'reward_std': 0.10506724193692207, 'kl': 0.229248046875, 'epoch': 0.29}
+ 29%|██▉       | 1234/4286 [7:49:43<20:58:31, 24.74s/it] 29%|██▉       | 1235/4286 [7:50:07<20:52:52, 24.64s/it]                                                        {'loss': 0.0638, 'grad_norm': 0.7268379125780617, 'learning_rate': 7.118525431637891e-07, 'completion_length': 422.16966247558594, 'rewards/only_full_func_accuracy_reward': 0.7760417461395264, 'rewards/format_reward': 0.955357164144516, 'reward': 1.73139888048172, 'reward_std': 0.23295895755290985, 'kl': 1.59765625, 'epoch': 0.29}
+ 29%|██▉       | 1235/4286 [7:50:07<20:52:52, 24.64s/it] 29%|██▉       | 1236/4286 [7:50:33<21:06:52, 24.92s/it]                                                        {'loss': 0.0026, 'grad_norm': 0.1867043631600286, 'learning_rate': 7.116192253849743e-07, 'completion_length': 432.1607208251953, 'rewards/only_full_func_accuracy_reward': 0.726934552192688, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7180060744285583, 'reward_std': 0.053783684968948364, 'kl': 0.064453125, 'epoch': 0.29}
+ 29%|██▉       | 1236/4286 [7:50:33<21:06:52, 24.92s/it] 29%|██▉       | 1237/4286 [7:50:56<20:43:11, 24.46s/it]                                                        {'loss': 0.0036, 'grad_norm': 0.25190679723096077, 'learning_rate': 7.113859076061595e-07, 'completion_length': 346.2053680419922, 'rewards/only_full_func_accuracy_reward': 0.750744104385376, 'rewards/format_reward': 1.0, 'reward': 1.7507441639900208, 'reward_std': 0.03141389973461628, 'kl': 0.0889892578125, 'epoch': 0.29}
+ 29%|██▉       | 1237/4286 [7:50:56<20:43:11, 24.46s/it] 29%|██▉       | 1238/4286 [7:51:21<20:47:20, 24.55s/it]                                                        {'loss': 0.009, 'grad_norm': 0.49763835686151786, 'learning_rate': 7.111525898273449e-07, 'completion_length': 435.2678680419922, 'rewards/only_full_func_accuracy_reward': 0.6075892448425293, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5986608266830444, 'reward_std': 0.11126763001084328, 'kl': 0.22607421875, 'epoch': 0.29}
+ 29%|██▉       | 1238/4286 [7:51:21<20:47:20, 24.55s/it] 29%|██▉       | 1239/4286 [7:51:44<20:29:49, 24.22s/it]                                                        {'loss': 0.0023, 'grad_norm': 1.2453230407317586, 'learning_rate': 7.109192720485301e-07, 'completion_length': 374.8214569091797, 'rewards/only_full_func_accuracy_reward': 0.6864955425262451, 'rewards/format_reward': 1.0, 'reward': 1.6864955425262451, 'reward_std': 0.05509652569890022, 'kl': 0.05712890625, 'epoch': 0.29}
+ 29%|██▉       | 1239/4286 [7:51:44<20:29:49, 24.22s/it] 29%|██▉       | 1240/4286 [7:52:09<20:34:56, 24.33s/it]                                                        {'loss': 0.0076, 'grad_norm': 0.5779314775255335, 'learning_rate': 7.106859542697153e-07, 'completion_length': 421.1964569091797, 'rewards/only_full_func_accuracy_reward': 0.7596726417541504, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7507441639900208, 'reward_std': 0.08689695596694946, 'kl': 0.189208984375, 'epoch': 0.29}
+ 29%|██▉       | 1240/4286 [7:52:09<20:34:56, 24.33s/it] 29%|██▉       | 1241/4286 [7:52:35<21:03:45, 24.90s/it]                                                        {'loss': 0.0215, 'grad_norm': 1.0038455328325322, 'learning_rate': 7.104526364909006e-07, 'completion_length': 470.2143096923828, 'rewards/only_full_func_accuracy_reward': 0.8008928596973419, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7919642925262451, 'reward_std': 0.07909918576478958, 'kl': 0.5364990234375, 'epoch': 0.29}
+ 29%|██▉       | 1241/4286 [7:52:35<21:03:45, 24.90s/it] 29%|██▉       | 1242/4286 [7:53:01<21:10:16, 25.04s/it]                                                        {'loss': 0.005, 'grad_norm': 0.61329823196333, 'learning_rate': 7.102193187120859e-07, 'completion_length': 441.70538330078125, 'rewards/only_full_func_accuracy_reward': 0.7738095223903656, 'rewards/format_reward': 1.0, 'reward': 1.7738096117973328, 'reward_std': 0.0883233118802309, 'kl': 0.12451171875, 'epoch': 0.29}
+ 29%|██▉       | 1242/4286 [7:53:01<21:10:16, 25.04s/it] 29%|██▉       | 1243/4286 [7:53:25<21:01:14, 24.87s/it]                                                        {'loss': 0.0041, 'grad_norm': 0.7998564198825795, 'learning_rate': 7.099860009332711e-07, 'completion_length': 385.8750305175781, 'rewards/only_full_func_accuracy_reward': 0.7983631193637848, 'rewards/format_reward': 1.0, 'reward': 1.798363208770752, 'reward_std': 0.09374501742422581, 'kl': 0.1021728515625, 'epoch': 0.29}
+ 29%|██▉       | 1243/4286 [7:53:25<21:01:14, 24.87s/it] 29%|██▉       | 1244/4286 [7:53:51<21:22:12, 25.29s/it]                                                        {'loss': 0.0201, 'grad_norm': 0.7419396146986016, 'learning_rate': 7.097526831544563e-07, 'completion_length': 483.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.5787273943424225, 'rewards/format_reward': 0.9464286267757416, 'reward': 1.525156021118164, 'reward_std': 0.23360177874565125, 'kl': 0.5001220703125, 'epoch': 0.29}
+ 29%|██▉       | 1244/4286 [7:53:51<21:22:12, 25.29s/it] 29%|██▉       | 1245/4286 [7:54:17<21:25:50, 25.37s/it]                                                        {'loss': 0.0456, 'grad_norm': 0.8269428326054187, 'learning_rate': 7.095193653756416e-07, 'completion_length': 410.5357360839844, 'rewards/only_full_func_accuracy_reward': 0.6359375417232513, 'rewards/format_reward': 0.9553571939468384, 'reward': 1.5912947058677673, 'reward_std': 0.21391895413398743, 'kl': 1.138427734375, 'epoch': 0.29}
+ 29%|██▉       | 1245/4286 [7:54:17<21:25:50, 25.37s/it] 29%|██▉       | 1246/4286 [7:54:42<21:27:45, 25.42s/it]                                                        {'loss': 0.0474, 'grad_norm': 1.5280033156118644, 'learning_rate': 7.092860475968269e-07, 'completion_length': 461.2857360839844, 'rewards/only_full_func_accuracy_reward': 0.5643601715564728, 'rewards/format_reward': 0.9375000298023224, 'reward': 1.5018602013587952, 'reward_std': 0.18389302492141724, 'kl': 1.18408203125, 'epoch': 0.29}
+ 29%|██▉       | 1246/4286 [7:54:42<21:27:45, 25.42s/it] 29%|██▉       | 1247/4286 [7:55:07<21:14:10, 25.16s/it]                                                        {'loss': 0.1084, 'grad_norm': 2.8026492534613423, 'learning_rate': 7.090527298180121e-07, 'completion_length': 405.0535888671875, 'rewards/only_full_func_accuracy_reward': 0.5593112707138062, 'rewards/format_reward': 0.9196428954601288, 'reward': 1.4789541959762573, 'reward_std': 0.28849321603775024, 'kl': 2.703125, 'epoch': 0.29}
+ 29%|██▉       | 1247/4286 [7:55:07<21:14:10, 25.16s/it] 29%|██▉       | 1248/4286 [7:55:31<21:03:57, 24.96s/it]                                                        {'loss': 0.0376, 'grad_norm': 1.0954379660634723, 'learning_rate': 7.088194120391974e-07, 'completion_length': 429.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.7337053716182709, 'rewards/format_reward': 0.9375000298023224, 'reward': 1.671205461025238, 'reward_std': 0.1582450121641159, 'kl': 0.9404296875, 'epoch': 0.29}
+ 29%|██▉       | 1248/4286 [7:55:31<21:03:57, 24.96s/it] 29%|██▉       | 1249/4286 [7:55:57<21:09:03, 25.07s/it]                                                        {'loss': 0.0351, 'grad_norm': 1.2914147144995156, 'learning_rate': 7.085860942603826e-07, 'completion_length': 409.91966247558594, 'rewards/only_full_func_accuracy_reward': 0.6104167103767395, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.5925596356391907, 'reward_std': 0.18772505223751068, 'kl': 0.875, 'epoch': 0.29}
+ 29%|██▉       | 1249/4286 [7:55:57<21:09:03, 25.07s/it] 29%|██▉       | 1250/4286 [7:56:23<21:19:02, 25.28s/it]                                                        {'loss': 0.0378, 'grad_norm': 1.9100438301227436, 'learning_rate': 7.083527764815678e-07, 'completion_length': 442.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.5755456686019897, 'rewards/format_reward': 0.9553571939468384, 'reward': 1.5309028029441833, 'reward_std': 0.22473954409360886, 'kl': 0.947265625, 'epoch': 0.29}
+ 29%|██▉       | 1250/4286 [7:56:23<21:19:02, 25.28s/it] 29%|██▉       | 1251/4286 [7:56:48<21:16:49, 25.24s/it]                                                        {'loss': 0.0394, 'grad_norm': 2.2400617579159525, 'learning_rate': 7.081194587027532e-07, 'completion_length': 414.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.6366186589002609, 'rewards/format_reward': 0.9553571939468384, 'reward': 1.5919758081436157, 'reward_std': 0.22619327902793884, 'kl': 0.98388671875, 'epoch': 0.29}
+ 29%|██▉       | 1251/4286 [7:56:48<21:16:49, 25.24s/it] 29%|██▉       | 1252/4286 [7:57:12<21:08:31, 25.09s/it]                                                        {'loss': 0.0359, 'grad_norm': 1.8428789827596734, 'learning_rate': 7.078861409239384e-07, 'completion_length': 423.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.6726190745830536, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.6369048953056335, 'reward_std': 0.22547247260808945, 'kl': 0.896484375, 'epoch': 0.29}
+ 29%|██▉       | 1252/4286 [7:57:12<21:08:31, 25.09s/it] 29%|██▉       | 1253/4286 [7:57:38<21:08:17, 25.09s/it]                                                        {'loss': 0.0784, 'grad_norm': 1.4866119676844831, 'learning_rate': 7.076528231451236e-07, 'completion_length': 425.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.6346726417541504, 'rewards/format_reward': 0.928571492433548, 'reward': 1.5632442235946655, 'reward_std': 0.2776637226343155, 'kl': 1.96484375, 'epoch': 0.29}
+ 29%|██▉       | 1253/4286 [7:57:38<21:08:17, 25.09s/it] 29%|██▉       | 1254/4286 [7:58:01<20:50:05, 24.74s/it]                                                        {'loss': 0.1702, 'grad_norm': 6.372777064608359, 'learning_rate': 7.07419505366309e-07, 'completion_length': 432.7232360839844, 'rewards/only_full_func_accuracy_reward': 0.6428571939468384, 'rewards/format_reward': 0.8839285969734192, 'reward': 1.5267857313156128, 'reward_std': 0.2923591434955597, 'kl': 4.2421875, 'epoch': 0.29}
+ 29%|██▉       | 1254/4286 [7:58:01<20:50:05, 24.74s/it] 29%|██▉       | 1255/4286 [7:58:25<20:38:39, 24.52s/it]                                                        {'loss': 0.1896, 'grad_norm': 4.043337095934867, 'learning_rate': 7.071861875874942e-07, 'completion_length': 413.20538330078125, 'rewards/only_full_func_accuracy_reward': 0.6147746592760086, 'rewards/format_reward': 0.8750000298023224, 'reward': 1.489774763584137, 'reward_std': 0.4351952224969864, 'kl': 4.75, 'epoch': 0.29}
+ 29%|██▉       | 1255/4286 [7:58:25<20:38:39, 24.52s/it] 29%|██▉       | 1256/4286 [7:58:50<20:43:41, 24.63s/it]                                                        {'loss': 0.2409, 'grad_norm': 6.1352023685608, 'learning_rate': 7.069528698086794e-07, 'completion_length': 406.0089416503906, 'rewards/only_full_func_accuracy_reward': 0.4317956566810608, 'rewards/format_reward': 0.848214328289032, 'reward': 1.2800099849700928, 'reward_std': 0.4798257350921631, 'kl': 6.03125, 'epoch': 0.29}
+ 29%|██▉       | 1256/4286 [7:58:50<20:43:41, 24.63s/it] 29%|██▉       | 1257/4286 [7:59:15<20:47:17, 24.71s/it]                                                        {'loss': 0.1682, 'grad_norm': 3.8082095883872813, 'learning_rate': 7.067195520298646e-07, 'completion_length': 393.7053680419922, 'rewards/only_full_func_accuracy_reward': 0.6312074959278107, 'rewards/format_reward': 0.8928571939468384, 'reward': 1.5240647196769714, 'reward_std': 0.379545196890831, 'kl': 4.203125, 'epoch': 0.29}
+ 29%|██▉       | 1257/4286 [7:59:15<20:47:17, 24.71s/it] 29%|██▉       | 1258/4286 [7:59:41<20:55:43, 24.88s/it]                                                        {'loss': 0.0923, 'grad_norm': 2.1910408522550315, 'learning_rate': 7.064862342510499e-07, 'completion_length': 429.7143096923828, 'rewards/only_full_func_accuracy_reward': 0.5806548297405243, 'rewards/format_reward': 0.9285714626312256, 'reward': 1.5092263221740723, 'reward_std': 0.30388644337654114, 'kl': 2.3046875, 'epoch': 0.29}
+ 29%|██▉       | 1258/4286 [7:59:41<20:55:43, 24.88s/it] 29%|██▉       | 1259/4286 [8:00:05<20:51:30, 24.81s/it]                                                        {'loss': 0.0642, 'grad_norm': 0.8838326580275859, 'learning_rate': 7.062529164722352e-07, 'completion_length': 397.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.6599703133106232, 'rewards/format_reward': 0.9464285969734192, 'reward': 1.6063989400863647, 'reward_std': 0.23990774899721146, 'kl': 1.6015625, 'epoch': 0.29}
+ 29%|██▉       | 1259/4286 [8:00:05<20:51:30, 24.81s/it] 29%|██▉       | 1260/4286 [8:00:31<21:07:00, 25.12s/it]                                                        {'loss': 0.0101, 'grad_norm': 1.40759162848223, 'learning_rate': 7.060195986934204e-07, 'completion_length': 471.9464416503906, 'rewards/only_full_func_accuracy_reward': 0.6904762387275696, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.68154776096344, 'reward_std': 0.13132729567587376, 'kl': 0.25244140625, 'epoch': 0.29}
+ 29%|██▉       | 1260/4286 [8:00:31<21:07:00, 25.12s/it] 29%|██▉       | 1261/4286 [8:00:57<21:13:30, 25.26s/it]                                                        {'loss': 0.0124, 'grad_norm': 1.4653777861124218, 'learning_rate': 7.057862809146057e-07, 'completion_length': 461.6875305175781, 'rewards/only_full_func_accuracy_reward': 0.7788691222667694, 'rewards/format_reward': 1.0, 'reward': 1.7788691520690918, 'reward_std': 0.11299753561615944, 'kl': 0.310546875, 'epoch': 0.29}
+ 29%|██▉       | 1261/4286 [8:00:57<21:13:30, 25.26s/it] 29%|██▉       | 1262/4286 [8:01:23<21:34:09, 25.68s/it]                                                        {'loss': 0.0084, 'grad_norm': 0.5824544405061961, 'learning_rate': 7.055529631357909e-07, 'completion_length': 483.4643096923828, 'rewards/only_full_func_accuracy_reward': 0.7678200006484985, 'rewards/format_reward': 1.0, 'reward': 1.7678200602531433, 'reward_std': 0.10411843657493591, 'kl': 0.2095947265625, 'epoch': 0.29}
+ 29%|██▉       | 1262/4286 [8:01:23<21:34:09, 25.68s/it] 29%|██▉       | 1263/4286 [8:01:48<21:16:00, 25.33s/it]                                                        {'loss': 0.0076, 'grad_norm': 0.6239775368331877, 'learning_rate': 7.053196453569762e-07, 'completion_length': 440.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.6669643223285675, 'rewards/format_reward': 1.0, 'reward': 1.66696435213089, 'reward_std': 0.02862098580226302, 'kl': 0.1900634765625, 'epoch': 0.29}
+ 29%|██▉       | 1263/4286 [8:01:48<21:16:00, 25.33s/it] 29%|██▉       | 1264/4286 [8:02:12<20:52:38, 24.87s/it]                                                        {'loss': 0.0019, 'grad_norm': 0.3127275187673534, 'learning_rate': 7.050863275781615e-07, 'completion_length': 413.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.7279762029647827, 'rewards/format_reward': 1.0, 'reward': 1.7279763221740723, 'reward_std': 0.07395612820982933, 'kl': 0.048095703125, 'epoch': 0.29}
+ 29%|██▉       | 1264/4286 [8:02:12<20:52:38, 24.87s/it] 30%|██▉       | 1265/4286 [8:02:36<20:47:50, 24.78s/it]                                                        {'loss': 0.016, 'grad_norm': 1.4332085535872818, 'learning_rate': 7.048530097993467e-07, 'completion_length': 415.4643096923828, 'rewards/only_full_func_accuracy_reward': 0.6346726715564728, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.625744104385376, 'reward_std': 0.10296804830431938, 'kl': 0.4007568359375, 'epoch': 0.3}
+ 30%|██▉       | 1265/4286 [8:02:36<20:47:50, 24.78s/it] 30%|██▉       | 1266/4286 [8:03:01<20:55:41, 24.95s/it]                                                        {'loss': 0.0109, 'grad_norm': 1.0328254097101117, 'learning_rate': 7.046196920205319e-07, 'completion_length': 423.92860412597656, 'rewards/only_full_func_accuracy_reward': 0.7589285671710968, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7500001192092896, 'reward_std': 0.063957329839468, 'kl': 0.2703857421875, 'epoch': 0.3}
+ 30%|██▉       | 1266/4286 [8:03:01<20:55:41, 24.95s/it] 30%|██▉       | 1267/4286 [8:03:29<21:26:46, 25.57s/it]                                                        {'loss': 0.0064, 'grad_norm': 0.5348797165473794, 'learning_rate': 7.043863742417172e-07, 'completion_length': 520.4375305175781, 'rewards/only_full_func_accuracy_reward': 0.6108631193637848, 'rewards/format_reward': 1.0, 'reward': 1.610863208770752, 'reward_std': 0.07464168313890696, 'kl': 0.160400390625, 'epoch': 0.3}
+ 30%|██▉       | 1267/4286 [8:03:29<21:26:46, 25.57s/it] 30%|██▉       | 1268/4286 [8:03:53<21:17:36, 25.40s/it]                                                        {'loss': 0.0108, 'grad_norm': 0.8627667068776904, 'learning_rate': 7.041530564629025e-07, 'completion_length': 468.2053680419922, 'rewards/only_full_func_accuracy_reward': 0.5290178805589676, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.5111608505249023, 'reward_std': 0.09470179677009583, 'kl': 0.268310546875, 'epoch': 0.3}
+ 30%|██▉       | 1268/4286 [8:03:54<21:17:36, 25.40s/it] 30%|██▉       | 1269/4286 [8:04:18<21:02:59, 25.12s/it]                                                        {'loss': 0.0022, 'grad_norm': 0.9881952918169572, 'learning_rate': 7.039197386840877e-07, 'completion_length': 450.8482360839844, 'rewards/only_full_func_accuracy_reward': 0.6227679252624512, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6138394474983215, 'reward_std': 0.08933095633983612, 'kl': 0.05419921875, 'epoch': 0.3}
+ 30%|██▉       | 1269/4286 [8:04:18<21:02:59, 25.12s/it] 30%|██▉       | 1270/4286 [8:04:43<21:03:37, 25.14s/it]                                                        {'loss': 0.0187, 'grad_norm': 0.9605376513143103, 'learning_rate': 7.036864209052729e-07, 'completion_length': 457.3125305175781, 'rewards/only_full_func_accuracy_reward': 0.645089328289032, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6272322535514832, 'reward_std': 0.12632138840854168, 'kl': 0.4686279296875, 'epoch': 0.3}
+ 30%|██▉       | 1270/4286 [8:04:43<21:03:37, 25.14s/it] 30%|██▉       | 1271/4286 [8:05:07<20:45:55, 24.79s/it]                                                        {'loss': 0.1454, 'grad_norm': 1.865827337978965, 'learning_rate': 7.034531031264583e-07, 'completion_length': 409.52679443359375, 'rewards/only_full_func_accuracy_reward': 0.5012755393981934, 'rewards/format_reward': 0.9196428954601288, 'reward': 1.4209185242652893, 'reward_std': 0.31782131642103195, 'kl': 3.640625, 'epoch': 0.3}
+ 30%|██▉       | 1271/4286 [8:05:07<20:45:55, 24.79s/it] 30%|██▉       | 1272/4286 [8:05:32<20:39:51, 24.68s/it]                                                        {'loss': 0.0596, 'grad_norm': 1.3942084444964227, 'learning_rate': 7.032197853476435e-07, 'completion_length': 403.8482208251953, 'rewards/only_full_func_accuracy_reward': 0.6555059850215912, 'rewards/format_reward': 0.973214328289032, 'reward': 1.6287203431129456, 'reward_std': 0.18687476217746735, 'kl': 1.48828125, 'epoch': 0.3}
+ 30%|██▉       | 1272/4286 [8:05:32<20:39:51, 24.68s/it] 30%|██▉       | 1273/4286 [8:05:55<20:26:31, 24.42s/it]                                                        {'loss': 0.1378, 'grad_norm': 1.9999373612599138, 'learning_rate': 7.029864675688287e-07, 'completion_length': 360.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.45803573727607727, 'rewards/format_reward': 0.910714328289032, 'reward': 1.3687501549720764, 'reward_std': 0.3659411370754242, 'kl': 3.4453125, 'epoch': 0.3}
+ 30%|██▉       | 1273/4286 [8:05:55<20:26:31, 24.42s/it] 30%|██▉       | 1274/4286 [8:06:20<20:28:47, 24.48s/it]                                                        {'loss': 0.2416, 'grad_norm': 4.452348889000546, 'learning_rate': 7.02753149790014e-07, 'completion_length': 357.6339416503906, 'rewards/only_full_func_accuracy_reward': 0.6249070465564728, 'rewards/format_reward': 0.8392857611179352, 'reward': 1.464192807674408, 'reward_std': 0.5571070909500122, 'kl': 6.03125, 'epoch': 0.3}
+ 30%|██▉       | 1274/4286 [8:06:20<20:28:47, 24.48s/it] 30%|██▉       | 1275/4286 [8:06:44<20:22:48, 24.37s/it]                                                        {'loss': 0.193, 'grad_norm': 4.828207112836944, 'learning_rate': 7.025198320111993e-07, 'completion_length': 407.4732208251953, 'rewards/only_full_func_accuracy_reward': 0.5736607313156128, 'rewards/format_reward': 0.8571428954601288, 'reward': 1.4308037161827087, 'reward_std': 0.3784896284341812, 'kl': 4.8125, 'epoch': 0.3}
+ 30%|██▉       | 1275/4286 [8:06:44<20:22:48, 24.37s/it] 30%|██▉       | 1276/4286 [8:07:07<19:53:09, 23.78s/it]                                                        {'loss': 0.1942, 'grad_norm': 4.059561446780528, 'learning_rate': 7.022865142323845e-07, 'completion_length': 357.5089416503906, 'rewards/only_full_func_accuracy_reward': 0.5379464477300644, 'rewards/format_reward': 0.8750000298023224, 'reward': 1.4129465818405151, 'reward_std': 0.4537278562784195, 'kl': 4.8515625, 'epoch': 0.3}
+ 30%|██▉       | 1276/4286 [8:07:07<19:53:09, 23.78s/it] 30%|██▉       | 1277/4286 [8:07:30<19:44:51, 23.63s/it]                                                        {'loss': 0.22, 'grad_norm': 4.6497293847834555, 'learning_rate': 7.020531964535698e-07, 'completion_length': 371.2589416503906, 'rewards/only_full_func_accuracy_reward': 0.4791666716337204, 'rewards/format_reward': 0.8750000596046448, 'reward': 1.3541668057441711, 'reward_std': 0.46718423068523407, 'kl': 5.484375, 'epoch': 0.3}
+ 30%|██▉       | 1277/4286 [8:07:30<19:44:51, 23.63s/it] 30%|██▉       | 1278/4286 [8:07:53<19:43:48, 23.61s/it]                                                        {'loss': 0.1144, 'grad_norm': 1.7920538390977165, 'learning_rate': 7.01819878674755e-07, 'completion_length': 367.2946472167969, 'rewards/only_full_func_accuracy_reward': 0.6339962482452393, 'rewards/format_reward': 0.9285714626312256, 'reward': 1.5625677704811096, 'reward_std': 0.39252398908138275, 'kl': 2.8515625, 'epoch': 0.3}
+ 30%|██▉       | 1278/4286 [8:07:53<19:43:48, 23.61s/it] 30%|██▉       | 1279/4286 [8:08:19<20:11:37, 24.18s/it]                                                        {'loss': 0.0505, 'grad_norm': 2.4559974110325573, 'learning_rate': 7.015865608959402e-07, 'completion_length': 392.27679443359375, 'rewards/only_full_func_accuracy_reward': 0.625744104385376, 'rewards/format_reward': 0.973214328289032, 'reward': 1.598958432674408, 'reward_std': 0.1935264691710472, 'kl': 1.26171875, 'epoch': 0.3}
+ 30%|██▉       | 1279/4286 [8:08:19<20:11:37, 24.18s/it] 30%|██▉       | 1280/4286 [8:08:43<20:05:02, 24.05s/it]                                                        {'loss': 0.0623, 'grad_norm': 1.0080633795801497, 'learning_rate': 7.013532431171255e-07, 'completion_length': 356.4732208251953, 'rewards/only_full_func_accuracy_reward': 0.598214328289032, 'rewards/format_reward': 0.973214328289032, 'reward': 1.5714287161827087, 'reward_std': 0.18762248381972313, 'kl': 1.5546875, 'epoch': 0.3}
+ 30%|██▉       | 1280/4286 [8:08:43<20:05:02, 24.05s/it] 30%|██▉       | 1281/4286 [8:09:07<20:06:05, 24.08s/it]                                                        {'loss': 0.0355, 'grad_norm': 1.717851848225983, 'learning_rate': 7.011199253383108e-07, 'completion_length': 442.6518096923828, 'rewards/only_full_func_accuracy_reward': 0.7436012327671051, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7257441878318787, 'reward_std': 0.17132701724767685, 'kl': 0.88671875, 'epoch': 0.3}
+ 30%|██▉       | 1281/4286 [8:09:07<20:06:05, 24.08s/it] 30%|██▉       | 1282/4286 [8:09:31<20:10:41, 24.18s/it]                                                        {'loss': 0.082, 'grad_norm': 1.5003354862286535, 'learning_rate': 7.00886607559496e-07, 'completion_length': 413.58038330078125, 'rewards/only_full_func_accuracy_reward': 0.5163690149784088, 'rewards/format_reward': 0.9375000298023224, 'reward': 1.4538691639900208, 'reward_std': 0.2838369235396385, 'kl': 2.05078125, 'epoch': 0.3}
+ 30%|██▉       | 1282/4286 [8:09:31<20:10:41, 24.18s/it] 30%|██▉       | 1283/4286 [8:09:56<20:25:13, 24.48s/it]                                                        {'loss': 0.0669, 'grad_norm': 1.1331484119988793, 'learning_rate': 7.006532897806812e-07, 'completion_length': 421.60716247558594, 'rewards/only_full_func_accuracy_reward': 0.6580357551574707, 'rewards/format_reward': 0.9464285969734192, 'reward': 1.60446435213089, 'reward_std': 0.26169850677251816, 'kl': 1.66796875, 'epoch': 0.3}
+ 30%|██▉       | 1283/4286 [8:09:56<20:25:13, 24.48s/it] 30%|██▉       | 1284/4286 [8:10:21<20:20:22, 24.39s/it]                                                        {'loss': 0.0503, 'grad_norm': 1.328143597461488, 'learning_rate': 7.004199720018666e-07, 'completion_length': 396.83038330078125, 'rewards/only_full_func_accuracy_reward': 0.7187500298023224, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.6830357909202576, 'reward_std': 0.2420964166522026, 'kl': 1.255859375, 'epoch': 0.3}
+ 30%|██▉       | 1284/4286 [8:10:21<20:20:22, 24.39s/it] 30%|██▉       | 1285/4286 [8:10:46<20:42:39, 24.84s/it]                                                        {'loss': 0.0326, 'grad_norm': 2.579593310746627, 'learning_rate': 7.001866542230518e-07, 'completion_length': 409.60716247558594, 'rewards/only_full_func_accuracy_reward': 0.5374504327774048, 'rewards/format_reward': 0.973214328289032, 'reward': 1.5106648206710815, 'reward_std': 0.1282983347773552, 'kl': 0.81640625, 'epoch': 0.3}
+ 30%|██▉       | 1285/4286 [8:10:46<20:42:39, 24.84s/it] 30%|███       | 1286/4286 [8:11:11<20:42:12, 24.84s/it]                                                        {'loss': 0.012, 'grad_norm': 0.9137600467151139, 'learning_rate': 6.99953336444237e-07, 'completion_length': 441.00001525878906, 'rewards/only_full_func_accuracy_reward': 0.6517857611179352, 'rewards/format_reward': 1.0, 'reward': 1.6517858505249023, 'reward_std': 0.09624139219522476, 'kl': 0.300537109375, 'epoch': 0.3}
+ 30%|███       | 1286/4286 [8:11:11<20:42:12, 24.84s/it] 30%|███       | 1287/4286 [8:11:35<20:21:17, 24.43s/it]                                                        {'loss': 0.0466, 'grad_norm': 0.7335199345589072, 'learning_rate': 6.997200186654223e-07, 'completion_length': 402.2232360839844, 'rewards/only_full_func_accuracy_reward': 0.7418155372142792, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.7150298357009888, 'reward_std': 0.13136903196573257, 'kl': 1.16943359375, 'epoch': 0.3}
+ 30%|███       | 1287/4286 [8:11:35<20:21:17, 24.43s/it] 30%|███       | 1288/4286 [8:12:00<20:26:46, 24.55s/it]                                                        {'loss': 0.035, 'grad_norm': 1.0624446981938291, 'learning_rate': 6.994867008866076e-07, 'completion_length': 453.48216247558594, 'rewards/only_full_func_accuracy_reward': 0.6173469573259354, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.590561330318451, 'reward_std': 0.21499239653348923, 'kl': 0.875244140625, 'epoch': 0.3}
+ 30%|███       | 1288/4286 [8:12:00<20:26:46, 24.55s/it] 30%|███       | 1289/4286 [8:12:25<20:36:24, 24.75s/it]                                                        {'loss': 0.0678, 'grad_norm': 1.4625078252937966, 'learning_rate': 6.992533831077928e-07, 'completion_length': 461.60716247558594, 'rewards/only_full_func_accuracy_reward': 0.6919642984867096, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.6562501192092896, 'reward_std': 0.185101218521595, 'kl': 1.69140625, 'epoch': 0.3}
+ 30%|███       | 1289/4286 [8:12:25<20:36:24, 24.75s/it] 30%|███       | 1290/4286 [8:12:47<19:55:54, 23.95s/it]                                                        {'loss': 0.0994, 'grad_norm': 6.200124402647446, 'learning_rate': 6.99020065328978e-07, 'completion_length': 316.2857208251953, 'rewards/only_full_func_accuracy_reward': 0.5790179073810577, 'rewards/format_reward': 0.955357164144516, 'reward': 1.534375011920929, 'reward_std': 0.1746744615957141, 'kl': 2.482666015625, 'epoch': 0.3}
+ 30%|███       | 1290/4286 [8:12:47<19:55:54, 23.95s/it] 30%|███       | 1291/4286 [8:13:12<20:13:36, 24.31s/it]                                                        {'loss': 0.042, 'grad_norm': 1.390880236308865, 'learning_rate': 6.987867475501633e-07, 'completion_length': 419.2410888671875, 'rewards/only_full_func_accuracy_reward': 0.6569940745830536, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6391369700431824, 'reward_std': 0.08199361152946949, 'kl': 1.05078125, 'epoch': 0.3}
+ 30%|███       | 1291/4286 [8:13:12<20:13:36, 24.31s/it] 30%|███       | 1292/4286 [8:13:37<20:24:50, 24.55s/it]                                                        {'loss': 0.0185, 'grad_norm': 0.44967452401649766, 'learning_rate': 6.985534297713486e-07, 'completion_length': 474.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.6785714328289032, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.669642984867096, 'reward_std': 0.07576144300401211, 'kl': 0.46484375, 'epoch': 0.3}
+ 30%|███       | 1292/4286 [8:13:37<20:24:50, 24.55s/it] 30%|███       | 1293/4286 [8:14:01<20:19:37, 24.45s/it]                                                        {'loss': 0.0023, 'grad_norm': 0.8526342114367941, 'learning_rate': 6.983201119925338e-07, 'completion_length': 443.4732360839844, 'rewards/only_full_func_accuracy_reward': 0.5952381193637848, 'rewards/format_reward': 1.0, 'reward': 1.595238208770752, 'reward_std': 0.034843326546251774, 'kl': 0.0570068359375, 'epoch': 0.3}
+ 30%|███       | 1293/4286 [8:14:01<20:19:37, 24.45s/it] 30%|███       | 1294/4286 [8:14:27<20:39:26, 24.85s/it]                                                        {'loss': 0.04, 'grad_norm': 1.435089791140129, 'learning_rate': 6.980867942137191e-07, 'completion_length': 443.0714569091797, 'rewards/only_full_func_accuracy_reward': 0.5115566253662109, 'rewards/format_reward': 0.9375000298023224, 'reward': 1.4490567445755005, 'reward_std': 0.1932816058397293, 'kl': 1.001953125, 'epoch': 0.3}
+ 30%|███       | 1294/4286 [8:14:27<20:39:26, 24.85s/it] 30%|███       | 1295/4286 [8:14:51<20:27:55, 24.63s/it]                                                        {'loss': 0.0022, 'grad_norm': 0.8206986342172834, 'learning_rate': 6.978534764349043e-07, 'completion_length': 423.9910888671875, 'rewards/only_full_func_accuracy_reward': 0.5937500298023224, 'rewards/format_reward': 1.0, 'reward': 1.5937500596046448, 'reward_std': 0.0797526016831398, 'kl': 0.0538330078125, 'epoch': 0.3}
+ 30%|███       | 1295/4286 [8:14:51<20:27:55, 24.63s/it] 30%|███       | 1296/4286 [8:15:15<20:20:21, 24.49s/it]                                                        {'loss': 0.0021, 'grad_norm': 0.19095596494946795, 'learning_rate': 6.976201586560896e-07, 'completion_length': 396.8839416503906, 'rewards/only_full_func_accuracy_reward': 0.8244048058986664, 'rewards/format_reward': 1.0, 'reward': 1.8244048953056335, 'reward_std': 0.0417863167822361, 'kl': 0.052001953125, 'epoch': 0.3}
+ 30%|███       | 1296/4286 [8:15:15<20:20:21, 24.49s/it] 30%|███       | 1297/4286 [8:15:38<19:49:42, 23.88s/it]                                                        {'loss': 0.0028, 'grad_norm': 1.1826645126312858, 'learning_rate': 6.973868408772749e-07, 'completion_length': 400.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.6822916567325592, 'rewards/format_reward': 1.0, 'reward': 1.6822918057441711, 'reward_std': 0.051851808093488216, 'kl': 0.069580078125, 'epoch': 0.3}
+ 30%|███       | 1297/4286 [8:15:38<19:49:42, 23.88s/it] 30%|███       | 1298/4286 [8:16:03<20:11:33, 24.33s/it]                                                        {'loss': 0.0026, 'grad_norm': 0.33242712449240097, 'learning_rate': 6.971535230984601e-07, 'completion_length': 437.6428680419922, 'rewards/only_full_func_accuracy_reward': 0.5505952686071396, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5416668057441711, 'reward_std': 0.04469342343509197, 'kl': 0.0657958984375, 'epoch': 0.3}
+ 30%|███       | 1298/4286 [8:16:03<20:11:33, 24.33s/it] 30%|███       | 1299/4286 [8:16:28<20:17:30, 24.46s/it]                                                        {'loss': 0.0308, 'grad_norm': 0.9679780632340286, 'learning_rate': 6.969202053196453e-07, 'completion_length': 457.16966247558594, 'rewards/only_full_func_accuracy_reward': 0.5811011791229248, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.57217276096344, 'reward_std': 0.11569086834788322, 'kl': 0.76806640625, 'epoch': 0.3}
+ 30%|███       | 1299/4286 [8:16:28<20:17:30, 24.46s/it] 30%|███       | 1300/4286 [8:16:52<20:16:36, 24.45s/it]                                                        {'loss': 0.0542, 'grad_norm': 1.2004943870480913, 'learning_rate': 6.966868875408307e-07, 'completion_length': 425.5714416503906, 'rewards/only_full_func_accuracy_reward': 0.5885416865348816, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.5617560148239136, 'reward_std': 0.13964428380131721, 'kl': 1.358154296875, 'epoch': 0.3}
+ 30%|███       | 1300/4286 [8:16:52<20:16:36, 24.45s/it] 30%|███       | 1301/4286 [8:18:13<34:07:38, 41.16s/it]                                                        {'loss': 0.0025, 'grad_norm': 1.113023470906619, 'learning_rate': 6.964535697620159e-07, 'completion_length': 422.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.7388393580913544, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7299108505249023, 'reward_std': 0.078885518014431, 'kl': 0.063232421875, 'epoch': 0.3}
+ 30%|███       | 1301/4286 [8:18:13<34:07:38, 41.16s/it] 30%|███       | 1302/4286 [8:18:36<29:42:13, 35.84s/it]                                                        {'loss': 0.0144, 'grad_norm': 0.3859162124718189, 'learning_rate': 6.962202519832011e-07, 'completion_length': 387.2410888671875, 'rewards/only_full_func_accuracy_reward': 0.6373511850833893, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.619494080543518, 'reward_std': 0.0733500374481082, 'kl': 0.35888671875, 'epoch': 0.3}
+ 30%|███       | 1302/4286 [8:18:36<29:42:13, 35.84s/it] 30%|███       | 1303/4286 [8:19:02<27:09:27, 32.77s/it]                                                        {'loss': 0.0019, 'grad_norm': 0.7214984376557454, 'learning_rate': 6.959869342043863e-07, 'completion_length': 451.0803680419922, 'rewards/only_full_func_accuracy_reward': 0.7455357611179352, 'rewards/format_reward': 1.0, 'reward': 1.7455357909202576, 'reward_std': 0.018483899533748627, 'kl': 0.0467529296875, 'epoch': 0.3}
+ 30%|███       | 1303/4286 [8:19:02<27:09:27, 32.77s/it] 30%|███       | 1304/4286 [8:19:27<25:21:06, 30.61s/it]                                                        {'loss': 0.0042, 'grad_norm': 0.29530077440317426, 'learning_rate': 6.957536164255716e-07, 'completion_length': 476.76788330078125, 'rewards/only_full_func_accuracy_reward': 0.7403274774551392, 'rewards/format_reward': 1.0, 'reward': 1.740327537059784, 'reward_std': 0.017659885808825493, 'kl': 0.104736328125, 'epoch': 0.3}
+ 30%|███       | 1304/4286 [8:19:27<25:21:06, 30.61s/it] 30%|███       | 1305/4286 [8:19:51<23:43:27, 28.65s/it]                                                        {'loss': 0.0022, 'grad_norm': 8.921315060896603, 'learning_rate': 6.955202986467569e-07, 'completion_length': 374.5714416503906, 'rewards/only_full_func_accuracy_reward': 0.6971727013587952, 'rewards/format_reward': 1.0, 'reward': 1.6971727013587952, 'reward_std': 0.04644445516169071, 'kl': 0.0556640625, 'epoch': 0.3}
+ 30%|███       | 1305/4286 [8:19:51<23:43:27, 28.65s/it] 30%|███       | 1306/4286 [8:20:17<22:56:52, 27.72s/it]                                                        {'loss': 0.0038, 'grad_norm': 0.40440604755190523, 'learning_rate': 6.952869808679421e-07, 'completion_length': 467.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.6421131193637848, 'rewards/format_reward': 1.0, 'reward': 1.642113208770752, 'reward_std': 0.04080725833773613, 'kl': 0.09619140625, 'epoch': 0.3}
+ 30%|███       | 1306/4286 [8:20:17<22:56:52, 27.72s/it] 30%|███       | 1307/4286 [8:20:42<22:17:42, 26.94s/it]                                                        {'loss': 0.0061, 'grad_norm': 1.02030533536003, 'learning_rate': 6.950536630891274e-07, 'completion_length': 418.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.7663691341876984, 'rewards/format_reward': 1.0, 'reward': 1.7663691639900208, 'reward_std': 0.04615787789225578, 'kl': 0.15234375, 'epoch': 0.3}
+ 30%|███       | 1307/4286 [8:20:42<22:17:42, 26.94s/it] 31%|███       | 1308/4286 [8:21:05<21:17:25, 25.74s/it]                                                        {'loss': 0.0163, 'grad_norm': 0.9322085871057298, 'learning_rate': 6.948203453103126e-07, 'completion_length': 398.16966247558594, 'rewards/only_full_func_accuracy_reward': 0.5758928656578064, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.566964328289032, 'reward_std': 0.09619954228401184, 'kl': 0.4083251953125, 'epoch': 0.31}
+ 31%|███       | 1308/4286 [8:21:05<21:17:25, 25.74s/it] 31%|███       | 1309/4286 [8:21:32<21:37:56, 26.16s/it]                                                        {'loss': 0.0033, 'grad_norm': 0.8809706885521564, 'learning_rate': 6.945870275314979e-07, 'completion_length': 527.6071624755859, 'rewards/only_full_func_accuracy_reward': 0.6017432510852814, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.5838861465454102, 'reward_std': 0.09216289967298508, 'kl': 0.0819091796875, 'epoch': 0.31}
+ 31%|███       | 1309/4286 [8:21:32<21:37:56, 26.16s/it] 31%|███       | 1310/4286 [8:21:56<21:00:18, 25.41s/it]                                                        {'loss': 0.0045, 'grad_norm': 0.7972019608167094, 'learning_rate': 6.943537097526832e-07, 'completion_length': 413.25001525878906, 'rewards/only_full_func_accuracy_reward': 0.6145833730697632, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6056548953056335, 'reward_std': 0.04742576368153095, 'kl': 0.1119384765625, 'epoch': 0.31}
+ 31%|███       | 1310/4286 [8:21:56<21:00:18, 25.41s/it] 31%|███       | 1311/4286 [8:22:21<21:01:11, 25.44s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.35255349135520025, 'learning_rate': 6.941203919738684e-07, 'completion_length': 458.7678680419922, 'rewards/only_full_func_accuracy_reward': 0.7726190984249115, 'rewards/format_reward': 1.0, 'reward': 1.7726191282272339, 'reward_std': 0.05715125612914562, 'kl': 0.040283203125, 'epoch': 0.31}
+ 31%|███       | 1311/4286 [8:22:21<21:01:11, 25.44s/it] 31%|███       | 1312/4286 [8:22:45<20:42:12, 25.06s/it]                                                        {'loss': 0.012, 'grad_norm': 1.0894770125999194, 'learning_rate': 6.938870741950536e-07, 'completion_length': 395.5357208251953, 'rewards/only_full_func_accuracy_reward': 0.743452399969101, 'rewards/format_reward': 1.0, 'reward': 1.7434524893760681, 'reward_std': 0.09343989565968513, 'kl': 0.298828125, 'epoch': 0.31}
+ 31%|███       | 1312/4286 [8:22:45<20:42:12, 25.06s/it] 31%|███       | 1313/4286 [8:23:10<20:30:01, 24.82s/it]                                                        {'loss': 0.008, 'grad_norm': 1.0204000778920874, 'learning_rate': 6.936537564162389e-07, 'completion_length': 415.0714416503906, 'rewards/only_full_func_accuracy_reward': 0.6346726715564728, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6257442235946655, 'reward_std': 0.12778592109680176, 'kl': 0.201171875, 'epoch': 0.31}
+ 31%|███       | 1313/4286 [8:23:10<20:30:01, 24.82s/it] 31%|███       | 1314/4286 [8:23:36<20:45:18, 25.14s/it]                                                        {'loss': 0.0071, 'grad_norm': 0.922362344851265, 'learning_rate': 6.934204386374242e-07, 'completion_length': 482.6339569091797, 'rewards/only_full_func_accuracy_reward': 0.6339285969734192, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6250000596046448, 'reward_std': 0.12042661011219025, 'kl': 0.17626953125, 'epoch': 0.31}
+ 31%|███       | 1314/4286 [8:23:36<20:45:18, 25.14s/it] 31%|███       | 1315/4286 [8:24:00<20:38:06, 25.00s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.5008773911338085, 'learning_rate': 6.931871208586094e-07, 'completion_length': 445.6518096923828, 'rewards/only_full_func_accuracy_reward': 0.691220223903656, 'rewards/format_reward': 1.0, 'reward': 1.6912203431129456, 'reward_std': 0.021544096991419792, 'kl': 0.0418701171875, 'epoch': 0.31}
+ 31%|███       | 1315/4286 [8:24:00<20:38:06, 25.00s/it] 31%|███       | 1316/4286 [8:24:26<20:46:13, 25.18s/it]                                                        {'loss': 0.0036, 'grad_norm': 0.3753007933355331, 'learning_rate': 6.929538030797946e-07, 'completion_length': 452.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.6688989102840424, 'rewards/format_reward': 1.0, 'reward': 1.6688989400863647, 'reward_std': 0.017696987837553024, 'kl': 0.0908203125, 'epoch': 0.31}
+ 31%|███       | 1316/4286 [8:24:26<20:46:13, 25.18s/it] 31%|███       | 1317/4286 [8:24:53<21:16:55, 25.81s/it]                                                        {'loss': 0.0036, 'grad_norm': 0.4387166875688181, 'learning_rate': 6.9272048530098e-07, 'completion_length': 501.48216247558594, 'rewards/only_full_func_accuracy_reward': 0.7986607849597931, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7897321581840515, 'reward_std': 0.08040714636445045, 'kl': 0.0909423828125, 'epoch': 0.31}
+ 31%|███       | 1317/4286 [8:24:53<21:16:55, 25.81s/it] 31%|███       | 1318/4286 [8:25:18<21:04:25, 25.56s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.19671697901084673, 'learning_rate': 6.924871675221652e-07, 'completion_length': 438.1964569091797, 'rewards/only_full_func_accuracy_reward': 0.7095238566398621, 'rewards/format_reward': 1.0, 'reward': 1.709523856639862, 'reward_std': 0.05201781541109085, 'kl': 0.0416259765625, 'epoch': 0.31}
+ 31%|███       | 1318/4286 [8:25:18<21:04:25, 25.56s/it] 31%|███       | 1319/4286 [8:25:44<21:15:05, 25.79s/it]                                                        {'loss': 0.0031, 'grad_norm': 1.0370567527467278, 'learning_rate': 6.922538497433504e-07, 'completion_length': 485.8839569091797, 'rewards/only_full_func_accuracy_reward': 0.7498512268066406, 'rewards/format_reward': 1.0, 'reward': 1.7498513460159302, 'reward_std': 0.06230144202709198, 'kl': 0.0784912109375, 'epoch': 0.31}
+ 31%|███       | 1319/4286 [8:25:44<21:15:05, 25.79s/it] 31%|███       | 1320/4286 [8:26:11<21:20:13, 25.90s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.3654119621106099, 'learning_rate': 6.920205319645357e-07, 'completion_length': 460.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.6944515705108643, 'rewards/format_reward': 0.9375000298023224, 'reward': 1.6319515705108643, 'reward_std': 0.08626123145222664, 'kl': 0.03662109375, 'epoch': 0.31}
+ 31%|███       | 1320/4286 [8:26:11<21:20:13, 25.90s/it] 31%|███       | 1321/4286 [8:26:36<21:09:41, 25.69s/it]                                                        {'loss': 0.0107, 'grad_norm': 0.48984418978501804, 'learning_rate': 6.91787214185721e-07, 'completion_length': 448.7857208251953, 'rewards/only_full_func_accuracy_reward': 0.7770833671092987, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7592263221740723, 'reward_std': 0.11615586280822754, 'kl': 0.2664794921875, 'epoch': 0.31}
+ 31%|███       | 1321/4286 [8:26:36<21:09:41, 25.69s/it] 31%|███       | 1322/4286 [8:27:01<21:06:14, 25.63s/it]                                                        {'loss': 0.0119, 'grad_norm': 0.6026999560194068, 'learning_rate': 6.915538964069062e-07, 'completion_length': 491.4107360839844, 'rewards/only_full_func_accuracy_reward': 0.6083333343267441, 'rewards/format_reward': 1.0, 'reward': 1.60833340883255, 'reward_std': 0.036570572294294834, 'kl': 0.296142578125, 'epoch': 0.31}
+ 31%|███       | 1322/4286 [8:27:01<21:06:14, 25.63s/it] 31%|███       | 1323/4286 [8:27:27<21:03:26, 25.58s/it]                                                        {'loss': 0.0075, 'grad_norm': 0.5816673983815627, 'learning_rate': 6.913205786280915e-07, 'completion_length': 447.3839416503906, 'rewards/only_full_func_accuracy_reward': 0.6361607164144516, 'rewards/format_reward': 1.0, 'reward': 1.6361607909202576, 'reward_std': 0.048486799001693726, 'kl': 0.1871337890625, 'epoch': 0.31}
+ 31%|███       | 1323/4286 [8:27:27<21:03:26, 25.58s/it] 31%|███       | 1324/4286 [8:27:50<20:27:44, 24.87s/it]                                                        {'loss': 0.012, 'grad_norm': 2.1682225644455237, 'learning_rate': 6.910872608492767e-07, 'completion_length': 395.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.6883929073810577, 'rewards/format_reward': 1.0, 'reward': 1.688392996788025, 'reward_std': 0.06798843666911125, 'kl': 0.30224609375, 'epoch': 0.31}
+ 31%|███       | 1324/4286 [8:27:50<20:27:44, 24.87s/it] 31%|███       | 1325/4286 [8:28:13<20:01:00, 24.34s/it]                                                        {'loss': 0.0248, 'grad_norm': 0.4982502955929269, 'learning_rate': 6.90853943070462e-07, 'completion_length': 395.8660888671875, 'rewards/only_full_func_accuracy_reward': 0.6458334028720856, 'rewards/format_reward': 1.0, 'reward': 1.645833432674408, 'reward_std': 0.09265352971851826, 'kl': 0.6175537109375, 'epoch': 0.31}
+ 31%|███       | 1325/4286 [8:28:13<20:01:00, 24.34s/it] 31%|███       | 1326/4286 [8:28:37<19:51:36, 24.15s/it]                                                        {'loss': 0.0313, 'grad_norm': 1.172450782957448, 'learning_rate': 6.906206252916472e-07, 'completion_length': 408.9464416503906, 'rewards/only_full_func_accuracy_reward': 0.7180059552192688, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.709077537059784, 'reward_std': 0.10734172910451889, 'kl': 0.7799072265625, 'epoch': 0.31}
+ 31%|███       | 1326/4286 [8:28:37<19:51:36, 24.15s/it] 31%|███       | 1327/4286 [8:28:59<19:29:36, 23.72s/it]                                                        {'loss': 0.0319, 'grad_norm': 1.260341580517097, 'learning_rate': 6.903873075128325e-07, 'completion_length': 376.06251525878906, 'rewards/only_full_func_accuracy_reward': 0.5357142984867096, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.5178571939468384, 'reward_std': 0.12772785872220993, 'kl': 0.797607421875, 'epoch': 0.31}
+ 31%|███       | 1327/4286 [8:28:59<19:29:36, 23.72s/it] 31%|███       | 1328/4286 [8:29:23<19:28:49, 23.71s/it]                                                        {'loss': 0.0141, 'grad_norm': 0.4071111560079161, 'learning_rate': 6.901539897340177e-07, 'completion_length': 418.7232360839844, 'rewards/only_full_func_accuracy_reward': 0.7244048416614532, 'rewards/format_reward': 1.0, 'reward': 1.7244048118591309, 'reward_std': 0.05299048777669668, 'kl': 0.3529052734375, 'epoch': 0.31}
+ 31%|███       | 1328/4286 [8:29:23<19:28:49, 23.71s/it] 31%|███       | 1329/4286 [8:29:47<19:34:13, 23.83s/it]                                                        {'loss': 0.0154, 'grad_norm': 0.48240732185704016, 'learning_rate': 6.899206719552029e-07, 'completion_length': 452.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.6138393580913544, 'rewards/format_reward': 1.0, 'reward': 1.6138394474983215, 'reward_std': 0.07757258974015713, 'kl': 0.3853759765625, 'epoch': 0.31}
+ 31%|███       | 1329/4286 [8:29:47<19:34:13, 23.83s/it] 31%|███       | 1330/4286 [8:30:12<19:43:53, 24.03s/it]                                                        {'loss': 0.0193, 'grad_norm': 0.7143192520717786, 'learning_rate': 6.896873541763883e-07, 'completion_length': 441.9285888671875, 'rewards/only_full_func_accuracy_reward': 0.7052083909511566, 'rewards/format_reward': 1.0, 'reward': 1.705208420753479, 'reward_std': 0.10518991574645042, 'kl': 0.482177734375, 'epoch': 0.31}
+ 31%|███       | 1330/4286 [8:30:12<19:43:53, 24.03s/it] 31%|███       | 1331/4286 [8:30:35<19:32:08, 23.80s/it]                                                        {'loss': 0.0162, 'grad_norm': 0.5253420155849943, 'learning_rate': 6.894540363975735e-07, 'completion_length': 399.8839416503906, 'rewards/only_full_func_accuracy_reward': 0.8221726715564728, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8132441639900208, 'reward_std': 0.11050998512655497, 'kl': 0.40234375, 'epoch': 0.31}
+ 31%|███       | 1331/4286 [8:30:35<19:32:08, 23.80s/it] 31%|███       | 1332/4286 [8:30:57<19:11:45, 23.39s/it]                                                        {'loss': 0.0054, 'grad_norm': 0.6031438307489105, 'learning_rate': 6.892207186187587e-07, 'completion_length': 382.6160888671875, 'rewards/only_full_func_accuracy_reward': 0.6028273701667786, 'rewards/format_reward': 1.0, 'reward': 1.6028274297714233, 'reward_std': 0.05660125054419041, 'kl': 0.1356201171875, 'epoch': 0.31}
+ 31%|███       | 1332/4286 [8:30:57<19:11:45, 23.39s/it] 31%|███       | 1333/4286 [8:31:23<19:47:34, 24.13s/it]                                                        {'loss': 0.0114, 'grad_norm': 0.36721790531007387, 'learning_rate': 6.88987400839944e-07, 'completion_length': 446.8928680419922, 'rewards/only_full_func_accuracy_reward': 0.7224702835083008, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7135417461395264, 'reward_std': 0.08452046848833561, 'kl': 0.2864990234375, 'epoch': 0.31}
+ 31%|███       | 1333/4286 [8:31:23<19:47:34, 24.13s/it] 31%|███       | 1334/4286 [8:31:47<19:39:38, 23.98s/it]                                                        {'loss': 0.0107, 'grad_norm': 2.1490008350211443, 'learning_rate': 6.887540830611293e-07, 'completion_length': 371.06251525878906, 'rewards/only_full_func_accuracy_reward': 0.6577381789684296, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6488096117973328, 'reward_std': 0.11524753645062447, 'kl': 0.267333984375, 'epoch': 0.31}
+ 31%|███       | 1334/4286 [8:31:47<19:39:38, 23.98s/it] 31%|███       | 1335/4286 [8:32:12<19:50:44, 24.21s/it]                                                        {'loss': 0.0239, 'grad_norm': 0.9545187125350622, 'learning_rate': 6.885207652823145e-07, 'completion_length': 407.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.658482164144516, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6406250596046448, 'reward_std': 0.15087007731199265, 'kl': 0.59765625, 'epoch': 0.31}
+ 31%|███       | 1335/4286 [8:32:12<19:50:44, 24.21s/it] 31%|███       | 1336/4286 [8:32:32<18:59:53, 23.18s/it]                                                        {'loss': 0.0119, 'grad_norm': 0.491351299013596, 'learning_rate': 6.882874475034997e-07, 'completion_length': 339.70538330078125, 'rewards/only_full_func_accuracy_reward': 0.7386267185211182, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7296981811523438, 'reward_std': 0.06944158673286438, 'kl': 0.298095703125, 'epoch': 0.31}
+ 31%|███       | 1336/4286 [8:32:32<18:59:53, 23.18s/it] 31%|███       | 1337/4286 [8:32:55<18:45:50, 22.91s/it]                                                        {'loss': 0.0265, 'grad_norm': 0.5157930191373654, 'learning_rate': 6.88054129724685e-07, 'completion_length': 348.36607360839844, 'rewards/only_full_func_accuracy_reward': 0.7150298058986664, 'rewards/format_reward': 1.0, 'reward': 1.7150298357009888, 'reward_std': 0.06091379001736641, 'kl': 0.6611328125, 'epoch': 0.31}
+ 31%|███       | 1337/4286 [8:32:55<18:45:50, 22.91s/it] 31%|███       | 1338/4286 [8:33:18<18:47:28, 22.95s/it]                                                        {'loss': 0.0393, 'grad_norm': 0.6994344126781101, 'learning_rate': 6.878208119458703e-07, 'completion_length': 401.8928680419922, 'rewards/only_full_func_accuracy_reward': 0.684672623872757, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6757441759109497, 'reward_std': 0.09668484330177307, 'kl': 0.982421875, 'epoch': 0.31}
+ 31%|███       | 1338/4286 [8:33:18<18:47:28, 22.95s/it] 31%|███       | 1339/4286 [8:33:40<18:32:48, 22.66s/it]                                                        {'loss': 0.0713, 'grad_norm': 1.9180584041164248, 'learning_rate': 6.875874941670555e-07, 'completion_length': 350.4821472167969, 'rewards/only_full_func_accuracy_reward': 0.6011905372142792, 'rewards/format_reward': 0.9375000298023224, 'reward': 1.5386905670166016, 'reward_std': 0.1901356652379036, 'kl': 1.77734375, 'epoch': 0.31}
+ 31%|███       | 1339/4286 [8:33:40<18:32:48, 22.66s/it] 31%|███▏      | 1340/4286 [8:34:05<19:07:24, 23.37s/it]                                                        {'loss': 0.0612, 'grad_norm': 1.2923615832334248, 'learning_rate': 6.873541763882408e-07, 'completion_length': 449.0893096923828, 'rewards/only_full_func_accuracy_reward': 0.611607164144516, 'rewards/format_reward': 0.9464286267757416, 'reward': 1.5580358505249023, 'reward_std': 0.20192309841513634, 'kl': 1.5322265625, 'epoch': 0.31}
+ 31%|███▏      | 1340/4286 [8:34:05<19:07:24, 23.37s/it] 31%|███▏      | 1341/4286 [8:34:27<18:45:22, 22.93s/it]                                                        {'loss': 0.1046, 'grad_norm': 2.6385675539650393, 'learning_rate': 6.87120858609426e-07, 'completion_length': 371.8214416503906, 'rewards/only_full_func_accuracy_reward': 0.6401289999485016, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.6044148206710815, 'reward_std': 0.15619822219014168, 'kl': 2.6171875, 'epoch': 0.31}
+ 31%|███▏      | 1341/4286 [8:34:27<18:45:22, 22.93s/it] 31%|███▏      | 1342/4286 [8:34:48<18:18:30, 22.39s/it]                                                        {'loss': 0.0627, 'grad_norm': 1.8234227789991821, 'learning_rate': 6.868875408306113e-07, 'completion_length': 340.2053680419922, 'rewards/only_full_func_accuracy_reward': 0.6227679252624512, 'rewards/format_reward': 0.9553571939468384, 'reward': 1.5781251192092896, 'reward_std': 0.13653232902288437, 'kl': 1.5703125, 'epoch': 0.31}
+ 31%|███▏      | 1342/4286 [8:34:48<18:18:30, 22.39s/it] 31%|███▏      | 1343/4286 [8:35:10<18:19:55, 22.42s/it]                                                        {'loss': 0.1221, 'grad_norm': 2.7318486896920455, 'learning_rate': 6.866542230517966e-07, 'completion_length': 378.0089416503906, 'rewards/only_full_func_accuracy_reward': 0.5711309611797333, 'rewards/format_reward': 0.973214328289032, 'reward': 1.5443453192710876, 'reward_std': 0.2321133092045784, 'kl': 3.0625, 'epoch': 0.31}
+ 31%|███▏      | 1343/4286 [8:35:10<18:19:55, 22.42s/it] 31%|███▏      | 1344/4286 [8:35:32<18:12:13, 22.28s/it]                                                        {'loss': 0.0807, 'grad_norm': 1.3399586987338137, 'learning_rate': 6.864209052729818e-07, 'completion_length': 359.4732360839844, 'rewards/only_full_func_accuracy_reward': 0.6703869104385376, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.6346727013587952, 'reward_std': 0.2705750912427902, 'kl': 2.021484375, 'epoch': 0.31}
+ 31%|███▏      | 1344/4286 [8:35:32<18:12:13, 22.28s/it] 31%|███▏      | 1345/4286 [8:35:54<18:03:45, 22.11s/it]                                                        {'loss': 0.1692, 'grad_norm': 3.2578510864714745, 'learning_rate': 6.86187587494167e-07, 'completion_length': 352.1964416503906, 'rewards/only_full_func_accuracy_reward': 0.6361607313156128, 'rewards/format_reward': 0.9196428954601288, 'reward': 1.555803656578064, 'reward_std': 0.3618863597512245, 'kl': 4.2421875, 'epoch': 0.31}
+ 31%|███▏      | 1345/4286 [8:35:54<18:03:45, 22.11s/it] 31%|███▏      | 1346/4286 [8:36:15<17:52:04, 21.88s/it]                                                        {'loss': 0.139, 'grad_norm': 2.6972178361754406, 'learning_rate': 6.859542697153524e-07, 'completion_length': 309.8482208251953, 'rewards/only_full_func_accuracy_reward': 0.5552827715873718, 'rewards/format_reward': 0.9285714626312256, 'reward': 1.4838542938232422, 'reward_std': 0.297177717089653, 'kl': 3.46875, 'epoch': 0.31}
+ 31%|███▏      | 1346/4286 [8:36:15<17:52:04, 21.88s/it] 31%|███▏      | 1347/4286 [8:36:39<18:14:14, 22.34s/it]                                                        {'loss': 0.1549, 'grad_norm': 3.96516672479998, 'learning_rate': 6.857209519365376e-07, 'completion_length': 378.8928680419922, 'rewards/only_full_func_accuracy_reward': 0.494047611951828, 'rewards/format_reward': 0.9285714626312256, 'reward': 1.4226191639900208, 'reward_std': 0.30930421501398087, 'kl': 3.875, 'epoch': 0.31}
+ 31%|███▏      | 1347/4286 [8:36:39<18:14:14, 22.34s/it] 31%|███▏      | 1348/4286 [8:37:01<18:10:11, 22.26s/it]                                                        {'loss': 0.0592, 'grad_norm': 1.8627087793461412, 'learning_rate': 6.854876341577228e-07, 'completion_length': 378.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.7132936418056488, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.6775794625282288, 'reward_std': 0.22887682914733887, 'kl': 1.48046875, 'epoch': 0.31}
+ 31%|███▏      | 1348/4286 [8:37:01<18:10:11, 22.26s/it] 31%|███▏      | 1349/4286 [8:37:22<17:49:58, 21.86s/it]                                                        {'loss': 0.047, 'grad_norm': 1.6381867537019543, 'learning_rate': 6.85254316378908e-07, 'completion_length': 341.7589416503906, 'rewards/only_full_func_accuracy_reward': 0.660714328289032, 'rewards/format_reward': 0.973214328289032, 'reward': 1.633928656578064, 'reward_std': 0.19868696480989456, 'kl': 1.173828125, 'epoch': 0.31}
+ 31%|███▏      | 1349/4286 [8:37:22<17:49:58, 21.86s/it] 31%|███▏      | 1350/4286 [8:37:41<17:17:33, 21.20s/it]                                                        {'loss': 0.0575, 'grad_norm': 6.3278756478295035, 'learning_rate': 6.850209986000934e-07, 'completion_length': 292.7232208251953, 'rewards/only_full_func_accuracy_reward': 0.7299107313156128, 'rewards/format_reward': 0.9464285969734192, 'reward': 1.6763393878936768, 'reward_std': 0.2519955039024353, 'kl': 1.4375, 'epoch': 0.31}
+ 31%|███▏      | 1350/4286 [8:37:41<17:17:33, 21.20s/it] 32%|███▏      | 1351/4286 [8:38:05<17:52:31, 21.93s/it]                                                        {'loss': 0.0522, 'grad_norm': 2.0133128776449922, 'learning_rate': 6.847876808212786e-07, 'completion_length': 386.0714569091797, 'rewards/only_full_func_accuracy_reward': 0.5275298058986664, 'rewards/format_reward': 0.955357164144516, 'reward': 1.4828869700431824, 'reward_std': 0.19067536294460297, 'kl': 1.306640625, 'epoch': 0.32}
+ 32%|███▏      | 1351/4286 [8:38:05<17:52:31, 21.93s/it] 32%|███▏      | 1352/4286 [8:38:25<17:31:20, 21.50s/it]                                                        {'loss': 0.0235, 'grad_norm': 0.8452523239223051, 'learning_rate': 6.845543630424638e-07, 'completion_length': 334.33929443359375, 'rewards/only_full_func_accuracy_reward': 0.730282723903656, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7213543057441711, 'reward_std': 0.07592238858342171, 'kl': 0.587890625, 'epoch': 0.32}
+ 32%|███▏      | 1352/4286 [8:38:25<17:31:20, 21.50s/it] 32%|███▏      | 1353/4286 [8:38:48<17:42:00, 21.73s/it]                                                        {'loss': 0.0277, 'grad_norm': 2.986980831303107, 'learning_rate': 6.843210452636491e-07, 'completion_length': 349.7053680419922, 'rewards/only_full_func_accuracy_reward': 0.705357164144516, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6875000596046448, 'reward_std': 0.1092815138399601, 'kl': 0.693359375, 'epoch': 0.32}
+ 32%|███▏      | 1353/4286 [8:38:48<17:42:00, 21.73s/it] 32%|███▏      | 1354/4286 [8:39:10<17:48:49, 21.87s/it]                                                        {'loss': 0.0284, 'grad_norm': 1.188664799581247, 'learning_rate': 6.840877274848343e-07, 'completion_length': 341.2678680419922, 'rewards/only_full_func_accuracy_reward': 0.7723214328289032, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7544643878936768, 'reward_std': 0.13512154296040535, 'kl': 0.7099609375, 'epoch': 0.32}
+ 32%|███▏      | 1354/4286 [8:39:10<17:48:49, 21.87s/it] 32%|███▏      | 1355/4286 [8:39:32<17:47:25, 21.85s/it]                                                        {'loss': 0.0239, 'grad_norm': 0.7205158483863517, 'learning_rate': 6.838544097060196e-07, 'completion_length': 381.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.6659226715564728, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6569941639900208, 'reward_std': 0.06590602919459343, 'kl': 0.59375, 'epoch': 0.32}
+ 32%|███▏      | 1355/4286 [8:39:32<17:47:25, 21.85s/it] 32%|███▏      | 1356/4286 [8:39:54<17:56:23, 22.04s/it]                                                        {'loss': 0.0164, 'grad_norm': 0.3475910102839322, 'learning_rate': 6.836210919272049e-07, 'completion_length': 385.5982208251953, 'rewards/only_full_func_accuracy_reward': 0.619047686457634, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6101191639900208, 'reward_std': 0.036275483667850494, 'kl': 0.410400390625, 'epoch': 0.32}
+ 32%|███▏      | 1356/4286 [8:39:54<17:56:23, 22.04s/it] 32%|███▏      | 1357/4286 [8:40:17<18:07:50, 22.28s/it]                                                        {'loss': 0.0042, 'grad_norm': 1.1814242669218133, 'learning_rate': 6.833877741483901e-07, 'completion_length': 379.7143096923828, 'rewards/only_full_func_accuracy_reward': 0.6510416567325592, 'rewards/format_reward': 1.0, 'reward': 1.6510418057441711, 'reward_std': 0.04360788781195879, 'kl': 0.105712890625, 'epoch': 0.32}
+ 32%|███▏      | 1357/4286 [8:40:17<18:07:50, 22.28s/it] 32%|███▏      | 1358/4286 [8:40:40<18:21:26, 22.57s/it]                                                        {'loss': 0.0269, 'grad_norm': 1.025857694128964, 'learning_rate': 6.831544563695753e-07, 'completion_length': 382.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.8489583730697632, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8400298953056335, 'reward_std': 0.1457553207874298, 'kl': 0.669921875, 'epoch': 0.32}
+ 32%|███▏      | 1358/4286 [8:40:40<18:21:26, 22.57s/it] 32%|███▏      | 1359/4286 [8:41:03<18:27:33, 22.70s/it]                                                        {'loss': 0.0108, 'grad_norm': 1.4101680651227781, 'learning_rate': 6.829211385907606e-07, 'completion_length': 394.1607208251953, 'rewards/only_full_func_accuracy_reward': 0.7026786506175995, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6937501430511475, 'reward_std': 0.0759088872000575, 'kl': 0.2698974609375, 'epoch': 0.32}
+ 32%|███▏      | 1359/4286 [8:41:03<18:27:33, 22.70s/it] 32%|███▏      | 1360/4286 [8:41:26<18:24:34, 22.65s/it]                                                        {'loss': 0.045, 'grad_norm': 0.7034906125704253, 'learning_rate': 6.826878208119459e-07, 'completion_length': 376.0893096923828, 'rewards/only_full_func_accuracy_reward': 0.6827314496040344, 'rewards/format_reward': 0.9553571939468384, 'reward': 1.638088583946228, 'reward_std': 0.11148260533809662, 'kl': 1.123046875, 'epoch': 0.32}
+ 32%|███▏      | 1360/4286 [8:41:26<18:24:34, 22.65s/it] 32%|███▏      | 1361/4286 [8:41:48<18:16:24, 22.49s/it]                                                        {'loss': 0.027, 'grad_norm': 0.9880436484672783, 'learning_rate': 6.824545030331311e-07, 'completion_length': 370.3125305175781, 'rewards/only_full_func_accuracy_reward': 0.6749362945556641, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6570792198181152, 'reward_std': 0.09617331251502037, 'kl': 0.67578125, 'epoch': 0.32}
+ 32%|███▏      | 1361/4286 [8:41:48<18:16:24, 22.49s/it] 32%|███▏      | 1362/4286 [8:42:12<18:36:55, 22.92s/it]                                                        {'loss': 0.0979, 'grad_norm': 1.9550667366306804, 'learning_rate': 6.822211852543163e-07, 'completion_length': 394.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.6659226417541504, 'rewards/format_reward': 0.9285714626312256, 'reward': 1.5944940447807312, 'reward_std': 0.3314797282218933, 'kl': 2.44921875, 'epoch': 0.32}
+ 32%|███▏      | 1362/4286 [8:42:12<18:36:55, 22.92s/it] 32%|███▏      | 1363/4286 [8:42:37<19:03:15, 23.47s/it]                                                        {'loss': 0.0739, 'grad_norm': 1.4891668417868573, 'learning_rate': 6.819878674755017e-07, 'completion_length': 409.0357360839844, 'rewards/only_full_func_accuracy_reward': 0.6160714477300644, 'rewards/format_reward': 0.9285714626312256, 'reward': 1.544642984867096, 'reward_std': 0.2403011918067932, 'kl': 1.84765625, 'epoch': 0.32}
+ 32%|███▏      | 1363/4286 [8:42:37<19:03:15, 23.47s/it] 32%|███▏      | 1364/4286 [8:42:58<18:37:23, 22.94s/it]                                                        {'loss': 0.0946, 'grad_norm': 4.654316479276142, 'learning_rate': 6.817545496966869e-07, 'completion_length': 342.83929443359375, 'rewards/only_full_func_accuracy_reward': 0.6276414096355438, 'rewards/format_reward': 0.9375000596046448, 'reward': 1.565141499042511, 'reward_std': 0.10363641008734703, 'kl': 2.357421875, 'epoch': 0.32}
+ 32%|███▏      | 1364/4286 [8:42:58<18:37:23, 22.94s/it] 32%|███▏      | 1365/4286 [8:43:22<18:48:04, 23.17s/it]                                                        {'loss': 0.092, 'grad_norm': 2.282705789891476, 'learning_rate': 6.815212319178721e-07, 'completion_length': 395.5089416503906, 'rewards/only_full_func_accuracy_reward': 0.6372237205505371, 'rewards/format_reward': 0.9285714626312256, 'reward': 1.5657951831817627, 'reward_std': 0.2135075032711029, 'kl': 2.296875, 'epoch': 0.32}
+ 32%|███▏      | 1365/4286 [8:43:22<18:48:04, 23.17s/it] 32%|███▏      | 1366/4286 [8:43:44<18:28:11, 22.77s/it]                                                        {'loss': 0.0668, 'grad_norm': 2.2142633852012494, 'learning_rate': 6.812879141390574e-07, 'completion_length': 374.16966247558594, 'rewards/only_full_func_accuracy_reward': 0.5400297939777374, 'rewards/format_reward': 0.9464285969734192, 'reward': 1.486458420753479, 'reward_std': 0.20239925011992455, 'kl': 1.67578125, 'epoch': 0.32}
+ 32%|███▏      | 1366/4286 [8:43:44<18:28:11, 22.77s/it] 32%|███▏      | 1367/4286 [8:44:08<18:45:22, 23.13s/it]                                                        {'loss': 0.084, 'grad_norm': 2.424997911845056, 'learning_rate': 6.810545963602427e-07, 'completion_length': 384.7410888671875, 'rewards/only_full_func_accuracy_reward': 0.7138392925262451, 'rewards/format_reward': 0.955357164144516, 'reward': 1.6691964864730835, 'reward_std': 0.09224468655884266, 'kl': 2.10107421875, 'epoch': 0.32}
+ 32%|███▏      | 1367/4286 [8:44:08<18:45:22, 23.13s/it] 32%|███▏      | 1368/4286 [8:44:32<19:05:23, 23.55s/it]                                                        {'loss': 0.0467, 'grad_norm': 1.4464119185717101, 'learning_rate': 6.808212785814279e-07, 'completion_length': 439.3928680419922, 'rewards/only_full_func_accuracy_reward': 0.6517857611179352, 'rewards/format_reward': 0.9553571939468384, 'reward': 1.607142984867096, 'reward_std': 0.14492760598659515, 'kl': 1.169921875, 'epoch': 0.32}
+ 32%|███▏      | 1368/4286 [8:44:32<19:05:23, 23.55s/it] 32%|███▏      | 1369/4286 [8:44:57<19:21:57, 23.90s/it]                                                        {'loss': 0.0471, 'grad_norm': 1.350845826665354, 'learning_rate': 6.805879608026132e-07, 'completion_length': 431.2589416503906, 'rewards/only_full_func_accuracy_reward': 0.4936756193637848, 'rewards/format_reward': 0.973214328289032, 'reward': 1.466890037059784, 'reward_std': 0.1512189917266369, 'kl': 1.177734375, 'epoch': 0.32}
+ 32%|███▏      | 1369/4286 [8:44:57<19:21:57, 23.90s/it] 32%|███▏      | 1370/4286 [8:45:22<19:35:32, 24.19s/it]                                                        {'loss': 0.0317, 'grad_norm': 1.0598223437487229, 'learning_rate': 6.803546430237984e-07, 'completion_length': 432.5089569091797, 'rewards/only_full_func_accuracy_reward': 0.459821492433548, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.4508929252624512, 'reward_std': 0.11212097853422165, 'kl': 0.79296875, 'epoch': 0.32}
+ 32%|███▏      | 1370/4286 [8:45:22<19:35:32, 24.19s/it] 32%|███▏      | 1371/4286 [8:45:47<19:50:20, 24.50s/it]                                                        {'loss': 0.0135, 'grad_norm': 1.4396571135029264, 'learning_rate': 6.801213252449837e-07, 'completion_length': 456.7857208251953, 'rewards/only_full_func_accuracy_reward': 0.5610119104385376, 'rewards/format_reward': 1.0, 'reward': 1.5610119700431824, 'reward_std': 0.12509188801050186, 'kl': 0.3387451171875, 'epoch': 0.32}
+ 32%|███▏      | 1371/4286 [8:45:47<19:50:20, 24.50s/it] 32%|███▏      | 1372/4286 [8:46:10<19:30:19, 24.10s/it]                                                        {'loss': 0.0074, 'grad_norm': 0.5645214051022248, 'learning_rate': 6.798880074661689e-07, 'completion_length': 396.8303680419922, 'rewards/only_full_func_accuracy_reward': 0.5773810148239136, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.568452537059784, 'reward_std': 0.05831881985068321, 'kl': 0.1845703125, 'epoch': 0.32}
+ 32%|███▏      | 1372/4286 [8:46:10<19:30:19, 24.10s/it] 32%|███▏      | 1373/4286 [8:46:31<18:45:44, 23.19s/it]                                                        {'loss': 0.0236, 'grad_norm': 0.8025353765437615, 'learning_rate': 6.796546896873542e-07, 'completion_length': 341.0982360839844, 'rewards/only_full_func_accuracy_reward': 0.5855654776096344, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.5677083730697632, 'reward_std': 0.1333204247057438, 'kl': 0.5908203125, 'epoch': 0.32}
+ 32%|███▏      | 1373/4286 [8:46:31<18:45:44, 23.19s/it] 32%|███▏      | 1374/4286 [8:46:55<18:57:08, 23.43s/it]                                                        {'loss': 0.0417, 'grad_norm': 0.9078437112831649, 'learning_rate': 6.794213719085394e-07, 'completion_length': 425.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.6041666865348816, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.595238208770752, 'reward_std': 0.08234728872776031, 'kl': 1.04296875, 'epoch': 0.32}
+ 32%|███▏      | 1374/4286 [8:46:55<18:57:08, 23.43s/it] 32%|███▏      | 1375/4286 [8:47:20<19:12:30, 23.75s/it]                                                        {'loss': 0.0328, 'grad_norm': 3.383290622457712, 'learning_rate': 6.791880541297246e-07, 'completion_length': 420.12501525878906, 'rewards/only_full_func_accuracy_reward': 0.6183036267757416, 'rewards/format_reward': 1.0, 'reward': 1.6183037161827087, 'reward_std': 0.038045428693294525, 'kl': 0.820068359375, 'epoch': 0.32}
+ 32%|███▏      | 1375/4286 [8:47:20<19:12:30, 23.75s/it] 32%|███▏      | 1376/4286 [8:47:45<19:34:17, 24.21s/it]                                                        {'loss': 0.0022, 'grad_norm': 0.40783724256102877, 'learning_rate': 6.7895473635091e-07, 'completion_length': 430.14288330078125, 'rewards/only_full_func_accuracy_reward': 0.5907738506793976, 'rewards/format_reward': 1.0, 'reward': 1.59077388048172, 'reward_std': 0.01781129650771618, 'kl': 0.05517578125, 'epoch': 0.32}
+ 32%|███▏      | 1376/4286 [8:47:45<19:34:17, 24.21s/it] 32%|███▏      | 1377/4286 [8:48:09<19:20:49, 23.94s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.24727838402482502, 'learning_rate': 6.787214185720952e-07, 'completion_length': 420.85716247558594, 'rewards/only_full_func_accuracy_reward': 0.752232164144516, 'rewards/format_reward': 1.0, 'reward': 1.7522321939468384, 'reward_std': 0.014579705893993378, 'kl': 0.0450439453125, 'epoch': 0.32}
+ 32%|███▏      | 1377/4286 [8:48:09<19:20:49, 23.94s/it] 32%|███▏      | 1378/4286 [8:48:32<19:08:08, 23.69s/it]                                                        {'loss': 0.0186, 'grad_norm': 0.4621050630478643, 'learning_rate': 6.784881007932804e-07, 'completion_length': 388.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.7723214626312256, 'rewards/format_reward': 1.0, 'reward': 1.7723215222358704, 'reward_std': 0.022171951830387115, 'kl': 0.4642333984375, 'epoch': 0.32}
+ 32%|███▏      | 1378/4286 [8:48:32<19:08:08, 23.69s/it] 32%|███▏      | 1379/4286 [8:48:57<19:35:38, 24.27s/it]                                                        {'loss': 0.0064, 'grad_norm': 0.5472273314346993, 'learning_rate': 6.782547830144657e-07, 'completion_length': 448.79466247558594, 'rewards/only_full_func_accuracy_reward': 0.6614583730697632, 'rewards/format_reward': 1.0, 'reward': 1.661458432674408, 'reward_std': 0.06772065721452236, 'kl': 0.1590576171875, 'epoch': 0.32}
+ 32%|███▏      | 1379/4286 [8:48:57<19:35:38, 24.27s/it] 32%|███▏      | 1380/4286 [8:49:20<19:17:17, 23.89s/it]                                                        {'loss': 0.0173, 'grad_norm': 0.9308798591039055, 'learning_rate': 6.78021465235651e-07, 'completion_length': 350.89288330078125, 'rewards/only_full_func_accuracy_reward': 0.6153274178504944, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6063988208770752, 'reward_std': 0.08676886186003685, 'kl': 0.430419921875, 'epoch': 0.32}
+ 32%|███▏      | 1380/4286 [8:49:20<19:17:17, 23.89s/it] 32%|███▏      | 1381/4286 [8:49:43<19:02:06, 23.59s/it]                                                        {'loss': 0.0021, 'grad_norm': 0.30443254757885274, 'learning_rate': 6.777881474568362e-07, 'completion_length': 406.43751525878906, 'rewards/only_full_func_accuracy_reward': 0.6547619700431824, 'rewards/format_reward': 1.0, 'reward': 1.6547620296478271, 'reward_std': 0.028017533011734486, 'kl': 0.05126953125, 'epoch': 0.32}
+ 32%|███▏      | 1381/4286 [8:49:43<19:02:06, 23.59s/it] 32%|███▏      | 1382/4286 [8:50:08<19:24:10, 24.05s/it]                                                        {'loss': 0.002, 'grad_norm': 0.5074875515374255, 'learning_rate': 6.775548296780214e-07, 'completion_length': 428.5893096923828, 'rewards/only_full_func_accuracy_reward': 0.756505161523819, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7475765943527222, 'reward_std': 0.07440922036767006, 'kl': 0.05029296875, 'epoch': 0.32}
+ 32%|███▏      | 1382/4286 [8:50:08<19:24:10, 24.05s/it] 32%|███▏      | 1383/4286 [8:50:33<19:33:51, 24.26s/it]                                                        {'loss': 0.0131, 'grad_norm': 0.4290117958954308, 'learning_rate': 6.773215118992067e-07, 'completion_length': 439.1339569091797, 'rewards/only_full_func_accuracy_reward': 0.7160714566707611, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.707142949104309, 'reward_std': 0.07383915781974792, 'kl': 0.32958984375, 'epoch': 0.32}
+ 32%|███▏      | 1383/4286 [8:50:33<19:33:51, 24.26s/it] 32%|███▏      | 1384/4286 [8:50:57<19:28:55, 24.17s/it]                                                        {'loss': 0.0019, 'grad_norm': 0.7612865865430967, 'learning_rate': 6.77088194120392e-07, 'completion_length': 446.58929443359375, 'rewards/only_full_func_accuracy_reward': 0.7150298058986664, 'rewards/format_reward': 1.0, 'reward': 1.7150298357009888, 'reward_std': 0.11573133990168571, 'kl': 0.0467529296875, 'epoch': 0.32}
+ 32%|███▏      | 1384/4286 [8:50:57<19:28:55, 24.17s/it] 32%|███▏      | 1385/4286 [8:51:21<19:22:47, 24.05s/it]                                                        {'loss': 0.0019, 'grad_norm': 0.13210654182778425, 'learning_rate': 6.768548763415772e-07, 'completion_length': 408.9107360839844, 'rewards/only_full_func_accuracy_reward': 0.6220238506793976, 'rewards/format_reward': 1.0, 'reward': 1.6220239400863647, 'reward_std': 0.025253813713788986, 'kl': 0.0484619140625, 'epoch': 0.32}
+ 32%|███▏      | 1385/4286 [8:51:21<19:22:47, 24.05s/it] 32%|███▏      | 1386/4286 [8:51:42<18:38:09, 23.13s/it]                                                        {'loss': 0.002, 'grad_norm': 0.2595270455358993, 'learning_rate': 6.766215585627625e-07, 'completion_length': 351.6964416503906, 'rewards/only_full_func_accuracy_reward': 0.74702388048172, 'rewards/format_reward': 1.0, 'reward': 1.74702388048172, 'reward_std': 0.03501640260219574, 'kl': 0.049560546875, 'epoch': 0.32}
+ 32%|███▏      | 1386/4286 [8:51:42<18:38:09, 23.13s/it] 32%|███▏      | 1387/4286 [8:52:08<19:23:13, 24.08s/it]                                                        {'loss': 0.0022, 'grad_norm': 4.113402579433269, 'learning_rate': 6.763882407839477e-07, 'completion_length': 440.9732360839844, 'rewards/only_full_func_accuracy_reward': 0.6190476417541504, 'rewards/format_reward': 1.0, 'reward': 1.6190478205680847, 'reward_std': 0.024950439110398293, 'kl': 0.054443359375, 'epoch': 0.32}
+ 32%|███▏      | 1387/4286 [8:52:08<19:23:13, 24.08s/it] 32%|███▏      | 1388/4286 [8:52:31<19:02:33, 23.66s/it]                                                        {'loss': 0.0021, 'grad_norm': 0.3676488460030559, 'learning_rate': 6.76154923005133e-07, 'completion_length': 394.7857360839844, 'rewards/only_full_func_accuracy_reward': 0.6778274476528168, 'rewards/format_reward': 1.0, 'reward': 1.6778274774551392, 'reward_std': 0.03293653205037117, 'kl': 0.0535888671875, 'epoch': 0.32}
+ 32%|███▏      | 1388/4286 [8:52:31<19:02:33, 23.66s/it] 32%|███▏      | 1389/4286 [8:52:54<18:53:17, 23.47s/it]                                                        {'loss': 0.0067, 'grad_norm': 0.761131412417012, 'learning_rate': 6.759216052263183e-07, 'completion_length': 410.68751525878906, 'rewards/only_full_func_accuracy_reward': 0.6428572237491608, 'rewards/format_reward': 1.0, 'reward': 1.642857313156128, 'reward_std': 0.051178740337491035, 'kl': 0.16748046875, 'epoch': 0.32}
+ 32%|███▏      | 1389/4286 [8:52:54<18:53:17, 23.47s/it] 32%|███▏      | 1390/4286 [8:53:16<18:38:50, 23.18s/it]                                                        {'loss': 0.0063, 'grad_norm': 0.9426903865612883, 'learning_rate': 6.756882874475035e-07, 'completion_length': 366.50001525878906, 'rewards/only_full_func_accuracy_reward': 0.8251488506793976, 'rewards/format_reward': 1.0, 'reward': 1.8251489400863647, 'reward_std': 0.09116226434707642, 'kl': 0.15625, 'epoch': 0.32}
+ 32%|███▏      | 1390/4286 [8:53:16<18:38:50, 23.18s/it] 32%|███▏      | 1391/4286 [8:53:40<18:43:06, 23.28s/it]                                                        {'loss': 0.0024, 'grad_norm': 0.4926636970417509, 'learning_rate': 6.754549696686887e-07, 'completion_length': 430.23216247558594, 'rewards/only_full_func_accuracy_reward': 0.5796131193637848, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5706846117973328, 'reward_std': 0.06544179283082485, 'kl': 0.059326171875, 'epoch': 0.32}
+ 32%|███▏      | 1391/4286 [8:53:40<18:43:06, 23.28s/it] 32%|███▏      | 1392/4286 [8:54:04<18:56:38, 23.57s/it]                                                        {'loss': 0.0153, 'grad_norm': 0.9494773446241271, 'learning_rate': 6.752216518898741e-07, 'completion_length': 433.3214569091797, 'rewards/only_full_func_accuracy_reward': 0.6744047701358795, 'rewards/format_reward': 1.0, 'reward': 1.6744048595428467, 'reward_std': 0.09529322199523449, 'kl': 0.384521484375, 'epoch': 0.32}
+ 32%|███▏      | 1392/4286 [8:54:04<18:56:38, 23.57s/it] 33%|███▎      | 1393/4286 [8:54:27<18:45:21, 23.34s/it]                                                        {'loss': 0.003, 'grad_norm': 0.2461183409475878, 'learning_rate': 6.749883341110593e-07, 'completion_length': 376.50001525878906, 'rewards/only_full_func_accuracy_reward': 0.7061012089252472, 'rewards/format_reward': 1.0, 'reward': 1.7061012387275696, 'reward_std': 0.025774452835321426, 'kl': 0.07421875, 'epoch': 0.33}
+ 33%|███▎      | 1393/4286 [8:54:27<18:45:21, 23.34s/it] 33%|███▎      | 1394/4286 [8:54:49<18:34:26, 23.12s/it]                                                        {'loss': 0.0169, 'grad_norm': 0.8583625244546711, 'learning_rate': 6.747550163322445e-07, 'completion_length': 408.3839416503906, 'rewards/only_full_func_accuracy_reward': 0.6316964626312256, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.622767984867096, 'reward_std': 0.08055987861007452, 'kl': 0.4228515625, 'epoch': 0.33}
+ 33%|███▎      | 1394/4286 [8:54:49<18:34:26, 23.12s/it] 33%|███▎      | 1395/4286 [8:55:14<18:55:22, 23.56s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.6126392033144678, 'learning_rate': 6.745216985534297e-07, 'completion_length': 421.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.763244092464447, 'rewards/format_reward': 1.0, 'reward': 1.7632441520690918, 'reward_std': 0.03266984364017844, 'kl': 0.044189453125, 'epoch': 0.33}
+ 33%|███▎      | 1395/4286 [8:55:14<18:55:22, 23.56s/it] 33%|███▎      | 1396/4286 [8:55:38<19:02:58, 23.73s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.7525072464269043, 'learning_rate': 6.742883807746151e-07, 'completion_length': 416.26788330078125, 'rewards/only_full_func_accuracy_reward': 0.7425595223903656, 'rewards/format_reward': 1.0, 'reward': 1.7425596714019775, 'reward_std': 0.029992135241627693, 'kl': 0.04296875, 'epoch': 0.33}
+ 33%|███▎      | 1396/4286 [8:55:38<19:02:58, 23.73s/it] 33%|███▎      | 1397/4286 [8:56:02<19:03:45, 23.75s/it]                                                        {'loss': 0.0106, 'grad_norm': 1.2201667974565593, 'learning_rate': 6.740550629958003e-07, 'completion_length': 440.6160888671875, 'rewards/only_full_func_accuracy_reward': 0.76116082072258, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.752232313156128, 'reward_std': 0.09152154251933098, 'kl': 0.265625, 'epoch': 0.33}
+ 33%|███▎      | 1397/4286 [8:56:02<19:03:45, 23.75s/it] 33%|███▎      | 1398/4286 [8:56:25<18:47:14, 23.42s/it]                                                        {'loss': 0.1334, 'grad_norm': 1.447728624258002, 'learning_rate': 6.738217452169855e-07, 'completion_length': 361.9285888671875, 'rewards/only_full_func_accuracy_reward': 0.6246280074119568, 'rewards/format_reward': 0.910714328289032, 'reward': 1.5353423357009888, 'reward_std': 0.3504364490509033, 'kl': 3.3359375, 'epoch': 0.33}
+ 33%|███▎      | 1398/4286 [8:56:25<18:47:14, 23.42s/it] 33%|███▎      | 1399/4286 [8:56:49<18:55:36, 23.60s/it]                                                        {'loss': 0.0593, 'grad_norm': 1.6101748018535074, 'learning_rate': 6.735884274381708e-07, 'completion_length': 406.9732360839844, 'rewards/only_full_func_accuracy_reward': 0.492559552192688, 'rewards/format_reward': 0.955357164144516, 'reward': 1.4479168057441711, 'reward_std': 0.30783890187740326, 'kl': 1.482421875, 'epoch': 0.33}
+ 33%|███▎      | 1399/4286 [8:56:49<18:55:36, 23.60s/it] 33%|███▎      | 1400/4286 [8:57:13<19:07:28, 23.86s/it]                                                        {'loss': 0.119, 'grad_norm': 2.7887514069602446, 'learning_rate': 6.73355109659356e-07, 'completion_length': 401.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.5947916507720947, 'rewards/format_reward': 0.9464285969734192, 'reward': 1.5412203669548035, 'reward_std': 0.25613806396722794, 'kl': 2.98046875, 'epoch': 0.33}
+ 33%|███▎      | 1400/4286 [8:57:13<19:07:28, 23.86s/it] 33%|███▎      | 1401/4286 [8:59:10<41:27:57, 51.74s/it]                                                        {'loss': 0.0875, 'grad_norm': 1.5175134635280922, 'learning_rate': 6.731217918805413e-07, 'completion_length': 388.7232360839844, 'rewards/only_full_func_accuracy_reward': 0.6696429252624512, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.633928656578064, 'reward_std': 0.23914971947669983, 'kl': 2.19140625, 'epoch': 0.33}
+ 33%|███▎      | 1401/4286 [8:59:10<41:27:57, 51.74s/it] 33%|███▎      | 1402/4286 [8:59:32<34:26:44, 43.00s/it]                                                        {'loss': 0.0454, 'grad_norm': 1.575190178126474, 'learning_rate': 6.728884741017266e-07, 'completion_length': 371.4643096923828, 'rewards/only_full_func_accuracy_reward': 0.7097514569759369, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.674037218093872, 'reward_std': 0.2620499059557915, 'kl': 1.130859375, 'epoch': 0.33}
+ 33%|███▎      | 1402/4286 [8:59:32<34:26:44, 43.00s/it] 33%|███▎      | 1403/4286 [8:59:57<29:57:26, 37.41s/it]                                                        {'loss': 0.0136, 'grad_norm': 0.5485029369790334, 'learning_rate': 6.726551563229118e-07, 'completion_length': 445.7857208251953, 'rewards/only_full_func_accuracy_reward': 0.6272321790456772, 'rewards/format_reward': 1.0, 'reward': 1.627232313156128, 'reward_std': 0.08423550054430962, 'kl': 0.341796875, 'epoch': 0.33}
+ 33%|███▎      | 1403/4286 [8:59:57<29:57:26, 37.41s/it] 33%|███▎      | 1404/4286 [9:00:19<26:13:21, 32.76s/it]                                                        {'loss': 0.0388, 'grad_norm': 1.2933744224441688, 'learning_rate': 6.72421838544097e-07, 'completion_length': 345.2232208251953, 'rewards/only_full_func_accuracy_reward': 0.8221726417541504, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.8043155670166016, 'reward_std': 0.17571667581796646, 'kl': 0.96728515625, 'epoch': 0.33}
+ 33%|███▎      | 1404/4286 [9:00:19<26:13:21, 32.76s/it] 33%|███▎      | 1405/4286 [9:00:42<23:51:23, 29.81s/it]                                                        {'loss': 0.0641, 'grad_norm': 2.9142475872116775, 'learning_rate': 6.721885207652823e-07, 'completion_length': 395.95538330078125, 'rewards/only_full_func_accuracy_reward': 0.603943482041359, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5950149297714233, 'reward_std': 0.16615546494722366, 'kl': 1.6015625, 'epoch': 0.33}
+ 33%|███▎      | 1405/4286 [9:00:42<23:51:23, 29.81s/it] 33%|███▎      | 1406/4286 [9:01:05<22:13:50, 27.79s/it]                                                        {'loss': 0.112, 'grad_norm': 3.316429596412947, 'learning_rate': 6.719552029864676e-07, 'completion_length': 399.7857208251953, 'rewards/only_full_func_accuracy_reward': 0.8099702894687653, 'rewards/format_reward': 0.910714328289032, 'reward': 1.7206845879554749, 'reward_std': 0.21591806411743164, 'kl': 2.8046875, 'epoch': 0.33}
+ 33%|███▎      | 1406/4286 [9:01:05<22:13:50, 27.79s/it] 33%|███▎      | 1407/4286 [9:01:28<21:04:50, 26.36s/it]                                                        {'loss': 0.0583, 'grad_norm': 2.1233059221307924, 'learning_rate': 6.717218852076528e-07, 'completion_length': 402.6428680419922, 'rewards/only_full_func_accuracy_reward': 0.5069940090179443, 'rewards/format_reward': 0.9553571939468384, 'reward': 1.4623513221740723, 'reward_std': 0.1580551192164421, 'kl': 1.45703125, 'epoch': 0.33}
+ 33%|███▎      | 1407/4286 [9:01:28<21:04:50, 26.36s/it] 33%|███▎      | 1408/4286 [9:01:50<20:08:37, 25.20s/it]                                                        {'loss': 0.0473, 'grad_norm': 1.2121503540789833, 'learning_rate': 6.71488567428838e-07, 'completion_length': 359.7321472167969, 'rewards/only_full_func_accuracy_reward': 0.6379464268684387, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6200894713401794, 'reward_std': 0.09697870165109634, 'kl': 1.18359375, 'epoch': 0.33}
+ 33%|███▎      | 1408/4286 [9:01:50<20:08:37, 25.20s/it] 33%|███▎      | 1409/4286 [9:02:14<19:43:38, 24.69s/it]                                                        {'loss': 0.0074, 'grad_norm': 0.34164373130495834, 'learning_rate': 6.712552496500234e-07, 'completion_length': 395.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.8630952537059784, 'rewards/format_reward': 1.0, 'reward': 1.8630953431129456, 'reward_std': 0.03111080639064312, 'kl': 0.183837890625, 'epoch': 0.33}
+ 33%|███▎      | 1409/4286 [9:02:14<19:43:38, 24.69s/it] 33%|███▎      | 1410/4286 [9:02:37<19:27:15, 24.35s/it]                                                        {'loss': 0.0034, 'grad_norm': 0.6752544578027765, 'learning_rate': 6.710219318712086e-07, 'completion_length': 401.9732360839844, 'rewards/only_full_func_accuracy_reward': 0.6683036386966705, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6593750715255737, 'reward_std': 0.044611599296331406, 'kl': 0.0860595703125, 'epoch': 0.33}
+ 33%|███▎      | 1410/4286 [9:02:37<19:27:15, 24.35s/it] 33%|███▎      | 1411/4286 [9:03:00<19:04:05, 23.88s/it]                                                        {'loss': 0.0115, 'grad_norm': 2.689648410511851, 'learning_rate': 6.707886140923938e-07, 'completion_length': 399.9464416503906, 'rewards/only_full_func_accuracy_reward': 0.5706845819950104, 'rewards/format_reward': 1.0, 'reward': 1.5706846714019775, 'reward_std': 0.058504821732640266, 'kl': 0.286865234375, 'epoch': 0.33}
+ 33%|███▎      | 1411/4286 [9:03:00<19:04:05, 23.88s/it] 33%|███▎      | 1412/4286 [9:03:24<19:08:38, 23.98s/it]                                                        {'loss': 0.0089, 'grad_norm': 0.546921380759966, 'learning_rate': 6.705552963135791e-07, 'completion_length': 404.26788330078125, 'rewards/only_full_func_accuracy_reward': 0.7031250298023224, 'rewards/format_reward': 1.0, 'reward': 1.7031251192092896, 'reward_std': 0.0483025424182415, 'kl': 0.2230224609375, 'epoch': 0.33}
+ 33%|███▎      | 1412/4286 [9:03:24<19:08:38, 23.98s/it] 33%|███▎      | 1413/4286 [9:03:48<19:06:18, 23.94s/it]                                                        {'loss': 0.0019, 'grad_norm': 0.3548213512068976, 'learning_rate': 6.703219785347644e-07, 'completion_length': 387.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.691964328289032, 'rewards/format_reward': 1.0, 'reward': 1.6919643878936768, 'reward_std': 0.01555540319532156, 'kl': 0.047607421875, 'epoch': 0.33}
+ 33%|███▎      | 1413/4286 [9:03:48<19:06:18, 23.94s/it] 33%|███▎      | 1414/4286 [9:04:12<19:06:33, 23.95s/it]                                                        {'loss': 0.0112, 'grad_norm': 1.0509104545242829, 'learning_rate': 6.700886607559496e-07, 'completion_length': 447.9107360839844, 'rewards/only_full_func_accuracy_reward': 0.5416666567325592, 'rewards/format_reward': 1.0, 'reward': 1.5416668057441711, 'reward_std': 0.02319924160838127, 'kl': 0.2803955078125, 'epoch': 0.33}
+ 33%|███▎      | 1414/4286 [9:04:12<19:06:33, 23.95s/it] 33%|███▎      | 1415/4286 [9:04:37<19:20:03, 24.24s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.3261409591206293, 'learning_rate': 6.698553429771349e-07, 'completion_length': 453.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.6964286267757416, 'rewards/format_reward': 1.0, 'reward': 1.6964287161827087, 'reward_std': 0.0852201022207737, 'kl': 0.0423583984375, 'epoch': 0.33}
+ 33%|███▎      | 1415/4286 [9:04:37<19:20:03, 24.24s/it] 33%|███▎      | 1416/4286 [9:05:00<18:54:39, 23.72s/it]                                                        {'loss': 0.0023, 'grad_norm': 0.21102538364809195, 'learning_rate': 6.696220251983201e-07, 'completion_length': 358.5714569091797, 'rewards/only_full_func_accuracy_reward': 0.8333333730697632, 'rewards/format_reward': 1.0, 'reward': 1.833333432674408, 'reward_std': 0.023973338305950165, 'kl': 0.0562744140625, 'epoch': 0.33}
+ 33%|███▎      | 1416/4286 [9:05:00<18:54:39, 23.72s/it] 33%|███▎      | 1417/4286 [9:05:23<18:50:35, 23.64s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.3870506328048997, 'learning_rate': 6.693887074195054e-07, 'completion_length': 415.79466247558594, 'rewards/only_full_func_accuracy_reward': 0.6867559850215912, 'rewards/format_reward': 1.0, 'reward': 1.6867560148239136, 'reward_std': 0.04806169122457504, 'kl': 0.04150390625, 'epoch': 0.33}
+ 33%|███▎      | 1417/4286 [9:05:23<18:50:35, 23.64s/it] 33%|███▎      | 1418/4286 [9:05:48<19:14:15, 24.15s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.40413365422671715, 'learning_rate': 6.691553896406906e-07, 'completion_length': 478.91966247558594, 'rewards/only_full_func_accuracy_reward': 0.5513393580913544, 'rewards/format_reward': 1.0, 'reward': 1.5513393878936768, 'reward_std': 0.01475278614088893, 'kl': 0.0396728515625, 'epoch': 0.33}
+ 33%|███▎      | 1418/4286 [9:05:48<19:14:15, 24.15s/it] 33%|███▎      | 1419/4286 [9:06:11<18:57:13, 23.80s/it]                                                        {'loss': 0.0172, 'grad_norm': 0.5300609239616421, 'learning_rate': 6.689220718618759e-07, 'completion_length': 407.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.7180059850215912, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7001489400863647, 'reward_std': 0.13137022592127323, 'kl': 0.42919921875, 'epoch': 0.33}
+ 33%|███▎      | 1419/4286 [9:06:11<18:57:13, 23.80s/it] 33%|███▎      | 1420/4286 [9:06:36<19:11:32, 24.11s/it]                                                        {'loss': 0.0024, 'grad_norm': 0.4272359622524632, 'learning_rate': 6.686887540830611e-07, 'completion_length': 437.39288330078125, 'rewards/only_full_func_accuracy_reward': 0.6674107909202576, 'rewards/format_reward': 1.0, 'reward': 1.6674108505249023, 'reward_std': 0.07328374031931162, 'kl': 0.06036376953125, 'epoch': 0.33}
+ 33%|███▎      | 1420/4286 [9:06:36<19:11:32, 24.11s/it] 33%|███▎      | 1421/4286 [9:06:59<18:50:38, 23.68s/it]                                                        {'loss': 0.0053, 'grad_norm': 1.3268428705628592, 'learning_rate': 6.684554363042464e-07, 'completion_length': 354.74107360839844, 'rewards/only_full_func_accuracy_reward': 0.5885416865348816, 'rewards/format_reward': 1.0, 'reward': 1.5885417461395264, 'reward_std': 0.05752115696668625, 'kl': 0.13134765625, 'epoch': 0.33}
+ 33%|███▎      | 1421/4286 [9:06:59<18:50:38, 23.68s/it] 33%|███▎      | 1422/4286 [9:07:21<18:25:00, 23.15s/it]                                                        {'loss': 0.002, 'grad_norm': 3.893566766541706, 'learning_rate': 6.682221185254317e-07, 'completion_length': 376.50001525878906, 'rewards/only_full_func_accuracy_reward': 0.7373512387275696, 'rewards/format_reward': 1.0, 'reward': 1.7373512983322144, 'reward_std': 0.010760245844721794, 'kl': 0.05078125, 'epoch': 0.33}
+ 33%|███▎      | 1422/4286 [9:07:21<18:25:00, 23.15s/it] 33%|███▎      | 1423/4286 [9:07:43<18:17:10, 22.99s/it]                                                        {'loss': 0.0122, 'grad_norm': 0.6674522920401353, 'learning_rate': 6.679888007466169e-07, 'completion_length': 387.5089569091797, 'rewards/only_full_func_accuracy_reward': 0.7321428954601288, 'rewards/format_reward': 1.0, 'reward': 1.7321429252624512, 'reward_std': 0.06007574498653412, 'kl': 0.305419921875, 'epoch': 0.33}
+ 33%|███▎      | 1423/4286 [9:07:43<18:17:10, 22.99s/it] 33%|███▎      | 1424/4286 [9:08:07<18:27:41, 23.22s/it]                                                        {'loss': 0.0047, 'grad_norm': 0.8480093083978909, 'learning_rate': 6.677554829678021e-07, 'completion_length': 398.75001525878906, 'rewards/only_full_func_accuracy_reward': 0.6220238208770752, 'rewards/format_reward': 1.0, 'reward': 1.62202388048172, 'reward_std': 0.11401084065437317, 'kl': 0.1165771484375, 'epoch': 0.33}
+ 33%|███▎      | 1424/4286 [9:08:07<18:27:41, 23.22s/it] 33%|███▎      | 1425/4286 [9:08:31<18:38:40, 23.46s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.08303192241607647, 'learning_rate': 6.675221651889875e-07, 'completion_length': 447.1607360839844, 'rewards/only_full_func_accuracy_reward': 0.660714328289032, 'rewards/format_reward': 1.0, 'reward': 1.6607144474983215, 'reward_std': 0.011021668091416359, 'kl': 0.038818359375, 'epoch': 0.33}
+ 33%|███▎      | 1425/4286 [9:08:31<18:38:40, 23.46s/it] 33%|███▎      | 1426/4286 [9:08:54<18:32:34, 23.34s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.4183008303149021, 'learning_rate': 6.672888474101727e-07, 'completion_length': 403.7410888671875, 'rewards/only_full_func_accuracy_reward': 0.71770840883255, 'rewards/format_reward': 1.0, 'reward': 1.71770840883255, 'reward_std': 0.035838703624904156, 'kl': 0.0450439453125, 'epoch': 0.33}
+ 33%|███▎      | 1426/4286 [9:08:54<18:32:34, 23.34s/it] 33%|███▎      | 1427/4286 [9:09:18<18:36:21, 23.43s/it]                                                        {'loss': 0.0216, 'grad_norm': 1.3675597169555436, 'learning_rate': 6.670555296313579e-07, 'completion_length': 408.95538330078125, 'rewards/only_full_func_accuracy_reward': 0.5458333790302277, 'rewards/format_reward': 1.0, 'reward': 1.5458333492279053, 'reward_std': 0.021276645362377167, 'kl': 0.541015625, 'epoch': 0.33}
+ 33%|███▎      | 1427/4286 [9:09:18<18:36:21, 23.43s/it] 33%|███▎      | 1428/4286 [9:09:40<18:24:44, 23.19s/it]                                                        {'loss': 0.0021, 'grad_norm': 1.8513543164375272, 'learning_rate': 6.668222118525431e-07, 'completion_length': 397.5268096923828, 'rewards/only_full_func_accuracy_reward': 0.7239583730697632, 'rewards/format_reward': 1.0, 'reward': 1.7239584922790527, 'reward_std': 0.017659890465438366, 'kl': 0.0523681640625, 'epoch': 0.33}
+ 33%|███▎      | 1428/4286 [9:09:40<18:24:44, 23.19s/it] 33%|███▎      | 1429/4286 [9:10:02<18:07:37, 22.84s/it]                                                        {'loss': 0.0293, 'grad_norm': 1.7133578263831335, 'learning_rate': 6.665888940737284e-07, 'completion_length': 360.71429443359375, 'rewards/only_full_func_accuracy_reward': 0.5468750149011612, 'rewards/format_reward': 1.0, 'reward': 1.5468750596046448, 'reward_std': 0.009241949766874313, 'kl': 0.732421875, 'epoch': 0.33}
+ 33%|███▎      | 1429/4286 [9:10:02<18:07:37, 22.84s/it] 33%|███▎      | 1430/4286 [9:10:26<18:22:28, 23.16s/it]                                                        {'loss': 0.0172, 'grad_norm': 1.0286328801298605, 'learning_rate': 6.663555762949137e-07, 'completion_length': 422.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.757440447807312, 'rewards/format_reward': 1.0, 'reward': 1.7574405670166016, 'reward_std': 0.066640829667449, 'kl': 0.4287109375, 'epoch': 0.33}
+ 33%|███▎      | 1430/4286 [9:10:26<18:22:28, 23.16s/it] 33%|███▎      | 1431/4286 [9:10:49<18:10:07, 22.91s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.1468301918812006, 'learning_rate': 6.661222585160989e-07, 'completion_length': 374.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.7525297999382019, 'rewards/format_reward': 1.0, 'reward': 1.7525299191474915, 'reward_std': 0.02651650458574295, 'kl': 0.0457763671875, 'epoch': 0.33}
+ 33%|███▎      | 1431/4286 [9:10:49<18:10:07, 22.91s/it] 33%|███▎      | 1432/4286 [9:11:13<18:23:30, 23.20s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.3439776889873943, 'learning_rate': 6.658889407372842e-07, 'completion_length': 451.14288330078125, 'rewards/only_full_func_accuracy_reward': 0.7886905074119568, 'rewards/format_reward': 1.0, 'reward': 1.7886906266212463, 'reward_std': 0.026229978539049625, 'kl': 0.0396728515625, 'epoch': 0.33}
+ 33%|███▎      | 1432/4286 [9:11:13<18:23:30, 23.20s/it] 33%|███▎      | 1433/4286 [9:11:37<18:45:42, 23.67s/it]                                                        {'loss': 0.0015, 'grad_norm': 2.250934463452331, 'learning_rate': 6.656556229584694e-07, 'completion_length': 447.1339569091797, 'rewards/only_full_func_accuracy_reward': 0.7500000596046448, 'rewards/format_reward': 1.0, 'reward': 1.7500001788139343, 'reward_std': 0.06199760176241398, 'kl': 0.0379638671875, 'epoch': 0.33}
+ 33%|███▎      | 1433/4286 [9:11:37<18:45:42, 23.67s/it] 33%|███▎      | 1434/4286 [9:12:01<18:44:52, 23.67s/it]                                                        {'loss': 0.0026, 'grad_norm': 0.47370204626641704, 'learning_rate': 6.654223051796547e-07, 'completion_length': 433.3839569091797, 'rewards/only_full_func_accuracy_reward': 0.6190476417541504, 'rewards/format_reward': 1.0, 'reward': 1.6190477013587952, 'reward_std': 0.022043338045477867, 'kl': 0.06591796875, 'epoch': 0.33}
+ 33%|███▎      | 1434/4286 [9:12:01<18:44:52, 23.67s/it] 33%|███▎      | 1435/4286 [9:12:24<18:38:10, 23.53s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.7103289775767962, 'learning_rate': 6.6518898740084e-07, 'completion_length': 421.6607208251953, 'rewards/only_full_func_accuracy_reward': 0.6305060088634491, 'rewards/format_reward': 1.0, 'reward': 1.6305060386657715, 'reward_std': 0.07509245537221432, 'kl': 0.0460205078125, 'epoch': 0.33}
+ 33%|███▎      | 1435/4286 [9:12:24<18:38:10, 23.53s/it] 34%|███▎      | 1436/4286 [9:12:47<18:21:33, 23.19s/it]                                                        {'loss': 0.022, 'grad_norm': 1.6848117889202463, 'learning_rate': 6.649556696220252e-07, 'completion_length': 393.4464569091797, 'rewards/only_full_func_accuracy_reward': 0.7500000894069672, 'rewards/format_reward': 1.0, 'reward': 1.7500000596046448, 'reward_std': 0.06022351607680321, 'kl': 0.547607421875, 'epoch': 0.34}
+ 34%|███▎      | 1436/4286 [9:12:47<18:21:33, 23.19s/it] 34%|███▎      | 1437/4286 [9:13:11<18:31:14, 23.40s/it]                                                        {'loss': 0.0019, 'grad_norm': 0.5876462439303379, 'learning_rate': 6.647223518432104e-07, 'completion_length': 408.1339569091797, 'rewards/only_full_func_accuracy_reward': 0.833333432674408, 'rewards/format_reward': 1.0, 'reward': 1.8333335518836975, 'reward_std': 0.026750151067972183, 'kl': 0.048095703125, 'epoch': 0.34}
+ 34%|███▎      | 1437/4286 [9:13:11<18:31:14, 23.40s/it] 34%|███▎      | 1438/4286 [9:13:32<18:06:24, 22.89s/it]                                                        {'loss': 0.0022, 'grad_norm': 0.35659694339216114, 'learning_rate': 6.644890340643958e-07, 'completion_length': 359.8303680419922, 'rewards/only_full_func_accuracy_reward': 0.830357164144516, 'rewards/format_reward': 1.0, 'reward': 1.8303572535514832, 'reward_std': 0.027508025988936424, 'kl': 0.0545654296875, 'epoch': 0.34}
+ 34%|███▎      | 1438/4286 [9:13:32<18:06:24, 22.89s/it] 34%|███▎      | 1439/4286 [9:13:58<18:42:36, 23.66s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.48042524864649544, 'learning_rate': 6.64255716285581e-07, 'completion_length': 467.12501525878906, 'rewards/only_full_func_accuracy_reward': 0.7324617803096771, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7235333323478699, 'reward_std': 0.10735233873128891, 'kl': 0.041748046875, 'epoch': 0.34}
+ 34%|███▎      | 1439/4286 [9:13:58<18:42:36, 23.66s/it] 34%|███▎      | 1440/4286 [9:14:21<18:40:58, 23.63s/it]                                                        {'loss': 0.0123, 'grad_norm': 0.9574176936412059, 'learning_rate': 6.640223985067662e-07, 'completion_length': 415.5357360839844, 'rewards/only_full_func_accuracy_reward': 0.6875000596046448, 'rewards/format_reward': 1.0, 'reward': 1.6875000596046448, 'reward_std': 0.025253813713788986, 'kl': 0.3070068359375, 'epoch': 0.34}
+ 34%|███▎      | 1440/4286 [9:14:21<18:40:58, 23.63s/it] 34%|███▎      | 1441/4286 [9:14:46<18:59:19, 24.03s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.6816779696439241, 'learning_rate': 6.637890807279514e-07, 'completion_length': 443.81251525878906, 'rewards/only_full_func_accuracy_reward': 0.616071492433548, 'rewards/format_reward': 1.0, 'reward': 1.6160715818405151, 'reward_std': 0.07176666706800461, 'kl': 0.0400390625, 'epoch': 0.34}
+ 34%|███▎      | 1441/4286 [9:14:46<18:59:19, 24.03s/it] 34%|███▎      | 1442/4286 [9:15:08<18:28:04, 23.38s/it]                                                        {'loss': 0.0045, 'grad_norm': 0.3075174997103433, 'learning_rate': 6.635557629491368e-07, 'completion_length': 390.60716247558594, 'rewards/only_full_func_accuracy_reward': 0.636904776096344, 'rewards/format_reward': 1.0, 'reward': 1.6369048953056335, 'reward_std': 0.01272672601044178, 'kl': 0.1121826171875, 'epoch': 0.34}
+ 34%|███▎      | 1442/4286 [9:15:08<18:28:04, 23.38s/it] 34%|███▎      | 1443/4286 [9:15:31<18:24:40, 23.31s/it]                                                        {'loss': 0.0042, 'grad_norm': 0.6559889914732678, 'learning_rate': 6.63322445170322e-07, 'completion_length': 407.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.7120535969734192, 'rewards/format_reward': 1.0, 'reward': 1.7120537161827087, 'reward_std': 0.0568852573633194, 'kl': 0.1044921875, 'epoch': 0.34}
+ 34%|███▎      | 1443/4286 [9:15:31<18:24:40, 23.31s/it] 34%|███▎      | 1444/4286 [9:15:56<18:44:42, 23.74s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.46124632040347857, 'learning_rate': 6.630891273915072e-07, 'completion_length': 480.8393249511719, 'rewards/only_full_func_accuracy_reward': 0.5290178507566452, 'rewards/format_reward': 1.0, 'reward': 1.5290180444717407, 'reward_std': 0.040048450231552124, 'kl': 0.0421142578125, 'epoch': 0.34}
+ 34%|███▎      | 1444/4286 [9:15:56<18:44:42, 23.74s/it] 34%|███▎      | 1445/4286 [9:16:19<18:39:06, 23.63s/it]                                                        {'loss': 0.0042, 'grad_norm': 0.6477141956306498, 'learning_rate': 6.628558096126925e-07, 'completion_length': 388.0357208251953, 'rewards/only_full_func_accuracy_reward': 0.5952381193637848, 'rewards/format_reward': 1.0, 'reward': 1.595238208770752, 'reward_std': 0.057534513995051384, 'kl': 0.1060791015625, 'epoch': 0.34}
+ 34%|███▎      | 1445/4286 [9:16:19<18:39:06, 23.63s/it] 34%|███▎      | 1446/4286 [9:16:44<18:47:21, 23.82s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.319341774769437, 'learning_rate': 6.626224918338778e-07, 'completion_length': 415.9285888671875, 'rewards/only_full_func_accuracy_reward': 0.6941964626312256, 'rewards/format_reward': 1.0, 'reward': 1.6941964626312256, 'reward_std': 0.049215927720069885, 'kl': 0.046142578125, 'epoch': 0.34}
+ 34%|███▎      | 1446/4286 [9:16:44<18:47:21, 23.82s/it] 34%|███▍      | 1447/4286 [9:17:06<18:25:18, 23.36s/it]                                                        {'loss': 0.0037, 'grad_norm': 2.027190144913941, 'learning_rate': 6.62389174055063e-07, 'completion_length': 400.8482360839844, 'rewards/only_full_func_accuracy_reward': 0.5074404627084732, 'rewards/format_reward': 1.0, 'reward': 1.5074405670166016, 'reward_std': 0.012626912910491228, 'kl': 0.0928955078125, 'epoch': 0.34}
+ 34%|███▍      | 1447/4286 [9:17:06<18:25:18, 23.36s/it] 34%|███▍      | 1448/4286 [9:17:30<18:33:23, 23.54s/it]                                                        {'loss': 0.002, 'grad_norm': 1.1905681177635514, 'learning_rate': 6.621558562762483e-07, 'completion_length': 406.04466247558594, 'rewards/only_full_func_accuracy_reward': 0.755208432674408, 'rewards/format_reward': 1.0, 'reward': 1.755208432674408, 'reward_std': 0.08026793971657753, 'kl': 0.04931640625, 'epoch': 0.34}
+ 34%|███▍      | 1448/4286 [9:17:30<18:33:23, 23.54s/it] 34%|███▍      | 1449/4286 [9:17:55<18:56:10, 24.03s/it]                                                        {'loss': 0.0014, 'grad_norm': 0.342790114489913, 'learning_rate': 6.619225384974335e-07, 'completion_length': 462.6518096923828, 'rewards/only_full_func_accuracy_reward': 0.6629464626312256, 'rewards/format_reward': 1.0, 'reward': 1.6629465222358704, 'reward_std': 0.0063134534284472466, 'kl': 0.0340576171875, 'epoch': 0.34}
+ 34%|███▍      | 1449/4286 [9:17:55<18:56:10, 24.03s/it] 34%|███▍      | 1450/4286 [9:18:16<18:12:55, 23.12s/it]                                                        {'loss': 0.0066, 'grad_norm': 2.172376957665202, 'learning_rate': 6.616892207186187e-07, 'completion_length': 344.15179443359375, 'rewards/only_full_func_accuracy_reward': 0.6919643580913544, 'rewards/format_reward': 1.0, 'reward': 1.6919643878936768, 'reward_std': 0.05590956099331379, 'kl': 0.166015625, 'epoch': 0.34}
+ 34%|███▍      | 1450/4286 [9:18:16<18:12:55, 23.12s/it] 34%|███▍      | 1451/4286 [9:18:40<18:20:40, 23.29s/it]                                                        {'loss': 0.0068, 'grad_norm': 0.7758437783759672, 'learning_rate': 6.61455902939804e-07, 'completion_length': 436.4107208251953, 'rewards/only_full_func_accuracy_reward': 0.6227678954601288, 'rewards/format_reward': 1.0, 'reward': 1.6227679252624512, 'reward_std': 0.03401312604546547, 'kl': 0.17041015625, 'epoch': 0.34}
+ 34%|███▍      | 1451/4286 [9:18:40<18:20:40, 23.29s/it] 34%|███▍      | 1452/4286 [9:19:02<18:01:00, 22.89s/it]                                                        {'loss': 0.0019, 'grad_norm': 0.7430702773354304, 'learning_rate': 6.612225851609893e-07, 'completion_length': 365.8035888671875, 'rewards/only_full_func_accuracy_reward': 0.7589285969734192, 'rewards/format_reward': 1.0, 'reward': 1.7589285969734192, 'reward_std': 0.04080921784043312, 'kl': 0.0482177734375, 'epoch': 0.34}
+ 34%|███▍      | 1452/4286 [9:19:02<18:01:00, 22.89s/it] 34%|███▍      | 1453/4286 [9:19:25<18:12:23, 23.14s/it]                                                        {'loss': 0.0107, 'grad_norm': 0.5493289151087852, 'learning_rate': 6.609892673821745e-07, 'completion_length': 432.5982360839844, 'rewards/only_full_func_accuracy_reward': 0.7257653772830963, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7168368697166443, 'reward_std': 0.07393241301178932, 'kl': 0.2672119140625, 'epoch': 0.34}
+ 34%|███▍      | 1453/4286 [9:19:25<18:12:23, 23.14s/it] 34%|███▍      | 1454/4286 [9:19:49<18:24:20, 23.40s/it]                                                        {'loss': 0.002, 'grad_norm': 0.1197654770291875, 'learning_rate': 6.607559496033597e-07, 'completion_length': 429.79466247558594, 'rewards/only_full_func_accuracy_reward': 0.7470238208770752, 'rewards/format_reward': 1.0, 'reward': 1.7470239400863647, 'reward_std': 0.00841793604195118, 'kl': 0.049072265625, 'epoch': 0.34}
+ 34%|███▍      | 1454/4286 [9:19:49<18:24:20, 23.40s/it] 34%|███▍      | 1455/4286 [9:20:14<18:42:58, 23.80s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.44122630528088697, 'learning_rate': 6.605226318245451e-07, 'completion_length': 457.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.6324405372142792, 'rewards/format_reward': 1.0, 'reward': 1.6324406266212463, 'reward_std': 0.06477312184870243, 'kl': 0.0386962890625, 'epoch': 0.34}
+ 34%|███▍      | 1455/4286 [9:20:14<18:42:58, 23.80s/it] 34%|███▍      | 1456/4286 [9:20:38<18:45:03, 23.85s/it]                                                        {'loss': 0.0154, 'grad_norm': 1.184824952221537, 'learning_rate': 6.602893140457303e-07, 'completion_length': 402.60716247558594, 'rewards/only_full_func_accuracy_reward': 0.6257440447807312, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6168156266212463, 'reward_std': 0.10307589173316956, 'kl': 0.385498046875, 'epoch': 0.34}
+ 34%|███▍      | 1456/4286 [9:20:38<18:45:03, 23.85s/it] 34%|███▍      | 1457/4286 [9:21:02<18:38:58, 23.73s/it]                                                        {'loss': 0.0019, 'grad_norm': 0.31138212536023974, 'learning_rate': 6.600559962669155e-07, 'completion_length': 387.7232360839844, 'rewards/only_full_func_accuracy_reward': 0.5751488208770752, 'rewards/format_reward': 1.0, 'reward': 1.5751488208770752, 'reward_std': 0.03360079228878021, 'kl': 0.0467529296875, 'epoch': 0.34}
+ 34%|███▍      | 1457/4286 [9:21:02<18:38:58, 23.73s/it] 34%|███▍      | 1458/4286 [9:21:25<18:41:19, 23.79s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.4837766853539505, 'learning_rate': 6.598226784881008e-07, 'completion_length': 406.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.6555060148239136, 'rewards/format_reward': 1.0, 'reward': 1.6555060744285583, 'reward_std': 0.024949974846094847, 'kl': 0.038818359375, 'epoch': 0.34}
+ 34%|███▍      | 1458/4286 [9:21:25<18:41:19, 23.79s/it] 34%|███▍      | 1459/4286 [9:21:49<18:31:16, 23.59s/it]                                                        {'loss': 0.0061, 'grad_norm': 1.8587723308768163, 'learning_rate': 6.595893607092861e-07, 'completion_length': 386.0535888671875, 'rewards/only_full_func_accuracy_reward': 0.790178656578064, 'rewards/format_reward': 1.0, 'reward': 1.7901787161827087, 'reward_std': 0.05180949904024601, 'kl': 0.1533203125, 'epoch': 0.34}
+ 34%|███▍      | 1459/4286 [9:21:49<18:31:16, 23.59s/it] 34%|███▍      | 1460/4286 [9:22:14<18:55:58, 24.12s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.9623995737253289, 'learning_rate': 6.593560429304713e-07, 'completion_length': 436.68751525878906, 'rewards/only_full_func_accuracy_reward': 0.676339328289032, 'rewards/format_reward': 1.0, 'reward': 1.676339328289032, 'reward_std': 0.07565394788980484, 'kl': 0.0428466796875, 'epoch': 0.34}
+ 34%|███▍      | 1460/4286 [9:22:14<18:55:58, 24.12s/it] 34%|███▍      | 1461/4286 [9:22:36<18:29:59, 23.58s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.320956027981503, 'learning_rate': 6.591227251516566e-07, 'completion_length': 393.8125305175781, 'rewards/only_full_func_accuracy_reward': 0.6986607611179352, 'rewards/format_reward': 1.0, 'reward': 1.6986608505249023, 'reward_std': 0.040352754294872284, 'kl': 0.0399169921875, 'epoch': 0.34}
+ 34%|███▍      | 1461/4286 [9:22:36<18:29:59, 23.58s/it] 34%|███▍      | 1462/4286 [9:23:00<18:28:20, 23.55s/it]                                                        {'loss': 0.0139, 'grad_norm': 0.42796188678062264, 'learning_rate': 6.588894073728418e-07, 'completion_length': 443.1428680419922, 'rewards/only_full_func_accuracy_reward': 0.6808035969734192, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6718751192092896, 'reward_std': 0.08018767088651657, 'kl': 0.345947265625, 'epoch': 0.34}
+ 34%|███▍      | 1462/4286 [9:23:00<18:28:20, 23.55s/it] 34%|███▍      | 1463/4286 [9:23:24<18:31:04, 23.61s/it]                                                        {'loss': 0.006, 'grad_norm': 1.0529334161614825, 'learning_rate': 6.586560895940271e-07, 'completion_length': 416.5089569091797, 'rewards/only_full_func_accuracy_reward': 0.6979167461395264, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.688988208770752, 'reward_std': 0.12330948933959007, 'kl': 0.150634765625, 'epoch': 0.34}
+ 34%|███▍      | 1463/4286 [9:23:24<18:31:04, 23.61s/it] 34%|███▍      | 1464/4286 [9:23:48<18:38:56, 23.79s/it]                                                        {'loss': 0.0025, 'grad_norm': 0.38477991450612165, 'learning_rate': 6.584227718152123e-07, 'completion_length': 467.5535888671875, 'rewards/only_full_func_accuracy_reward': 0.6034226715564728, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.594494104385376, 'reward_std': 0.09237253665924072, 'kl': 0.062255859375, 'epoch': 0.34}
+ 34%|███▍      | 1464/4286 [9:23:48<18:38:56, 23.79s/it] 34%|███▍      | 1465/4286 [9:24:11<18:25:04, 23.50s/it]                                                        {'loss': 0.003, 'grad_norm': 0.892215596737417, 'learning_rate': 6.581894540363976e-07, 'completion_length': 392.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.7723214626312256, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.763392984867096, 'reward_std': 0.09930111467838287, 'kl': 0.0745849609375, 'epoch': 0.34}
+ 34%|███▍      | 1465/4286 [9:24:11<18:25:04, 23.50s/it] 34%|███▍      | 1466/4286 [9:24:33<18:16:57, 23.34s/it]                                                        {'loss': 0.0153, 'grad_norm': 1.7104303749329628, 'learning_rate': 6.579561362575828e-07, 'completion_length': 381.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.6919642984867096, 'rewards/format_reward': 1.0, 'reward': 1.6919644474983215, 'reward_std': 0.06313453614711761, 'kl': 0.383056640625, 'epoch': 0.34}
+ 34%|███▍      | 1466/4286 [9:24:34<18:16:57, 23.34s/it] 34%|███▍      | 1467/4286 [9:24:58<18:28:26, 23.59s/it]                                                        {'loss': 0.0122, 'grad_norm': 1.4958001003294592, 'learning_rate': 6.577228184787681e-07, 'completion_length': 404.8214416503906, 'rewards/only_full_func_accuracy_reward': 0.6941964328289032, 'rewards/format_reward': 1.0, 'reward': 1.6941965818405151, 'reward_std': 0.05040012951940298, 'kl': 0.3046875, 'epoch': 0.34}
+ 34%|███▍      | 1467/4286 [9:24:58<18:28:26, 23.59s/it] 34%|███▍      | 1468/4286 [9:25:20<18:10:12, 23.21s/it]                                                        {'loss': 0.0101, 'grad_norm': 1.8076778028340663, 'learning_rate': 6.574895006999534e-07, 'completion_length': 378.5089416503906, 'rewards/only_full_func_accuracy_reward': 0.7819940745830536, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7641369700431824, 'reward_std': 0.11559496074914932, 'kl': 0.2529296875, 'epoch': 0.34}
+ 34%|███▍      | 1468/4286 [9:25:20<18:10:12, 23.21s/it] 34%|███▍      | 1469/4286 [9:25:43<18:04:00, 23.09s/it]                                                        {'loss': 0.0314, 'grad_norm': 1.33187394100523, 'learning_rate': 6.572561829211386e-07, 'completion_length': 413.90179443359375, 'rewards/only_full_func_accuracy_reward': 0.6532737910747528, 'rewards/format_reward': 0.973214328289032, 'reward': 1.6264882683753967, 'reward_std': 0.12636889517307281, 'kl': 0.783203125, 'epoch': 0.34}
+ 34%|███▍      | 1469/4286 [9:25:43<18:04:00, 23.09s/it] 34%|███▍      | 1470/4286 [9:26:06<18:10:21, 23.23s/it]                                                        {'loss': 0.0308, 'grad_norm': 1.373913092715034, 'learning_rate': 6.570228651423238e-07, 'completion_length': 402.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.5699405372142792, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.552083432674408, 'reward_std': 0.1014408990740776, 'kl': 0.76953125, 'epoch': 0.34}
+ 34%|███▍      | 1470/4286 [9:26:06<18:10:21, 23.23s/it] 34%|███▍      | 1471/4286 [9:26:30<18:14:27, 23.33s/it]                                                        {'loss': 0.0947, 'grad_norm': 1.884740062765613, 'learning_rate': 6.567895473635092e-07, 'completion_length': 392.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.5833333730697632, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.5476191639900208, 'reward_std': 0.2292870581150055, 'kl': 2.3671875, 'epoch': 0.34}
+ 34%|███▍      | 1471/4286 [9:26:30<18:14:27, 23.33s/it] 34%|███▍      | 1472/4286 [9:26:51<17:37:10, 22.54s/it]                                                        {'loss': 0.2499, 'grad_norm': 6.242749457188565, 'learning_rate': 6.565562295846944e-07, 'completion_length': 325.52679443359375, 'rewards/only_full_func_accuracy_reward': 0.6711310148239136, 'rewards/format_reward': 0.9017857611179352, 'reward': 1.5729168057441711, 'reward_std': 0.36974088847637177, 'kl': 6.234375, 'epoch': 0.34}
+ 34%|███▍      | 1472/4286 [9:26:51<17:37:10, 22.54s/it] 34%|███▍      | 1473/4286 [9:27:14<17:52:02, 22.87s/it]                                                        {'loss': 0.3468, 'grad_norm': 8.126582267671417, 'learning_rate': 6.563229118058796e-07, 'completion_length': 382.21429443359375, 'rewards/only_full_func_accuracy_reward': 0.6029762029647827, 'rewards/format_reward': 0.8660714626312256, 'reward': 1.4690476655960083, 'reward_std': 0.44165320694446564, 'kl': 8.65625, 'epoch': 0.34}
+ 34%|███▍      | 1473/4286 [9:27:14<17:52:02, 22.87s/it] 34%|███▍      | 1474/4286 [9:27:38<18:04:26, 23.14s/it]                                                        {'loss': 0.2981, 'grad_norm': 8.100907583550592, 'learning_rate': 6.560895940270648e-07, 'completion_length': 410.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.5683941841125488, 'rewards/format_reward': 0.910714328289032, 'reward': 1.4791086316108704, 'reward_std': 0.42816780507564545, 'kl': 7.453125, 'epoch': 0.34}
+ 34%|███▍      | 1474/4286 [9:27:38<18:04:26, 23.14s/it] 34%|███▍      | 1475/4286 [9:28:00<17:44:39, 22.72s/it]                                                        {'loss': 0.3546, 'grad_norm': 10.583056715914768, 'learning_rate': 6.558562762482502e-07, 'completion_length': 321.6696472167969, 'rewards/only_full_func_accuracy_reward': 0.4873512387275696, 'rewards/format_reward': 0.910714328289032, 'reward': 1.3980655670166016, 'reward_std': 0.4202800989151001, 'kl': 8.875, 'epoch': 0.34}
+ 34%|███▍      | 1475/4286 [9:28:00<17:44:39, 22.72s/it] 34%|███▍      | 1476/4286 [9:28:22<17:31:51, 22.46s/it]                                                        {'loss': 0.2499, 'grad_norm': 6.2775283843966445, 'learning_rate': 6.556229584694354e-07, 'completion_length': 365.08038330078125, 'rewards/only_full_func_accuracy_reward': 0.5639881193637848, 'rewards/format_reward': 0.8839286267757416, 'reward': 1.4479168057441711, 'reward_std': 0.5314230024814606, 'kl': 6.25, 'epoch': 0.34}
+ 34%|███▍      | 1476/4286 [9:28:22<17:31:51, 22.46s/it] 34%|███▍      | 1477/4286 [9:28:46<17:57:39, 23.02s/it]                                                        {'loss': 0.135, 'grad_norm': 2.2670798029921073, 'learning_rate': 6.553896406906206e-07, 'completion_length': 430.9464569091797, 'rewards/only_full_func_accuracy_reward': 0.6505456566810608, 'rewards/format_reward': 0.9464285969734192, 'reward': 1.5969743132591248, 'reward_std': 0.2827730178833008, 'kl': 3.3671875, 'epoch': 0.34}
+ 34%|███▍      | 1477/4286 [9:28:46<17:57:39, 23.02s/it] 34%|███▍      | 1478/4286 [9:29:09<17:57:41, 23.03s/it]                                                        {'loss': 0.3217, 'grad_norm': 5.861797528876889, 'learning_rate': 6.551563229118059e-07, 'completion_length': 357.0982208251953, 'rewards/only_full_func_accuracy_reward': 0.6141369193792343, 'rewards/format_reward': 0.9017857611179352, 'reward': 1.515922725200653, 'reward_std': 0.49257221817970276, 'kl': 8.03125, 'epoch': 0.34}
+ 34%|███▍      | 1478/4286 [9:29:09<17:57:41, 23.03s/it] 35%|███▍      | 1479/4286 [9:29:33<18:09:04, 23.28s/it]                                                        {'loss': 0.0955, 'grad_norm': 1.2482818475194006, 'learning_rate': 6.549230051329911e-07, 'completion_length': 426.6964569091797, 'rewards/only_full_func_accuracy_reward': 0.6495535969734192, 'rewards/format_reward': 0.955357164144516, 'reward': 1.6049108505249023, 'reward_std': 0.26865579187870026, 'kl': 2.390625, 'epoch': 0.35}
+ 35%|███▍      | 1479/4286 [9:29:33<18:09:04, 23.28s/it] 35%|███▍      | 1480/4286 [9:29:55<17:50:12, 22.88s/it]                                                        {'loss': 0.111, 'grad_norm': 1.5108980689974658, 'learning_rate': 6.546896873541764e-07, 'completion_length': 381.1607360839844, 'rewards/only_full_func_accuracy_reward': 0.7602182626724243, 'rewards/format_reward': 0.9285714626312256, 'reward': 1.6887898445129395, 'reward_std': 0.2985450550913811, 'kl': 2.76171875, 'epoch': 0.35}
+ 35%|███▍      | 1480/4286 [9:29:55<17:50:12, 22.88s/it] 35%|███▍      | 1481/4286 [9:30:19<18:12:01, 23.36s/it]                                                        {'loss': 0.0846, 'grad_norm': 1.7416233863604018, 'learning_rate': 6.544563695753617e-07, 'completion_length': 407.3035888671875, 'rewards/only_full_func_accuracy_reward': 0.5913194715976715, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.5556052923202515, 'reward_std': 0.2027042955160141, 'kl': 2.115234375, 'epoch': 0.35}
+ 35%|███▍      | 1481/4286 [9:30:19<18:12:01, 23.36s/it] 35%|███▍      | 1482/4286 [9:30:43<18:21:01, 23.56s/it]                                                        {'loss': 0.1044, 'grad_norm': 1.0789752669643817, 'learning_rate': 6.542230517965469e-07, 'completion_length': 418.9643096923828, 'rewards/only_full_func_accuracy_reward': 0.5591517686843872, 'rewards/format_reward': 0.9464286267757416, 'reward': 1.5055804252624512, 'reward_std': 0.2598411962389946, 'kl': 2.60546875, 'epoch': 0.35}
+ 35%|███▍      | 1482/4286 [9:30:43<18:21:01, 23.56s/it] 35%|███▍      | 1483/4286 [9:31:08<18:32:52, 23.82s/it]                                                        {'loss': 0.0283, 'grad_norm': 0.5775134645330814, 'learning_rate': 6.539897340177321e-07, 'completion_length': 395.0357360839844, 'rewards/only_full_func_accuracy_reward': 0.601190447807312, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.592262089252472, 'reward_std': 0.05636461824178696, 'kl': 0.7109375, 'epoch': 0.35}
+ 35%|███▍      | 1483/4286 [9:31:08<18:32:52, 23.82s/it] 35%|███▍      | 1484/4286 [9:31:33<18:46:36, 24.12s/it]                                                        {'loss': 0.0208, 'grad_norm': 0.957191396950277, 'learning_rate': 6.537564162389175e-07, 'completion_length': 440.79466247558594, 'rewards/only_full_func_accuracy_reward': 0.73288694024086, 'rewards/format_reward': 1.0, 'reward': 1.7328870296478271, 'reward_std': 0.06380685977637768, 'kl': 0.51953125, 'epoch': 0.35}
+ 35%|███▍      | 1484/4286 [9:31:33<18:46:36, 24.12s/it] 35%|███▍      | 1485/4286 [9:31:57<18:48:32, 24.17s/it]                                                        {'loss': 0.0486, 'grad_norm': 0.7076669772534002, 'learning_rate': 6.535230984601027e-07, 'completion_length': 427.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.6168154776096344, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.607887089252472, 'reward_std': 0.09280617721378803, 'kl': 1.2138671875, 'epoch': 0.35}
+ 35%|███▍      | 1485/4286 [9:31:57<18:48:32, 24.17s/it] 35%|███▍      | 1486/4286 [9:32:21<18:48:20, 24.18s/it]                                                        {'loss': 0.0192, 'grad_norm': 1.821090662846897, 'learning_rate': 6.532897806812879e-07, 'completion_length': 384.46429443359375, 'rewards/only_full_func_accuracy_reward': 0.6688988208770752, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6599703431129456, 'reward_std': 0.12397180497646332, 'kl': 0.4814453125, 'epoch': 0.35}
+ 35%|███▍      | 1486/4286 [9:32:21<18:48:20, 24.18s/it] 35%|███▍      | 1487/4286 [9:32:45<18:46:33, 24.15s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.3063894819321563, 'learning_rate': 6.530564629024731e-07, 'completion_length': 427.3035888671875, 'rewards/only_full_func_accuracy_reward': 0.7537202835083008, 'rewards/format_reward': 1.0, 'reward': 1.7537203431129456, 'reward_std': 0.06309672072529793, 'kl': 0.04443359375, 'epoch': 0.35}
+ 35%|███▍      | 1487/4286 [9:32:45<18:46:33, 24.15s/it] 35%|███▍      | 1488/4286 [9:33:08<18:26:23, 23.73s/it]                                                        {'loss': 0.0098, 'grad_norm': 0.6361903654698191, 'learning_rate': 6.528231451236585e-07, 'completion_length': 404.7321472167969, 'rewards/only_full_func_accuracy_reward': 0.7885417342185974, 'rewards/format_reward': 1.0, 'reward': 1.7885417938232422, 'reward_std': 0.039949641562998295, 'kl': 0.2457275390625, 'epoch': 0.35}
+ 35%|███▍      | 1488/4286 [9:33:08<18:26:23, 23.73s/it] 35%|███▍      | 1489/4286 [9:33:33<18:40:54, 24.05s/it]                                                        {'loss': 0.012, 'grad_norm': 0.9221740368589465, 'learning_rate': 6.525898273448437e-07, 'completion_length': 410.5803680419922, 'rewards/only_full_func_accuracy_reward': 0.6443452537059784, 'rewards/format_reward': 1.0, 'reward': 1.6443453431129456, 'reward_std': 0.051858726888895035, 'kl': 0.30078125, 'epoch': 0.35}
+ 35%|███▍      | 1489/4286 [9:33:33<18:40:54, 24.05s/it] 35%|███▍      | 1490/4286 [9:33:57<18:41:05, 24.06s/it]                                                        {'loss': 0.0021, 'grad_norm': 0.38989015440898794, 'learning_rate': 6.523565095660289e-07, 'completion_length': 410.5089416503906, 'rewards/only_full_func_accuracy_reward': 0.8154762983322144, 'rewards/format_reward': 1.0, 'reward': 1.8154762983322144, 'reward_std': 0.0344945527613163, 'kl': 0.05322265625, 'epoch': 0.35}
+ 35%|███▍      | 1490/4286 [9:33:57<18:41:05, 24.06s/it] 35%|███▍      | 1491/4286 [9:34:22<19:00:11, 24.48s/it]                                                        {'loss': 0.0075, 'grad_norm': 0.6226110187994242, 'learning_rate': 6.521231917872142e-07, 'completion_length': 418.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.6242559850215912, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6153274774551392, 'reward_std': 0.10641578864306211, 'kl': 0.1865234375, 'epoch': 0.35}
+ 35%|███▍      | 1491/4286 [9:34:22<19:00:11, 24.48s/it] 35%|███▍      | 1492/4286 [9:34:47<19:04:24, 24.58s/it]                                                        {'loss': 0.0037, 'grad_norm': 0.29718478888392474, 'learning_rate': 6.518898740083995e-07, 'completion_length': 462.7589416503906, 'rewards/only_full_func_accuracy_reward': 0.7336309552192688, 'rewards/format_reward': 1.0, 'reward': 1.7336310744285583, 'reward_std': 0.020588853396475315, 'kl': 0.0914306640625, 'epoch': 0.35}
+ 35%|███▍      | 1492/4286 [9:34:47<19:04:24, 24.58s/it] 35%|███▍      | 1493/4286 [9:35:10<18:44:03, 24.15s/it]                                                        {'loss': 0.004, 'grad_norm': 0.9405866871335373, 'learning_rate': 6.516565562295847e-07, 'completion_length': 392.9107360839844, 'rewards/only_full_func_accuracy_reward': 0.8177083730697632, 'rewards/format_reward': 1.0, 'reward': 1.817708432674408, 'reward_std': 0.054723313078284264, 'kl': 0.0994873046875, 'epoch': 0.35}
+ 35%|███▍      | 1493/4286 [9:35:10<18:44:03, 24.15s/it] 35%|███▍      | 1494/4286 [9:35:34<18:44:24, 24.16s/it]                                                        {'loss': 0.0019, 'grad_norm': 0.3642471802250903, 'learning_rate': 6.5142323845077e-07, 'completion_length': 414.00001525878906, 'rewards/only_full_func_accuracy_reward': 0.6991072595119476, 'rewards/format_reward': 1.0, 'reward': 1.6991072297096252, 'reward_std': 0.04714227747172117, 'kl': 0.0479736328125, 'epoch': 0.35}
+ 35%|███▍      | 1494/4286 [9:35:34<18:44:24, 24.16s/it] 35%|███▍      | 1495/4286 [9:36:00<18:58:09, 24.47s/it]                                                        {'loss': 0.0108, 'grad_norm': 0.8366735496627895, 'learning_rate': 6.511899206719552e-07, 'completion_length': 427.6518096923828, 'rewards/only_full_func_accuracy_reward': 0.7064732313156128, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6975447535514832, 'reward_std': 0.09666895121335983, 'kl': 0.270751953125, 'epoch': 0.35}
+ 35%|███▍      | 1495/4286 [9:36:00<18:58:09, 24.47s/it] 35%|███▍      | 1496/4286 [9:36:24<18:53:13, 24.37s/it]                                                        {'loss': 0.0287, 'grad_norm': 42.391212096538844, 'learning_rate': 6.509566028931405e-07, 'completion_length': 442.7143096923828, 'rewards/only_full_func_accuracy_reward': 0.833333432674408, 'rewards/format_reward': 1.0, 'reward': 1.833333432674408, 'reward_std': 0.0, 'kl': 0.7130126953125, 'epoch': 0.35}
+ 35%|███▍      | 1496/4286 [9:36:24<18:53:13, 24.37s/it] 35%|███▍      | 1497/4286 [9:36:48<18:55:40, 24.43s/it]                                                        {'loss': 0.0208, 'grad_norm': 1.0709764880637938, 'learning_rate': 6.507232851143257e-07, 'completion_length': 409.7143096923828, 'rewards/only_full_func_accuracy_reward': 0.6421130895614624, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6242560744285583, 'reward_std': 0.1079607792198658, 'kl': 0.5181884765625, 'epoch': 0.35}
+ 35%|███▍      | 1497/4286 [9:36:48<18:55:40, 24.43s/it] 35%|███▍      | 1498/4286 [9:37:13<18:57:46, 24.49s/it]                                                        {'loss': 0.007, 'grad_norm': 0.3799014302109211, 'learning_rate': 6.50489967335511e-07, 'completion_length': 415.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.600297600030899, 'rewards/format_reward': 1.0, 'reward': 1.600297749042511, 'reward_std': 0.062344854697585106, 'kl': 0.1748046875, 'epoch': 0.35}
+ 35%|███▍      | 1498/4286 [9:37:13<18:57:46, 24.49s/it] 35%|███▍      | 1499/4286 [9:37:37<18:57:29, 24.49s/it]                                                        {'loss': 0.0127, 'grad_norm': 0.934857346924201, 'learning_rate': 6.502566495566962e-07, 'completion_length': 440.79466247558594, 'rewards/only_full_func_accuracy_reward': 0.648809552192688, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6398810744285583, 'reward_std': 0.09311768040060997, 'kl': 0.31689453125, 'epoch': 0.35}
+ 35%|███▍      | 1499/4286 [9:37:37<18:57:29, 24.49s/it] 35%|███▍      | 1500/4286 [9:38:03<19:11:37, 24.80s/it]                                                        {'loss': 0.0103, 'grad_norm': 0.5268337224790576, 'learning_rate': 6.500233317778814e-07, 'completion_length': 448.7410888671875, 'rewards/only_full_func_accuracy_reward': 0.754464328289032, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7455357909202576, 'reward_std': 0.07997041381895542, 'kl': 0.257080078125, 'epoch': 0.35}
+ 35%|███▍      | 1500/4286 [9:38:03<19:11:37, 24.80s/it] 35%|███▌      | 1501/4286 [9:39:13<29:48:26, 38.53s/it]                                                        {'loss': 0.0155, 'grad_norm': 0.6155710801847576, 'learning_rate': 6.497900139990668e-07, 'completion_length': 421.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.5907738208770752, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5818453431129456, 'reward_std': 0.04807347431778908, 'kl': 0.38671875, 'epoch': 0.35}
+ 35%|███▌      | 1501/4286 [9:39:13<29:48:26, 38.53s/it] 35%|███▌      | 1502/4286 [9:39:36<26:11:54, 33.88s/it]                                                        {'loss': 0.0127, 'grad_norm': 0.5164741994525539, 'learning_rate': 6.49556696220252e-07, 'completion_length': 390.00001525878906, 'rewards/only_full_func_accuracy_reward': 0.6815476566553116, 'rewards/format_reward': 1.0, 'reward': 1.6815477013587952, 'reward_std': 0.05050762556493282, 'kl': 0.3179931640625, 'epoch': 0.35}
+ 35%|███▌      | 1502/4286 [9:39:36<26:11:54, 33.88s/it] 35%|███▌      | 1503/4286 [9:40:01<24:06:26, 31.18s/it]                                                        {'loss': 0.0155, 'grad_norm': 0.6018074019183672, 'learning_rate': 6.493233784414372e-07, 'completion_length': 467.6339569091797, 'rewards/only_full_func_accuracy_reward': 0.7380952835083008, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.720238208770752, 'reward_std': 0.09141352493315935, 'kl': 0.387451171875, 'epoch': 0.35}
+ 35%|███▌      | 1503/4286 [9:40:01<24:06:26, 31.18s/it] 35%|███▌      | 1504/4286 [9:40:26<22:30:35, 29.13s/it]                                                        {'loss': 0.0417, 'grad_norm': 0.869381283751916, 'learning_rate': 6.490900606626225e-07, 'completion_length': 454.1607360839844, 'rewards/only_full_func_accuracy_reward': 0.7313988506793976, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7224703431129456, 'reward_std': 0.12897086702287197, 'kl': 1.04345703125, 'epoch': 0.35}
+ 35%|███▌      | 1504/4286 [9:40:26<22:30:35, 29.13s/it] 35%|███▌      | 1505/4286 [9:40:52<21:54:28, 28.36s/it]                                                        {'loss': 0.0029, 'grad_norm': 0.3891635257093468, 'learning_rate': 6.488567428838078e-07, 'completion_length': 487.30360412597656, 'rewards/only_full_func_accuracy_reward': 0.7864583730697632, 'rewards/format_reward': 1.0, 'reward': 1.786458432674408, 'reward_std': 0.032890524715185165, 'kl': 0.0714111328125, 'epoch': 0.35}
+ 35%|███▌      | 1505/4286 [9:40:52<21:54:28, 28.36s/it] 35%|███▌      | 1506/4286 [9:41:16<20:55:50, 27.10s/it]                                                        {'loss': 0.0024, 'grad_norm': 0.6447912021065934, 'learning_rate': 6.48623425104993e-07, 'completion_length': 440.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.549851268529892, 'rewards/format_reward': 1.0, 'reward': 1.5498512983322144, 'reward_std': 0.06001372076570988, 'kl': 0.0596923828125, 'epoch': 0.35}
+ 35%|███▌      | 1506/4286 [9:41:16<20:55:50, 27.10s/it] 35%|███▌      | 1507/4286 [9:41:42<20:28:32, 26.52s/it]                                                        {'loss': 0.0019, 'grad_norm': 0.16048358827332038, 'learning_rate': 6.483901073261783e-07, 'completion_length': 459.1518096923828, 'rewards/only_full_func_accuracy_reward': 0.647321492433548, 'rewards/format_reward': 1.0, 'reward': 1.6473215818405151, 'reward_std': 0.03727396950125694, 'kl': 0.0472412109375, 'epoch': 0.35}
+ 35%|███▌      | 1507/4286 [9:41:42<20:28:32, 26.52s/it] 35%|███▌      | 1508/4286 [9:42:05<19:49:56, 25.70s/it]                                                        {'loss': 0.0022, 'grad_norm': 0.48290619367248366, 'learning_rate': 6.481567895473635e-07, 'completion_length': 426.4732360839844, 'rewards/only_full_func_accuracy_reward': 0.6949405074119568, 'rewards/format_reward': 1.0, 'reward': 1.6949406266212463, 'reward_std': 0.029159409925341606, 'kl': 0.055908203125, 'epoch': 0.35}
+ 35%|███▌      | 1508/4286 [9:42:05<19:49:56, 25.70s/it] 35%|███▌      | 1509/4286 [9:42:30<19:29:29, 25.27s/it]                                                        {'loss': 0.0286, 'grad_norm': 0.6748394296153873, 'learning_rate': 6.479234717685488e-07, 'completion_length': 448.7143096923828, 'rewards/only_full_func_accuracy_reward': 0.7052331566810608, 'rewards/format_reward': 0.973214328289032, 'reward': 1.6784476041793823, 'reward_std': 0.11241616308689117, 'kl': 0.716796875, 'epoch': 0.35}
+ 35%|███▌      | 1509/4286 [9:42:30<19:29:29, 25.27s/it] 35%|███▌      | 1510/4286 [9:42:55<19:31:09, 25.31s/it]                                                        {'loss': 0.0502, 'grad_norm': 1.6972982324035335, 'learning_rate': 6.47690153989734e-07, 'completion_length': 465.21429443359375, 'rewards/only_full_func_accuracy_reward': 0.4980654865503311, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.480208396911621, 'reward_std': 0.18383707106113434, 'kl': 1.25390625, 'epoch': 0.35}
+ 35%|███▌      | 1510/4286 [9:42:55<19:31:09, 25.31s/it] 35%|███▌      | 1511/4286 [9:43:19<19:11:44, 24.90s/it]                                                        {'loss': 0.0176, 'grad_norm': 0.4690381403122617, 'learning_rate': 6.474568362109193e-07, 'completion_length': 429.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.739732176065445, 'rewards/format_reward': 1.0, 'reward': 1.739732265472412, 'reward_std': 0.06589042395353317, 'kl': 0.43994140625, 'epoch': 0.35}
+ 35%|███▌      | 1511/4286 [9:43:19<19:11:44, 24.90s/it] 35%|███▌      | 1512/4286 [9:43:42<18:50:19, 24.45s/it]                                                        {'loss': 0.0021, 'grad_norm': 0.17065561945018692, 'learning_rate': 6.472235184321045e-07, 'completion_length': 397.21429443359375, 'rewards/only_full_func_accuracy_reward': 0.796131044626236, 'rewards/format_reward': 1.0, 'reward': 1.7961310744285583, 'reward_std': 0.02364857867360115, 'kl': 0.05224609375, 'epoch': 0.35}
+ 35%|███▌      | 1512/4286 [9:43:42<18:50:19, 24.45s/it] 35%|███▌      | 1513/4286 [9:44:05<18:19:58, 23.80s/it]                                                        {'loss': 0.0286, 'grad_norm': 0.39152169741519427, 'learning_rate': 6.469902006532898e-07, 'completion_length': 368.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.7021068334579468, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.693178415298462, 'reward_std': 0.0804414413869381, 'kl': 0.716796875, 'epoch': 0.35}
+ 35%|███▌      | 1513/4286 [9:44:05<18:19:58, 23.80s/it] 35%|███▌      | 1514/4286 [9:44:29<18:21:31, 23.84s/it]                                                        {'loss': 0.0204, 'grad_norm': 0.6965593818095979, 'learning_rate': 6.467568828744751e-07, 'completion_length': 432.43751525878906, 'rewards/only_full_func_accuracy_reward': 0.6398809552192688, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6220239400863647, 'reward_std': 0.10507254209369421, 'kl': 0.5125732421875, 'epoch': 0.35}
+ 35%|███▌      | 1514/4286 [9:44:29<18:21:31, 23.84s/it] 35%|███▌      | 1515/4286 [9:44:51<17:57:48, 23.34s/it]                                                        {'loss': 0.0035, 'grad_norm': 0.39666653365517096, 'learning_rate': 6.465235650956603e-07, 'completion_length': 353.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.4836309850215912, 'rewards/format_reward': 1.0, 'reward': 1.4836310148239136, 'reward_std': 0.08161843754351139, 'kl': 0.08837890625, 'epoch': 0.35}
+ 35%|███▌      | 1515/4286 [9:44:51<17:57:48, 23.34s/it] 35%|███▌      | 1516/4286 [9:45:16<18:28:56, 24.02s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.5748829661556832, 'learning_rate': 6.462902473168455e-07, 'completion_length': 474.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.7529762089252472, 'rewards/format_reward': 1.0, 'reward': 1.7529762983322144, 'reward_std': 0.04464154876768589, 'kl': 0.041015625, 'epoch': 0.35}
+ 35%|███▌      | 1516/4286 [9:45:16<18:28:56, 24.02s/it] 35%|███▌      | 1517/4286 [9:45:42<18:52:03, 24.53s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.27296396381007443, 'learning_rate': 6.460569295380309e-07, 'completion_length': 477.2768096923828, 'rewards/only_full_func_accuracy_reward': 0.7952381074428558, 'rewards/format_reward': 1.0, 'reward': 1.795238196849823, 'reward_std': 0.040609318763017654, 'kl': 0.0421142578125, 'epoch': 0.35}
+ 35%|███▌      | 1517/4286 [9:45:42<18:52:03, 24.53s/it] 35%|███▌      | 1518/4286 [9:46:06<18:46:05, 24.41s/it]                                                        {'loss': 0.0165, 'grad_norm': 0.6884570334023671, 'learning_rate': 6.458236117592161e-07, 'completion_length': 413.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.6592262387275696, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6413691639900208, 'reward_std': 0.08686958905309439, 'kl': 0.4130859375, 'epoch': 0.35}
+ 35%|███▌      | 1518/4286 [9:46:06<18:46:05, 24.41s/it] 35%|███▌      | 1519/4286 [9:46:31<18:43:38, 24.37s/it]                                                        {'loss': 0.0072, 'grad_norm': 0.8954493023061604, 'learning_rate': 6.455902939804013e-07, 'completion_length': 422.9018096923828, 'rewards/only_full_func_accuracy_reward': 0.669642835855484, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6607144474983215, 'reward_std': 0.057053228840231895, 'kl': 0.17919921875, 'epoch': 0.35}
+ 35%|███▌      | 1519/4286 [9:46:31<18:43:38, 24.37s/it] 35%|███▌      | 1520/4286 [9:46:53<18:19:45, 23.86s/it]                                                        {'loss': 0.0327, 'grad_norm': 0.6978685615323682, 'learning_rate': 6.453569762015865e-07, 'completion_length': 384.2857360839844, 'rewards/only_full_func_accuracy_reward': 0.8028274774551392, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7938989400863647, 'reward_std': 0.03937845677137375, 'kl': 0.8177490234375, 'epoch': 0.35}
+ 35%|███▌      | 1520/4286 [9:46:53<18:19:45, 23.86s/it] 35%|███▌      | 1521/4286 [9:47:18<18:37:17, 24.24s/it]                                                        {'loss': 0.0189, 'grad_norm': 0.4807692658415546, 'learning_rate': 6.451236584227719e-07, 'completion_length': 423.4107208251953, 'rewards/only_full_func_accuracy_reward': 0.6986607611179352, 'rewards/format_reward': 1.0, 'reward': 1.6986608505249023, 'reward_std': 0.03824874106794596, 'kl': 0.4686279296875, 'epoch': 0.35}
+ 35%|███▌      | 1521/4286 [9:47:18<18:37:17, 24.24s/it] 36%|███▌      | 1522/4286 [9:47:44<18:56:21, 24.67s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.05640543434527919, 'learning_rate': 6.448903406439571e-07, 'completion_length': 477.89288330078125, 'rewards/only_full_func_accuracy_reward': 0.7089711129665375, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7000426054000854, 'reward_std': 0.031295523047447205, 'kl': 0.040283203125, 'epoch': 0.36}
+ 36%|███▌      | 1522/4286 [9:47:44<18:56:21, 24.67s/it] 36%|███▌      | 1523/4286 [9:48:09<18:59:58, 24.76s/it]                                                        {'loss': 0.0276, 'grad_norm': 0.5921031377880576, 'learning_rate': 6.446570228651423e-07, 'completion_length': 483.6964416503906, 'rewards/only_full_func_accuracy_reward': 0.6517857611179352, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.633928656578064, 'reward_std': 0.12080688402056694, 'kl': 0.6944580078125, 'epoch': 0.36}
+ 36%|███▌      | 1523/4286 [9:48:09<18:59:58, 24.76s/it] 36%|███▌      | 1524/4286 [9:48:34<19:00:19, 24.77s/it]                                                        {'loss': 0.0196, 'grad_norm': 0.4461899580318852, 'learning_rate': 6.444237050863276e-07, 'completion_length': 468.8660888671875, 'rewards/only_full_func_accuracy_reward': 0.628720223903656, 'rewards/format_reward': 1.0, 'reward': 1.6287203431129456, 'reward_std': 0.0673958770930767, 'kl': 0.4857177734375, 'epoch': 0.36}
+ 36%|███▌      | 1524/4286 [9:48:34<19:00:19, 24.77s/it] 36%|███▌      | 1525/4286 [9:48:59<19:02:01, 24.82s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.487701573502779, 'learning_rate': 6.441903873075129e-07, 'completion_length': 478.107177734375, 'rewards/only_full_func_accuracy_reward': 0.6875000596046448, 'rewards/format_reward': 1.0, 'reward': 1.6875001788139343, 'reward_std': 0.03319363668560982, 'kl': 0.043701171875, 'epoch': 0.36}
+ 36%|███▌      | 1525/4286 [9:48:59<19:02:01, 24.82s/it] 36%|███▌      | 1526/4286 [9:49:25<19:25:11, 25.33s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.1591551685970684, 'learning_rate': 6.439570695286981e-07, 'completion_length': 487.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.7299107313156128, 'rewards/format_reward': 1.0, 'reward': 1.7299108505249023, 'reward_std': 0.02540354337543249, 'kl': 0.0372314453125, 'epoch': 0.36}
+ 36%|███▌      | 1526/4286 [9:49:25<19:25:11, 25.33s/it] 36%|███▌      | 1527/4286 [9:49:50<19:17:40, 25.18s/it]                                                        {'loss': 0.0118, 'grad_norm': 0.8890303898772881, 'learning_rate': 6.437237517498834e-07, 'completion_length': 458.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.6502977013587952, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6413691639900208, 'reward_std': 0.041785381734371185, 'kl': 0.2947998046875, 'epoch': 0.36}
+ 36%|███▌      | 1527/4286 [9:49:50<19:17:40, 25.18s/it] 36%|███▌      | 1528/4286 [9:50:17<19:37:34, 25.62s/it]                                                        {'loss': 0.0576, 'grad_norm': 2.0714329734743213, 'learning_rate': 6.434904339710686e-07, 'completion_length': 485.01788330078125, 'rewards/only_full_func_accuracy_reward': 0.602827399969101, 'rewards/format_reward': 0.9464285969734192, 'reward': 1.5492560267448425, 'reward_std': 0.16947992332279682, 'kl': 1.4359130859375, 'epoch': 0.36}
+ 36%|███▌      | 1528/4286 [9:50:17<19:37:34, 25.62s/it] 36%|███▌      | 1529/4286 [9:50:41<19:22:00, 25.29s/it]                                                        {'loss': 0.0031, 'grad_norm': 0.36051716254264343, 'learning_rate': 6.432571161922538e-07, 'completion_length': 445.64288330078125, 'rewards/only_full_func_accuracy_reward': 0.752976268529892, 'rewards/format_reward': 1.0, 'reward': 1.7529762983322144, 'reward_std': 0.1143408976495266, 'kl': 0.0777587890625, 'epoch': 0.36}
+ 36%|███▌      | 1529/4286 [9:50:41<19:22:00, 25.29s/it] 36%|███▌      | 1530/4286 [9:51:06<19:15:04, 25.15s/it]                                                        {'loss': 0.0326, 'grad_norm': 0.8026550486079973, 'learning_rate': 6.430237984134392e-07, 'completion_length': 449.1518096923828, 'rewards/only_full_func_accuracy_reward': 0.7938988208770752, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7760418057441711, 'reward_std': 0.07114982791244984, 'kl': 0.81298828125, 'epoch': 0.36}
+ 36%|███▌      | 1530/4286 [9:51:06<19:15:04, 25.15s/it] 36%|███▌      | 1531/4286 [9:51:30<19:04:58, 24.94s/it]                                                        {'loss': 0.0436, 'grad_norm': 1.1024643751173138, 'learning_rate': 6.427904806346244e-07, 'completion_length': 410.5357360839844, 'rewards/only_full_func_accuracy_reward': 0.7232142984867096, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7142857909202576, 'reward_std': 0.11437726020812988, 'kl': 1.087890625, 'epoch': 0.36}
+ 36%|███▌      | 1531/4286 [9:51:30<19:04:58, 24.94s/it] 36%|███▌      | 1532/4286 [9:51:56<19:11:02, 25.08s/it]                                                        {'loss': 0.0047, 'grad_norm': 0.3868052314481303, 'learning_rate': 6.425571628558096e-07, 'completion_length': 488.01788330078125, 'rewards/only_full_func_accuracy_reward': 0.8125, 'rewards/format_reward': 1.0, 'reward': 1.8125001192092896, 'reward_std': 0.0918685756623745, 'kl': 0.1168212890625, 'epoch': 0.36}
+ 36%|███▌      | 1532/4286 [9:51:56<19:11:02, 25.08s/it] 36%|███▌      | 1533/4286 [9:52:21<19:10:07, 25.07s/it]                                                        {'loss': 0.0341, 'grad_norm': 0.4113965111262868, 'learning_rate': 6.423238450769948e-07, 'completion_length': 425.77679443359375, 'rewards/only_full_func_accuracy_reward': 0.731249988079071, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.6955358386039734, 'reward_std': 0.13654227182269096, 'kl': 0.8548583984375, 'epoch': 0.36}
+ 36%|███▌      | 1533/4286 [9:52:21<19:10:07, 25.07s/it] 36%|███▌      | 1534/4286 [9:52:46<19:09:44, 25.07s/it]                                                        {'loss': 0.1041, 'grad_norm': 4.09440050115692, 'learning_rate': 6.420905272981802e-07, 'completion_length': 429.2768096923828, 'rewards/only_full_func_accuracy_reward': 0.6885417401790619, 'rewards/format_reward': 0.910714328289032, 'reward': 1.5992560386657715, 'reward_std': 0.18639551103115082, 'kl': 2.59375, 'epoch': 0.36}
+ 36%|███▌      | 1534/4286 [9:52:46<19:09:44, 25.07s/it] 36%|███▌      | 1535/4286 [9:53:10<18:55:10, 24.76s/it]                                                        {'loss': 0.0424, 'grad_norm': 1.7445568090015562, 'learning_rate': 6.418572095193654e-07, 'completion_length': 418.27679443359375, 'rewards/only_full_func_accuracy_reward': 0.7864583432674408, 'rewards/format_reward': 1.0, 'reward': 1.7864584922790527, 'reward_std': 0.0686895502731204, 'kl': 1.05859375, 'epoch': 0.36}
+ 36%|███▌      | 1535/4286 [9:53:10<18:55:10, 24.76s/it] 36%|███▌      | 1536/4286 [9:53:35<18:54:00, 24.74s/it]                                                        {'loss': 0.0321, 'grad_norm': 0.5170635462023294, 'learning_rate': 6.416238917405506e-07, 'completion_length': 414.6964416503906, 'rewards/only_full_func_accuracy_reward': 0.7462798357009888, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.7194941639900208, 'reward_std': 0.12904155440628529, 'kl': 0.80126953125, 'epoch': 0.36}
+ 36%|███▌      | 1536/4286 [9:53:35<18:54:00, 24.74s/it] 36%|███▌      | 1537/4286 [9:54:02<19:29:47, 25.53s/it]                                                        {'loss': 0.0037, 'grad_norm': 0.27294386575501406, 'learning_rate': 6.413905739617359e-07, 'completion_length': 524.3303833007812, 'rewards/only_full_func_accuracy_reward': 0.7715774476528168, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7537202835083008, 'reward_std': 0.1272682249546051, 'kl': 0.091552734375, 'epoch': 0.36}
+ 36%|███▌      | 1537/4286 [9:54:02<19:29:47, 25.53s/it] 36%|███▌      | 1538/4286 [9:54:26<19:12:59, 25.17s/it]                                                        {'loss': 0.015, 'grad_norm': 0.5257679848759774, 'learning_rate': 6.411572561829212e-07, 'completion_length': 447.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.7068453133106232, 'rewards/format_reward': 1.0, 'reward': 1.7068453431129456, 'reward_std': 0.06585854105651379, 'kl': 0.3740234375, 'epoch': 0.36}
+ 36%|███▌      | 1538/4286 [9:54:26<19:12:59, 25.17s/it] 36%|███▌      | 1539/4286 [9:54:52<19:11:59, 25.16s/it]                                                        {'loss': 0.0016, 'grad_norm': 2.0294081301631435, 'learning_rate': 6.409239384041064e-07, 'completion_length': 515.8393096923828, 'rewards/only_full_func_accuracy_reward': 0.6220237910747528, 'rewards/format_reward': 1.0, 'reward': 1.62202388048172, 'reward_std': 0.07439178228378296, 'kl': 0.0411376953125, 'epoch': 0.36}
+ 36%|███▌      | 1539/4286 [9:54:52<19:11:59, 25.16s/it] 36%|███▌      | 1540/4286 [9:55:15<18:46:59, 24.62s/it]                                                        {'loss': 0.0105, 'grad_norm': 0.5169550201549657, 'learning_rate': 6.406906206252917e-07, 'completion_length': 412.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.6318452656269073, 'rewards/format_reward': 1.0, 'reward': 1.6318452954292297, 'reward_std': 0.03366746287792921, 'kl': 0.2615966796875, 'epoch': 0.36}
+ 36%|███▌      | 1540/4286 [9:55:15<18:46:59, 24.62s/it] 36%|███▌      | 1541/4286 [9:55:40<18:51:52, 24.74s/it]                                                        {'loss': 0.0121, 'grad_norm': 1.4716036474433551, 'learning_rate': 6.404573028464769e-07, 'completion_length': 451.0535888671875, 'rewards/only_full_func_accuracy_reward': 0.7001488208770752, 'rewards/format_reward': 0.973214328289032, 'reward': 1.6733631491661072, 'reward_std': 0.12860143929719925, 'kl': 0.30322265625, 'epoch': 0.36}
+ 36%|███▌      | 1541/4286 [9:55:40<18:51:52, 24.74s/it] 36%|███▌      | 1542/4286 [9:56:05<19:00:34, 24.94s/it]                                                        {'loss': 0.0017, 'grad_norm': 1.1467514162733636, 'learning_rate': 6.402239850676622e-07, 'completion_length': 493.33038330078125, 'rewards/only_full_func_accuracy_reward': 0.8529762029647827, 'rewards/format_reward': 1.0, 'reward': 1.8529763221740723, 'reward_std': 0.04192755091935396, 'kl': 0.0423583984375, 'epoch': 0.36}
+ 36%|███▌      | 1542/4286 [9:56:05<19:00:34, 24.94s/it] 36%|���██▌      | 1543/4286 [9:56:31<19:13:00, 25.22s/it]                                                        {'loss': 0.0221, 'grad_norm': 4.829626317043016, 'learning_rate': 6.399906672888474e-07, 'completion_length': 510.5000305175781, 'rewards/only_full_func_accuracy_reward': 0.6501487791538239, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6322917938232422, 'reward_std': 0.05187889374792576, 'kl': 0.55078125, 'epoch': 0.36}
+ 36%|███▌      | 1543/4286 [9:56:31<19:13:00, 25.22s/it] 36%|███▌      | 1544/4286 [9:56:55<18:51:34, 24.76s/it]                                                        {'loss': 0.0029, 'grad_norm': 0.5634644219979799, 'learning_rate': 6.397573495100327e-07, 'completion_length': 400.8214569091797, 'rewards/only_full_func_accuracy_reward': 0.8511905372142792, 'rewards/format_reward': 1.0, 'reward': 1.8511905670166016, 'reward_std': 0.0, 'kl': 0.0716552734375, 'epoch': 0.36}
+ 36%|███▌      | 1544/4286 [9:56:55<18:51:34, 24.76s/it] 36%|███▌      | 1545/4286 [9:57:19<18:38:56, 24.49s/it]                                                        {'loss': 0.0263, 'grad_norm': 2.0583150821244356, 'learning_rate': 6.395240317312179e-07, 'completion_length': 395.2053680419922, 'rewards/only_full_func_accuracy_reward': 0.736607164144516, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.7098215222358704, 'reward_std': 0.13901860266923904, 'kl': 0.6572265625, 'epoch': 0.36}
+ 36%|███▌      | 1545/4286 [9:57:19<18:38:56, 24.49s/it] 36%|███▌      | 1546/4286 [9:57:42<18:14:11, 23.96s/it]                                                        {'loss': 0.0447, 'grad_norm': 4.96927411995058, 'learning_rate': 6.392907139524032e-07, 'completion_length': 393.5982208251953, 'rewards/only_full_func_accuracy_reward': 0.555208370089531, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.5284226536750793, 'reward_std': 0.12740996852517128, 'kl': 1.119140625, 'epoch': 0.36}
+ 36%|███▌      | 1546/4286 [9:57:42<18:14:11, 23.96s/it] 36%|███▌      | 1547/4286 [9:58:07<18:37:20, 24.48s/it]                                                        {'loss': 0.0426, 'grad_norm': 6.096006694635352, 'learning_rate': 6.390573961735885e-07, 'completion_length': 451.55360412597656, 'rewards/only_full_func_accuracy_reward': 0.7125000357627869, 'rewards/format_reward': 0.973214328289032, 'reward': 1.6857144236564636, 'reward_std': 0.1469137817621231, 'kl': 1.064453125, 'epoch': 0.36}
+ 36%|███▌      | 1547/4286 [9:58:07<18:37:20, 24.48s/it] 36%|███▌      | 1548/4286 [9:58:32<18:35:42, 24.45s/it]                                                        {'loss': 0.0173, 'grad_norm': 1.8790477525423763, 'learning_rate': 6.388240783947737e-07, 'completion_length': 415.7143096923828, 'rewards/only_full_func_accuracy_reward': 0.6458333730697632, 'rewards/format_reward': 1.0, 'reward': 1.645833432674408, 'reward_std': 0.07697300240397453, 'kl': 0.4306640625, 'epoch': 0.36}
+ 36%|███▌      | 1548/4286 [9:58:32<18:35:42, 24.45s/it] 36%|███▌      | 1549/4286 [9:58:57<18:45:55, 24.68s/it]                                                        {'loss': 0.0045, 'grad_norm': 4.587193889091902, 'learning_rate': 6.385907606159589e-07, 'completion_length': 448.1339416503906, 'rewards/only_full_func_accuracy_reward': 0.6657738387584686, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6568453907966614, 'reward_std': 0.11360186710953712, 'kl': 0.112548828125, 'epoch': 0.36}
+ 36%|███▌      | 1549/4286 [9:58:57<18:45:55, 24.68s/it] 36%|███▌      | 1550/4286 [9:59:21<18:32:23, 24.39s/it]                                                        {'loss': 0.0188, 'grad_norm': 1.4421736360277428, 'learning_rate': 6.383574428371443e-07, 'completion_length': 419.0089569091797, 'rewards/only_full_func_accuracy_reward': 0.5840774178504944, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5751489400863647, 'reward_std': 0.04913301020860672, 'kl': 0.468994140625, 'epoch': 0.36}
+ 36%|███▌      | 1550/4286 [9:59:21<18:32:23, 24.39s/it] 36%|███▌      | 1551/4286 [9:59:46<18:43:12, 24.64s/it]                                                        {'loss': 0.012, 'grad_norm': 2.021590458047163, 'learning_rate': 6.381241250583295e-07, 'completion_length': 463.8035888671875, 'rewards/only_full_func_accuracy_reward': 0.6644345819950104, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6555060744285583, 'reward_std': 0.13529543578624725, 'kl': 0.30078125, 'epoch': 0.36}
+ 36%|███▌      | 1551/4286 [9:59:46<18:43:12, 24.64s/it] 36%|███▌      | 1552/4286 [10:00:10<18:42:14, 24.63s/it]                                                         {'loss': 0.0121, 'grad_norm': 1.8405792374040175, 'learning_rate': 6.378908072795147e-07, 'completion_length': 403.26788330078125, 'rewards/only_full_func_accuracy_reward': 0.5948660969734192, 'rewards/format_reward': 1.0, 'reward': 1.5948662161827087, 'reward_std': 0.06324217095971107, 'kl': 0.302978515625, 'epoch': 0.36}
+ 36%|███▌      | 1552/4286 [10:00:10<18:42:14, 24.63s/it] 36%|███▌      | 1553/4286 [10:00:34<18:21:54, 24.19s/it]                                                         {'loss': 0.0031, 'grad_norm': 1.330825903629732, 'learning_rate': 6.376574895007e-07, 'completion_length': 388.8214416503906, 'rewards/only_full_func_accuracy_reward': 0.6778274774551392, 'rewards/format_reward': 1.0, 'reward': 1.677827537059784, 'reward_std': 0.05651678051799536, 'kl': 0.077392578125, 'epoch': 0.36}
+ 36%|███▌      | 1553/4286 [10:00:34<18:21:54, 24.19s/it] 36%|███▋      | 1554/4286 [10:00:57<18:16:30, 24.08s/it]                                                         {'loss': 0.0135, 'grad_norm': 1.0263939150396861, 'learning_rate': 6.374241717218852e-07, 'completion_length': 438.6964569091797, 'rewards/only_full_func_accuracy_reward': 0.5885417312383652, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.579613208770752, 'reward_std': 0.07648005709052086, 'kl': 0.336669921875, 'epoch': 0.36}
+ 36%|███▋      | 1554/4286 [10:00:57<18:16:30, 24.08s/it] 36%|███▋      | 1555/4286 [10:01:18<17:33:25, 23.14s/it]                                                         {'loss': 0.0079, 'grad_norm': 5.146887857462365, 'learning_rate': 6.371908539430705e-07, 'completion_length': 360.4107360839844, 'rewards/only_full_func_accuracy_reward': 0.6287202835083008, 'rewards/format_reward': 1.0, 'reward': 1.6287203431129456, 'reward_std': 0.0776248648762703, 'kl': 0.197998046875, 'epoch': 0.36}
+ 36%|███▋      | 1555/4286 [10:01:18<17:33:25, 23.14s/it] 36%|███▋      | 1556/4286 [10:01:42<17:35:56, 23.21s/it]                                                         {'loss': 0.0071, 'grad_norm': 0.8035535058055362, 'learning_rate': 6.369575361642557e-07, 'completion_length': 394.4464416503906, 'rewards/only_full_func_accuracy_reward': 0.68601194024086, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.677083432674408, 'reward_std': 0.12145335972309113, 'kl': 0.1771240234375, 'epoch': 0.36}
+ 36%|███▋      | 1556/4286 [10:01:42<17:35:56, 23.21s/it] 36%|███▋      | 1557/4286 [10:02:06<17:55:08, 23.64s/it]                                                         {'loss': 0.016, 'grad_norm': 0.7151632460296405, 'learning_rate': 6.36724218385441e-07, 'completion_length': 401.01788330078125, 'rewards/only_full_func_accuracy_reward': 0.5208333134651184, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.5029762387275696, 'reward_std': 0.08492222987115383, 'kl': 0.39990234375, 'epoch': 0.36}
+ 36%|███▋      | 1557/4286 [10:02:06<17:55:08, 23.64s/it] 36%|███▋      | 1558/4286 [10:02:33<18:32:05, 24.46s/it]                                                         {'loss': 0.0261, 'grad_norm': 1.3725413915508118, 'learning_rate': 6.364909006066262e-07, 'completion_length': 451.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.697714775800705, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.6620005369186401, 'reward_std': 0.18803466856479645, 'kl': 0.652099609375, 'epoch': 0.36}
+ 36%|███▋      | 1558/4286 [10:02:33<18:32:05, 24.46s/it] 36%|███▋      | 1559/4286 [10:02:58<18:41:49, 24.68s/it]                                                         {'loss': 0.0274, 'grad_norm': 0.5606793165866937, 'learning_rate': 6.362575828278115e-07, 'completion_length': 481.6160888671875, 'rewards/only_full_func_accuracy_reward': 0.5677084028720856, 'rewards/format_reward': 1.0, 'reward': 1.5677084922790527, 'reward_std': 0.050754792988300323, 'kl': 0.68359375, 'epoch': 0.36}
+ 36%|███▋      | 1559/4286 [10:02:58<18:41:49, 24.68s/it] 36%|███▋      | 1560/4286 [10:03:21<18:22:53, 24.27s/it]                                                         {'loss': 0.0022, 'grad_norm': 0.6658998994039307, 'learning_rate': 6.360242650489968e-07, 'completion_length': 416.04466247558594, 'rewards/only_full_func_accuracy_reward': 0.7724702656269073, 'rewards/format_reward': 1.0, 'reward': 1.772470235824585, 'reward_std': 0.04084114357829094, 'kl': 0.05517578125, 'epoch': 0.36}
+ 36%|███▋      | 1560/4286 [10:03:21<18:22:53, 24.27s/it] 36%|███▋      | 1561/4286 [10:03:45<18:16:37, 24.15s/it]                                                         {'loss': 0.0338, 'grad_norm': 0.9773287651518986, 'learning_rate': 6.35790947270182e-07, 'completion_length': 415.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.68601194024086, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6681548357009888, 'reward_std': 0.14478429779410362, 'kl': 0.84375, 'epoch': 0.36}
+ 36%|███▋      | 1561/4286 [10:03:45<18:16:37, 24.15s/it] 36%|███▋      | 1562/4286 [10:04:09<18:19:19, 24.21s/it]                                                         {'loss': 0.0202, 'grad_norm': 0.8532493445236684, 'learning_rate': 6.355576294913672e-07, 'completion_length': 419.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.558779776096344, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5498512387275696, 'reward_std': 0.14324866980314255, 'kl': 0.5048828125, 'epoch': 0.36}
+ 36%|███▋      | 1562/4286 [10:04:09<18:19:19, 24.21s/it] 36%|███▋      | 1563/4286 [10:04:34<18:26:17, 24.38s/it]                                                         {'loss': 0.002, 'grad_norm': 0.3907813915730205, 'learning_rate': 6.353243117125526e-07, 'completion_length': 471.1518096923828, 'rewards/only_full_func_accuracy_reward': 0.7299107909202576, 'rewards/format_reward': 1.0, 'reward': 1.7299108505249023, 'reward_std': 0.04976664111018181, 'kl': 0.051025390625, 'epoch': 0.36}
+ 36%|███▋      | 1563/4286 [10:04:34<18:26:17, 24.38s/it] 36%|███▋      | 1564/4286 [10:04:56<17:51:09, 23.61s/it]                                                         {'loss': 0.0103, 'grad_norm': 0.42499941799167185, 'learning_rate': 6.350909939337378e-07, 'completion_length': 353.54466247558594, 'rewards/only_full_func_accuracy_reward': 0.8705357611179352, 'rewards/format_reward': 1.0, 'reward': 1.8705358505249023, 'reward_std': 0.03788072243332863, 'kl': 0.259765625, 'epoch': 0.36}
+ 36%|███▋      | 1564/4286 [10:04:56<17:51:09, 23.61s/it] 37%|███▋      | 1565/4286 [10:05:21<18:06:52, 23.97s/it]                                                         {'loss': 0.0117, 'grad_norm': 0.5235439642031948, 'learning_rate': 6.34857676154923e-07, 'completion_length': 456.0178680419922, 'rewards/only_full_func_accuracy_reward': 0.7566964626312256, 'rewards/format_reward': 1.0, 'reward': 1.7566965222358704, 'reward_std': 0.05266319960355759, 'kl': 0.291015625, 'epoch': 0.37}
+ 37%|███▋      | 1565/4286 [10:05:21<18:06:52, 23.97s/it] 37%|███▋      | 1566/4286 [10:05:45<18:12:52, 24.11s/it]                                                         {'loss': 0.0082, 'grad_norm': 0.6650547184328686, 'learning_rate': 6.346243583761082e-07, 'completion_length': 452.16966247558594, 'rewards/only_full_func_accuracy_reward': 0.6510416865348816, 'rewards/format_reward': 1.0, 'reward': 1.6510417461395264, 'reward_std': 0.05766788683831692, 'kl': 0.205078125, 'epoch': 0.37}
+ 37%|███▋      | 1566/4286 [10:05:45<18:12:52, 24.11s/it] 37%|███▋      | 1567/4286 [10:06:11<18:35:24, 24.61s/it]                                                         {'loss': 0.0219, 'grad_norm': 0.9009557110358555, 'learning_rate': 6.343910405972936e-07, 'completion_length': 484.4643096923828, 'rewards/only_full_func_accuracy_reward': 0.5792410969734192, 'rewards/format_reward': 0.973214328289032, 'reward': 1.552455484867096, 'reward_std': 0.13598522543907166, 'kl': 0.5501708984375, 'epoch': 0.37}
+ 37%|███▋      | 1567/4286 [10:06:11<18:35:24, 24.61s/it] 37%|███▋      | 1568/4286 [10:06:34<18:18:29, 24.25s/it]                                                         {'loss': 0.0241, 'grad_norm': 0.6379083327416839, 'learning_rate': 6.341577228184788e-07, 'completion_length': 418.25001525878906, 'rewards/only_full_func_accuracy_reward': 0.5064484477043152, 'rewards/format_reward': 0.973214328289032, 'reward': 1.479662835597992, 'reward_std': 0.19162362813949585, 'kl': 0.603515625, 'epoch': 0.37}
+ 37%|███▋      | 1568/4286 [10:06:34<18:18:29, 24.25s/it] 37%|███▋      | 1569/4286 [10:06:58<18:13:26, 24.15s/it]                                                         {'loss': 0.0301, 'grad_norm': 1.2525191559981796, 'learning_rate': 6.33924405039664e-07, 'completion_length': 414.1964569091797, 'rewards/only_full_func_accuracy_reward': 0.5900298058986664, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5811012983322144, 'reward_std': 0.07612871378660202, 'kl': 0.7548828125, 'epoch': 0.37}
+ 37%|███▋      | 1569/4286 [10:06:58<18:13:26, 24.15s/it] 37%|███▋      | 1570/4286 [10:07:21<17:58:43, 23.83s/it]                                                         {'loss': 0.0086, 'grad_norm': 0.7527686292214033, 'learning_rate': 6.336910872608493e-07, 'completion_length': 434.79466247558594, 'rewards/only_full_func_accuracy_reward': 0.6808035969734192, 'rewards/format_reward': 1.0, 'reward': 1.680803656578064, 'reward_std': 0.06643030419945717, 'kl': 0.2152099609375, 'epoch': 0.37}
+ 37%|███▋      | 1570/4286 [10:07:21<17:58:43, 23.83s/it] 37%|███▋      | 1571/4286 [10:07:46<18:06:29, 24.01s/it]                                                         {'loss': 0.0235, 'grad_norm': 1.070989617668431, 'learning_rate': 6.334577694820346e-07, 'completion_length': 453.0982360839844, 'rewards/only_full_func_accuracy_reward': 0.7105655074119568, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.692708432674408, 'reward_std': 0.1861874684691429, 'kl': 0.5849609375, 'epoch': 0.37}
+ 37%|███▋      | 1571/4286 [10:07:46<18:06:29, 24.01s/it] 37%|███▋      | 1572/4286 [10:08:10<18:09:36, 24.09s/it]                                                         {'loss': 0.0254, 'grad_norm': 1.293299744642559, 'learning_rate': 6.332244517032198e-07, 'completion_length': 423.4732360839844, 'rewards/only_full_func_accuracy_reward': 0.6897322237491608, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6718751192092896, 'reward_std': 0.12510893680155277, 'kl': 0.6337890625, 'epoch': 0.37}
+ 37%|███▋      | 1572/4286 [10:08:10<18:09:36, 24.09s/it] 37%|███▋      | 1573/4286 [10:08:33<17:57:44, 23.84s/it]                                                         {'loss': 0.0235, 'grad_norm': 1.5860799872155475, 'learning_rate': 6.329911339244051e-07, 'completion_length': 374.7053680419922, 'rewards/only_full_func_accuracy_reward': 0.5930060148239136, 'rewards/format_reward': 1.0, 'reward': 1.5930060744285583, 'reward_std': 0.16104599088430405, 'kl': 0.587890625, 'epoch': 0.37}
+ 37%|███▋      | 1573/4286 [10:08:33<17:57:44, 23.84s/it] 37%|███▋      | 1574/4286 [10:08:58<18:11:12, 24.14s/it]                                                         {'loss': 0.021, 'grad_norm': 0.9861071808115528, 'learning_rate': 6.327578161455903e-07, 'completion_length': 412.9464416503906, 'rewards/only_full_func_accuracy_reward': 0.7226190865039825, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.704762041568756, 'reward_std': 0.11953498050570488, 'kl': 0.5252685546875, 'epoch': 0.37}
+ 37%|███▋      | 1574/4286 [10:08:58<18:11:12, 24.14s/it] 37%|███▋      | 1575/4286 [10:09:21<17:54:36, 23.78s/it]                                                         {'loss': 0.0257, 'grad_norm': 1.0721933932495211, 'learning_rate': 6.325244983667755e-07, 'completion_length': 411.51788330078125, 'rewards/only_full_func_accuracy_reward': 0.6311118900775909, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.5953976511955261, 'reward_std': 0.16541289910674095, 'kl': 0.64208984375, 'epoch': 0.37}
+ 37%|███▋      | 1575/4286 [10:09:21<17:54:36, 23.78s/it] 37%|███▋      | 1576/4286 [10:09:45<17:48:06, 23.65s/it]                                                         {'loss': 0.0021, 'grad_norm': 2.9247626842453656, 'learning_rate': 6.322911805879609e-07, 'completion_length': 427.90179443359375, 'rewards/only_full_func_accuracy_reward': 0.5796130895614624, 'rewards/format_reward': 1.0, 'reward': 1.579613208770752, 'reward_std': 0.06801582872867584, 'kl': 0.0518798828125, 'epoch': 0.37}
+ 37%|███▋      | 1576/4286 [10:09:45<17:48:06, 23.65s/it] 37%|███▋      | 1577/4286 [10:10:09<17:59:47, 23.92s/it]                                                         {'loss': 0.0357, 'grad_norm': 1.0926549948322193, 'learning_rate': 6.320578628091461e-07, 'completion_length': 437.0089416503906, 'rewards/only_full_func_accuracy_reward': 0.5706845819950104, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.5349704027175903, 'reward_std': 0.18236058205366135, 'kl': 0.89453125, 'epoch': 0.37}
+ 37%|███▋      | 1577/4286 [10:10:09<17:59:47, 23.92s/it] 37%|███▋      | 1578/4286 [10:10:33<17:57:37, 23.88s/it]                                                         {'loss': 0.0247, 'grad_norm': 0.3252570578116669, 'learning_rate': 6.318245450303313e-07, 'completion_length': 419.6250305175781, 'rewards/only_full_func_accuracy_reward': 0.6413690447807312, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6324405670166016, 'reward_std': 0.10532457008957863, 'kl': 0.6177978515625, 'epoch': 0.37}
+ 37%|███▋      | 1578/4286 [10:10:33<17:57:37, 23.88s/it] 37%|███▋      | 1579/4286 [10:10:57<18:02:01, 23.98s/it]                                                         {'loss': 0.0206, 'grad_norm': 1.0249417617979153, 'learning_rate': 6.315912272515165e-07, 'completion_length': 439.35716247558594, 'rewards/only_full_func_accuracy_reward': 0.660714328289032, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6517858505249023, 'reward_std': 0.08452098816633224, 'kl': 0.517822265625, 'epoch': 0.37}
+ 37%|███▋      | 1579/4286 [10:10:57<18:02:01, 23.98s/it] 37%|███▋      | 1580/4286 [10:11:21<18:07:25, 24.11s/it]                                                         {'loss': 0.0231, 'grad_norm': 1.211521666410151, 'learning_rate': 6.313579094727019e-07, 'completion_length': 428.0000305175781, 'rewards/only_full_func_accuracy_reward': 0.7254464328289032, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.716517984867096, 'reward_std': 0.06124402116984129, 'kl': 0.577392578125, 'epoch': 0.37}
+ 37%|███▋      | 1580/4286 [10:11:21<18:07:25, 24.11s/it] 37%|███▋      | 1581/4286 [10:11:46<18:14:49, 24.28s/it]                                                         {'loss': 0.0383, 'grad_norm': 1.3733497321012118, 'learning_rate': 6.311245916938871e-07, 'completion_length': 406.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.7046130895614624, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6867560744285583, 'reward_std': 0.13655895739793777, 'kl': 0.953125, 'epoch': 0.37}
+ 37%|███▋      | 1581/4286 [10:11:46<18:14:49, 24.28s/it] 37%|███▋      | 1582/4286 [10:12:09<18:00:19, 23.97s/it]                                                         {'loss': 0.1206, 'grad_norm': 3.2764715165315677, 'learning_rate': 6.308912739150723e-07, 'completion_length': 374.2857360839844, 'rewards/only_full_func_accuracy_reward': 0.624851256608963, 'rewards/format_reward': 0.9464285969734192, 'reward': 1.5712798833847046, 'reward_std': 0.16422758251428604, 'kl': 3.0234375, 'epoch': 0.37}
+ 37%|███▋      | 1582/4286 [10:12:09<18:00:19, 23.97s/it] 37%|███▋      | 1583/4286 [10:12:34<18:12:21, 24.25s/it]                                                         {'loss': 0.0096, 'grad_norm': 0.5540034045804795, 'learning_rate': 6.306579561362576e-07, 'completion_length': 421.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.7492559552192688, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7403274774551392, 'reward_std': 0.06727127730846405, 'kl': 0.239013671875, 'epoch': 0.37}
+ 37%|███▋      | 1583/4286 [10:12:34<18:12:21, 24.25s/it] 37%|███▋      | 1584/4286 [10:12:58<18:01:52, 24.02s/it]                                                         {'loss': 0.0022, 'grad_norm': 0.32570583588166757, 'learning_rate': 6.304246383574429e-07, 'completion_length': 404.5535888671875, 'rewards/only_full_func_accuracy_reward': 0.6748512089252472, 'rewards/format_reward': 1.0, 'reward': 1.6748512983322144, 'reward_std': 0.041455717757344246, 'kl': 0.0562744140625, 'epoch': 0.37}
+ 37%|███▋      | 1584/4286 [10:12:58<18:01:52, 24.02s/it] 37%|███▋      | 1585/4286 [10:13:22<18:03:52, 24.08s/it]                                                         {'loss': 0.0166, 'grad_norm': 1.1440794046832292, 'learning_rate': 6.301913205786281e-07, 'completion_length': 430.7589569091797, 'rewards/only_full_func_accuracy_reward': 0.7127976417541504, 'rewards/format_reward': 1.0, 'reward': 1.7127977013587952, 'reward_std': 0.06738628819584846, 'kl': 0.4171142578125, 'epoch': 0.37}
+ 37%|███▋      | 1585/4286 [10:13:22<18:03:52, 24.08s/it] 37%|███▋      | 1586/4286 [10:13:46<18:02:57, 24.07s/it]                                                         {'loss': 0.0411, 'grad_norm': 1.1528169466086657, 'learning_rate': 6.299580027998134e-07, 'completion_length': 418.3393096923828, 'rewards/only_full_func_accuracy_reward': 0.6004464626312256, 'rewards/format_reward': 0.973214328289032, 'reward': 1.5736607909202576, 'reward_std': 0.21875934302806854, 'kl': 1.029296875, 'epoch': 0.37}
+ 37%|███▋      | 1586/4286 [10:13:46<18:02:57, 24.07s/it] 37%|███▋      | 1587/4286 [10:14:10<18:07:35, 24.18s/it]                                                         {'loss': 0.0787, 'grad_norm': 2.1387007780519363, 'learning_rate': 6.297246850209986e-07, 'completion_length': 390.15179443359375, 'rewards/only_full_func_accuracy_reward': 0.6505456864833832, 'rewards/format_reward': 0.955357164144516, 'reward': 1.605902910232544, 'reward_std': 0.26135604456067085, 'kl': 1.9617919921875, 'epoch': 0.37}
+ 37%|███▋      | 1587/4286 [10:14:10<18:07:35, 24.18s/it] 37%|███▋      | 1588/4286 [10:14:34<18:04:59, 24.13s/it]                                                         {'loss': 0.0291, 'grad_norm': 1.2416920029689236, 'learning_rate': 6.294913672421839e-07, 'completion_length': 435.5982360839844, 'rewards/only_full_func_accuracy_reward': 0.7529762089252472, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7351191639900208, 'reward_std': 0.14848549105226994, 'kl': 0.725830078125, 'epoch': 0.37}
+ 37%|███▋      | 1588/4286 [10:14:35<18:04:59, 24.13s/it] 37%|███▋      | 1589/4286 [10:14:58<18:01:36, 24.06s/it]                                                         {'loss': 0.0823, 'grad_norm': 1.645219304216537, 'learning_rate': 6.292580494633691e-07, 'completion_length': 466.6250305175781, 'rewards/only_full_func_accuracy_reward': 0.5767857432365417, 'rewards/format_reward': 0.9553571939468384, 'reward': 1.5321429371833801, 'reward_std': 0.1929074302315712, 'kl': 2.05859375, 'epoch': 0.37}
+ 37%|███▋      | 1589/4286 [10:14:58<18:01:36, 24.06s/it] 37%|███▋      | 1590/4286 [10:15:22<17:53:34, 23.89s/it]                                                         {'loss': 0.0201, 'grad_norm': 0.5553158726691104, 'learning_rate': 6.290247316845544e-07, 'completion_length': 443.4464416503906, 'rewards/only_full_func_accuracy_reward': 0.7299107313156128, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.720982313156128, 'reward_std': 0.06882776133716106, 'kl': 0.5035400390625, 'epoch': 0.37}
+ 37%|███▋      | 1590/4286 [10:15:22<17:53:34, 23.89s/it] 37%|███▋      | 1591/4286 [10:15:47<18:08:29, 24.23s/it]                                                         {'loss': 0.0904, 'grad_norm': 1.7219851879786234, 'learning_rate': 6.287914139057396e-07, 'completion_length': 433.3393096923828, 'rewards/only_full_func_accuracy_reward': 0.6696428656578064, 'rewards/format_reward': 0.955357164144516, 'reward': 1.6250000596046448, 'reward_std': 0.23961646109819412, 'kl': 2.25, 'epoch': 0.37}
+ 37%|███▋      | 1591/4286 [10:15:47<18:08:29, 24.23s/it] 37%|███▋      | 1592/4286 [10:16:11<18:10:39, 24.29s/it]                                                         {'loss': 0.1034, 'grad_norm': 1.8452768802621422, 'learning_rate': 6.285580961269249e-07, 'completion_length': 428.42860412597656, 'rewards/only_full_func_accuracy_reward': 0.7596726417541504, 'rewards/format_reward': 0.955357164144516, 'reward': 1.7150298357009888, 'reward_std': 0.2462850958108902, 'kl': 2.578125, 'epoch': 0.37}
+ 37%|███▋      | 1592/4286 [10:16:11<18:10:39, 24.29s/it] 37%|███▋      | 1593/4286 [10:16:35<18:06:24, 24.21s/it]                                                         {'loss': 0.0405, 'grad_norm': 0.9324955917166868, 'learning_rate': 6.283247783481102e-07, 'completion_length': 422.6785888671875, 'rewards/only_full_func_accuracy_reward': 0.7678571343421936, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.758928656578064, 'reward_std': 0.09545140713453293, 'kl': 1.0150146484375, 'epoch': 0.37}
+ 37%|███▋      | 1593/4286 [10:16:35<18:06:24, 24.21s/it] 37%|███▋      | 1594/4286 [10:17:00<18:06:46, 24.22s/it]                                                         {'loss': 0.0406, 'grad_norm': 1.335601748469328, 'learning_rate': 6.280914605692954e-07, 'completion_length': 458.0625305175781, 'rewards/only_full_func_accuracy_reward': 0.6086309552192688, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.5907739400863647, 'reward_std': 0.1366724781692028, 'kl': 1.01171875, 'epoch': 0.37}
+ 37%|███▋      | 1594/4286 [10:17:00<18:06:46, 24.22s/it] 37%|███▋      | 1595/4286 [10:17:24<18:07:37, 24.25s/it]                                                         {'loss': 0.0316, 'grad_norm': 0.5302112415677781, 'learning_rate': 6.278581427904806e-07, 'completion_length': 437.20538330078125, 'rewards/only_full_func_accuracy_reward': 0.6535714566707611, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6357144117355347, 'reward_std': 0.10811327118426561, 'kl': 0.7869873046875, 'epoch': 0.37}
+ 37%|███▋      | 1595/4286 [10:17:24<18:07:37, 24.25s/it] 37%|███▋      | 1596/4286 [10:17:49<18:18:04, 24.49s/it]                                                         {'loss': 0.0669, 'grad_norm': 1.400190082943597, 'learning_rate': 6.27624825011666e-07, 'completion_length': 406.71429443359375, 'rewards/only_full_func_accuracy_reward': 0.6845237910747528, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.6488096714019775, 'reward_std': 0.15241669118404388, 'kl': 1.671875, 'epoch': 0.37}
+ 37%|███▋      | 1596/4286 [10:17:49<18:18:04, 24.49s/it] 37%|███▋      | 1597/4286 [10:18:13<18:17:47, 24.50s/it]                                                         {'loss': 0.0391, 'grad_norm': 0.6144243710818575, 'learning_rate': 6.273915072328512e-07, 'completion_length': 422.39288330078125, 'rewards/only_full_func_accuracy_reward': 0.741815447807312, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.723958432674408, 'reward_std': 0.11574152857065201, 'kl': 0.9779052734375, 'epoch': 0.37}
+ 37%|███▋      | 1597/4286 [10:18:13<18:17:47, 24.50s/it] 37%|███▋      | 1598/4286 [10:18:38<18:21:32, 24.59s/it]                                                         {'loss': 0.0268, 'grad_norm': 1.260744080589075, 'learning_rate': 6.271581894540364e-07, 'completion_length': 422.4107360839844, 'rewards/only_full_func_accuracy_reward': 0.7559524476528168, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7380953431129456, 'reward_std': 0.12498690187931061, 'kl': 0.666015625, 'epoch': 0.37}
+ 37%|███▋      | 1598/4286 [10:18:38<18:21:32, 24.59s/it] 37%|███▋      | 1599/4286 [10:19:04<18:41:37, 25.05s/it]                                                         {'loss': 0.0674, 'grad_norm': 0.6554096907056032, 'learning_rate': 6.269248716752217e-07, 'completion_length': 491.14288330078125, 'rewards/only_full_func_accuracy_reward': 0.4957093447446823, 'rewards/format_reward': 0.9464285969734192, 'reward': 1.442137897014618, 'reward_std': 0.2067655771970749, 'kl': 1.6796875, 'epoch': 0.37}
+ 37%|███▋      | 1599/4286 [10:19:04<18:41:37, 25.05s/it] 37%|███▋      | 1600/4286 [10:19:29<18:37:32, 24.96s/it]                                                         {'loss': 0.0682, 'grad_norm': 1.4989659021439539, 'learning_rate': 6.26691553896407e-07, 'completion_length': 434.8660888671875, 'rewards/only_full_func_accuracy_reward': 0.5654762089252472, 'rewards/format_reward': 0.9464286267757416, 'reward': 1.5119048357009888, 'reward_std': 0.11390340328216553, 'kl': 1.7109375, 'epoch': 0.37}
+ 37%|███▋      | 1600/4286 [10:19:29<18:37:32, 24.96s/it] 37%|███▋      | 1601/4286 [10:21:21<37:58:53, 50.92s/it]                                                         {'loss': 0.0382, 'grad_norm': 0.7119273644753406, 'learning_rate': 6.264582361175922e-07, 'completion_length': 437.0893096923828, 'rewards/only_full_func_accuracy_reward': 0.6833333969116211, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6744048595428467, 'reward_std': 0.15309860929846764, 'kl': 0.9541015625, 'epoch': 0.37}
+ 37%|███▋      | 1601/4286 [10:21:21<37:58:53, 50.92s/it] 37%|███▋      | 1602/4286 [10:21:47<32:23:14, 43.44s/it]                                                         {'loss': 0.0018, 'grad_norm': 0.7729488519786563, 'learning_rate': 6.262249183387774e-07, 'completion_length': 505.0535888671875, 'rewards/only_full_func_accuracy_reward': 0.7312500178813934, 'rewards/format_reward': 1.0, 'reward': 1.7312500476837158, 'reward_std': 0.1017407588660717, 'kl': 0.044189453125, 'epoch': 0.37}
+ 37%|███▋      | 1602/4286 [10:21:47<32:23:14, 43.44s/it] 37%|███▋      | 1603/4286 [10:22:10<27:48:14, 37.31s/it]                                                         {'loss': 0.0056, 'grad_norm': 0.39526954200262987, 'learning_rate': 6.259916005599627e-07, 'completion_length': 405.4018096923828, 'rewards/only_full_func_accuracy_reward': 0.8497024178504944, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8407739400863647, 'reward_std': 0.09910664707422256, 'kl': 0.1396484375, 'epoch': 0.37}
+ 37%|███▋      | 1603/4286 [10:22:10<27:48:14, 37.31s/it] 37%|███▋      | 1604/4286 [10:22:36<25:18:27, 33.97s/it]                                                         {'loss': 0.0211, 'grad_norm': 0.5178259545674438, 'learning_rate': 6.257582827811479e-07, 'completion_length': 495.5803680419922, 'rewards/only_full_func_accuracy_reward': 0.6912202835083008, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6822918057441711, 'reward_std': 0.09709306061267853, 'kl': 0.52734375, 'epoch': 0.37}
+ 37%|███▋      | 1604/4286 [10:22:36<25:18:27, 33.97s/it] 37%|███▋      | 1605/4286 [10:23:02<23:31:21, 31.59s/it]                                                         {'loss': 0.0456, 'grad_norm': 0.9057263250475229, 'learning_rate': 6.255249650023332e-07, 'completion_length': 469.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.5784226655960083, 'rewards/format_reward': 0.973214328289032, 'reward': 1.5516369342803955, 'reward_std': 0.14949553459882736, 'kl': 1.138671875, 'epoch': 0.37}
+ 37%|███▋      | 1605/4286 [10:23:02<23:31:21, 31.59s/it] 37%|███▋      | 1606/4286 [10:23:28<22:16:16, 29.92s/it]                                                         {'loss': 0.0265, 'grad_norm': 0.4941669011840352, 'learning_rate': 6.252916472235185e-07, 'completion_length': 477.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.7514881193637848, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7425596714019775, 'reward_std': 0.05486436653882265, 'kl': 0.66015625, 'epoch': 0.37}
+ 37%|███▋      | 1606/4286 [10:23:28<22:16:16, 29.92s/it] 37%|███▋      | 1607/4286 [10:23:52<20:57:16, 28.16s/it]                                                         {'loss': 0.0017, 'grad_norm': 0.14613638959284464, 'learning_rate': 6.250583294447037e-07, 'completion_length': 401.0178680419922, 'rewards/only_full_func_accuracy_reward': 0.767857164144516, 'rewards/format_reward': 1.0, 'reward': 1.7678572535514832, 'reward_std': 0.0417863167822361, 'kl': 0.04150390625, 'epoch': 0.37}
+ 37%|███▋      | 1607/4286 [10:23:52<20:57:16, 28.16s/it] 38%|███▊      | 1608/4286 [10:24:18<20:27:11, 27.49s/it]                                                         {'loss': 0.0016, 'grad_norm': 0.3627327047195133, 'learning_rate': 6.248250116658888e-07, 'completion_length': 467.12501525878906, 'rewards/only_full_func_accuracy_reward': 0.7211309969425201, 'rewards/format_reward': 1.0, 'reward': 1.7211310267448425, 'reward_std': 0.050472063943743706, 'kl': 0.0396728515625, 'epoch': 0.38}
+ 38%|███▊      | 1608/4286 [10:24:18<20:27:11, 27.49s/it] 38%|███▊      | 1609/4286 [10:24:42<19:39:29, 26.44s/it]                                                         {'loss': 0.0068, 'grad_norm': 0.6248808204431743, 'learning_rate': 6.245916938870742e-07, 'completion_length': 383.23216247558594, 'rewards/only_full_func_accuracy_reward': 0.7031250298023224, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6941965222358704, 'reward_std': 0.058722421526908875, 'kl': 0.1693115234375, 'epoch': 0.38}
+ 38%|███▊      | 1609/4286 [10:24:42<19:39:29, 26.44s/it] 38%|███▊      | 1610/4286 [10:25:06<19:02:51, 25.62s/it]                                                         {'loss': 0.0098, 'grad_norm': 0.38260551439468476, 'learning_rate': 6.243583761082594e-07, 'completion_length': 408.8482360839844, 'rewards/only_full_func_accuracy_reward': 0.6864583790302277, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6775299310684204, 'reward_std': 0.0846803542226553, 'kl': 0.2445068359375, 'epoch': 0.38}
+ 38%|███▊      | 1610/4286 [10:25:06<19:02:51, 25.62s/it] 38%|███▊      | 1611/4286 [10:25:31<18:53:39, 25.43s/it]                                                         {'loss': 0.0127, 'grad_norm': 5.869752093203874, 'learning_rate': 6.241250583294446e-07, 'completion_length': 455.5357360839844, 'rewards/only_full_func_accuracy_reward': 0.8143601417541504, 'rewards/format_reward': 1.0, 'reward': 1.81436026096344, 'reward_std': 0.10896268859505653, 'kl': 0.31591796875, 'epoch': 0.38}
+ 38%|███▊      | 1611/4286 [10:25:31<18:53:39, 25.43s/it] 38%|███▊      | 1612/4286 [10:25:56<18:51:25, 25.39s/it]                                                         {'loss': 0.007, 'grad_norm': 0.41510141072285284, 'learning_rate': 6.238917405506298e-07, 'completion_length': 445.60716247558594, 'rewards/only_full_func_accuracy_reward': 0.6130952835083008, 'rewards/format_reward': 1.0, 'reward': 1.6130953431129456, 'reward_std': 0.0, 'kl': 0.1748046875, 'epoch': 0.38}
+ 38%|███▊      | 1612/4286 [10:25:56<18:51:25, 25.39s/it] 38%|███▊      | 1613/4286 [10:26:20<18:30:55, 24.94s/it]                                                         {'loss': 0.048, 'grad_norm': 1.2731184324771723, 'learning_rate': 6.236584227718152e-07, 'completion_length': 428.9285888671875, 'rewards/only_full_func_accuracy_reward': 0.5967261791229248, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.578869104385376, 'reward_std': 0.11343768611550331, 'kl': 1.203125, 'epoch': 0.38}
+ 38%|███▊      | 1613/4286 [10:26:20<18:30:55, 24.94s/it] 38%|███▊      | 1614/4286 [10:26:43<18:14:49, 24.58s/it]                                                         {'loss': 0.0139, 'grad_norm': 0.4118617124127833, 'learning_rate': 6.234251049930004e-07, 'completion_length': 401.8393096923828, 'rewards/only_full_func_accuracy_reward': 0.805059552192688, 'rewards/format_reward': 1.0, 'reward': 1.8050596714019775, 'reward_std': 0.06448011938482523, 'kl': 0.3487548828125, 'epoch': 0.38}
+ 38%|███▊      | 1614/4286 [10:26:44<18:14:49, 24.58s/it] 38%|███▊      | 1615/4286 [10:27:09<18:22:01, 24.76s/it]                                                         {'loss': 0.0197, 'grad_norm': 1.6374881260088132, 'learning_rate': 6.231917872141856e-07, 'completion_length': 443.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.8392857611179352, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8303572535514832, 'reward_std': 0.09865159075707197, 'kl': 0.490234375, 'epoch': 0.38}
+ 38%|███▊      | 1615/4286 [10:27:09<18:22:01, 24.76s/it] 38%|███▊      | 1616/4286 [10:27:34<18:23:17, 24.79s/it]                                                         {'loss': 0.015, 'grad_norm': 0.5286696683734027, 'learning_rate': 6.229584694353709e-07, 'completion_length': 422.64288330078125, 'rewards/only_full_func_accuracy_reward': 0.738839328289032, 'rewards/format_reward': 1.0, 'reward': 1.7388393878936768, 'reward_std': 0.08443266525864601, 'kl': 0.374755859375, 'epoch': 0.38}
+ 38%|███▊      | 1616/4286 [10:27:34<18:23:17, 24.79s/it] 38%|███▊      | 1617/4286 [10:28:00<18:46:30, 25.32s/it]                                                         {'loss': 0.0227, 'grad_norm': 0.4473563302110607, 'learning_rate': 6.227251516565562e-07, 'completion_length': 469.60716247558594, 'rewards/only_full_func_accuracy_reward': 0.693452388048172, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.68452388048172, 'reward_std': 0.060052670538425446, 'kl': 0.5673828125, 'epoch': 0.38}
+ 38%|███▊      | 1617/4286 [10:28:00<18:46:30, 25.32s/it] 38%|███▊      | 1618/4286 [10:28:25<18:44:54, 25.30s/it]                                                         {'loss': 0.0203, 'grad_norm': 0.589724689769066, 'learning_rate': 6.224918338777414e-07, 'completion_length': 471.607177734375, 'rewards/only_full_func_accuracy_reward': 0.678571492433548, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.669642984867096, 'reward_std': 0.06460904330015182, 'kl': 0.50390625, 'epoch': 0.38}
+ 38%|███▊      | 1618/4286 [10:28:25<18:44:54, 25.30s/it] 38%|███▊      | 1619/4286 [10:28:50<18:32:56, 25.04s/it]                                                         {'loss': 0.0166, 'grad_norm': 0.4176686044250947, 'learning_rate': 6.222585160989267e-07, 'completion_length': 444.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.5163690447807312, 'rewards/format_reward': 1.0, 'reward': 1.5163691639900208, 'reward_std': 0.05182609520852566, 'kl': 0.4146728515625, 'epoch': 0.38}
+ 38%|███▊      | 1619/4286 [10:28:50<18:32:56, 25.04s/it] 38%|███▊      | 1620/4286 [10:29:15<18:41:08, 25.23s/it]                                                         {'loss': 0.0258, 'grad_norm': 0.378031249809314, 'learning_rate': 6.220251983201119e-07, 'completion_length': 458.45538330078125, 'rewards/only_full_func_accuracy_reward': 0.5930059999227524, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.57514888048172, 'reward_std': 0.12116720527410507, 'kl': 0.642578125, 'epoch': 0.38}
+ 38%|███▊      | 1620/4286 [10:29:15<18:41:08, 25.23s/it] 38%|███▊      | 1621/4286 [10:29:40<18:34:11, 25.08s/it]                                                         {'loss': 0.0144, 'grad_norm': 2.1306803566773618, 'learning_rate': 6.217918805412971e-07, 'completion_length': 458.48216247558594, 'rewards/only_full_func_accuracy_reward': 0.7440476417541504, 'rewards/format_reward': 1.0, 'reward': 1.74404776096344, 'reward_std': 0.05127931013703346, 'kl': 0.36328125, 'epoch': 0.38}
+ 38%|███▊      | 1621/4286 [10:29:40<18:34:11, 25.08s/it] 38%|███▊      | 1622/4286 [10:30:06<18:49:33, 25.44s/it]                                                         {'loss': 0.0317, 'grad_norm': 0.7226394570599463, 'learning_rate': 6.215585627624824e-07, 'completion_length': 494.58038330078125, 'rewards/only_full_func_accuracy_reward': 0.6912202537059784, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.673363208770752, 'reward_std': 0.1255040280520916, 'kl': 0.7919921875, 'epoch': 0.38}
+ 38%|███▊      | 1622/4286 [10:30:06<18:49:33, 25.44s/it] 38%|███▊      | 1623/4286 [10:30:32<18:50:51, 25.48s/it]                                                         {'loss': 0.0109, 'grad_norm': 1.6063209123486648, 'learning_rate': 6.213252449836677e-07, 'completion_length': 455.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.6989583671092987, 'rewards/format_reward': 1.0, 'reward': 1.6989584565162659, 'reward_std': 0.07840239256620407, 'kl': 0.2725830078125, 'epoch': 0.38}
+ 38%|███▊      | 1623/4286 [10:30:32<18:50:51, 25.48s/it] 38%|███▊      | 1624/4286 [10:30:58<18:51:33, 25.50s/it]                                                         {'loss': 0.0767, 'grad_norm': 1.4033719648649137, 'learning_rate': 6.210919272048529e-07, 'completion_length': 429.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.5982142686843872, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.5803571939468384, 'reward_std': 0.14993904531002045, 'kl': 1.921875, 'epoch': 0.38}
+ 38%|███▊      | 1624/4286 [10:30:58<18:51:33, 25.50s/it] 38%|███▊      | 1625/4286 [10:31:23<18:49:17, 25.46s/it]                                                         {'loss': 0.0068, 'grad_norm': 0.6342499546763859, 'learning_rate': 6.208586094260381e-07, 'completion_length': 460.1339569091797, 'rewards/only_full_func_accuracy_reward': 0.619047611951828, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.610119104385376, 'reward_std': 0.09594625979661942, 'kl': 0.170654296875, 'epoch': 0.38}
+ 38%|███▊      | 1625/4286 [10:31:23<18:49:17, 25.46s/it] 38%|███▊      | 1626/4286 [10:31:49<18:53:50, 25.58s/it]                                                         {'loss': 0.0775, 'grad_norm': 1.054871592320403, 'learning_rate': 6.206252916472235e-07, 'completion_length': 497.1339416503906, 'rewards/only_full_func_accuracy_reward': 0.6742559671401978, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.6385417580604553, 'reward_std': 0.20667213201522827, 'kl': 1.9375, 'epoch': 0.38}
+ 38%|███▊      | 1626/4286 [10:31:49<18:53:50, 25.58s/it] 38%|███▊      | 1627/4286 [10:32:13<18:35:49, 25.18s/it]                                                         {'loss': 0.0662, 'grad_norm': 0.9814260388187382, 'learning_rate': 6.203919738684087e-07, 'completion_length': 435.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.6614583432674408, 'rewards/format_reward': 0.9553571939468384, 'reward': 1.6168156862258911, 'reward_std': 0.24343083426356316, 'kl': 1.65234375, 'epoch': 0.38}
+ 38%|███▊      | 1627/4286 [10:32:13<18:35:49, 25.18s/it] 38%|███▊      | 1628/4286 [10:32:39<18:41:23, 25.31s/it]                                                         {'loss': 0.0944, 'grad_norm': 1.6622612577935307, 'learning_rate': 6.201586560895939e-07, 'completion_length': 463.8393096923828, 'rewards/only_full_func_accuracy_reward': 0.7328869700431824, 'rewards/format_reward': 0.9553571939468384, 'reward': 1.688244104385376, 'reward_std': 0.17539501562714577, 'kl': 2.359375, 'epoch': 0.38}
+ 38%|███▊      | 1628/4286 [10:32:39<18:41:23, 25.31s/it] 38%|███▊      | 1629/4286 [10:33:05<18:49:37, 25.51s/it]                                                         {'loss': 0.0362, 'grad_norm': 2.2693467100518028, 'learning_rate': 6.199253383107792e-07, 'completion_length': 442.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.6562500596046448, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6383930444717407, 'reward_std': 0.1353036854416132, 'kl': 0.9033203125, 'epoch': 0.38}
+ 38%|███▊      | 1629/4286 [10:33:05<18:49:37, 25.51s/it] 38%|███▊      | 1630/4286 [10:33:30<18:44:20, 25.40s/it]                                                         {'loss': 0.1407, 'grad_norm': 2.9513171223650607, 'learning_rate': 6.196920205319645e-07, 'completion_length': 465.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.7523384690284729, 'rewards/format_reward': 0.955357164144516, 'reward': 1.707695722579956, 'reward_std': 0.2483498603105545, 'kl': 3.517578125, 'epoch': 0.38}
+ 38%|███▊      | 1630/4286 [10:33:30<18:44:20, 25.40s/it] 38%|███▊      | 1631/4286 [10:33:55<18:44:26, 25.41s/it]                                                         {'loss': 0.0772, 'grad_norm': 0.8138903253698442, 'learning_rate': 6.194587027531497e-07, 'completion_length': 482.3393096923828, 'rewards/only_full_func_accuracy_reward': 0.697115421295166, 'rewards/format_reward': 0.955357164144516, 'reward': 1.6524726152420044, 'reward_std': 0.22195446491241455, 'kl': 1.93359375, 'epoch': 0.38}
+ 38%|███▊      | 1631/4286 [10:33:55<18:44:26, 25.41s/it] 38%|███▊      | 1632/4286 [10:34:19<18:28:03, 25.05s/it]                                                         {'loss': 0.0519, 'grad_norm': 0.887749497210234, 'learning_rate': 6.19225384974335e-07, 'completion_length': 412.23216247558594, 'rewards/only_full_func_accuracy_reward': 0.6264881491661072, 'rewards/format_reward': 0.973214328289032, 'reward': 1.599702537059784, 'reward_std': 0.12603452429175377, 'kl': 1.29296875, 'epoch': 0.38}
+ 38%|███▊      | 1632/4286 [10:34:19<18:28:03, 25.05s/it] 38%|███▊      | 1633/4286 [10:34:45<18:36:26, 25.25s/it]                                                         {'loss': 0.0282, 'grad_norm': 0.6505367260908995, 'learning_rate': 6.189920671955202e-07, 'completion_length': 453.7143096923828, 'rewards/only_full_func_accuracy_reward': 0.7745536267757416, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7566965818405151, 'reward_std': 0.09618457406759262, 'kl': 0.7005615234375, 'epoch': 0.38}
+ 38%|███▊      | 1633/4286 [10:34:45<18:36:26, 25.25s/it] 38%|███▊      | 1634/4286 [10:35:11<18:40:15, 25.35s/it]                                                         {'loss': 0.0804, 'grad_norm': 1.0057829642930758, 'learning_rate': 6.187587494167055e-07, 'completion_length': 423.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.7358631193637848, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.7001489400863647, 'reward_std': 0.22898053377866745, 'kl': 2.0078125, 'epoch': 0.38}
+ 38%|███▊      | 1634/4286 [10:35:11<18:40:15, 25.35s/it] 38%|███▊      | 1635/4286 [10:35:35<18:31:46, 25.16s/it]                                                         {'loss': 0.0414, 'grad_norm': 0.7366586707670439, 'learning_rate': 6.185254316378907e-07, 'completion_length': 448.64288330078125, 'rewards/only_full_func_accuracy_reward': 0.5688988268375397, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5599703788757324, 'reward_std': 0.10116298496723175, 'kl': 1.033203125, 'epoch': 0.38}
+ 38%|███▊      | 1635/4286 [10:35:35<18:31:46, 25.16s/it] 38%|███▊      | 1636/4286 [10:36:02<18:45:42, 25.49s/it]                                                         {'loss': 0.0274, 'grad_norm': 0.4757947542364249, 'learning_rate': 6.18292113859076e-07, 'completion_length': 509.14288330078125, 'rewards/only_full_func_accuracy_reward': 0.6788690686225891, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6610119342803955, 'reward_std': 0.1000489741563797, 'kl': 0.68359375, 'epoch': 0.38}
+ 38%|███▊      | 1636/4286 [10:36:02<18:45:42, 25.49s/it] 38%|███▊      | 1637/4286 [10:36:27<18:40:41, 25.38s/it]                                                         {'loss': 0.0274, 'grad_norm': 0.33406134323038605, 'learning_rate': 6.180587960802612e-07, 'completion_length': 483.54466247558594, 'rewards/only_full_func_accuracy_reward': 0.6816964745521545, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6727679371833801, 'reward_std': 0.1045868918299675, 'kl': 0.6875, 'epoch': 0.38}
+ 38%|███▊      | 1637/4286 [10:36:27<18:40:41, 25.38s/it] 38%|███▊      | 1638/4286 [10:36:53<18:48:38, 25.57s/it]                                                         {'loss': 0.0016, 'grad_norm': 0.16137003058846336, 'learning_rate': 6.178254783014465e-07, 'completion_length': 458.1428680419922, 'rewards/only_full_func_accuracy_reward': 0.8832908868789673, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8743623495101929, 'reward_std': 0.06707749515771866, 'kl': 0.0404052734375, 'epoch': 0.38}
+ 38%|███▊      | 1638/4286 [10:36:53<18:48:38, 25.57s/it] 38%|███▊      | 1639/4286 [10:37:18<18:37:38, 25.33s/it]                                                         {'loss': 0.0108, 'grad_norm': 0.6856297547867847, 'learning_rate': 6.175921605226318e-07, 'completion_length': 430.0803680419922, 'rewards/only_full_func_accuracy_reward': 0.677232176065445, 'rewards/format_reward': 1.0, 'reward': 1.677232265472412, 'reward_std': 0.06545576080679893, 'kl': 0.270263671875, 'epoch': 0.38}
+ 38%|███▊      | 1639/4286 [10:37:18<18:37:38, 25.33s/it] 38%|███▊      | 1640/4286 [10:37:44<18:44:51, 25.51s/it]                                                         {'loss': 0.0268, 'grad_norm': 0.45594711119450904, 'learning_rate': 6.17358842743817e-07, 'completion_length': 481.6875305175781, 'rewards/only_full_func_accuracy_reward': 0.703869104385376, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6949405670166016, 'reward_std': 0.08317217230796814, 'kl': 0.66796875, 'epoch': 0.38}
+ 38%|███▊      | 1640/4286 [10:37:44<18:44:51, 25.51s/it] 38%|███▊      | 1641/4286 [10:38:08<18:34:41, 25.29s/it]                                                         {'loss': 0.051, 'grad_norm': 1.0464037857247137, 'learning_rate': 6.171255249650022e-07, 'completion_length': 434.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.6830357909202576, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6651787161827087, 'reward_std': 0.11105591431260109, 'kl': 1.28125, 'epoch': 0.38}
+ 38%|███▊      | 1641/4286 [10:38:08<18:34:41, 25.29s/it] 38%|███▊      | 1642/4286 [10:38:32<18:19:08, 24.94s/it]                                                         {'loss': 0.0019, 'grad_norm': 0.0912750453583008, 'learning_rate': 6.168922071861876e-07, 'completion_length': 445.66966247558594, 'rewards/only_full_func_accuracy_reward': 0.7321428656578064, 'rewards/format_reward': 1.0, 'reward': 1.732142984867096, 'reward_std': 0.011021665297448635, 'kl': 0.048095703125, 'epoch': 0.38}
+ 38%|███▊      | 1642/4286 [10:38:32<18:19:08, 24.94s/it] 38%|███▊      | 1643/4286 [10:38:59<18:34:43, 25.31s/it]                                                         {'loss': 0.0012, 'grad_norm': 0.41464930661419463, 'learning_rate': 6.166588894073728e-07, 'completion_length': 505.6785888671875, 'rewards/only_full_func_accuracy_reward': 0.6851191222667694, 'rewards/format_reward': 1.0, 'reward': 1.6851191520690918, 'reward_std': 0.030231239274144173, 'kl': 0.0311279296875, 'epoch': 0.38}
+ 38%|███▊      | 1643/4286 [10:38:59<18:34:43, 25.31s/it] 38%|███▊      | 1644/4286 [10:39:24<18:37:14, 25.37s/it]                                                         {'loss': 0.0398, 'grad_norm': 0.609395451097724, 'learning_rate': 6.16425571628558e-07, 'completion_length': 464.0625305175781, 'rewards/only_full_func_accuracy_reward': 0.7537202835083008, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7447918057441711, 'reward_std': 0.12100211530923843, 'kl': 0.9927978515625, 'epoch': 0.38}
+ 38%|███▊      | 1644/4286 [10:39:24<18:37:14, 25.37s/it] 38%|███▊      | 1645/4286 [10:39:49<18:31:43, 25.26s/it]                                                         {'loss': 0.0034, 'grad_norm': 0.4626405632040602, 'learning_rate': 6.161922538497432e-07, 'completion_length': 436.6875305175781, 'rewards/only_full_func_accuracy_reward': 0.690476268529892, 'rewards/format_reward': 1.0, 'reward': 1.6904762983322144, 'reward_std': 0.05867234244942665, 'kl': 0.0850830078125, 'epoch': 0.38}
+ 38%|███▊      | 1645/4286 [10:39:49<18:31:43, 25.26s/it] 38%|███▊      | 1646/4286 [10:40:13<18:08:38, 24.74s/it]                                                         {'loss': 0.0167, 'grad_norm': 1.376188990334522, 'learning_rate': 6.159589360709286e-07, 'completion_length': 398.6964569091797, 'rewards/only_full_func_accuracy_reward': 0.7202381491661072, 'rewards/format_reward': 1.0, 'reward': 1.720238208770752, 'reward_std': 0.10676363483071327, 'kl': 0.41796875, 'epoch': 0.38}
+ 38%|███▊      | 1646/4286 [10:40:13<18:08:38, 24.74s/it] 38%|███▊      | 1647/4286 [10:40:38<18:18:52, 24.98s/it]                                                         {'loss': 0.0016, 'grad_norm': 1.5917500954942014, 'learning_rate': 6.157256182921138e-07, 'completion_length': 484.54466247558594, 'rewards/only_full_func_accuracy_reward': 0.7224702835083008, 'rewards/format_reward': 1.0, 'reward': 1.7224704027175903, 'reward_std': 0.06828449852764606, 'kl': 0.039794921875, 'epoch': 0.38}
+ 38%|███▊      | 1647/4286 [10:40:38<18:18:52, 24.98s/it] 38%|███▊      | 1648/4286 [10:41:02<18:04:32, 24.67s/it]                                                         {'loss': 0.0435, 'grad_norm': 0.7367151052339134, 'learning_rate': 6.15492300513299e-07, 'completion_length': 400.0982360839844, 'rewards/only_full_func_accuracy_reward': 0.6964286267757416, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.6696429252624512, 'reward_std': 0.1411268673837185, 'kl': 1.0906982421875, 'epoch': 0.38}
+ 38%|███▊      | 1648/4286 [10:41:02<18:04:32, 24.67s/it] 38%|███▊      | 1649/4286 [10:41:28<18:15:35, 24.93s/it]                                                         {'loss': 0.0018, 'grad_norm': 0.33820988281572223, 'learning_rate': 6.152589827344843e-07, 'completion_length': 494.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.5096726566553116, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5007442235946655, 'reward_std': 0.08429346606135368, 'kl': 0.04541015625, 'epoch': 0.38}
+ 38%|███▊      | 1649/4286 [10:41:28<18:15:35, 24.93s/it] 38%|███▊      | 1650/4286 [10:41:52<18:09:46, 24.81s/it]                                                         {'loss': 0.0017, 'grad_norm': 0.33039518322522043, 'learning_rate': 6.150256649556695e-07, 'completion_length': 432.5357360839844, 'rewards/only_full_func_accuracy_reward': 0.7120535969734192, 'rewards/format_reward': 1.0, 'reward': 1.7120537161827087, 'reward_std': 0.022997640073299408, 'kl': 0.04248046875, 'epoch': 0.38}
+ 38%|███▊      | 1650/4286 [10:41:52<18:09:46, 24.81s/it] 39%|███▊      | 1651/4286 [10:42:17<18:11:40, 24.86s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.12053229059010896, 'learning_rate': 6.147923471768548e-07, 'completion_length': 469.5714416503906, 'rewards/only_full_func_accuracy_reward': 0.7809524536132812, 'rewards/format_reward': 1.0, 'reward': 1.7809524536132812, 'reward_std': 0.024490363895893097, 'kl': 0.0374755859375, 'epoch': 0.39}
+ 39%|███▊      | 1651/4286 [10:42:17<18:11:40, 24.86s/it] 39%|███▊      | 1652/4286 [10:42:41<18:00:53, 24.62s/it]                                                         {'loss': 0.0018, 'grad_norm': 0.2009611964351343, 'learning_rate': 6.145590293980401e-07, 'completion_length': 420.85716247558594, 'rewards/only_full_func_accuracy_reward': 0.6659226417541504, 'rewards/format_reward': 1.0, 'reward': 1.66592276096344, 'reward_std': 0.04874780774116516, 'kl': 0.0439453125, 'epoch': 0.39}
+ 39%|███▊      | 1652/4286 [10:42:41<18:00:53, 24.62s/it] 39%|███▊      | 1653/4286 [10:43:07<18:13:52, 24.93s/it]                                                         {'loss': 0.018, 'grad_norm': 1.1222404627110918, 'learning_rate': 6.143257116192253e-07, 'completion_length': 466.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.6837798357009888, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6748512983322144, 'reward_std': 0.08801384642720222, 'kl': 0.44720458984375, 'epoch': 0.39}
+ 39%|███▊      | 1653/4286 [10:43:07<18:13:52, 24.93s/it] 39%|███▊      | 1654/4286 [10:43:32<18:09:31, 24.84s/it]                                                         {'loss': 0.0019, 'grad_norm': 0.7398301829659255, 'learning_rate': 6.140923938404105e-07, 'completion_length': 390.21429443359375, 'rewards/only_full_func_accuracy_reward': 0.7351190745830536, 'rewards/format_reward': 1.0, 'reward': 1.7351192235946655, 'reward_std': 0.06558838672935963, 'kl': 0.04638671875, 'epoch': 0.39}
+ 39%|███▊      | 1654/4286 [10:43:32<18:09:31, 24.84s/it] 39%|███▊      | 1655/4286 [10:43:55<17:56:57, 24.56s/it]                                                         {'loss': 0.0016, 'grad_norm': 0.48611376583577925, 'learning_rate': 6.138590760615959e-07, 'completion_length': 448.26788330078125, 'rewards/only_full_func_accuracy_reward': 0.615327388048172, 'rewards/format_reward': 1.0, 'reward': 1.6153274774551392, 'reward_std': 0.03126389812678099, 'kl': 0.039794921875, 'epoch': 0.39}
+ 39%|███▊      | 1655/4286 [10:43:55<17:56:57, 24.56s/it] 39%|███▊      | 1656/4286 [10:44:21<18:04:32, 24.74s/it]                                                         {'loss': 0.0073, 'grad_norm': 0.5459521889645694, 'learning_rate': 6.136257582827811e-07, 'completion_length': 447.4018096923828, 'rewards/only_full_func_accuracy_reward': 0.569196417927742, 'rewards/format_reward': 1.0, 'reward': 1.5691965818405151, 'reward_std': 0.06385781243443489, 'kl': 0.1832275390625, 'epoch': 0.39}
+ 39%|███▊      | 1656/4286 [10:44:21<18:04:32, 24.74s/it] 39%|███▊      | 1657/4286 [10:44:46<18:18:21, 25.07s/it]                                                         {'loss': 0.0124, 'grad_norm': 0.16157373359214816, 'learning_rate': 6.133924405039663e-07, 'completion_length': 513.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.6934524774551392, 'rewards/format_reward': 1.0, 'reward': 1.6934524774551392, 'reward_std': 0.021144668571650982, 'kl': 0.3092041015625, 'epoch': 0.39}
+ 39%|███▊      | 1657/4286 [10:44:46<18:18:21, 25.07s/it] 39%|███▊      | 1658/4286 [10:45:12<18:22:06, 25.16s/it]                                                         {'loss': 0.0089, 'grad_norm': 1.0298728202721228, 'learning_rate': 6.131591227251515e-07, 'completion_length': 425.7500305175781, 'rewards/only_full_func_accuracy_reward': 0.7321428954601288, 'rewards/format_reward': 1.0, 'reward': 1.7321429252624512, 'reward_std': 0.03290347009897232, 'kl': 0.222900390625, 'epoch': 0.39}
+ 39%|███▊      | 1658/4286 [10:45:12<18:22:06, 25.16s/it] 39%|███▊      | 1659/4286 [10:45:37<18:17:03, 25.06s/it]                                                         {'loss': 0.002, 'grad_norm': 0.1924514354517153, 'learning_rate': 6.129258049463369e-07, 'completion_length': 407.7589416503906, 'rewards/only_full_func_accuracy_reward': 0.8489583134651184, 'rewards/format_reward': 1.0, 'reward': 1.848958432674408, 'reward_std': 0.02170407399535179, 'kl': 0.0491943359375, 'epoch': 0.39}
+ 39%|███▊      | 1659/4286 [10:45:37<18:17:03, 25.06s/it] 39%|███▊      | 1660/4286 [10:46:01<18:02:45, 24.74s/it]                                                         {'loss': 0.0064, 'grad_norm': 0.6002549207676181, 'learning_rate': 6.126924871675221e-07, 'completion_length': 410.58929443359375, 'rewards/only_full_func_accuracy_reward': 0.7180060148239136, 'rewards/format_reward': 1.0, 'reward': 1.7180060744285583, 'reward_std': 0.01791307609528303, 'kl': 0.1611328125, 'epoch': 0.39}
+ 39%|███▊      | 1660/4286 [10:46:01<18:02:45, 24.74s/it] 39%|███▉      | 1661/4286 [10:46:25<18:01:02, 24.71s/it]                                                         {'loss': 0.0044, 'grad_norm': 0.3166924659211181, 'learning_rate': 6.124591693887073e-07, 'completion_length': 438.8660888671875, 'rewards/only_full_func_accuracy_reward': 0.6056548357009888, 'rewards/format_reward': 1.0, 'reward': 1.6056548953056335, 'reward_std': 0.02494950406253338, 'kl': 0.1092529296875, 'epoch': 0.39}
+ 39%|███▉      | 1661/4286 [10:46:25<18:01:02, 24.71s/it] 39%|███▉      | 1662/4286 [10:46:50<17:54:59, 24.58s/it]                                                         {'loss': 0.0111, 'grad_norm': 0.3629014827520454, 'learning_rate': 6.122258516098926e-07, 'completion_length': 451.2232360839844, 'rewards/only_full_func_accuracy_reward': 0.5825892984867096, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5736608505249023, 'reward_std': 0.13246634975075722, 'kl': 0.2786865234375, 'epoch': 0.39}
+ 39%|███▉      | 1662/4286 [10:46:50<17:54:59, 24.58s/it] 39%|███▉      | 1663/4286 [10:47:15<18:05:56, 24.84s/it]                                                         {'loss': 0.0018, 'grad_norm': 0.4071992729292615, 'learning_rate': 6.119925338310779e-07, 'completion_length': 432.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.7581845223903656, 'rewards/format_reward': 1.0, 'reward': 1.7581846117973328, 'reward_std': 0.04065725393593311, 'kl': 0.045654296875, 'epoch': 0.39}
+ 39%|███▉      | 1663/4286 [10:47:15<18:05:56, 24.84s/it] 39%|███▉      | 1664/4286 [10:47:38<17:43:26, 24.34s/it]                                                         {'loss': 0.002, 'grad_norm': 0.13311747925602874, 'learning_rate': 6.117592160522631e-07, 'completion_length': 370.02679443359375, 'rewards/only_full_func_accuracy_reward': 0.6004464477300644, 'rewards/format_reward': 1.0, 'reward': 1.6004465222358704, 'reward_std': 0.009241949766874313, 'kl': 0.0491943359375, 'epoch': 0.39}
+ 39%|███▉      | 1664/4286 [10:47:38<17:43:26, 24.34s/it] 39%|███▉      | 1665/4286 [10:48:03<17:47:09, 24.43s/it]                                                         {'loss': 0.0295, 'grad_norm': 0.7226898185270086, 'learning_rate': 6.115258982734484e-07, 'completion_length': 445.9107360839844, 'rewards/only_full_func_accuracy_reward': 0.8645833730697632, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.8467262983322144, 'reward_std': 0.11511736363172531, 'kl': 0.73828125, 'epoch': 0.39}
+ 39%|███▉      | 1665/4286 [10:48:03<17:47:09, 24.43s/it] 39%|███▉      | 1666/4286 [10:48:28<17:58:57, 24.71s/it]                                                         {'loss': 0.0014, 'grad_norm': 0.37429651877459813, 'learning_rate': 6.112925804946336e-07, 'completion_length': 482.48216247558594, 'rewards/only_full_func_accuracy_reward': 0.5610119253396988, 'rewards/format_reward': 1.0, 'reward': 1.561012089252472, 'reward_std': 0.09027362428605556, 'kl': 0.0350341796875, 'epoch': 0.39}
+ 39%|███▉      | 1666/4286 [10:48:28<17:58:57, 24.71s/it] 39%|███▉      | 1667/4286 [10:48:54<18:14:09, 25.07s/it]                                                         {'loss': 0.0137, 'grad_norm': 0.3488179114853961, 'learning_rate': 6.110592627158189e-07, 'completion_length': 482.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.7031250894069672, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6941965818405151, 'reward_std': 0.08522112295031548, 'kl': 0.34130859375, 'epoch': 0.39}
+ 39%|███▉      | 1667/4286 [10:48:54<18:14:09, 25.07s/it] 39%|███▉      | 1668/4286 [10:49:18<18:02:15, 24.80s/it]                                                         {'loss': 0.0175, 'grad_norm': 0.706085989699058, 'learning_rate': 6.108259449370041e-07, 'completion_length': 423.8839416503906, 'rewards/only_full_func_accuracy_reward': 0.6867560148239136, 'rewards/format_reward': 1.0, 'reward': 1.6867560744285583, 'reward_std': 0.07528254017233849, 'kl': 0.4359130859375, 'epoch': 0.39}
+ 39%|███▉      | 1668/4286 [10:49:18<18:02:15, 24.80s/it] 39%|███▉      | 1669/4286 [10:49:44<18:14:15, 25.09s/it]                                                         {'loss': 0.0106, 'grad_norm': 0.5115085048997527, 'learning_rate': 6.105926271581894e-07, 'completion_length': 447.2232360839844, 'rewards/only_full_func_accuracy_reward': 0.6055060029029846, 'rewards/format_reward': 1.0, 'reward': 1.6055060029029846, 'reward_std': 0.07493108324706554, 'kl': 0.2642822265625, 'epoch': 0.39}
+ 39%|███▉      | 1669/4286 [10:49:44<18:14:15, 25.09s/it] 39%|███▉      | 1670/4286 [10:50:10<18:22:12, 25.28s/it]                                                         {'loss': 0.0509, 'grad_norm': 0.7767670880015446, 'learning_rate': 6.103593093793746e-07, 'completion_length': 433.6339416503906, 'rewards/only_full_func_accuracy_reward': 0.7452806234359741, 'rewards/format_reward': 0.973214328289032, 'reward': 1.718494951725006, 'reward_std': 0.1738758683204651, 'kl': 1.26953125, 'epoch': 0.39}
+ 39%|███▉      | 1670/4286 [10:50:10<18:22:12, 25.28s/it] 39%|███▉      | 1671/4286 [10:50:35<18:18:31, 25.21s/it]                                                         {'loss': 0.026, 'grad_norm': 0.6359978423897871, 'learning_rate': 6.101259916005598e-07, 'completion_length': 428.8393096923828, 'rewards/only_full_func_accuracy_reward': 0.6867559850215912, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.677827537059784, 'reward_std': 0.1174374558031559, 'kl': 0.65234375, 'epoch': 0.39}
+ 39%|███▉      | 1671/4286 [10:50:35<18:18:31, 25.21s/it] 39%|███▉      | 1672/4286 [10:50:58<17:56:55, 24.72s/it]                                                         {'loss': 0.0461, 'grad_norm': 0.6517525732472433, 'learning_rate': 6.098926738217452e-07, 'completion_length': 397.5982360839844, 'rewards/only_full_func_accuracy_reward': 0.7291667461395264, 'rewards/format_reward': 0.973214328289032, 'reward': 1.7023810744285583, 'reward_std': 0.13468701392412186, 'kl': 1.158203125, 'epoch': 0.39}
+ 39%|███▉      | 1672/4286 [10:50:58<17:56:55, 24.72s/it] 39%|███▉      | 1673/4286 [10:51:25<18:17:50, 25.21s/it]                                                         {'loss': 0.0751, 'grad_norm': 1.0898284986553766, 'learning_rate': 6.096593560429304e-07, 'completion_length': 526.8125152587891, 'rewards/only_full_func_accuracy_reward': 0.6049107313156128, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.5691965222358704, 'reward_std': 0.2145879566669464, 'kl': 1.875, 'epoch': 0.39}
+ 39%|███▉      | 1673/4286 [10:51:25<18:17:50, 25.21s/it] 39%|███▉      | 1674/4286 [10:51:51<18:32:40, 25.56s/it]                                                         {'loss': 0.0467, 'grad_norm': 1.5423511300439694, 'learning_rate': 6.094260382641156e-07, 'completion_length': 484.1964569091797, 'rewards/only_full_func_accuracy_reward': 0.6383928954601288, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6294643878936768, 'reward_std': 0.10694645158946514, 'kl': 1.167724609375, 'epoch': 0.39}
+ 39%|███▉      | 1674/4286 [10:51:51<18:32:40, 25.56s/it] 39%|███▉      | 1675/4286 [10:52:16<18:29:17, 25.49s/it]                                                         {'loss': 0.1169, 'grad_norm': 1.3925608723993725, 'learning_rate': 6.09192720485301e-07, 'completion_length': 461.48216247558594, 'rewards/only_full_func_accuracy_reward': 0.5936437249183655, 'rewards/format_reward': 0.9464285969734192, 'reward': 1.5400723218917847, 'reward_std': 0.2597164809703827, 'kl': 2.92578125, 'epoch': 0.39}
+ 39%|███▉      | 1675/4286 [10:52:16<18:29:17, 25.49s/it] 39%|███▉      | 1676/4286 [10:52:43<18:42:35, 25.81s/it]                                                         {'loss': 0.0632, 'grad_norm': 1.121088604939565, 'learning_rate': 6.089594027064862e-07, 'completion_length': 535.5000305175781, 'rewards/only_full_func_accuracy_reward': 0.5870536267757416, 'rewards/format_reward': 0.973214328289032, 'reward': 1.560267984867096, 'reward_std': 0.18945566564798355, 'kl': 1.587890625, 'epoch': 0.39}
+ 39%|███▉      | 1676/4286 [10:52:43<18:42:35, 25.81s/it] 39%|███▉      | 1677/4286 [10:53:08<18:37:39, 25.70s/it]                                                         {'loss': 0.0513, 'grad_norm': 0.8701902592550582, 'learning_rate': 6.087260849276714e-07, 'completion_length': 468.9375305175781, 'rewards/only_full_func_accuracy_reward': 0.7312500476837158, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.6955357789993286, 'reward_std': 0.19263028353452682, 'kl': 1.28125, 'epoch': 0.39}
+ 39%|███▉      | 1677/4286 [10:53:08<18:37:39, 25.70s/it] 39%|███▉      | 1678/4286 [10:53:34<18:38:29, 25.73s/it]                                                         {'loss': 0.0929, 'grad_norm': 2.230681052147092, 'learning_rate': 6.084927671488567e-07, 'completion_length': 488.4375305175781, 'rewards/only_full_func_accuracy_reward': 0.7321428954601288, 'rewards/format_reward': 0.9553571939468384, 'reward': 1.6875001788139343, 'reward_std': 0.2132716253399849, 'kl': 2.32421875, 'epoch': 0.39}
+ 39%|███▉      | 1678/4286 [10:53:34<18:38:29, 25.73s/it] 39%|███▉      | 1679/4286 [10:53:58<18:13:25, 25.17s/it]                                                         {'loss': 0.0031, 'grad_norm': 0.9798265656939043, 'learning_rate': 6.082594493700419e-07, 'completion_length': 426.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.7752976715564728, 'rewards/format_reward': 1.0, 'reward': 1.7752978205680847, 'reward_std': 0.09330903366208076, 'kl': 0.077392578125, 'epoch': 0.39}
+ 39%|███▉      | 1679/4286 [10:53:58<18:13:25, 25.17s/it] 39%|███▉      | 1680/4286 [10:54:23<18:09:15, 25.08s/it]                                                         {'loss': 0.0388, 'grad_norm': 1.2128329607468586, 'learning_rate': 6.080261315912272e-07, 'completion_length': 447.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.7053572237491608, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6875000596046448, 'reward_std': 0.16770348697900772, 'kl': 0.97265625, 'epoch': 0.39}
+ 39%|███▉      | 1680/4286 [10:54:23<18:09:15, 25.08s/it] 39%|███▉      | 1681/4286 [10:54:48<18:13:44, 25.19s/it]                                                         {'loss': 0.0285, 'grad_norm': 0.48971871434820324, 'learning_rate': 6.077928138124124e-07, 'completion_length': 470.3393096923828, 'rewards/only_full_func_accuracy_reward': 0.7694940567016602, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7516369819641113, 'reward_std': 0.1296011470258236, 'kl': 0.712890625, 'epoch': 0.39}
+ 39%|███▉      | 1681/4286 [10:54:48<18:13:44, 25.19s/it] 39%|███▉      | 1682/4286 [10:55:15<18:27:34, 25.52s/it]                                                         {'loss': 0.0895, 'grad_norm': 1.345044511703343, 'learning_rate': 6.075594960335977e-07, 'completion_length': 504.7857360839844, 'rewards/only_full_func_accuracy_reward': 0.735119104385376, 'rewards/format_reward': 0.9464286267757416, 'reward': 1.68154776096344, 'reward_std': 0.30235758423805237, 'kl': 2.234375, 'epoch': 0.39}
+ 39%|███▉      | 1682/4286 [10:55:15<18:27:34, 25.52s/it] 39%|███▉      | 1683/4286 [10:55:38<18:02:06, 24.94s/it]                                                         {'loss': 0.0599, 'grad_norm': 1.378725756922302, 'learning_rate': 6.073261782547829e-07, 'completion_length': 371.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.6681548058986664, 'rewards/format_reward': 0.973214328289032, 'reward': 1.6413691639900208, 'reward_std': 0.1752474494278431, 'kl': 1.498046875, 'epoch': 0.39}
+ 39%|███▉      | 1683/4286 [10:55:38<18:02:06, 24.94s/it] 39%|███▉      | 1684/4286 [10:56:03<17:57:47, 24.85s/it]                                                         {'loss': 0.1215, 'grad_norm': 1.750496949847523, 'learning_rate': 6.070928604759682e-07, 'completion_length': 423.4107360839844, 'rewards/only_full_func_accuracy_reward': 0.6581845581531525, 'rewards/format_reward': 0.9464286267757416, 'reward': 1.6046132445335388, 'reward_std': 0.3363278657197952, 'kl': 3.03125, 'epoch': 0.39}
+ 39%|███▉      | 1684/4286 [10:56:03<17:57:47, 24.85s/it] 39%|███▉      | 1685/4286 [10:56:31<18:37:13, 25.77s/it]                                                         {'loss': 0.1357, 'grad_norm': 1.5979262044611424, 'learning_rate': 6.068595426971535e-07, 'completion_length': 533.8035888671875, 'rewards/only_full_func_accuracy_reward': 0.7299107313156128, 'rewards/format_reward': 0.9375000298023224, 'reward': 1.6674108505249023, 'reward_std': 0.30705010145902634, 'kl': 3.390625, 'epoch': 0.39}
+ 39%|███▉      | 1685/4286 [10:56:31<18:37:13, 25.77s/it] 39%|███▉      | 1686/4286 [10:56:56<18:25:20, 25.51s/it]                                                         {'loss': 0.1223, 'grad_norm': 2.2912108038786028, 'learning_rate': 6.066262249183387e-07, 'completion_length': 405.1339569091797, 'rewards/only_full_func_accuracy_reward': 0.6939980685710907, 'rewards/format_reward': 0.9285714626312256, 'reward': 1.6225695610046387, 'reward_std': 0.33082421123981476, 'kl': 3.046875, 'epoch': 0.39}
+ 39%|███▉      | 1686/4286 [10:56:56<18:25:20, 25.51s/it] 39%|███▉      | 1687/4286 [10:57:20<18:10:00, 25.16s/it]                                                         {'loss': 0.1297, 'grad_norm': 2.7905662067960026, 'learning_rate': 6.063929071395239e-07, 'completion_length': 453.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.6093750298023224, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.5736607909202576, 'reward_std': 0.26567014306783676, 'kl': 3.2421875, 'epoch': 0.39}
+ 39%|███▉      | 1687/4286 [10:57:20<18:10:00, 25.16s/it] 39%|███▉      | 1688/4286 [10:57:46<18:13:55, 25.26s/it]                                                         {'loss': 0.0866, 'grad_norm': 0.8776906182865007, 'learning_rate': 6.061595893607093e-07, 'completion_length': 461.2232360839844, 'rewards/only_full_func_accuracy_reward': 0.7403274178504944, 'rewards/format_reward': 0.9375000298023224, 'reward': 1.6778274774551392, 'reward_std': 0.2923904284834862, 'kl': 2.16796875, 'epoch': 0.39}
+ 39%|███▉      | 1688/4286 [10:57:46<18:13:55, 25.26s/it] 39%|███▉      | 1689/4286 [10:58:12<18:23:56, 25.51s/it]                                                         {'loss': 0.1062, 'grad_norm': 1.4290607551419352, 'learning_rate': 6.059262715818945e-07, 'completion_length': 495.8393249511719, 'rewards/only_full_func_accuracy_reward': 0.5014880895614624, 'rewards/format_reward': 0.928571492433548, 'reward': 1.4300596714019775, 'reward_std': 0.23196502774953842, 'kl': 2.65234375, 'epoch': 0.39}
+ 39%|███▉      | 1689/4286 [10:58:12<18:23:56, 25.51s/it] 39%|███▉      | 1690/4286 [10:58:37<18:27:16, 25.59s/it]                                                         {'loss': 0.0327, 'grad_norm': 0.7825030192135037, 'learning_rate': 6.056929538030797e-07, 'completion_length': 450.61610412597656, 'rewards/only_full_func_accuracy_reward': 0.6912202537059784, 'rewards/format_reward': 1.0, 'reward': 1.6912203431129456, 'reward_std': 0.06785105355083942, 'kl': 0.81640625, 'epoch': 0.39}
+ 39%|███▉      | 1690/4286 [10:58:37<18:27:16, 25.59s/it] 39%|███▉      | 1691/4286 [10:59:04<18:39:17, 25.88s/it]                                                         {'loss': 0.0798, 'grad_norm': 1.264498805382387, 'learning_rate': 6.054596360242649e-07, 'completion_length': 497.3839569091797, 'rewards/only_full_func_accuracy_reward': 0.5038265436887741, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.468112289905548, 'reward_std': 0.17557386681437492, 'kl': 1.9910888671875, 'epoch': 0.39}
+ 39%|███▉      | 1691/4286 [10:59:04<18:39:17, 25.88s/it] 39%|███▉      | 1692/4286 [10:59:29<18:27:43, 25.62s/it]                                                         {'loss': 0.0148, 'grad_norm': 1.5265569304943165, 'learning_rate': 6.052263182454503e-07, 'completion_length': 456.60716247558594, 'rewards/only_full_func_accuracy_reward': 0.660714328289032, 'rewards/format_reward': 1.0, 'reward': 1.6607143878936768, 'reward_std': 0.07989940419793129, 'kl': 0.3697509765625, 'epoch': 0.39}
+ 39%|███▉      | 1692/4286 [10:59:29<18:27:43, 25.62s/it] 40%|███▉      | 1693/4286 [10:59:53<18:04:11, 25.09s/it]                                                         {'loss': 0.0881, 'grad_norm': 0.5200867781444762, 'learning_rate': 6.049930004666355e-07, 'completion_length': 411.3214569091797, 'rewards/only_full_func_accuracy_reward': 0.689732164144516, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6718750596046448, 'reward_std': 0.16701197810471058, 'kl': 2.2069091796875, 'epoch': 0.4}
+ 40%|███▉      | 1693/4286 [10:59:53<18:04:11, 25.09s/it] 40%|███▉      | 1694/4286 [11:00:18<18:11:08, 25.26s/it]                                                         {'loss': 0.0241, 'grad_norm': 0.7993931576709976, 'learning_rate': 6.047596826878207e-07, 'completion_length': 462.6339416503906, 'rewards/only_full_func_accuracy_reward': 0.619047611951828, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6011905670166016, 'reward_std': 0.13662857189774513, 'kl': 0.603759765625, 'epoch': 0.4}
+ 40%|███▉      | 1694/4286 [11:00:18<18:11:08, 25.26s/it] 40%|███▉      | 1695/4286 [11:00:46<18:43:28, 26.02s/it]                                                         {'loss': 0.0013, 'grad_norm': 0.4406767333620914, 'learning_rate': 6.04526364909006e-07, 'completion_length': 549.0892944335938, 'rewards/only_full_func_accuracy_reward': 0.6927084028720856, 'rewards/format_reward': 1.0, 'reward': 1.692708432674408, 'reward_std': 0.06466924585402012, 'kl': 0.032958984375, 'epoch': 0.4}
+ 40%|███▉      | 1695/4286 [11:00:46<18:43:28, 26.02s/it] 40%|███▉      | 1696/4286 [11:01:13<18:46:12, 26.09s/it]                                                         {'loss': 0.0014, 'grad_norm': 0.3128391291977426, 'learning_rate': 6.042930471301912e-07, 'completion_length': 499.6964416503906, 'rewards/only_full_func_accuracy_reward': 0.6450892984867096, 'rewards/format_reward': 1.0, 'reward': 1.645089328289032, 'reward_std': 0.04358649626374245, 'kl': 0.034912109375, 'epoch': 0.4}
+ 40%|███▉      | 1696/4286 [11:01:13<18:46:12, 26.09s/it] 40%|███▉      | 1697/4286 [11:01:37<18:20:23, 25.50s/it]                                                         {'loss': 0.0018, 'grad_norm': 0.18375933674422967, 'learning_rate': 6.040597293513765e-07, 'completion_length': 389.1339569091797, 'rewards/only_full_func_accuracy_reward': 0.803571492433548, 'rewards/format_reward': 1.0, 'reward': 1.8035715222358704, 'reward_std': 0.02374839410185814, 'kl': 0.04541015625, 'epoch': 0.4}
+ 40%|███▉      | 1697/4286 [11:01:37<18:20:23, 25.50s/it] 40%|███▉      | 1698/4286 [11:02:02<18:18:20, 25.46s/it]                                                         {'loss': 0.0382, 'grad_norm': 0.8516738747435354, 'learning_rate': 6.038264115725618e-07, 'completion_length': 476.0803985595703, 'rewards/only_full_func_accuracy_reward': 0.6696428954601288, 'rewards/format_reward': 0.973214328289032, 'reward': 1.6428572535514832, 'reward_std': 0.15414800494909286, 'kl': 0.9539794921875, 'epoch': 0.4}
+ 40%|███▉      | 1698/4286 [11:02:02<18:18:20, 25.46s/it] 40%|███▉      | 1699/4286 [11:02:28<18:21:07, 25.54s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.07822657856479143, 'learning_rate': 6.03593093793747e-07, 'completion_length': 494.2946472167969, 'rewards/only_full_func_accuracy_reward': 0.7723214626312256, 'rewards/format_reward': 1.0, 'reward': 1.7723215818405151, 'reward_std': 0.004208967089653015, 'kl': 0.03631591796875, 'epoch': 0.4}
+ 40%|███▉      | 1699/4286 [11:02:28<18:21:07, 25.54s/it] 40%|███▉      | 1700/4286 [11:02:55<18:41:27, 26.02s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.3868835183925554, 'learning_rate': 6.033597760149322e-07, 'completion_length': 483.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.6142112910747528, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6052827835083008, 'reward_std': 0.0668132770806551, 'kl': 0.03692626953125, 'epoch': 0.4}
+ 40%|███▉      | 1700/4286 [11:02:55<18:41:27, 26.02s/it] 40%|███▉      | 1701/4286 [11:04:22<31:54:12, 44.43s/it]                                                         {'loss': 0.0112, 'grad_norm': 0.9982042135113133, 'learning_rate': 6.031264582361176e-07, 'completion_length': 512.8125305175781, 'rewards/only_full_func_accuracy_reward': 0.7648809850215912, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.755952537059784, 'reward_std': 0.08092445693910122, 'kl': 0.27978515625, 'epoch': 0.4}
+ 40%|███▉      | 1701/4286 [11:04:22<31:54:12, 44.43s/it] 40%|███▉      | 1702/4286 [11:04:47<27:37:22, 38.48s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.23465893825825357, 'learning_rate': 6.028931404573028e-07, 'completion_length': 448.3393096923828, 'rewards/only_full_func_accuracy_reward': 0.6808035671710968, 'rewards/format_reward': 1.0, 'reward': 1.680803656578064, 'reward_std': 0.02006746595725417, 'kl': 0.037353515625, 'epoch': 0.4}
+ 40%|███▉      | 1702/4286 [11:04:47<27:37:22, 38.48s/it] 40%|███▉      | 1703/4286 [11:05:15<25:20:11, 35.31s/it]                                                         {'loss': 0.0023, 'grad_norm': 0.7239131188407657, 'learning_rate': 6.02659822678488e-07, 'completion_length': 581.9375305175781, 'rewards/only_full_func_accuracy_reward': 0.7187500596046448, 'rewards/format_reward': 1.0, 'reward': 1.7187501192092896, 'reward_std': 0.05666638072580099, 'kl': 0.05712890625, 'epoch': 0.4}
+ 40%|███▉      | 1703/4286 [11:05:15<25:20:11, 35.31s/it] 40%|███▉      | 1704/4286 [11:05:41<23:20:07, 32.54s/it]                                                         {'loss': 0.0035, 'grad_norm': 0.6047009713354947, 'learning_rate': 6.024265048996732e-07, 'completion_length': 474.83929443359375, 'rewards/only_full_func_accuracy_reward': 0.783482164144516, 'rewards/format_reward': 1.0, 'reward': 1.783482313156128, 'reward_std': 0.05481466092169285, 'kl': 0.0869140625, 'epoch': 0.4}
+ 40%|███▉      | 1704/4286 [11:05:41<23:20:07, 32.54s/it] 40%|███▉      | 1705/4286 [11:06:04<21:20:03, 29.76s/it]                                                         {'loss': 0.0215, 'grad_norm': 1.2437339155710274, 'learning_rate': 6.021931871208586e-07, 'completion_length': 407.0714416503906, 'rewards/only_full_func_accuracy_reward': 0.6726190149784088, 'rewards/format_reward': 1.0, 'reward': 1.6726191639900208, 'reward_std': 0.0, 'kl': 0.5380859375, 'epoch': 0.4}
+ 40%|███▉      | 1705/4286 [11:06:04<21:20:03, 29.76s/it] 40%|███▉      | 1706/4286 [11:06:28<20:09:48, 28.14s/it]                                                         {'loss': 0.0029, 'grad_norm': 0.32396953367690495, 'learning_rate': 6.019598693420438e-07, 'completion_length': 405.01788330078125, 'rewards/only_full_func_accuracy_reward': 0.7061012387275696, 'rewards/format_reward': 1.0, 'reward': 1.7061012983322144, 'reward_std': 0.0807551946491003, 'kl': 0.07275390625, 'epoch': 0.4}
+ 40%|███▉      | 1706/4286 [11:06:28<20:09:48, 28.14s/it] 40%|███▉      | 1707/4286 [11:06:54<19:41:50, 27.50s/it]                                                         {'loss': 0.0118, 'grad_norm': 0.7858573132100252, 'learning_rate': 6.01726551563229e-07, 'completion_length': 505.5357360839844, 'rewards/only_full_func_accuracy_reward': 0.677827388048172, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6688989400863647, 'reward_std': 0.09374147281050682, 'kl': 0.296630859375, 'epoch': 0.4}
+ 40%|███▉      | 1707/4286 [11:06:54<19:41:50, 27.50s/it] 40%|███▉      | 1708/4286 [11:07:20<19:10:10, 26.77s/it]                                                         {'loss': 0.0018, 'grad_norm': 1.11114126912929, 'learning_rate': 6.014932337844143e-07, 'completion_length': 422.9732360839844, 'rewards/only_full_func_accuracy_reward': 0.8430059850215912, 'rewards/format_reward': 1.0, 'reward': 1.8430060744285583, 'reward_std': 0.014579704962670803, 'kl': 0.04541015625, 'epoch': 0.4}
+ 40%|███▉      | 1708/4286 [11:07:20<19:10:10, 26.77s/it] 40%|███▉      | 1709/4286 [11:07:46<19:03:56, 26.63s/it]                                                         {'loss': 0.0017, 'grad_norm': 0.14121340277894198, 'learning_rate': 6.012599160055996e-07, 'completion_length': 483.1696472167969, 'rewards/only_full_func_accuracy_reward': 0.772321492433548, 'rewards/format_reward': 1.0, 'reward': 1.7723215818405151, 'reward_std': 0.015230637043714523, 'kl': 0.04248046875, 'epoch': 0.4}
+ 40%|███▉      | 1709/4286 [11:07:46<19:03:56, 26.63s/it] 40%|███▉      | 1710/4286 [11:08:11<18:43:00, 26.16s/it]                                                         {'loss': 0.0115, 'grad_norm': 0.3701737094536266, 'learning_rate': 6.010265982267848e-07, 'completion_length': 487.46429443359375, 'rewards/only_full_func_accuracy_reward': 0.4880952537059784, 'rewards/format_reward': 1.0, 'reward': 1.4880953431129456, 'reward_std': 0.03844917472451925, 'kl': 0.289794921875, 'epoch': 0.4}
+ 40%|███▉      | 1710/4286 [11:08:11<18:43:00, 26.16s/it] 40%|███▉      | 1711/4286 [11:08:36<18:22:53, 25.70s/it]                                                         {'loss': 0.002, 'grad_norm': 0.14534692701536242, 'learning_rate': 6.007932804479701e-07, 'completion_length': 438.0714416503906, 'rewards/only_full_func_accuracy_reward': 0.8147321939468384, 'rewards/format_reward': 1.0, 'reward': 1.8147322535514832, 'reward_std': 0.009241949766874313, 'kl': 0.0494384765625, 'epoch': 0.4}
+ 40%|███▉      | 1711/4286 [11:08:36<18:22:53, 25.70s/it] 40%|███▉      | 1712/4286 [11:09:00<18:11:01, 25.43s/it]                                                         {'loss': 0.0339, 'grad_norm': 0.47956426487933407, 'learning_rate': 6.005599626691553e-07, 'completion_length': 437.83929443359375, 'rewards/only_full_func_accuracy_reward': 0.6742560267448425, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6653274893760681, 'reward_std': 0.08117064833641052, 'kl': 0.84765625, 'epoch': 0.4}
+ 40%|███▉      | 1712/4286 [11:09:00<18:11:01, 25.43s/it] 40%|███▉      | 1713/4286 [11:09:25<17:57:03, 25.12s/it]                                                         {'loss': 0.0017, 'grad_norm': 0.1941117582188618, 'learning_rate': 6.003266448903406e-07, 'completion_length': 458.1518096923828, 'rewards/only_full_func_accuracy_reward': 0.8452381491661072, 'rewards/format_reward': 1.0, 'reward': 1.845238208770752, 'reward_std': 0.017757561057806015, 'kl': 0.0419921875, 'epoch': 0.4}
+ 40%|███▉      | 1713/4286 [11:09:25<17:57:03, 25.12s/it] 40%|███▉      | 1714/4286 [11:09:50<17:59:47, 25.19s/it]                                                         {'loss': 0.0016, 'grad_norm': 0.5868109906424358, 'learning_rate': 6.000933271115258e-07, 'completion_length': 461.1607360839844, 'rewards/only_full_func_accuracy_reward': 0.8608631193637848, 'rewards/format_reward': 1.0, 'reward': 1.860863208770752, 'reward_std': 0.02705399040132761, 'kl': 0.038818359375, 'epoch': 0.4}
+ 40%|███▉      | 1714/4286 [11:09:50<17:59:47, 25.19s/it] 40%|████      | 1715/4286 [11:10:16<18:07:54, 25.39s/it]                                                         {'loss': 0.0049, 'grad_norm': 1.6006863153950996, 'learning_rate': 5.998600093327111e-07, 'completion_length': 473.0982360839844, 'rewards/only_full_func_accuracy_reward': 0.7075892984867096, 'rewards/format_reward': 1.0, 'reward': 1.7075893878936768, 'reward_std': 0.05200536921620369, 'kl': 0.123046875, 'epoch': 0.4}
+ 40%|████      | 1715/4286 [11:10:16<18:07:54, 25.39s/it] 40%|████      | 1716/4286 [11:10:42<18:14:49, 25.56s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.22069936467533421, 'learning_rate': 5.996266915538963e-07, 'completion_length': 478.2232360839844, 'rewards/only_full_func_accuracy_reward': 0.7038691341876984, 'rewards/format_reward': 1.0, 'reward': 1.703869104385376, 'reward_std': 0.020741470158100128, 'kl': 0.0372314453125, 'epoch': 0.4}
+ 40%|████      | 1716/4286 [11:10:42<18:14:49, 25.56s/it] 40%|████      | 1717/4286 [11:11:07<18:07:55, 25.41s/it]                                                         {'loss': 0.0017, 'grad_norm': 0.27604198771134125, 'learning_rate': 5.993933737750816e-07, 'completion_length': 434.9375305175781, 'rewards/only_full_func_accuracy_reward': 0.7723214328289032, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.763392984867096, 'reward_std': 0.06843970343470573, 'kl': 0.0428466796875, 'epoch': 0.4}
+ 40%|████      | 1717/4286 [11:11:07<18:07:55, 25.41s/it] 40%|████      | 1718/4286 [11:11:31<17:47:43, 24.95s/it]                                                         {'loss': 0.0022, 'grad_norm': 0.2428840358614968, 'learning_rate': 5.991600559962669e-07, 'completion_length': 417.7410888671875, 'rewards/only_full_func_accuracy_reward': 0.6979167461395264, 'rewards/format_reward': 1.0, 'reward': 1.6979168057441711, 'reward_std': 0.05135972239077091, 'kl': 0.0555419921875, 'epoch': 0.4}
+ 40%|████      | 1718/4286 [11:11:31<17:47:43, 24.95s/it] 40%|████      | 1719/4286 [11:11:58<18:11:05, 25.50s/it]                                                         {'loss': 0.0104, 'grad_norm': 0.4723046617324657, 'learning_rate': 5.989267382174521e-07, 'completion_length': 471.48216247558594, 'rewards/only_full_func_accuracy_reward': 0.6639695465564728, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6461124420166016, 'reward_std': 0.13772669062018394, 'kl': 0.2601318359375, 'epoch': 0.4}
+ 40%|████      | 1719/4286 [11:11:58<18:11:05, 25.50s/it] 40%|████      | 1720/4286 [11:12:22<18:01:27, 25.29s/it]                                                         {'loss': 0.014, 'grad_norm': 0.5713454848624514, 'learning_rate': 5.986934204386373e-07, 'completion_length': 403.4464416503906, 'rewards/only_full_func_accuracy_reward': 0.6089285910129547, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6000001430511475, 'reward_std': 0.09690046310424805, 'kl': 0.351318359375, 'epoch': 0.4}
+ 40%|████      | 1720/4286 [11:12:22<18:01:27, 25.29s/it] 40%|████      | 1721/4286 [11:12:47<17:55:46, 25.16s/it]                                                         {'loss': 0.0139, 'grad_norm': 1.1991204310875405, 'learning_rate': 5.984601026598227e-07, 'completion_length': 410.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.5714285969734192, 'rewards/format_reward': 1.0, 'reward': 1.571428656578064, 'reward_std': 0.011021670885384083, 'kl': 0.3453369140625, 'epoch': 0.4}
+ 40%|████      | 1721/4286 [11:12:47<17:55:46, 25.16s/it] 40%|████      | 1722/4286 [11:13:10<17:29:55, 24.57s/it]                                                         {'loss': 0.0103, 'grad_norm': 0.5850318077705917, 'learning_rate': 5.982267848810079e-07, 'completion_length': 397.0357208251953, 'rewards/only_full_func_accuracy_reward': 0.7276785969734192, 'rewards/format_reward': 1.0, 'reward': 1.727678656578064, 'reward_std': 0.0669420063495636, 'kl': 0.257080078125, 'epoch': 0.4}
+ 40%|████      | 1722/4286 [11:13:10<17:29:55, 24.57s/it] 40%|████      | 1723/4286 [11:13:33<16:58:30, 23.84s/it]                                                         {'loss': 0.0195, 'grad_norm': 0.4223596639655041, 'learning_rate': 5.979934671021931e-07, 'completion_length': 363.3303680419922, 'rewards/only_full_func_accuracy_reward': 0.6994048058986664, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6815477013587952, 'reward_std': 0.09213508665561676, 'kl': 0.486328125, 'epoch': 0.4}
+ 40%|████      | 1723/4286 [11:13:33<16:58:30, 23.84s/it] 40%|████      | 1724/4286 [11:13:57<17:06:08, 24.03s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.4148911644937806, 'learning_rate': 5.977601493233784e-07, 'completion_length': 438.4464569091797, 'rewards/only_full_func_accuracy_reward': 0.7537202537059784, 'rewards/format_reward': 1.0, 'reward': 1.7537204027175903, 'reward_std': 0.043281255289912224, 'kl': 0.037109375, 'epoch': 0.4}
+ 40%|████      | 1724/4286 [11:13:57<17:06:08, 24.03s/it] 40%|████      | 1725/4286 [11:14:22<17:12:20, 24.19s/it]                                                         {'loss': 0.0168, 'grad_norm': 2.7924593920667196, 'learning_rate': 5.975268315445636e-07, 'completion_length': 430.8482360839844, 'rewards/only_full_func_accuracy_reward': 0.743898868560791, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7349703907966614, 'reward_std': 0.11042125523090363, 'kl': 0.41943359375, 'epoch': 0.4}
+ 40%|████      | 1725/4286 [11:14:22<17:12:20, 24.19s/it] 40%|████      | 1726/4286 [11:14:46<17:12:31, 24.20s/it]                                                         {'loss': 0.0066, 'grad_norm': 1.0699000259250382, 'learning_rate': 5.972935137657489e-07, 'completion_length': 457.23216247558594, 'rewards/only_full_func_accuracy_reward': 0.8617559969425201, 'rewards/format_reward': 1.0, 'reward': 1.8617560267448425, 'reward_std': 0.04862533137202263, 'kl': 0.164306640625, 'epoch': 0.4}
+ 40%|████      | 1726/4286 [11:14:46<17:12:31, 24.20s/it] 40%|████      | 1727/4286 [11:15:12<17:32:41, 24.68s/it]                                                         {'loss': 0.0314, 'grad_norm': 0.6100715858527035, 'learning_rate': 5.970601959869341e-07, 'completion_length': 478.169677734375, 'rewards/only_full_func_accuracy_reward': 0.854166716337204, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.845238208770752, 'reward_std': 0.08441718854010105, 'kl': 0.78839111328125, 'epoch': 0.4}
+ 40%|████      | 1727/4286 [11:15:12<17:32:41, 24.68s/it] 40%|████      | 1728/4286 [11:15:35<17:12:34, 24.22s/it]                                                         {'loss': 0.0025, 'grad_norm': 0.3154402820966982, 'learning_rate': 5.968268782081194e-07, 'completion_length': 379.51788330078125, 'rewards/only_full_func_accuracy_reward': 0.6971727013587952, 'rewards/format_reward': 1.0, 'reward': 1.6971727013587952, 'reward_std': 0.042588936164975166, 'kl': 0.0633544921875, 'epoch': 0.4}
+ 40%|████      | 1728/4286 [11:15:35<17:12:34, 24.22s/it] 40%|████      | 1729/4286 [11:15:59<17:07:14, 24.10s/it]                                                         {'loss': 0.0296, 'grad_norm': 1.167236475376174, 'learning_rate': 5.965935604293046e-07, 'completion_length': 402.71429443359375, 'rewards/only_full_func_accuracy_reward': 0.7508929073810577, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.741964340209961, 'reward_std': 0.08890177868306637, 'kl': 0.740234375, 'epoch': 0.4}
+ 40%|████      | 1729/4286 [11:15:59<17:07:14, 24.10s/it] 40%|████      | 1730/4286 [11:16:22<16:57:00, 23.87s/it]                                                         {'loss': 0.005, 'grad_norm': 0.4501106093737494, 'learning_rate': 5.963602426504899e-07, 'completion_length': 395.2143096923828, 'rewards/only_full_func_accuracy_reward': 0.6755952835083008, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6666668057441711, 'reward_std': 0.06704013794660568, 'kl': 0.124267578125, 'epoch': 0.4}
+ 40%|████      | 1730/4286 [11:16:22<16:57:00, 23.87s/it] 40%|████      | 1731/4286 [11:16:48<17:26:33, 24.58s/it]                                                         {'loss': 0.0503, 'grad_norm': 1.9795737710310524, 'learning_rate': 5.961269248716752e-07, 'completion_length': 470.4107360839844, 'rewards/only_full_func_accuracy_reward': 0.5848214030265808, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.566964328289032, 'reward_std': 0.13015837967395782, 'kl': 1.255859375, 'epoch': 0.4}
+ 40%|████      | 1731/4286 [11:16:48<17:26:33, 24.58s/it] 40%|████      | 1732/4286 [11:17:13<17:27:00, 24.60s/it]                                                         {'loss': 0.0484, 'grad_norm': 0.8855229964181239, 'learning_rate': 5.958936070928604e-07, 'completion_length': 436.95538330078125, 'rewards/only_full_func_accuracy_reward': 0.6659226715564728, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6480655670166016, 'reward_std': 0.13343947753310204, 'kl': 1.20849609375, 'epoch': 0.4}
+ 40%|████      | 1732/4286 [11:17:13<17:27:00, 24.60s/it] 40%|████      | 1733/4286 [11:17:39<17:45:24, 25.04s/it]                                                         {'loss': 0.0354, 'grad_norm': 0.6771434475812249, 'learning_rate': 5.956602893140456e-07, 'completion_length': 496.16075134277344, 'rewards/only_full_func_accuracy_reward': 0.7093963027000427, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.6826106309890747, 'reward_std': 0.13763532415032387, 'kl': 0.884765625, 'epoch': 0.4}
+ 40%|████      | 1733/4286 [11:17:39<17:45:24, 25.04s/it] 40%|████      | 1734/4286 [11:18:04<17:43:27, 25.00s/it]                                                         {'loss': 0.0393, 'grad_norm': 0.7638218640326027, 'learning_rate': 5.95426971535231e-07, 'completion_length': 456.31251525878906, 'rewards/only_full_func_accuracy_reward': 0.5944941192865372, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5855656266212463, 'reward_std': 0.12772570922970772, 'kl': 0.984375, 'epoch': 0.4}
+ 40%|████      | 1734/4286 [11:18:04<17:43:27, 25.00s/it] 40%|████      | 1735/4286 [11:18:28<17:37:59, 24.88s/it]                                                         {'loss': 0.0676, 'grad_norm': 2.1916962606433628, 'learning_rate': 5.951936537564162e-07, 'completion_length': 409.0714569091797, 'rewards/only_full_func_accuracy_reward': 0.6736606955528259, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.655803620815277, 'reward_std': 0.16274375841021538, 'kl': 1.686767578125, 'epoch': 0.4}
+ 40%|████      | 1735/4286 [11:18:28<17:37:59, 24.88s/it] 41%|████      | 1736/4286 [11:18:55<17:59:44, 25.41s/it]                                                         {'loss': 0.0284, 'grad_norm': 0.9857059768332037, 'learning_rate': 5.949603359776014e-07, 'completion_length': 499.5982360839844, 'rewards/only_full_func_accuracy_reward': 0.595238134264946, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5863096117973328, 'reward_std': 0.08454237133264542, 'kl': 0.706298828125, 'epoch': 0.41}
+ 41%|████      | 1736/4286 [11:18:55<17:59:44, 25.41s/it] 41%|████      | 1737/4286 [11:19:20<17:49:34, 25.18s/it]                                                         {'loss': 0.0586, 'grad_norm': 0.8733229438349683, 'learning_rate': 5.947270181987866e-07, 'completion_length': 426.8839416503906, 'rewards/only_full_func_accuracy_reward': 0.6863095760345459, 'rewards/format_reward': 0.973214328289032, 'reward': 1.6595239639282227, 'reward_std': 0.09258878231048584, 'kl': 1.46484375, 'epoch': 0.41}
+ 41%|████      | 1737/4286 [11:19:20<17:49:34, 25.18s/it] 41%|████      | 1738/4286 [11:19:45<17:51:28, 25.23s/it]                                                         {'loss': 0.0137, 'grad_norm': 1.4693945062852865, 'learning_rate': 5.94493700419972e-07, 'completion_length': 462.9018249511719, 'rewards/only_full_func_accuracy_reward': 0.6830357313156128, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.6473215818405151, 'reward_std': 0.09705758467316628, 'kl': 0.3427734375, 'epoch': 0.41}
+ 41%|████      | 1738/4286 [11:19:45<17:51:28, 25.23s/it] 41%|████      | 1739/4286 [11:20:10<17:49:18, 25.19s/it]                                                         {'loss': 0.0178, 'grad_norm': 0.6134259076913723, 'learning_rate': 5.942603826411572e-07, 'completion_length': 459.5893096923828, 'rewards/only_full_func_accuracy_reward': 0.6755953133106232, 'rewards/format_reward': 1.0, 'reward': 1.6755953431129456, 'reward_std': 0.042089687660336494, 'kl': 0.4444580078125, 'epoch': 0.41}
+ 41%|████      | 1739/4286 [11:20:10<17:49:18, 25.19s/it] 41%|████      | 1740/4286 [11:20:37<18:09:24, 25.67s/it]                                                         {'loss': 0.0014, 'grad_norm': 0.2127085376312254, 'learning_rate': 5.940270648623424e-07, 'completion_length': 547.294677734375, 'rewards/only_full_func_accuracy_reward': 0.651041716337204, 'rewards/format_reward': 1.0, 'reward': 1.6510417461395264, 'reward_std': 0.0063134534284472466, 'kl': 0.0345458984375, 'epoch': 0.41}
+ 41%|████      | 1740/4286 [11:20:37<18:09:24, 25.67s/it] 41%|████      | 1741/4286 [11:21:02<17:54:37, 25.34s/it]                                                         {'loss': 0.0152, 'grad_norm': 0.22375235891442216, 'learning_rate': 5.937937470835277e-07, 'completion_length': 413.45538330078125, 'rewards/only_full_func_accuracy_reward': 0.7142857313156128, 'rewards/format_reward': 1.0, 'reward': 1.7142857909202576, 'reward_std': 0.04505617916584015, 'kl': 0.380615234375, 'epoch': 0.41}
+ 41%|████      | 1741/4286 [11:21:02<17:54:37, 25.34s/it] 41%|████      | 1742/4286 [11:21:27<17:55:05, 25.36s/it]                                                         {'loss': 0.0141, 'grad_norm': 0.3311127225972507, 'learning_rate': 5.93560429304713e-07, 'completion_length': 443.3393096923828, 'rewards/only_full_func_accuracy_reward': 0.6357356011867523, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6178784370422363, 'reward_std': 0.10409078374505043, 'kl': 0.350341796875, 'epoch': 0.41}
+ 41%|████      | 1742/4286 [11:21:27<17:55:05, 25.36s/it] 41%|████      | 1743/4286 [11:21:52<17:55:56, 25.39s/it]                                                         {'loss': 0.0112, 'grad_norm': 0.4341155341946664, 'learning_rate': 5.933271115258982e-07, 'completion_length': 478.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.6488095819950104, 'rewards/format_reward': 1.0, 'reward': 1.6488096117973328, 'reward_std': 0.044693414121866226, 'kl': 0.2811279296875, 'epoch': 0.41}
+ 41%|████      | 1743/4286 [11:21:52<17:55:56, 25.39s/it] 41%|████      | 1744/4286 [11:22:15<17:24:12, 24.65s/it]                                                         {'loss': 0.0017, 'grad_norm': 0.461235438723811, 'learning_rate': 5.930937937470835e-07, 'completion_length': 406.0893096923828, 'rewards/only_full_func_accuracy_reward': 0.7485119104385376, 'rewards/format_reward': 1.0, 'reward': 1.7485120296478271, 'reward_std': 0.031110807321965694, 'kl': 0.0433349609375, 'epoch': 0.41}
+ 41%|████      | 1744/4286 [11:22:15<17:24:12, 24.65s/it] 41%|████      | 1745/4286 [11:22:41<17:31:02, 24.82s/it]                                                         {'loss': 0.0405, 'grad_norm': 0.6891141990661351, 'learning_rate': 5.928604759682687e-07, 'completion_length': 485.0535888671875, 'rewards/only_full_func_accuracy_reward': 0.6514136642217636, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6335566639900208, 'reward_std': 0.11378173530101776, 'kl': 1.015625, 'epoch': 0.41}
+ 41%|████      | 1745/4286 [11:22:41<17:31:02, 24.82s/it] 41%|████      | 1746/4286 [11:23:05<17:19:57, 24.57s/it]                                                         {'loss': 0.0183, 'grad_norm': 0.6356434265377104, 'learning_rate': 5.92627158189454e-07, 'completion_length': 381.31251525878906, 'rewards/only_full_func_accuracy_reward': 0.6845238506793976, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.657738208770752, 'reward_std': 0.03696779906749725, 'kl': 0.45751953125, 'epoch': 0.41}
+ 41%|████      | 1746/4286 [11:23:05<17:19:57, 24.57s/it] 41%|████      | 1747/4286 [11:23:29<17:18:57, 24.55s/it]                                                         {'loss': 0.0109, 'grad_norm': 0.5017291129576298, 'learning_rate': 5.923938404106393e-07, 'completion_length': 416.9732360839844, 'rewards/only_full_func_accuracy_reward': 0.6725632846355438, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6636347770690918, 'reward_std': 0.07710147462785244, 'kl': 0.270751953125, 'epoch': 0.41}
+ 41%|████      | 1747/4286 [11:23:29<17:18:57, 24.55s/it] 41%|████      | 1748/4286 [11:23:55<17:33:25, 24.90s/it]                                                         {'loss': 0.0233, 'grad_norm': 0.598701380984032, 'learning_rate': 5.921605226318245e-07, 'completion_length': 490.55360412597656, 'rewards/only_full_func_accuracy_reward': 0.5691964328289032, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5602679252624512, 'reward_std': 0.08722244948148727, 'kl': 0.5802001953125, 'epoch': 0.41}
+ 41%|████      | 1748/4286 [11:23:55<17:33:25, 24.90s/it] 41%|████      | 1749/4286 [11:24:20<17:43:05, 25.14s/it]                                                         {'loss': 0.0292, 'grad_norm': 1.496862555998701, 'learning_rate': 5.919272048530097e-07, 'completion_length': 492.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.6793155372142792, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6703870296478271, 'reward_std': 0.1063476949930191, 'kl': 0.7314453125, 'epoch': 0.41}
+ 41%|████      | 1749/4286 [11:24:20<17:43:05, 25.14s/it] 41%|████      | 1750/4286 [11:24:44<17:21:54, 24.65s/it]                                                         {'loss': 0.0171, 'grad_norm': 1.2894102489564896, 'learning_rate': 5.916938870741949e-07, 'completion_length': 406.52679443359375, 'rewards/only_full_func_accuracy_reward': 0.6819940507411957, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6730656027793884, 'reward_std': 0.08031637035310268, 'kl': 0.4296875, 'epoch': 0.41}
+ 41%|████      | 1750/4286 [11:24:44<17:21:54, 24.65s/it] 41%|████      | 1751/4286 [11:25:11<17:50:25, 25.34s/it]                                                         {'loss': 0.0105, 'grad_norm': 0.8245490094313217, 'learning_rate': 5.914605692953803e-07, 'completion_length': 529.8482513427734, 'rewards/only_full_func_accuracy_reward': 0.7068452835083008, 'rewards/format_reward': 1.0, 'reward': 1.7068453431129456, 'reward_std': 0.07664452400058508, 'kl': 0.2637939453125, 'epoch': 0.41}
+ 41%|████      | 1751/4286 [11:25:11<17:50:25, 25.34s/it] 41%|████      | 1752/4286 [11:25:36<17:46:20, 25.25s/it]                                                         {'loss': 0.0294, 'grad_norm': 0.7534010395579219, 'learning_rate': 5.912272515165655e-07, 'completion_length': 446.0357360839844, 'rewards/only_full_func_accuracy_reward': 0.5379464328289032, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.5200893878936768, 'reward_std': 0.1647565383464098, 'kl': 0.736328125, 'epoch': 0.41}
+ 41%|████      | 1752/4286 [11:25:36<17:46:20, 25.25s/it] 41%|████      | 1753/4286 [11:26:02<18:02:02, 25.63s/it]                                                         {'loss': 0.0696, 'grad_norm': 1.4606947314319827, 'learning_rate': 5.909939337377507e-07, 'completion_length': 510.9464416503906, 'rewards/only_full_func_accuracy_reward': 0.7157738506793976, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.6800596714019775, 'reward_std': 0.24102260172367096, 'kl': 1.7421875, 'epoch': 0.41}
+ 41%|████      | 1753/4286 [11:26:02<18:02:02, 25.63s/it] 41%|████      | 1754/4286 [11:26:28<17:59:05, 25.57s/it]                                                         {'loss': 0.0435, 'grad_norm': 1.3553045088125177, 'learning_rate': 5.90760615958936e-07, 'completion_length': 482.95538330078125, 'rewards/only_full_func_accuracy_reward': 0.5888392627239227, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5799108147621155, 'reward_std': 0.09052453935146332, 'kl': 1.0859375, 'epoch': 0.41}
+ 41%|████      | 1754/4286 [11:26:28<17:59:05, 25.57s/it] 41%|████      | 1755/4286 [11:26:54<18:08:27, 25.80s/it]                                                         {'loss': 0.1137, 'grad_norm': 2.255173888606748, 'learning_rate': 5.905272981801213e-07, 'completion_length': 500.91966247558594, 'rewards/only_full_func_accuracy_reward': 0.627614825963974, 'rewards/format_reward': 0.9464285969734192, 'reward': 1.5740434527397156, 'reward_std': 0.27479953318834305, 'kl': 2.84375, 'epoch': 0.41}
+ 41%|████      | 1755/4286 [11:26:54<18:08:27, 25.80s/it] 41%|████      | 1756/4286 [11:27:19<18:01:13, 25.64s/it]                                                         {'loss': 0.0584, 'grad_norm': 1.6133742162296094, 'learning_rate': 5.902939804013065e-07, 'completion_length': 452.66966247558594, 'rewards/only_full_func_accuracy_reward': 0.6309524178504944, 'rewards/format_reward': 0.973214328289032, 'reward': 1.6041668057441711, 'reward_std': 0.15946858376264572, 'kl': 1.4609375, 'epoch': 0.41}
+ 41%|████      | 1756/4286 [11:27:19<18:01:13, 25.64s/it] 41%|████      | 1757/4286 [11:27:46<18:12:47, 25.93s/it]                                                         {'loss': 0.1342, 'grad_norm': 3.4669920158889305, 'learning_rate': 5.900606626224918e-07, 'completion_length': 529.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.5706845223903656, 'rewards/format_reward': 0.9464285969734192, 'reward': 1.517113208770752, 'reward_std': 0.2351795881986618, 'kl': 3.34375, 'epoch': 0.41}
+ 41%|████      | 1757/4286 [11:27:46<18:12:47, 25.93s/it] 41%|████      | 1758/4286 [11:28:11<17:53:33, 25.48s/it]                                                         {'loss': 0.0272, 'grad_norm': 1.2203535118914821, 'learning_rate': 5.89827344843677e-07, 'completion_length': 413.23216247558594, 'rewards/only_full_func_accuracy_reward': 0.7299107611179352, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7209822535514832, 'reward_std': 0.08207489550113678, 'kl': 0.681640625, 'epoch': 0.41}
+ 41%|████      | 1758/4286 [11:28:11<17:53:33, 25.48s/it] 41%|████      | 1759/4286 [11:28:35<17:40:03, 25.17s/it]                                                         {'loss': 0.0272, 'grad_norm': 1.28326644911248, 'learning_rate': 5.895940270648623e-07, 'completion_length': 417.7143096923828, 'rewards/only_full_func_accuracy_reward': 0.6912202537059784, 'rewards/format_reward': 1.0, 'reward': 1.6912204027175903, 'reward_std': 0.09897700510919094, 'kl': 0.6776123046875, 'epoch': 0.41}
+ 41%|████      | 1759/4286 [11:28:35<17:40:03, 25.17s/it] 41%|████      | 1760/4286 [11:29:01<17:50:41, 25.43s/it]                                                         {'loss': 0.0342, 'grad_norm': 1.2118408212633411, 'learning_rate': 5.893607092860475e-07, 'completion_length': 475.14288330078125, 'rewards/only_full_func_accuracy_reward': 0.832589328289032, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8236608505249023, 'reward_std': 0.10671408474445343, 'kl': 0.85400390625, 'epoch': 0.41}
+ 41%|████      | 1760/4286 [11:29:01<17:50:41, 25.43s/it] 41%|████      | 1761/4286 [11:29:27<17:55:28, 25.56s/it]                                                         {'loss': 0.0151, 'grad_norm': 0.6003920779932058, 'learning_rate': 5.891273915072328e-07, 'completion_length': 453.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.641369104385376, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6324405670166016, 'reward_std': 0.04373771324753761, 'kl': 0.37841796875, 'epoch': 0.41}
+ 41%|████      | 1761/4286 [11:29:27<17:55:28, 25.56s/it] 41%|████      | 1762/4286 [11:29:53<17:59:49, 25.67s/it]                                                         {'loss': 0.0134, 'grad_norm': 0.4932269347022907, 'learning_rate': 5.88894073728418e-07, 'completion_length': 492.5982360839844, 'rewards/only_full_func_accuracy_reward': 0.7031250298023224, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6941965818405151, 'reward_std': 0.06518715154379606, 'kl': 0.334716796875, 'epoch': 0.41}
+ 41%|████      | 1762/4286 [11:29:53<17:59:49, 25.67s/it] 41%|████      | 1763/4286 [11:30:18<17:58:28, 25.65s/it]                                                         {'loss': 0.002, 'grad_norm': 1.091227330467264, 'learning_rate': 5.886607559496033e-07, 'completion_length': 499.0625305175781, 'rewards/only_full_func_accuracy_reward': 0.7209822237491608, 'rewards/format_reward': 1.0, 'reward': 1.7209822535514832, 'reward_std': 0.0147313941270113, 'kl': 0.0499267578125, 'epoch': 0.41}
+ 41%|████      | 1763/4286 [11:30:18<17:58:28, 25.65s/it] 41%|████      | 1764/4286 [11:30:42<17:35:47, 25.12s/it]                                                         {'loss': 0.0053, 'grad_norm': 0.421371638131445, 'learning_rate': 5.884274381707886e-07, 'completion_length': 398.9910888671875, 'rewards/only_full_func_accuracy_reward': 0.6578733921051025, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.648944914340973, 'reward_std': 0.05237920954823494, 'kl': 0.1309814453125, 'epoch': 0.41}
+ 41%|████      | 1764/4286 [11:30:42<17:35:47, 25.12s/it] 41%|████      | 1765/4286 [11:31:09<17:49:32, 25.46s/it]                                                         {'loss': 0.0138, 'grad_norm': 0.6435992752089479, 'learning_rate': 5.881941203919738e-07, 'completion_length': 490.3839416503906, 'rewards/only_full_func_accuracy_reward': 0.7447916865348816, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.735863208770752, 'reward_std': 0.05246042460203171, 'kl': 0.3460693359375, 'epoch': 0.41}
+ 41%|████      | 1765/4286 [11:31:09<17:49:32, 25.46s/it] 41%|████      | 1766/4286 [11:31:35<17:57:13, 25.65s/it]                                                         {'loss': 0.0264, 'grad_norm': 1.23916845546572, 'learning_rate': 5.87960802613159e-07, 'completion_length': 444.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.6981647610664368, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.680307686328888, 'reward_std': 0.09694503992795944, 'kl': 0.659912109375, 'epoch': 0.41}
+ 41%|████      | 1766/4286 [11:31:35<17:57:13, 25.65s/it] 41%|████      | 1767/4286 [11:31:58<17:32:41, 25.07s/it]                                                         {'loss': 0.0021, 'grad_norm': 0.531509799617529, 'learning_rate': 5.877274848343444e-07, 'completion_length': 431.4553680419922, 'rewards/only_full_func_accuracy_reward': 0.5007440745830536, 'rewards/format_reward': 1.0, 'reward': 1.500744104385376, 'reward_std': 0.06528697162866592, 'kl': 0.05224609375, 'epoch': 0.41}
+ 41%|████      | 1767/4286 [11:31:58<17:32:41, 25.07s/it] 41%|████▏     | 1768/4286 [11:32:24<17:35:32, 25.15s/it]                                                         {'loss': 0.0036, 'grad_norm': 1.1812429221751086, 'learning_rate': 5.874941670555296e-07, 'completion_length': 453.40179443359375, 'rewards/only_full_func_accuracy_reward': 0.7186011672019958, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.709672749042511, 'reward_std': 0.11332709714770317, 'kl': 0.0909423828125, 'epoch': 0.41}
+ 41%|████▏     | 1768/4286 [11:32:24<17:35:32, 25.15s/it] 41%|████▏     | 1769/4286 [11:32:48<17:24:45, 24.90s/it]                                                         {'loss': 0.0289, 'grad_norm': 0.7401567437020241, 'learning_rate': 5.872608492767148e-07, 'completion_length': 432.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.7665179073810577, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7486608624458313, 'reward_std': 0.10778862237930298, 'kl': 0.72265625, 'epoch': 0.41}
+ 41%|████▏     | 1769/4286 [11:32:48<17:24:45, 24.90s/it] 41%|████▏     | 1770/4286 [11:33:12<17:11:55, 24.61s/it]                                                         {'loss': 0.0153, 'grad_norm': 1.2000772104845714, 'learning_rate': 5.870275314979e-07, 'completion_length': 412.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.7883184850215912, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7793899774551392, 'reward_std': 0.07915433868765831, 'kl': 0.3839111328125, 'epoch': 0.41}
+ 41%|████▏     | 1770/4286 [11:33:12<17:11:55, 24.61s/it] 41%|████▏     | 1771/4286 [11:33:39<17:36:16, 25.20s/it]                                                         {'loss': 0.0016, 'grad_norm': 0.2514647039412166, 'learning_rate': 5.867942137190854e-07, 'completion_length': 503.5982208251953, 'rewards/only_full_func_accuracy_reward': 0.8102678656578064, 'rewards/format_reward': 1.0, 'reward': 1.810267984867096, 'reward_std': 0.009241949766874313, 'kl': 0.039794921875, 'epoch': 0.41}
+ 41%|████▏     | 1771/4286 [11:33:39<17:36:16, 25.20s/it] 41%|████▏     | 1772/4286 [11:34:02<17:11:19, 24.61s/it]                                                         {'loss': 0.0201, 'grad_norm': 0.6899886120423834, 'learning_rate': 5.865608959402706e-07, 'completion_length': 362.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.721875011920929, 'rewards/format_reward': 1.0, 'reward': 1.7218750715255737, 'reward_std': 0.12478599324822426, 'kl': 0.5042724609375, 'epoch': 0.41}
+ 41%|████▏     | 1772/4286 [11:34:02<17:11:19, 24.61s/it] 41%|████▏     | 1773/4286 [11:34:27<17:17:22, 24.77s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.07034993314913991, 'learning_rate': 5.863275781614558e-07, 'completion_length': 480.1518249511719, 'rewards/only_full_func_accuracy_reward': 0.813244104385376, 'rewards/format_reward': 1.0, 'reward': 1.8132441639900208, 'reward_std': 0.0063134534284472466, 'kl': 0.037109375, 'epoch': 0.41}
+ 41%|████▏     | 1773/4286 [11:34:27<17:17:22, 24.77s/it] 41%|████▏     | 1774/4286 [11:34:51<17:09:58, 24.60s/it]                                                         {'loss': 0.0594, 'grad_norm': 1.2271119792720866, 'learning_rate': 5.860942603826411e-07, 'completion_length': 406.2410888671875, 'rewards/only_full_func_accuracy_reward': 0.696763426065445, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.6699777245521545, 'reward_std': 0.1085807392373681, 'kl': 1.48583984375, 'epoch': 0.41}
+ 41%|████▏     | 1774/4286 [11:34:51<17:09:58, 24.60s/it] 41%|████▏     | 1775/4286 [11:35:17<17:27:36, 25.03s/it]                                                         {'loss': 0.0272, 'grad_norm': 0.7101024435068429, 'learning_rate': 5.858609426038263e-07, 'completion_length': 491.4732360839844, 'rewards/only_full_func_accuracy_reward': 0.7209821939468384, 'rewards/format_reward': 1.0, 'reward': 1.7209822535514832, 'reward_std': 0.06112987548112869, 'kl': 0.681640625, 'epoch': 0.41}
+ 41%|████▏     | 1775/4286 [11:35:17<17:27:36, 25.03s/it] 41%|████▏     | 1776/4286 [11:35:43<17:34:39, 25.21s/it]                                                         {'loss': 0.0305, 'grad_norm': 1.1432877333716591, 'learning_rate': 5.856276248250116e-07, 'completion_length': 460.65179443359375, 'rewards/only_full_func_accuracy_reward': 0.7589285969734192, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7410715222358704, 'reward_std': 0.09580294042825699, 'kl': 0.76416015625, 'epoch': 0.41}
+ 41%|████▏     | 1776/4286 [11:35:43<17:34:39, 25.21s/it] 41%|████▏     | 1777/4286 [11:36:04<16:48:52, 24.13s/it]                                                         {'loss': 0.0025, 'grad_norm': 0.23829804391903456, 'learning_rate': 5.853943070461969e-07, 'completion_length': 319.23216247558594, 'rewards/only_full_func_accuracy_reward': 0.7857143580913544, 'rewards/format_reward': 1.0, 'reward': 1.7857143878936768, 'reward_std': 0.012726723216474056, 'kl': 0.0623779296875, 'epoch': 0.41}
+ 41%|████▏     | 1777/4286 [11:36:04<16:48:52, 24.13s/it] 41%|████▏     | 1778/4286 [11:36:31<17:25:23, 25.01s/it]                                                         {'loss': 0.0388, 'grad_norm': 1.3473755257195699, 'learning_rate': 5.851609892673821e-07, 'completion_length': 541.4553833007812, 'rewards/only_full_func_accuracy_reward': 0.5554847121238708, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.5197705030441284, 'reward_std': 0.15660539269447327, 'kl': 0.97265625, 'epoch': 0.41}
+ 41%|████▏     | 1778/4286 [11:36:31<17:25:23, 25.01s/it] 42%|████▏     | 1779/4286 [11:36:56<17:25:32, 25.02s/it]                                                         {'loss': 0.0179, 'grad_norm': 2.074930254906451, 'learning_rate': 5.849276714885673e-07, 'completion_length': 470.294677734375, 'rewards/only_full_func_accuracy_reward': 0.6867559850215912, 'rewards/format_reward': 1.0, 'reward': 1.6867560744285583, 'reward_std': 0.061746563762426376, 'kl': 0.4486083984375, 'epoch': 0.42}
+ 42%|████▏     | 1779/4286 [11:36:56<17:25:32, 25.02s/it] 42%|████▏     | 1780/4286 [11:37:22<17:32:56, 25.21s/it]                                                         {'loss': 0.0025, 'grad_norm': 0.5732557776091547, 'learning_rate': 5.846943537097527e-07, 'completion_length': 484.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.6651785969734192, 'rewards/format_reward': 1.0, 'reward': 1.665178656578064, 'reward_std': 0.0723846834152937, 'kl': 0.062744140625, 'epoch': 0.42}
+ 42%|████▏     | 1780/4286 [11:37:22<17:32:56, 25.21s/it] 42%|████▏     | 1781/4286 [11:37:47<17:29:52, 25.15s/it]                                                         {'loss': 0.0182, 'grad_norm': 1.4033621703851422, 'learning_rate': 5.844610359309379e-07, 'completion_length': 398.76788330078125, 'rewards/only_full_func_accuracy_reward': 0.7872024178504944, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7782739400863647, 'reward_std': 0.04902400681748986, 'kl': 0.455078125, 'epoch': 0.42}
+ 42%|████▏     | 1781/4286 [11:37:47<17:29:52, 25.15s/it] 42%|████▏     | 1782/4286 [11:38:13<17:40:07, 25.40s/it]                                                         {'loss': 0.0374, 'grad_norm': 1.481838330440857, 'learning_rate': 5.842277181521231e-07, 'completion_length': 448.91966247558594, 'rewards/only_full_func_accuracy_reward': 0.6011905074119568, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.5833334922790527, 'reward_std': 0.1222500279545784, 'kl': 0.935546875, 'epoch': 0.42}
+ 42%|████▏     | 1782/4286 [11:38:13<17:40:07, 25.40s/it] 42%|████▏     | 1783/4286 [11:38:38<17:30:13, 25.18s/it]                                                         {'loss': 0.0457, 'grad_norm': 0.7188546881777728, 'learning_rate': 5.839944003733083e-07, 'completion_length': 412.7589569091797, 'rewards/only_full_func_accuracy_reward': 0.5732887089252472, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.5375745296478271, 'reward_std': 0.14019940048456192, 'kl': 1.142578125, 'epoch': 0.42}
+ 42%|████▏     | 1783/4286 [11:38:38<17:30:13, 25.18s/it] 42%|████▏     | 1784/4286 [11:39:03<17:34:48, 25.30s/it]                                                         {'loss': 0.0147, 'grad_norm': 0.4829589858275134, 'learning_rate': 5.837610825944937e-07, 'completion_length': 469.80360412597656, 'rewards/only_full_func_accuracy_reward': 0.7224702835083008, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7135417461395264, 'reward_std': 0.042762015014886856, 'kl': 0.3677978515625, 'epoch': 0.42}
+ 42%|████▏     | 1784/4286 [11:39:03<17:34:48, 25.30s/it] 42%|████▏     | 1785/4286 [11:39:28<17:22:43, 25.02s/it]                                                         {'loss': 0.0752, 'grad_norm': 1.09367109192364, 'learning_rate': 5.835277648156789e-07, 'completion_length': 419.01788330078125, 'rewards/only_full_func_accuracy_reward': 0.7425595223903656, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.7157739400863647, 'reward_std': 0.13224749267101288, 'kl': 1.87890625, 'epoch': 0.42}
+ 42%|████▏     | 1785/4286 [11:39:28<17:22:43, 25.02s/it] 42%|████▏     | 1786/4286 [11:39:54<17:36:37, 25.36s/it]                                                         {'loss': 0.0148, 'grad_norm': 0.3955881233437372, 'learning_rate': 5.832944470368641e-07, 'completion_length': 511.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.8303571939468384, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.821428656578064, 'reward_std': 0.08971160463988781, 'kl': 0.3681640625, 'epoch': 0.42}
+ 42%|████▏     | 1786/4286 [11:39:54<17:36:37, 25.36s/it] 42%|████▏     | 1787/4286 [11:40:19<17:29:46, 25.20s/it]                                                         {'loss': 0.0915, 'grad_norm': 12.104283783667771, 'learning_rate': 5.830611292580494e-07, 'completion_length': 413.91966247558594, 'rewards/only_full_func_accuracy_reward': 0.5883356034755707, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.5526213645935059, 'reward_std': 0.20453058928251266, 'kl': 2.28515625, 'epoch': 0.42}
+ 42%|████▏     | 1787/4286 [11:40:19<17:29:46, 25.20s/it] 42%|████▏     | 1788/4286 [11:40:45<17:40:59, 25.48s/it]                                                         {'loss': 0.1065, 'grad_norm': 2.7762488259829885, 'learning_rate': 5.828278114792347e-07, 'completion_length': 470.67860412597656, 'rewards/only_full_func_accuracy_reward': 0.6232143044471741, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.60535728931427, 'reward_std': 0.14458826556801796, 'kl': 2.6640625, 'epoch': 0.42}
+ 42%|████▏     | 1788/4286 [11:40:45<17:40:59, 25.48s/it] 42%|████▏     | 1789/4286 [11:41:11<17:43:48, 25.56s/it]                                                         {'loss': 0.0763, 'grad_norm': 0.7326074586165341, 'learning_rate': 5.825944937004199e-07, 'completion_length': 480.0178680419922, 'rewards/only_full_func_accuracy_reward': 0.7313988506793976, 'rewards/format_reward': 0.973214328289032, 'reward': 1.704613208770752, 'reward_std': 0.1975117027759552, 'kl': 1.90234375, 'epoch': 0.42}
+ 42%|████▏     | 1789/4286 [11:41:11<17:43:48, 25.56s/it] 42%|████▏     | 1790/4286 [11:41:33<17:05:34, 24.65s/it]                                                         {'loss': 0.1612, 'grad_norm': 2.452146173317483, 'learning_rate': 5.823611759216052e-07, 'completion_length': 381.4107208251953, 'rewards/only_full_func_accuracy_reward': 0.6547619104385376, 'rewards/format_reward': 0.9553571939468384, 'reward': 1.6101191639900208, 'reward_std': 0.2409118190407753, 'kl': 4.03125, 'epoch': 0.42}
+ 42%|████▏     | 1790/4286 [11:41:33<17:05:34, 24.65s/it] 42%|████▏     | 1791/4286 [11:41:59<17:16:08, 24.92s/it]                                                         {'loss': 0.0147, 'grad_norm': 0.49389657236617607, 'learning_rate': 5.821278581427904e-07, 'completion_length': 503.5178680419922, 'rewards/only_full_func_accuracy_reward': 0.7626116275787354, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7536831498146057, 'reward_std': 0.07993705198168755, 'kl': 0.3653564453125, 'epoch': 0.42}
+ 42%|████▏     | 1791/4286 [11:41:59<17:16:08, 24.92s/it] 42%|████▏     | 1792/4286 [11:42:22<17:01:46, 24.58s/it]                                                         {'loss': 0.0288, 'grad_norm': 0.643753505615542, 'learning_rate': 5.818945403639757e-07, 'completion_length': 421.50001525878906, 'rewards/only_full_func_accuracy_reward': 0.7276785969734192, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7098214626312256, 'reward_std': 0.09157003089785576, 'kl': 0.71875, 'epoch': 0.42}
+ 42%|████▏     | 1792/4286 [11:42:22<17:01:46, 24.58s/it] 42%|████▏     | 1793/4286 [11:42:47<17:04:21, 24.65s/it]                                                         {'loss': 0.0601, 'grad_norm': 0.6135159828079875, 'learning_rate': 5.816612225851609e-07, 'completion_length': 435.1964569091797, 'rewards/only_full_func_accuracy_reward': 0.8303572535514832, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8214287161827087, 'reward_std': 0.10135981440544128, 'kl': 1.5001220703125, 'epoch': 0.42}
+ 42%|████▏     | 1793/4286 [11:42:47<17:04:21, 24.65s/it] 42%|████▏     | 1794/4286 [11:43:13<17:17:27, 24.98s/it]                                                         {'loss': 0.0267, 'grad_norm': 0.6945520827282471, 'learning_rate': 5.814279048063462e-07, 'completion_length': 496.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.595238134264946, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5863096117973328, 'reward_std': 0.05569201894104481, 'kl': 0.6695556640625, 'epoch': 0.42}
+ 42%|████▏     | 1794/4286 [11:43:13<17:17:27, 24.98s/it] 42%|████▏     | 1795/4286 [11:43:38<17:20:34, 25.06s/it]                                                         {'loss': 0.0357, 'grad_norm': 0.596765579018408, 'learning_rate': 5.811945870275314e-07, 'completion_length': 447.2589569091797, 'rewards/only_full_func_accuracy_reward': 0.6718750298023224, 'rewards/format_reward': 1.0, 'reward': 1.6718751192092896, 'reward_std': 0.1025787927210331, 'kl': 0.8941650390625, 'epoch': 0.42}
+ 42%|████▏     | 1795/4286 [11:43:38<17:20:34, 25.06s/it] 42%|████▏     | 1796/4286 [11:44:02<16:59:31, 24.57s/it]                                                         {'loss': 0.0796, 'grad_norm': 1.0525432065289801, 'learning_rate': 5.809612692487166e-07, 'completion_length': 427.7232360839844, 'rewards/only_full_func_accuracy_reward': 0.7790178954601288, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.7522321939468384, 'reward_std': 0.19316073134541512, 'kl': 1.99609375, 'epoch': 0.42}
+ 42%|████▏     | 1796/4286 [11:44:02<16:59:31, 24.57s/it] 42%|████▏     | 1797/4286 [11:44:28<17:20:53, 25.09s/it]                                                         {'loss': 0.015, 'grad_norm': 0.4715711341349358, 'learning_rate': 5.80727951469902e-07, 'completion_length': 492.2857360839844, 'rewards/only_full_func_accuracy_reward': 0.7258929312229156, 'rewards/format_reward': 1.0, 'reward': 1.725892961025238, 'reward_std': 0.058401135727763176, 'kl': 0.37646484375, 'epoch': 0.42}
+ 42%|████▏     | 1797/4286 [11:44:28<17:20:53, 25.09s/it] 42%|████▏     | 1798/4286 [11:44:53<17:14:09, 24.94s/it]                                                         {'loss': 0.0335, 'grad_norm': 0.8445372154686552, 'learning_rate': 5.804946336910872e-07, 'completion_length': 426.8928680419922, 'rewards/only_full_func_accuracy_reward': 0.7127976715564728, 'rewards/format_reward': 1.0, 'reward': 1.7127978205680847, 'reward_std': 0.06697488762438297, 'kl': 0.8358154296875, 'epoch': 0.42}
+ 42%|████▏     | 1798/4286 [11:44:53<17:14:09, 24.94s/it] 42%|████▏     | 1799/4286 [11:45:17<17:10:17, 24.86s/it]                                                         {'loss': 0.0262, 'grad_norm': 0.615779796417289, 'learning_rate': 5.802613159122724e-07, 'completion_length': 392.4107360839844, 'rewards/only_full_func_accuracy_reward': 0.7090774476528168, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7001489400863647, 'reward_std': 0.06348209455609322, 'kl': 0.654296875, 'epoch': 0.42}
+ 42%|████▏     | 1799/4286 [11:45:17<17:10:17, 24.86s/it] 42%|████▏     | 1800/4286 [11:45:43<17:22:14, 25.15s/it]                                                         {'loss': 0.0017, 'grad_norm': 0.44703869038200456, 'learning_rate': 5.800279981334577e-07, 'completion_length': 517.9732360839844, 'rewards/only_full_func_accuracy_reward': 0.648809552192688, 'rewards/format_reward': 1.0, 'reward': 1.6488096714019775, 'reward_std': 0.04569098353385925, 'kl': 0.0413818359375, 'epoch': 0.42}
+ 42%|████▏     | 1800/4286 [11:45:43<17:22:14, 25.15s/it] 42%|████▏     | 1801/4286 [11:46:56<27:15:09, 39.48s/it]                                                         {'loss': 0.0177, 'grad_norm': 0.8887772546399428, 'learning_rate': 5.79794680354643e-07, 'completion_length': 435.1607360839844, 'rewards/only_full_func_accuracy_reward': 0.6741072237491608, 'rewards/format_reward': 1.0, 'reward': 1.6741072535514832, 'reward_std': 0.07762645278126001, 'kl': 0.443359375, 'epoch': 0.42}
+ 42%|████▏     | 1801/4286 [11:46:56<27:15:09, 39.48s/it] 42%|████▏     | 1802/4286 [11:47:20<24:07:16, 34.96s/it]                                                         {'loss': 0.0191, 'grad_norm': 0.3812452540160699, 'learning_rate': 5.795613625758282e-07, 'completion_length': 419.8839569091797, 'rewards/only_full_func_accuracy_reward': 0.7738095223903656, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7648810744285583, 'reward_std': 0.06835354492068291, 'kl': 0.4788818359375, 'epoch': 0.42}
+ 42%|████▏     | 1802/4286 [11:47:20<24:07:16, 34.96s/it] 42%|████▏     | 1803/4286 [11:47:46<22:07:53, 32.09s/it]                                                         {'loss': 0.0215, 'grad_norm': 250.93433583693815, 'learning_rate': 5.793280447970135e-07, 'completion_length': 454.7232360839844, 'rewards/only_full_func_accuracy_reward': 0.6346726715564728, 'rewards/format_reward': 1.0, 'reward': 1.6346727013587952, 'reward_std': 0.03710075654089451, 'kl': 0.5384521484375, 'epoch': 0.42}
+ 42%|████▏     | 1803/4286 [11:47:46<22:07:53, 32.09s/it] 42%|████▏     | 1804/4286 [11:48:11<20:38:40, 29.94s/it]                                                         {'loss': 0.0289, 'grad_norm': 0.7475585394197009, 'learning_rate': 5.790947270181987e-07, 'completion_length': 445.1607360839844, 'rewards/only_full_func_accuracy_reward': 0.6004464328289032, 'rewards/format_reward': 1.0, 'reward': 1.6004465818405151, 'reward_std': 0.10783093795180321, 'kl': 0.724609375, 'epoch': 0.42}
+ 42%|████▏     | 1804/4286 [11:48:11<20:38:40, 29.94s/it] 42%|████▏     | 1805/4286 [11:48:36<19:41:43, 28.58s/it]                                                         {'loss': 0.0195, 'grad_norm': 0.9594037512628013, 'learning_rate': 5.78861409239384e-07, 'completion_length': 476.4018096923828, 'rewards/only_full_func_accuracy_reward': 0.6272322237491608, 'rewards/format_reward': 1.0, 'reward': 1.627232313156128, 'reward_std': 0.077752236276865, 'kl': 0.4876708984375, 'epoch': 0.42}
+ 42%|████▏     | 1805/4286 [11:48:36<19:41:43, 28.58s/it] 42%|████▏     | 1806/4286 [11:49:02<19:08:39, 27.79s/it]                                                         {'loss': 0.0388, 'grad_norm': 1.1574686419650015, 'learning_rate': 5.786280914605692e-07, 'completion_length': 465.0625305175781, 'rewards/only_full_func_accuracy_reward': 0.5781250447034836, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5691965818405151, 'reward_std': 0.06721760984510183, 'kl': 0.970703125, 'epoch': 0.42}
+ 42%|████▏     | 1806/4286 [11:49:02<19:08:39, 27.79s/it] 42%|████▏     | 1807/4286 [11:49:28<18:48:35, 27.32s/it]                                                         {'loss': 0.002, 'grad_norm': 0.3576578748791287, 'learning_rate': 5.783947736817545e-07, 'completion_length': 486.7857360839844, 'rewards/only_full_func_accuracy_reward': 0.5887277126312256, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5797991752624512, 'reward_std': 0.07522503565996885, 'kl': 0.051025390625, 'epoch': 0.42}
+ 42%|████▏     | 1807/4286 [11:49:28<18:48:35, 27.32s/it] 42%|████▏     | 1808/4286 [11:49:54<18:23:19, 26.72s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.19114694407567637, 'learning_rate': 5.781614559029397e-07, 'completion_length': 487.8214569091797, 'rewards/only_full_func_accuracy_reward': 0.803720235824585, 'rewards/format_reward': 1.0, 'reward': 1.8037202954292297, 'reward_std': 0.019106832332909107, 'kl': 0.036865234375, 'epoch': 0.42}
+ 42%|████▏     | 1808/4286 [11:49:54<18:23:19, 26.72s/it] 42%|████▏     | 1809/4286 [11:50:19<18:10:22, 26.41s/it]                                                         {'loss': 0.0014, 'grad_norm': 0.2689699583646562, 'learning_rate': 5.77928138124125e-07, 'completion_length': 504.40179443359375, 'rewards/only_full_func_accuracy_reward': 0.7613095641136169, 'rewards/format_reward': 1.0, 'reward': 1.7613096237182617, 'reward_std': 0.07663923688232899, 'kl': 0.0357666015625, 'epoch': 0.42}
+ 42%|████▏     | 1809/4286 [11:50:19<18:10:22, 26.41s/it] 42%|████▏     | 1810/4286 [11:50:44<17:51:27, 25.96s/it]                                                         {'loss': 0.0416, 'grad_norm': 0.43096319338238676, 'learning_rate': 5.776948203453103e-07, 'completion_length': 419.2053680419922, 'rewards/only_full_func_accuracy_reward': 0.71726194024086, 'rewards/format_reward': 1.0, 'reward': 1.7172619700431824, 'reward_std': 0.08025281690061092, 'kl': 1.03759765625, 'epoch': 0.42}
+ 42%|████▏     | 1810/4286 [11:50:44<17:51:27, 25.96s/it] 42%|████▏     | 1811/4286 [11:51:09<17:33:18, 25.53s/it]                                                         {'loss': 0.0017, 'grad_norm': 0.329600404845379, 'learning_rate': 5.774615025664955e-07, 'completion_length': 447.35716247558594, 'rewards/only_full_func_accuracy_reward': 0.7589286863803864, 'rewards/format_reward': 1.0, 'reward': 1.7589287161827087, 'reward_std': 0.04609510488808155, 'kl': 0.04296875, 'epoch': 0.42}
+ 42%|████▏     | 1811/4286 [11:51:09<17:33:18, 25.53s/it] 42%|████▏     | 1812/4286 [11:51:34<17:24:11, 25.32s/it]                                                         {'loss': 0.0122, 'grad_norm': 0.5843269360300335, 'learning_rate': 5.772281847876807e-07, 'completion_length': 417.91966247558594, 'rewards/only_full_func_accuracy_reward': 0.7797619700431824, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7708334922790527, 'reward_std': 0.05456490442156792, 'kl': 0.3043212890625, 'epoch': 0.42}
+ 42%|████▏     | 1812/4286 [11:51:34<17:24:11, 25.32s/it] 42%|████▏     | 1813/4286 [11:51:59<17:25:24, 25.36s/it]                                                         {'loss': 0.0205, 'grad_norm': 0.39902608843831566, 'learning_rate': 5.769948670088661e-07, 'completion_length': 466.6160888671875, 'rewards/only_full_func_accuracy_reward': 0.7514881789684296, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7425596714019775, 'reward_std': 0.0445417370647192, 'kl': 0.5159912109375, 'epoch': 0.42}
+ 42%|████▏     | 1813/4286 [11:51:59<17:25:24, 25.36s/it] 42%|████▏     | 1814/4286 [11:52:25<17:31:52, 25.53s/it]                                                         {'loss': 0.0016, 'grad_norm': 0.2244192455041571, 'learning_rate': 5.767615492300513e-07, 'completion_length': 476.65179443359375, 'rewards/only_full_func_accuracy_reward': 0.6674107909202576, 'rewards/format_reward': 1.0, 'reward': 1.6674107909202576, 'reward_std': 0.02284595649689436, 'kl': 0.041259765625, 'epoch': 0.42}
+ 42%|████▏     | 1814/4286 [11:52:25<17:31:52, 25.53s/it] 42%|████▏     | 1815/4286 [11:52:50<17:23:50, 25.35s/it]                                                         {'loss': 0.0024, 'grad_norm': 0.6255289713427742, 'learning_rate': 5.765282314512365e-07, 'completion_length': 416.90179443359375, 'rewards/only_full_func_accuracy_reward': 0.6510417461395264, 'rewards/format_reward': 1.0, 'reward': 1.6510418057441711, 'reward_std': 0.0638479683548212, 'kl': 0.06005859375, 'epoch': 0.42}
+ 42%|████▏     | 1815/4286 [11:52:50<17:23:50, 25.35s/it] 42%|████▏     | 1816/4286 [11:53:16<17:26:51, 25.43s/it]                                                         {'loss': 0.0014, 'grad_norm': 0.25393286115261404, 'learning_rate': 5.762949136724217e-07, 'completion_length': 490.2768249511719, 'rewards/only_full_func_accuracy_reward': 0.8013392984867096, 'rewards/format_reward': 1.0, 'reward': 1.8013394474983215, 'reward_std': 0.031263893470168114, 'kl': 0.0357666015625, 'epoch': 0.42}
+ 42%|████▏     | 1816/4286 [11:53:16<17:26:51, 25.43s/it] 42%|████▏     | 1817/4286 [11:53:41<17:31:19, 25.55s/it]                                                         {'loss': 0.0016, 'grad_norm': 0.16366904056741563, 'learning_rate': 5.760615958936071e-07, 'completion_length': 459.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.766369104385376, 'rewards/format_reward': 1.0, 'reward': 1.7663691639900208, 'reward_std': 0.02560090459883213, 'kl': 0.0408935546875, 'epoch': 0.42}
+ 42%|████▏     | 1817/4286 [11:53:41<17:31:19, 25.55s/it] 42%|████▏     | 1818/4286 [11:54:06<17:23:46, 25.38s/it]                                                         {'loss': 0.0093, 'grad_norm': 0.7232763559657265, 'learning_rate': 5.758282781147923e-07, 'completion_length': 432.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.7031250596046448, 'rewards/format_reward': 1.0, 'reward': 1.7031251192092896, 'reward_std': 0.07408994436264038, 'kl': 0.232666015625, 'epoch': 0.42}
+ 42%|████▏     | 1818/4286 [11:54:06<17:23:46, 25.38s/it] 42%|████▏     | 1819/4286 [11:54:32<17:21:49, 25.34s/it]                                                         {'loss': 0.0014, 'grad_norm': 0.19036646804140936, 'learning_rate': 5.755949603359775e-07, 'completion_length': 464.8482360839844, 'rewards/only_full_func_accuracy_reward': 0.7261905372142792, 'rewards/format_reward': 1.0, 'reward': 1.7261906266212463, 'reward_std': 0.02089315839111805, 'kl': 0.0345458984375, 'epoch': 0.42}
+ 42%|████▏     | 1819/4286 [11:54:32<17:21:49, 25.34s/it] 42%|████▏     | 1820/4286 [11:54:58<17:38:06, 25.74s/it]                                                         {'loss': 0.0188, 'grad_norm': 1.008028538454502, 'learning_rate': 5.753616425571628e-07, 'completion_length': 500.2053985595703, 'rewards/only_full_func_accuracy_reward': 0.65816330909729, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6492347717285156, 'reward_std': 0.07332956325262785, 'kl': 0.470458984375, 'epoch': 0.42}
+ 42%|████▏     | 1820/4286 [11:54:58<17:38:06, 25.74s/it] 42%|████▏     | 1821/4286 [11:55:24<17:36:23, 25.71s/it]                                                         {'loss': 0.0018, 'grad_norm': 0.13524517359936603, 'learning_rate': 5.75128324778348e-07, 'completion_length': 453.5714416503906, 'rewards/only_full_func_accuracy_reward': 0.6644345819950104, 'rewards/format_reward': 1.0, 'reward': 1.6644346714019775, 'reward_std': 0.0063134534284472466, 'kl': 0.0450439453125, 'epoch': 0.42}
+ 42%|████▏     | 1821/4286 [11:55:24<17:36:23, 25.71s/it] 43%|████▎     | 1822/4286 [11:55:51<17:50:14, 26.06s/it]                                                         {'loss': 0.0016, 'grad_norm': 0.2749005617497264, 'learning_rate': 5.748950069995333e-07, 'completion_length': 487.3839569091797, 'rewards/only_full_func_accuracy_reward': 0.7723214626312256, 'rewards/format_reward': 1.0, 'reward': 1.7723214626312256, 'reward_std': 0.02690184023231268, 'kl': 0.0399169921875, 'epoch': 0.43}
+ 43%|████▎     | 1822/4286 [11:55:51<17:50:14, 26.06s/it] 43%|████▎     | 1823/4286 [11:56:17<17:46:59, 25.99s/it]                                                         {'loss': 0.0013, 'grad_norm': 1.1307237258789589, 'learning_rate': 5.746616892207186e-07, 'completion_length': 467.7857360839844, 'rewards/only_full_func_accuracy_reward': 0.6659226715564728, 'rewards/format_reward': 1.0, 'reward': 1.66592276096344, 'reward_std': 0.05240762606263161, 'kl': 0.0328369140625, 'epoch': 0.43}
+ 43%|████▎     | 1823/4286 [11:56:17<17:46:59, 25.99s/it] 43%|████▎     | 1824/4286 [11:56:41<17:29:31, 25.58s/it]                                                         {'loss': 0.0095, 'grad_norm': 1.0763738600612773, 'learning_rate': 5.744283714419038e-07, 'completion_length': 433.23216247558594, 'rewards/only_full_func_accuracy_reward': 0.547619104385376, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5386906266212463, 'reward_std': 0.07837347686290741, 'kl': 0.238525390625, 'epoch': 0.43}
+ 43%|████▎     | 1824/4286 [11:56:41<17:29:31, 25.58s/it] 43%|████▎     | 1825/4286 [11:57:06<17:21:23, 25.39s/it]                                                         {'loss': 0.0048, 'grad_norm': 1.060264944702635, 'learning_rate': 5.74195053663089e-07, 'completion_length': 422.85716247558594, 'rewards/only_full_func_accuracy_reward': 0.570684552192688, 'rewards/format_reward': 1.0, 'reward': 1.5706846117973328, 'reward_std': 0.033570097759366035, 'kl': 0.11865234375, 'epoch': 0.43}
+ 43%|████▎     | 1825/4286 [11:57:06<17:21:23, 25.39s/it] 43%|████▎     | 1826/4286 [11:57:29<16:53:33, 24.72s/it]                                                         {'loss': 0.0018, 'grad_norm': 0.8182117695708288, 'learning_rate': 5.739617358842744e-07, 'completion_length': 415.00001525878906, 'rewards/only_full_func_accuracy_reward': 0.8043155372142792, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7953870296478271, 'reward_std': 0.06899292767047882, 'kl': 0.04443359375, 'epoch': 0.43}
+ 43%|████▎     | 1826/4286 [11:57:29<16:53:33, 24.72s/it] 43%|████▎     | 1827/4286 [11:57:55<17:04:49, 25.01s/it]                                                         {'loss': 0.0013, 'grad_norm': 0.17495697316761666, 'learning_rate': 5.737284181054596e-07, 'completion_length': 502.7232360839844, 'rewards/only_full_func_accuracy_reward': 0.6465774476528168, 'rewards/format_reward': 1.0, 'reward': 1.6465774774551392, 'reward_std': 0.02980866376310587, 'kl': 0.03253173828125, 'epoch': 0.43}
+ 43%|████▎     | 1827/4286 [11:57:55<17:04:49, 25.01s/it] 43%|████▎     | 1828/4286 [11:58:19<16:56:42, 24.82s/it]                                                         {'loss': 0.0021, 'grad_norm': 0.6132859633998912, 'learning_rate': 5.734951003266448e-07, 'completion_length': 427.83038330078125, 'rewards/only_full_func_accuracy_reward': 0.7449405193328857, 'rewards/format_reward': 1.0, 'reward': 1.7449405789375305, 'reward_std': 0.055158755742013454, 'kl': 0.052490234375, 'epoch': 0.43}
+ 43%|████▎     | 1828/4286 [11:58:19<16:56:42, 24.82s/it] 43%|████▎     | 1829/4286 [11:58:44<16:57:10, 24.84s/it]                                                         {'loss': 0.002, 'grad_norm': 0.2902927453621592, 'learning_rate': 5.7326178254783e-07, 'completion_length': 465.0000305175781, 'rewards/only_full_func_accuracy_reward': 0.6956845819950104, 'rewards/format_reward': 1.0, 'reward': 1.6956846117973328, 'reward_std': 0.06702964380383492, 'kl': 0.04931640625, 'epoch': 0.43}
+ 43%|████▎     | 1829/4286 [11:58:44<16:57:10, 24.84s/it] 43%|████▎     | 1830/4286 [11:59:10<17:07:42, 25.11s/it]                                                         {'loss': 0.0016, 'grad_norm': 0.2794454980844012, 'learning_rate': 5.730284647690154e-07, 'completion_length': 464.2589569091797, 'rewards/only_full_func_accuracy_reward': 0.6696428656578064, 'rewards/format_reward': 1.0, 'reward': 1.6696429252624512, 'reward_std': 0.023695320822298527, 'kl': 0.039306640625, 'epoch': 0.43}
+ 43%|████▎     | 1830/4286 [11:59:10<17:07:42, 25.11s/it] 43%|████▎     | 1831/4286 [11:59:34<16:55:10, 24.81s/it]                                                         {'loss': 0.016, 'grad_norm': 0.311885870476939, 'learning_rate': 5.727951469902006e-07, 'completion_length': 418.2857360839844, 'rewards/only_full_func_accuracy_reward': 0.6875000596046448, 'rewards/format_reward': 1.0, 'reward': 1.6875001192092896, 'reward_std': 0.07213588804006577, 'kl': 0.400390625, 'epoch': 0.43}
+ 43%|████▎     | 1831/4286 [11:59:34<16:55:10, 24.81s/it] 43%|████▎     | 1832/4286 [11:59:58<16:39:42, 24.44s/it]                                                         {'loss': 0.0017, 'grad_norm': 1.4852850208309742, 'learning_rate': 5.725618292113858e-07, 'completion_length': 402.25001525878906, 'rewards/only_full_func_accuracy_reward': 0.7813988924026489, 'rewards/format_reward': 1.0, 'reward': 1.781398892402649, 'reward_std': 0.009298909455537796, 'kl': 0.04345703125, 'epoch': 0.43}
+ 43%|████▎     | 1832/4286 [11:59:58<16:39:42, 24.44s/it] 43%|████▎     | 1833/4286 [12:00:23<16:46:41, 24.62s/it]                                                         {'loss': 0.0019, 'grad_norm': 0.337736251686568, 'learning_rate': 5.723285114325711e-07, 'completion_length': 431.70538330078125, 'rewards/only_full_func_accuracy_reward': 0.7202380895614624, 'rewards/format_reward': 1.0, 'reward': 1.7202382683753967, 'reward_std': 0.03352831397205591, 'kl': 0.0479736328125, 'epoch': 0.43}
+ 43%|████▎     | 1833/4286 [12:00:23<16:46:41, 24.62s/it] 43%|████▎     | 1834/4286 [12:00:48<16:53:18, 24.80s/it]                                                         {'loss': 0.0016, 'grad_norm': 0.4691715424807403, 'learning_rate': 5.720951936537564e-07, 'completion_length': 467.6607360839844, 'rewards/only_full_func_accuracy_reward': 0.6599702537059784, 'rewards/format_reward': 1.0, 'reward': 1.6599703431129456, 'reward_std': 0.04516791179776192, 'kl': 0.0401611328125, 'epoch': 0.43}
+ 43%|████▎     | 1834/4286 [12:00:48<16:53:18, 24.80s/it] 43%|████▎     | 1835/4286 [12:01:13<16:54:45, 24.84s/it]                                                         {'loss': 0.009, 'grad_norm': 0.5123632241972901, 'learning_rate': 5.718618758749416e-07, 'completion_length': 414.6785888671875, 'rewards/only_full_func_accuracy_reward': 0.7537202835083008, 'rewards/format_reward': 1.0, 'reward': 1.7537204027175903, 'reward_std': 0.03177003934979439, 'kl': 0.225830078125, 'epoch': 0.43}
+ 43%|████▎     | 1835/4286 [12:01:13<16:54:45, 24.84s/it] 43%|████▎     | 1836/4286 [12:01:37<16:48:39, 24.70s/it]                                                         {'loss': 0.0095, 'grad_norm': 0.9764536371278347, 'learning_rate': 5.716285580961269e-07, 'completion_length': 424.33929443359375, 'rewards/only_full_func_accuracy_reward': 0.6183035671710968, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6093751192092896, 'reward_std': 0.075284942984581, 'kl': 0.238037109375, 'epoch': 0.43}
+ 43%|████▎     | 1836/4286 [12:01:37<16:48:39, 24.70s/it] 43%|████▎     | 1837/4286 [12:02:02<16:44:00, 24.60s/it]                                                         {'loss': 0.0127, 'grad_norm': 1.1801148756943967, 'learning_rate': 5.713952403173121e-07, 'completion_length': 409.8125305175781, 'rewards/only_full_func_accuracy_reward': 0.5721726417541504, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5632441639900208, 'reward_std': 0.12303005903959274, 'kl': 0.316650390625, 'epoch': 0.43}
+ 43%|████▎     | 1837/4286 [12:02:02<16:44:00, 24.60s/it] 43%|████▎     | 1838/4286 [12:02:26<16:45:05, 24.63s/it]                                                         {'loss': 0.0021, 'grad_norm': 1.0441007378419598, 'learning_rate': 5.711619225384974e-07, 'completion_length': 448.7589569091797, 'rewards/only_full_func_accuracy_reward': 0.74702388048172, 'rewards/format_reward': 1.0, 'reward': 1.7470239400863647, 'reward_std': 0.03920397721230984, 'kl': 0.0528564453125, 'epoch': 0.43}
+ 43%|████▎     | 1838/4286 [12:02:26<16:45:05, 24.63s/it] 43%|████▎     | 1839/4286 [12:02:50<16:29:49, 24.27s/it]                                                         {'loss': 0.0289, 'grad_norm': 1.1246825476855946, 'learning_rate': 5.709286047596826e-07, 'completion_length': 416.9553680419922, 'rewards/only_full_func_accuracy_reward': 0.7727611660957336, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.7459754347801208, 'reward_std': 0.15709203481674194, 'kl': 0.7205810546875, 'epoch': 0.43}
+ 43%|████▎     | 1839/4286 [12:02:50<16:29:49, 24.27s/it] 43%|████▎     | 1840/4286 [12:03:15<16:42:00, 24.58s/it]                                                         {'loss': 0.0348, 'grad_norm': 2.6680434843200107, 'learning_rate': 5.706952869808679e-07, 'completion_length': 459.25001525878906, 'rewards/only_full_func_accuracy_reward': 0.749107152223587, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7312501072883606, 'reward_std': 0.132842019200325, 'kl': 0.8671875, 'epoch': 0.43}
+ 43%|████▎     | 1840/4286 [12:03:15<16:42:00, 24.58s/it] 43%|████▎     | 1841/4286 [12:03:39<16:39:10, 24.52s/it]                                                         {'loss': 0.0043, 'grad_norm': 0.3611727876566795, 'learning_rate': 5.704619692020531e-07, 'completion_length': 440.7500305175781, 'rewards/only_full_func_accuracy_reward': 0.6577381789684296, 'rewards/format_reward': 1.0, 'reward': 1.657738208770752, 'reward_std': 0.04208969417959452, 'kl': 0.107421875, 'epoch': 0.43}
+ 43%|████▎     | 1841/4286 [12:03:39<16:39:10, 24.52s/it] 43%|████▎     | 1842/4286 [12:04:04<16:40:27, 24.56s/it]                                                         {'loss': 0.0343, 'grad_norm': 1.6613040452427583, 'learning_rate': 5.702286514232384e-07, 'completion_length': 463.9643096923828, 'rewards/only_full_func_accuracy_reward': 0.633184552192688, 'rewards/format_reward': 1.0, 'reward': 1.6331846117973328, 'reward_std': 0.05626592040061951, 'kl': 0.85546875, 'epoch': 0.43}
+ 43%|████▎     | 1842/4286 [12:04:04<16:40:27, 24.56s/it] 43%|████▎     | 1843/4286 [12:04:29<16:49:49, 24.80s/it]                                                         {'loss': 0.041, 'grad_norm': 0.7340184643614143, 'learning_rate': 5.699953336444237e-07, 'completion_length': 438.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.6755952835083008, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6666667461395264, 'reward_std': 0.08475498482584953, 'kl': 1.0234375, 'epoch': 0.43}
+ 43%|████▎     | 1843/4286 [12:04:29<16:49:49, 24.80s/it] 43%|████▎     | 1844/4286 [12:04:54<16:47:20, 24.75s/it]                                                         {'loss': 0.0403, 'grad_norm': 1.4196721778359733, 'learning_rate': 5.697620158656089e-07, 'completion_length': 421.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.7717262506484985, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7538691759109497, 'reward_std': 0.21228044480085373, 'kl': 1.01171875, 'epoch': 0.43}
+ 43%|████▎     | 1844/4286 [12:04:54<16:47:20, 24.75s/it] 43%|████▎     | 1845/4286 [12:05:20<16:57:54, 25.02s/it]                                                         {'loss': 0.0096, 'grad_norm': 0.6657416807593968, 'learning_rate': 5.695286980867941e-07, 'completion_length': 465.89288330078125, 'rewards/only_full_func_accuracy_reward': 0.7409570217132568, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7320284843444824, 'reward_std': 0.09523484855890274, 'kl': 0.2413330078125, 'epoch': 0.43}
+ 43%|████▎     | 1845/4286 [12:05:20<16:57:54, 25.02s/it] 43%|████▎     | 1846/4286 [12:05:44<16:43:39, 24.68s/it]                                                         {'loss': 0.0021, 'grad_norm': 0.4939116838404061, 'learning_rate': 5.692953803079795e-07, 'completion_length': 433.5357208251953, 'rewards/only_full_func_accuracy_reward': 0.68601194024086, 'rewards/format_reward': 1.0, 'reward': 1.6860120296478271, 'reward_std': 0.06727245356887579, 'kl': 0.0518798828125, 'epoch': 0.43}
+ 43%|████▎     | 1846/4286 [12:05:44<16:43:39, 24.68s/it] 43%|████▎     | 1847/4286 [12:06:05<16:00:59, 23.64s/it]                                                         {'loss': 0.0124, 'grad_norm': 0.6009871762163, 'learning_rate': 5.690620625291647e-07, 'completion_length': 339.0446472167969, 'rewards/only_full_func_accuracy_reward': 0.746279776096344, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7373512983322144, 'reward_std': 0.09265617281198502, 'kl': 0.310546875, 'epoch': 0.43}
+ 43%|████▎     | 1847/4286 [12:06:05<16:00:59, 23.64s/it] 43%|████▎     | 1848/4286 [12:06:28<15:55:40, 23.52s/it]                                                         {'loss': 0.0014, 'grad_norm': 0.20350504195698388, 'learning_rate': 5.688287447503499e-07, 'completion_length': 408.3303680419922, 'rewards/only_full_func_accuracy_reward': 0.7671130895614624, 'rewards/format_reward': 1.0, 'reward': 1.7671132683753967, 'reward_std': 0.013286139816045761, 'kl': 0.0352783203125, 'epoch': 0.43}
+ 43%|████▎     | 1848/4286 [12:06:28<15:55:40, 23.52s/it] 43%|████▎     | 1849/4286 [12:06:51<15:50:23, 23.40s/it]                                                         {'loss': 0.0025, 'grad_norm': 0.7966900510376429, 'learning_rate': 5.685954269715352e-07, 'completion_length': 395.5446472167969, 'rewards/only_full_func_accuracy_reward': 0.7626488208770752, 'rewards/format_reward': 1.0, 'reward': 1.76264888048172, 'reward_std': 0.049549371004104614, 'kl': 0.0616455078125, 'epoch': 0.43}
+ 43%|████▎     | 1849/4286 [12:06:51<15:50:23, 23.40s/it] 43%|████▎     | 1850/4286 [12:07:14<15:38:03, 23.10s/it]                                                         {'loss': 0.0153, 'grad_norm': 0.6486294379234308, 'learning_rate': 5.683621091927204e-07, 'completion_length': 356.90179443359375, 'rewards/only_full_func_accuracy_reward': 0.6066964268684387, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.597767949104309, 'reward_std': 0.0892284270375967, 'kl': 0.3822021484375, 'epoch': 0.43}
+ 43%|████▎     | 1850/4286 [12:07:14<15:38:03, 23.10s/it] 43%|████▎     | 1851/4286 [12:07:39<16:08:44, 23.87s/it]                                                         {'loss': 0.0043, 'grad_norm': 0.5779072510830827, 'learning_rate': 5.681287914139057e-07, 'completion_length': 452.1339416503906, 'rewards/only_full_func_accuracy_reward': 0.6599702537059784, 'rewards/format_reward': 1.0, 'reward': 1.6599703431129456, 'reward_std': 0.03693866543471813, 'kl': 0.1072998046875, 'epoch': 0.43}
+ 43%|████▎     | 1851/4286 [12:07:39<16:08:44, 23.87s/it] 43%|████▎     | 1852/4286 [12:08:03<16:09:59, 23.91s/it]                                                         {'loss': 0.0124, 'grad_norm': 0.48430548903697146, 'learning_rate': 5.678954736350909e-07, 'completion_length': 425.1875305175781, 'rewards/only_full_func_accuracy_reward': 0.7187500596046448, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7098215818405151, 'reward_std': 0.0731271281838417, 'kl': 0.308837890625, 'epoch': 0.43}
+ 43%|████▎     | 1852/4286 [12:08:03<16:09:59, 23.91s/it] 43%|████▎     | 1853/4286 [12:08:27<16:07:09, 23.85s/it]                                                         {'loss': 0.0016, 'grad_norm': 0.3275308578957152, 'learning_rate': 5.676621558562762e-07, 'completion_length': 436.7232360839844, 'rewards/only_full_func_accuracy_reward': 0.7589285969734192, 'rewards/format_reward': 1.0, 'reward': 1.758928656578064, 'reward_std': 0.02915941085666418, 'kl': 0.0400390625, 'epoch': 0.43}
+ 43%|████▎     | 1853/4286 [12:08:27<16:07:09, 23.85s/it] 43%|████▎     | 1854/4286 [12:08:52<16:18:47, 24.15s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.4289452106675475, 'learning_rate': 5.674288380774614e-07, 'completion_length': 462.2232360839844, 'rewards/only_full_func_accuracy_reward': 0.4776786118745804, 'rewards/format_reward': 1.0, 'reward': 1.4776787161827087, 'reward_std': 0.0398817528039217, 'kl': 0.0367431640625, 'epoch': 0.43}
+ 43%|████▎     | 1854/4286 [12:08:52<16:18:47, 24.15s/it] 43%|████▎     | 1855/4286 [12:09:16<16:21:45, 24.23s/it]                                                         {'loss': 0.0121, 'grad_norm': 0.5751549845186206, 'learning_rate': 5.671955202986467e-07, 'completion_length': 380.1964416503906, 'rewards/only_full_func_accuracy_reward': 0.7328869700431824, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.723958432674408, 'reward_std': 0.120827442035079, 'kl': 0.302001953125, 'epoch': 0.43}
+ 43%|███��▎     | 1855/4286 [12:09:16<16:21:45, 24.23s/it] 43%|████▎     | 1856/4286 [12:09:39<15:57:37, 23.65s/it]                                                         {'loss': 0.0267, 'grad_norm': 0.9095242175717255, 'learning_rate': 5.66962202519832e-07, 'completion_length': 329.8482208251953, 'rewards/only_full_func_accuracy_reward': 0.736607164144516, 'rewards/format_reward': 1.0, 'reward': 1.7366071939468384, 'reward_std': 0.0900062695145607, 'kl': 0.664306640625, 'epoch': 0.43}
+ 43%|████▎     | 1856/4286 [12:09:39<15:57:37, 23.65s/it] 43%|████▎     | 1857/4286 [12:10:04<16:13:25, 24.05s/it]                                                         {'loss': 0.0427, 'grad_norm': 0.6693660290416129, 'learning_rate': 5.667288847410172e-07, 'completion_length': 442.26788330078125, 'rewards/only_full_func_accuracy_reward': 0.7075892984867096, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6897322535514832, 'reward_std': 0.09891078434884548, 'kl': 1.06640625, 'epoch': 0.43}
+ 43%|████▎     | 1857/4286 [12:10:04<16:13:25, 24.05s/it] 43%|████▎     | 1858/4286 [12:10:28<16:14:34, 24.08s/it]                                                         {'loss': 0.0149, 'grad_norm': 0.40869648802923836, 'learning_rate': 5.664955669622024e-07, 'completion_length': 407.6339416503906, 'rewards/only_full_func_accuracy_reward': 0.6406250298023224, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6316964626312256, 'reward_std': 0.060920968651771545, 'kl': 0.372314453125, 'epoch': 0.43}
+ 43%|████▎     | 1858/4286 [12:10:28<16:14:34, 24.08s/it] 43%|████▎     | 1859/4286 [12:10:51<16:01:02, 23.76s/it]                                                         {'loss': 0.0112, 'grad_norm': 0.765145384742251, 'learning_rate': 5.662622491833878e-07, 'completion_length': 401.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.7903274297714233, 'rewards/format_reward': 1.0, 'reward': 1.7903274893760681, 'reward_std': 0.0037880728486925364, 'kl': 0.2794189453125, 'epoch': 0.43}
+ 43%|████▎     | 1859/4286 [12:10:51<16:01:02, 23.76s/it] 43%|████▎     | 1860/4286 [12:11:13<15:44:06, 23.35s/it]                                                         {'loss': 0.0582, 'grad_norm': 4.421550327516345, 'learning_rate': 5.66028931404573e-07, 'completion_length': 370.35716247558594, 'rewards/only_full_func_accuracy_reward': 0.727678656578064, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7098215818405151, 'reward_std': 0.15547828748822212, 'kl': 1.4609375, 'epoch': 0.43}
+ 43%|████▎     | 1860/4286 [12:11:13<15:44:06, 23.35s/it] 43%|████▎     | 1861/4286 [12:11:38<16:06:49, 23.92s/it]                                                         {'loss': 0.0083, 'grad_norm': 0.9521373303449706, 'learning_rate': 5.657956136257582e-07, 'completion_length': 448.54466247558594, 'rewards/only_full_func_accuracy_reward': 0.7671131193637848, 'rewards/format_reward': 1.0, 'reward': 1.7671132683753967, 'reward_std': 0.03853995352983475, 'kl': 0.20751953125, 'epoch': 0.43}
+ 43%|████▎     | 1861/4286 [12:11:38<16:06:49, 23.92s/it] 43%|████▎     | 1862/4286 [12:12:04<16:25:20, 24.39s/it]                                                         {'loss': 0.0271, 'grad_norm': 1.740488038773621, 'learning_rate': 5.655622958469434e-07, 'completion_length': 471.48216247558594, 'rewards/only_full_func_accuracy_reward': 0.56101194024086, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5520833730697632, 'reward_std': 0.09407691285014153, 'kl': 0.6767578125, 'epoch': 0.43}
+ 43%|████▎     | 1862/4286 [12:12:04<16:25:20, 24.39s/it] 43%|████▎     | 1863/4286 [12:12:29<16:36:21, 24.67s/it]                                                         {'loss': 0.0014, 'grad_norm': 0.16217276778710532, 'learning_rate': 5.653289780681288e-07, 'completion_length': 455.0982360839844, 'rewards/only_full_func_accuracy_reward': 0.7202381789684296, 'rewards/format_reward': 1.0, 'reward': 1.720238208770752, 'reward_std': 0.03336837887763977, 'kl': 0.0360107421875, 'epoch': 0.43}
+ 43%|████▎     | 1863/4286 [12:12:29<16:36:21, 24.67s/it] 43%|████▎     | 1864/4286 [12:12:52<16:10:40, 24.05s/it]                                                         {'loss': 0.05, 'grad_norm': 0.8977114743607196, 'learning_rate': 5.65095660289314e-07, 'completion_length': 355.9643096923828, 'rewards/only_full_func_accuracy_reward': 0.6610970199108124, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6521685123443604, 'reward_std': 0.1145983561873436, 'kl': 1.25390625, 'epoch': 0.43}
+ 43%|████▎     | 1864/4286 [12:12:52<16:10:40, 24.05s/it] 44%|████▎     | 1865/4286 [12:13:14<15:51:15, 23.58s/it]                                                         {'loss': 0.0715, 'grad_norm': 0.8074895136629993, 'learning_rate': 5.648623425104992e-07, 'completion_length': 387.8035888671875, 'rewards/only_full_func_accuracy_reward': 0.6570616960525513, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6392046809196472, 'reward_std': 0.16017231345176697, 'kl': 1.7841796875, 'epoch': 0.44}
+ 44%|████▎     | 1865/4286 [12:13:14<15:51:15, 23.58s/it] 44%|████▎     | 1866/4286 [12:13:39<16:07:32, 23.99s/it]                                                         {'loss': 0.0084, 'grad_norm': 0.8012355630336263, 'learning_rate': 5.646290247316845e-07, 'completion_length': 441.50001525878906, 'rewards/only_full_func_accuracy_reward': 0.7343750298023224, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7254465818405151, 'reward_std': 0.08950590807944536, 'kl': 0.208984375, 'epoch': 0.44}
+ 44%|████▎     | 1866/4286 [12:13:39<16:07:32, 23.99s/it] 44%|████▎     | 1867/4286 [12:14:04<16:12:58, 24.13s/it]                                                         {'loss': 0.0108, 'grad_norm': 0.7467274373144349, 'learning_rate': 5.643957069528698e-07, 'completion_length': 457.2857360839844, 'rewards/only_full_func_accuracy_reward': 0.7559524476528168, 'rewards/format_reward': 1.0, 'reward': 1.755952537059784, 'reward_std': 0.046117495745420456, 'kl': 0.268798828125, 'epoch': 0.44}
+ 44%|████▎     | 1867/4286 [12:14:04<16:12:58, 24.13s/it] 44%|████▎     | 1868/4286 [12:14:28<16:14:44, 24.19s/it]                                                         {'loss': 0.0675, 'grad_norm': 1.6830637529729109, 'learning_rate': 5.64162389174055e-07, 'completion_length': 420.2857360839844, 'rewards/only_full_func_accuracy_reward': 0.4593750089406967, 'rewards/format_reward': 0.973214328289032, 'reward': 1.43258935213089, 'reward_std': 0.15370086953043938, 'kl': 1.6875, 'epoch': 0.44}
+ 44%|████▎     | 1868/4286 [12:14:28<16:14:44, 24.19s/it] 44%|████▎     | 1869/4286 [12:14:51<16:04:22, 23.94s/it]                                                         {'loss': 0.0022, 'grad_norm': 0.3825516244828262, 'learning_rate': 5.639290713952403e-07, 'completion_length': 364.5178680419922, 'rewards/only_full_func_accuracy_reward': 0.7961309552192688, 'rewards/format_reward': 1.0, 'reward': 1.7961310744285583, 'reward_std': 0.048314230516552925, 'kl': 0.0540771484375, 'epoch': 0.44}
+ 44%|████▎     | 1869/4286 [12:14:51<16:04:22, 23.94s/it] 44%|████▎     | 1870/4286 [12:15:16<16:10:31, 24.10s/it]                                                         {'loss': 0.0072, 'grad_norm': 0.5041997039941458, 'learning_rate': 5.636957536164255e-07, 'completion_length': 447.4018096923828, 'rewards/only_full_func_accuracy_reward': 0.690476268529892, 'rewards/format_reward': 1.0, 'reward': 1.6904763579368591, 'reward_std': 0.0561354449018836, 'kl': 0.1785888671875, 'epoch': 0.44}
+ 44%|████▎     | 1870/4286 [12:15:16<16:10:31, 24.10s/it] 44%|████▎     | 1871/4286 [12:15:40<16:10:59, 24.12s/it]                                                         {'loss': 0.0305, 'grad_norm': 0.647032745834595, 'learning_rate': 5.634624358376107e-07, 'completion_length': 408.1964569091797, 'rewards/only_full_func_accuracy_reward': 0.7172619104385376, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.708333432674408, 'reward_std': 0.08567571826279163, 'kl': 0.763671875, 'epoch': 0.44}
+ 44%|████▎     | 1871/4286 [12:15:40<16:10:59, 24.12s/it] 44%|████▎     | 1872/4286 [12:16:03<16:02:52, 23.93s/it]                                                         {'loss': 0.0484, 'grad_norm': 1.0974377205608172, 'learning_rate': 5.632291180587961e-07, 'completion_length': 423.9732360839844, 'rewards/only_full_func_accuracy_reward': 0.6706845462322235, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.6349703073501587, 'reward_std': 0.16739466786384583, 'kl': 1.212890625, 'epoch': 0.44}
+ 44%|████▎     | 1872/4286 [12:16:03<16:02:52, 23.93s/it] 44%|████▎     | 1873/4286 [12:16:27<16:02:19, 23.93s/it]                                                         {'loss': 0.015, 'grad_norm': 0.427506038429899, 'learning_rate': 5.629958002799813e-07, 'completion_length': 428.2857360839844, 'rewards/only_full_func_accuracy_reward': 0.8214285969734192, 'rewards/format_reward': 1.0, 'reward': 1.8214287161827087, 'reward_std': 0.037576411850750446, 'kl': 0.3753662109375, 'epoch': 0.44}
+ 44%|████▎     | 1873/4286 [12:16:27<16:02:19, 23.93s/it] 44%|████▎     | 1874/4286 [12:16:52<16:11:21, 24.16s/it]                                                         {'loss': 0.0145, 'grad_norm': 0.9873000898226459, 'learning_rate': 5.627624825011665e-07, 'completion_length': 447.79466247558594, 'rewards/only_full_func_accuracy_reward': 0.6491071879863739, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6401786804199219, 'reward_std': 0.1450287401676178, 'kl': 0.3624267578125, 'epoch': 0.44}
+ 44%|████▎     | 1874/4286 [12:16:52<16:11:21, 24.16s/it] 44%|████▎     | 1875/4286 [12:17:17<16:16:34, 24.30s/it]                                                         {'loss': 0.0021, 'grad_norm': 1.2713621905377088, 'learning_rate': 5.625291647223517e-07, 'completion_length': 429.5625305175781, 'rewards/only_full_func_accuracy_reward': 0.5751488208770752, 'rewards/format_reward': 1.0, 'reward': 1.5751489400863647, 'reward_std': 0.06249591335654259, 'kl': 0.0528564453125, 'epoch': 0.44}
+ 44%|████▎     | 1875/4286 [12:17:17<16:16:34, 24.30s/it] 44%|████▍     | 1876/4286 [12:17:39<15:49:58, 23.65s/it]                                                         {'loss': 0.0181, 'grad_norm': 0.5668936896631933, 'learning_rate': 5.622958469435371e-07, 'completion_length': 352.0268096923828, 'rewards/only_full_func_accuracy_reward': 0.7053571939468384, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6964287161827087, 'reward_std': 0.05441228812560439, 'kl': 0.4517822265625, 'epoch': 0.44}
+ 44%|████▍     | 1876/4286 [12:17:39<15:49:58, 23.65s/it] 44%|████▍     | 1877/4286 [12:18:03<15:53:20, 23.74s/it]                                                         {'loss': 0.0109, 'grad_norm': 1.3636388361228196, 'learning_rate': 5.620625291647223e-07, 'completion_length': 405.4107360839844, 'rewards/only_full_func_accuracy_reward': 0.8014881014823914, 'rewards/format_reward': 1.0, 'reward': 1.8014882802963257, 'reward_std': 0.03676057234406471, 'kl': 0.272216796875, 'epoch': 0.44}
+ 44%|████▍     | 1877/4286 [12:18:03<15:53:20, 23.74s/it] 44%|████▍     | 1878/4286 [12:18:27<15:57:39, 23.86s/it]                                                         {'loss': 0.0143, 'grad_norm': 0.7661729972435147, 'learning_rate': 5.618292113859075e-07, 'completion_length': 419.7143096923828, 'rewards/only_full_func_accuracy_reward': 0.6264881491661072, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6175596714019775, 'reward_std': 0.07068070769309998, 'kl': 0.3583984375, 'epoch': 0.44}
+ 44%|████▍     | 1878/4286 [12:18:27<15:57:39, 23.86s/it] 44%|████▍     | 1879/4286 [12:18:52<16:08:08, 24.13s/it]                                                         {'loss': 0.0624, 'grad_norm': 3.027133277337366, 'learning_rate': 5.615958936070928e-07, 'completion_length': 428.46429443359375, 'rewards/only_full_func_accuracy_reward': 0.5738438665866852, 'rewards/format_reward': 0.9375000596046448, 'reward': 1.5113438963890076, 'reward_std': 0.18173934891819954, 'kl': 1.5546875, 'epoch': 0.44}
+ 44%|████▍     | 1879/4286 [12:18:52<16:08:08, 24.13s/it] 44%|████▍     | 1880/4286 [12:19:15<15:56:28, 23.85s/it]                                                         {'loss': 0.0089, 'grad_norm': 1.8782851368097166, 'learning_rate': 5.613625758282781e-07, 'completion_length': 406.58929443359375, 'rewards/only_full_func_accuracy_reward': 0.5751488208770752, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5662203431129456, 'reward_std': 0.09642348159104586, 'kl': 0.2230224609375, 'epoch': 0.44}
+ 44%|████▍     | 1880/4286 [12:19:15<15:56:28, 23.85s/it] 44%|████▍     | 1881/4286 [12:19:38<15:50:06, 23.70s/it]                                                         {'loss': 0.0152, 'grad_norm': 1.9123464240727823, 'learning_rate': 5.611292580494633e-07, 'completion_length': 416.6518096923828, 'rewards/only_full_func_accuracy_reward': 0.6546131372451782, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6456846594810486, 'reward_std': 0.051243968307971954, 'kl': 0.38037109375, 'epoch': 0.44}
+ 44%|████▍     | 1881/4286 [12:19:38<15:50:06, 23.70s/it] 44%|████▍     | 1882/4286 [12:20:03<16:02:06, 24.01s/it]                                                         {'loss': 0.0584, 'grad_norm': 2.677243049052891, 'learning_rate': 5.608959402706486e-07, 'completion_length': 419.2768096923828, 'rewards/only_full_func_accuracy_reward': 0.7477679252624512, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.7120537161827087, 'reward_std': 0.15949513018131256, 'kl': 1.46484375, 'epoch': 0.44}
+ 44%|████▍     | 1882/4286 [12:20:03<16:02:06, 24.01s/it] 44%|████▍     | 1883/4286 [12:20:27<15:56:51, 23.89s/it]                                                         {'loss': 0.0078, 'grad_norm': 1.6594398965320636, 'learning_rate': 5.606626224918338e-07, 'completion_length': 378.50001525878906, 'rewards/only_full_func_accuracy_reward': 0.8188988566398621, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8099703192710876, 'reward_std': 0.041532233357429504, 'kl': 0.19482421875, 'epoch': 0.44}
+ 44%|████▍     | 1883/4286 [12:20:27<15:56:51, 23.89s/it] 44%|████▍     | 1884/4286 [12:20:52<16:11:16, 24.26s/it]                                                         {'loss': 0.0022, 'grad_norm': 0.7410151337804158, 'learning_rate': 5.604293047130191e-07, 'completion_length': 435.8482360839844, 'rewards/only_full_func_accuracy_reward': 0.6547619700431824, 'rewards/format_reward': 1.0, 'reward': 1.6547619700431824, 'reward_std': 0.047946684062480927, 'kl': 0.0548095703125, 'epoch': 0.44}
+ 44%|████▍     | 1884/4286 [12:20:52<16:11:16, 24.26s/it] 44%|████▍     | 1885/4286 [12:21:15<16:03:56, 24.09s/it]                                                         {'loss': 0.0144, 'grad_norm': 1.2576100861272503, 'learning_rate': 5.601959869342043e-07, 'completion_length': 365.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.7861395180225372, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7772110104560852, 'reward_std': 0.11106133088469505, 'kl': 0.35986328125, 'epoch': 0.44}
+ 44%|████▍     | 1885/4286 [12:21:15<16:03:56, 24.09s/it] 44%|████▍     | 1886/4286 [12:21:39<16:02:08, 24.05s/it]                                                         {'loss': 0.0367, 'grad_norm': 2.614253903592918, 'learning_rate': 5.599626691553896e-07, 'completion_length': 423.2410888671875, 'rewards/only_full_func_accuracy_reward': 0.6350243091583252, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.5993102192878723, 'reward_std': 0.18011052906513214, 'kl': 0.91796875, 'epoch': 0.44}
+ 44%|████▍     | 1886/4286 [12:21:39<16:02:08, 24.05s/it] 44%|████▍     | 1887/4286 [12:22:03<15:58:02, 23.96s/it]                                                         {'loss': 0.0021, 'grad_norm': 0.9331537421185118, 'learning_rate': 5.597293513765748e-07, 'completion_length': 403.4107360839844, 'rewards/only_full_func_accuracy_reward': 0.6629464328289032, 'rewards/format_reward': 1.0, 'reward': 1.6629465222358704, 'reward_std': 0.04620974883437157, 'kl': 0.052734375, 'epoch': 0.44}
+ 44%|████▍     | 1887/4286 [12:22:03<15:58:02, 23.96s/it] 44%|████▍     | 1888/4286 [12:22:26<15:44:10, 23.62s/it]                                                         {'loss': 0.0407, 'grad_norm': 5.183552684899391, 'learning_rate': 5.594960335977601e-07, 'completion_length': 394.20538330078125, 'rewards/only_full_func_accuracy_reward': 0.6353603303432465, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6175032258033752, 'reward_std': 0.14917957410216331, 'kl': 1.017578125, 'epoch': 0.44}
+ 44%|████▍     | 1888/4286 [12:22:26<15:44:10, 23.62s/it] 44%|████▍     | 1889/4286 [12:22:50<15:47:50, 23.73s/it]                                                         {'loss': 0.0059, 'grad_norm': 0.7108843091747958, 'learning_rate': 5.592627158189454e-07, 'completion_length': 443.9464416503906, 'rewards/only_full_func_accuracy_reward': 0.8267857730388641, 'rewards/format_reward': 1.0, 'reward': 1.8267858028411865, 'reward_std': 0.06550682429224253, 'kl': 0.1475830078125, 'epoch': 0.44}
+ 44%|████▍     | 1889/4286 [12:22:50<15:47:50, 23.73s/it] 44%|████▍     | 1890/4286 [12:23:15<16:00:19, 24.05s/it]                                                         {'loss': 0.0022, 'grad_norm': 1.9116516630209293, 'learning_rate': 5.590293980401306e-07, 'completion_length': 466.7321472167969, 'rewards/only_full_func_accuracy_reward': 0.6822916865348816, 'rewards/format_reward': 1.0, 'reward': 1.6822917461395264, 'reward_std': 0.10159745439887047, 'kl': 0.05517578125, 'epoch': 0.44}
+ 44%|████▍     | 1890/4286 [12:23:15<16:00:19, 24.05s/it] 44%|████▍     | 1891/4286 [12:23:37<15:43:23, 23.63s/it]                                                         {'loss': 0.0123, 'grad_norm': 1.4681798152877488, 'learning_rate': 5.587960802613158e-07, 'completion_length': 426.6160888671875, 'rewards/only_full_func_accuracy_reward': 0.7277848720550537, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7188564538955688, 'reward_std': 0.07166326232254505, 'kl': 0.305908203125, 'epoch': 0.44}
+ 44%|████▍     | 1891/4286 [12:23:37<15:43:23, 23.63s/it] 44%|████▍     | 1892/4286 [12:24:00<15:31:40, 23.35s/it]                                                         {'loss': 0.0157, 'grad_norm': 0.24253019829766911, 'learning_rate': 5.585627624825012e-07, 'completion_length': 397.2410888671875, 'rewards/only_full_func_accuracy_reward': 0.6971726417541504, 'rewards/format_reward': 1.0, 'reward': 1.6971727013587952, 'reward_std': 0.04291370138525963, 'kl': 0.3953857421875, 'epoch': 0.44}
+ 44%|████▍     | 1892/4286 [12:24:00<15:31:40, 23.35s/it] 44%|████▍     | 1893/4286 [12:24:25<15:46:07, 23.72s/it]                                                         {'loss': 0.0193, 'grad_norm': 0.49611019429135533, 'learning_rate': 5.583294447036864e-07, 'completion_length': 448.12501525878906, 'rewards/only_full_func_accuracy_reward': 0.7023809552192688, 'rewards/format_reward': 1.0, 'reward': 1.7023810744285583, 'reward_std': 0.06793281342834234, 'kl': 0.479248046875, 'epoch': 0.44}
+ 44%|████▍     | 1893/4286 [12:24:25<15:46:07, 23.72s/it] 44%|████▍     | 1894/4286 [12:24:49<15:58:06, 24.03s/it]                                                         {'loss': 0.0016, 'grad_norm': 0.8663405611271816, 'learning_rate': 5.580961269248716e-07, 'completion_length': 430.2143096923828, 'rewards/only_full_func_accuracy_reward': 0.6971726417541504, 'rewards/format_reward': 1.0, 'reward': 1.6971727013587952, 'reward_std': 0.03742426075041294, 'kl': 0.0399169921875, 'epoch': 0.44}
+ 44%|████▍     | 1894/4286 [12:24:49<15:58:06, 24.03s/it] 44%|████▍     | 1895/4286 [12:25:13<15:49:34, 23.83s/it]                                                         {'loss': 0.0184, 'grad_norm': 0.6093227459629963, 'learning_rate': 5.578628091460569e-07, 'completion_length': 377.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.5736607611179352, 'rewards/format_reward': 1.0, 'reward': 1.5736608505249023, 'reward_std': 0.02354338765144348, 'kl': 0.457763671875, 'epoch': 0.44}
+ 44%|████▍     | 1895/4286 [12:25:13<15:49:34, 23.83s/it] 44%|████▍     | 1896/4286 [12:25:37<15:49:21, 23.83s/it]                                                         {'loss': 0.0017, 'grad_norm': 0.34452201625640405, 'learning_rate': 5.576294913672421e-07, 'completion_length': 395.23216247558594, 'rewards/only_full_func_accuracy_reward': 0.7305059731006622, 'rewards/format_reward': 1.0, 'reward': 1.7305060625076294, 'reward_std': 0.04788465425372124, 'kl': 0.04345703125, 'epoch': 0.44}
+ 44%|████▍     | 1896/4286 [12:25:37<15:49:21, 23.83s/it] 44%|████▍     | 1897/4286 [12:25:59<15:30:14, 23.36s/it]                                                         {'loss': 0.0667, 'grad_norm': 2.4020865045048096, 'learning_rate': 5.573961735884274e-07, 'completion_length': 378.02679443359375, 'rewards/only_full_func_accuracy_reward': 0.6470734477043152, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.620287835597992, 'reward_std': 0.10667436569929123, 'kl': 1.67138671875, 'epoch': 0.44}
+ 44%|████▍     | 1897/4286 [12:25:59<15:30:14, 23.36s/it] 44%|████▍     | 1898/4286 [12:26:20<15:08:18, 22.82s/it]                                                         {'loss': 0.0097, 'grad_norm': 0.8811636934861329, 'learning_rate': 5.571628558096126e-07, 'completion_length': 373.21429443359375, 'rewards/only_full_func_accuracy_reward': 0.7544642984867096, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7455358505249023, 'reward_std': 0.09224040061235428, 'kl': 0.24267578125, 'epoch': 0.44}
+ 44%|████▍     | 1898/4286 [12:26:20<15:08:18, 22.82s/it] 44%|████▍     | 1899/4286 [12:26:44<15:14:09, 22.98s/it]                                                         {'loss': 0.0103, 'grad_norm': 0.5097805806876438, 'learning_rate': 5.569295380307979e-07, 'completion_length': 434.5893096923828, 'rewards/only_full_func_accuracy_reward': 0.7111607491970062, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7022322416305542, 'reward_std': 0.05564991291612387, 'kl': 0.255859375, 'epoch': 0.44}
+ 44%|████▍     | 1899/4286 [12:26:44<15:14:09, 22.98s/it] 44%|████▍     | 1900/4286 [12:27:08<15:23:50, 23.23s/it]                                                         {'loss': 0.0018, 'grad_norm': 0.17152121897639466, 'learning_rate': 5.566962202519831e-07, 'completion_length': 417.75001525878906, 'rewards/only_full_func_accuracy_reward': 0.735119104385376, 'rewards/format_reward': 1.0, 'reward': 1.7351191639900208, 'reward_std': 0.06710430607199669, 'kl': 0.0462646484375, 'epoch': 0.44}
+ 44%|████▍     | 1900/4286 [12:27:08<15:23:50, 23.23s/it] 44%|████▍     | 1901/4286 [12:28:48<30:38:01, 46.24s/it]                                                         {'loss': 0.0202, 'grad_norm': 0.2771700989799043, 'learning_rate': 5.564629024731684e-07, 'completion_length': 459.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.4434524178504944, 'rewards/format_reward': 1.0, 'reward': 1.4434524774551392, 'reward_std': 0.03288931120187044, 'kl': 0.5025634765625, 'epoch': 0.44}
+ 44%|████▍     | 1901/4286 [12:28:48<30:38:01, 46.24s/it] 44%|████▍     | 1902/4286 [12:29:11<26:08:26, 39.47s/it]                                                         {'loss': 0.0114, 'grad_norm': 0.42713125178461153, 'learning_rate': 5.562295846943537e-07, 'completion_length': 428.5803680419922, 'rewards/only_full_func_accuracy_reward': 0.694196492433548, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6852680444717407, 'reward_std': 0.06087668985128403, 'kl': 0.2855224609375, 'epoch': 0.44}
+ 44%|████▍     | 1902/4286 [12:29:11<26:08:26, 39.47s/it] 44%|████▍     | 1903/4286 [12:29:35<22:56:15, 34.65s/it]                                                         {'loss': 0.0019, 'grad_norm': 0.2571442335655392, 'learning_rate': 5.559962669155389e-07, 'completion_length': 391.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.7485119700431824, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.739583432674408, 'reward_std': 0.11439187824726105, 'kl': 0.0465087890625, 'epoch': 0.44}
+ 44%|████▍     | 1903/4286 [12:29:35<22:56:15, 34.65s/it] 44%|████▍     | 1904/4286 [12:29:58<20:44:56, 31.36s/it]                                                         {'loss': 0.01, 'grad_norm': 0.723871920512777, 'learning_rate': 5.557629491367241e-07, 'completion_length': 432.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.8199405670166016, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8110120296478271, 'reward_std': 0.06849200651049614, 'kl': 0.25048828125, 'epoch': 0.44}
+ 44%|████▍     | 1904/4286 [12:29:58<20:44:56, 31.36s/it] 44%|████▍     | 1905/4286 [12:30:22<19:14:36, 29.10s/it]                                                         {'loss': 0.0242, 'grad_norm': 1.0360907887820456, 'learning_rate': 5.555296313579095e-07, 'completion_length': 425.9464416503906, 'rewards/only_full_func_accuracy_reward': 0.7096726596355438, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7007441520690918, 'reward_std': 0.07509863190352917, 'kl': 0.60546875, 'epoch': 0.44}
+ 44%|████▍     | 1905/4286 [12:30:22<19:14:36, 29.10s/it] 44%|████▍     | 1906/4286 [12:30:45<18:03:58, 27.33s/it]                                                         {'loss': 0.0054, 'grad_norm': 0.5511585842975311, 'learning_rate': 5.552963135790947e-07, 'completion_length': 425.6518096923828, 'rewards/only_full_func_accuracy_reward': 0.6787202954292297, 'rewards/format_reward': 1.0, 'reward': 1.6787203550338745, 'reward_std': 0.04329949803650379, 'kl': 0.1358642578125, 'epoch': 0.44}
+ 44%|████▍     | 1906/4286 [12:30:45<18:03:58, 27.33s/it] 44%|████▍     | 1907/4286 [12:31:09<17:21:47, 26.27s/it]                                                         {'loss': 0.018, 'grad_norm': 0.889277781871915, 'learning_rate': 5.550629958002799e-07, 'completion_length': 425.5357360839844, 'rewards/only_full_func_accuracy_reward': 0.6788690388202667, 'rewards/format_reward': 1.0, 'reward': 1.6788691878318787, 'reward_std': 0.06415449641644955, 'kl': 0.4501953125, 'epoch': 0.44}
+ 44%|████▍     | 1907/4286 [12:31:09<17:21:47, 26.27s/it] 45%|████▍     | 1908/4286 [12:31:34<16:59:05, 25.71s/it]                                                         {'loss': 0.0259, 'grad_norm': 0.5466605097659109, 'learning_rate': 5.548296780214651e-07, 'completion_length': 428.1339416503906, 'rewards/only_full_func_accuracy_reward': 0.7485119700431824, 'rewards/format_reward': 1.0, 'reward': 1.7485119700431824, 'reward_std': 0.06396408751606941, 'kl': 0.647216796875, 'epoch': 0.45}
+ 45%|████▍     | 1908/4286 [12:31:34<16:59:05, 25.71s/it] 45%|████▍     | 1909/4286 [12:31:56<16:25:12, 24.87s/it]                                                         {'loss': 0.0187, 'grad_norm': 0.27729749753138805, 'learning_rate': 5.545963602426505e-07, 'completion_length': 388.0803680419922, 'rewards/only_full_func_accuracy_reward': 0.7358631491661072, 'rewards/format_reward': 1.0, 'reward': 1.735863208770752, 'reward_std': 0.033398400992155075, 'kl': 0.467041015625, 'epoch': 0.45}
+ 45%|████▍     | 1909/4286 [12:31:56<16:25:12, 24.87s/it] 45%|████▍     | 1910/4286 [12:32:19<16:01:22, 24.28s/it]                                                         {'loss': 0.0183, 'grad_norm': 0.5341796623582581, 'learning_rate': 5.543630424638357e-07, 'completion_length': 355.1607208251953, 'rewards/only_full_func_accuracy_reward': 0.7485119700431824, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.739583432674408, 'reward_std': 0.08387209102511406, 'kl': 0.4578857421875, 'epoch': 0.45}
+ 45%|████▍     | 1910/4286 [12:32:19<16:01:22, 24.28s/it] 45%|████▍     | 1911/4286 [12:32:44<16:04:59, 24.38s/it]                                                         {'loss': 0.0121, 'grad_norm': 1.9927525757500977, 'learning_rate': 5.541297246850209e-07, 'completion_length': 431.7053680419922, 'rewards/only_full_func_accuracy_reward': 0.6608631312847137, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6519346237182617, 'reward_std': 0.07648869603872299, 'kl': 0.3026123046875, 'epoch': 0.45}
+ 45%|████▍     | 1911/4286 [12:32:44<16:04:59, 24.38s/it] 45%|████▍     | 1912/4286 [12:33:06<15:41:05, 23.78s/it]                                                         {'loss': 0.0211, 'grad_norm': 0.7202040982216404, 'learning_rate': 5.538964069062062e-07, 'completion_length': 365.2678680419922, 'rewards/only_full_func_accuracy_reward': 0.7529762089252472, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7440477013587952, 'reward_std': 0.07124816812574863, 'kl': 0.529541015625, 'epoch': 0.45}
+ 45%|████▍     | 1912/4286 [12:33:06<15:41:05, 23.78s/it] 45%|████▍     | 1913/4286 [12:33:29<15:31:39, 23.56s/it]                                                         {'loss': 0.0018, 'grad_norm': 0.39167149731268286, 'learning_rate': 5.536630891273915e-07, 'completion_length': 401.0357208251953, 'rewards/only_full_func_accuracy_reward': 0.6162202954292297, 'rewards/format_reward': 1.0, 'reward': 1.6162203550338745, 'reward_std': 0.045815762132406235, 'kl': 0.0450439453125, 'epoch': 0.45}
+ 45%|████▍     | 1913/4286 [12:33:29<15:31:39, 23.56s/it] 45%|████▍     | 1914/4286 [12:33:54<15:37:57, 23.73s/it]                                                         {'loss': 0.0387, 'grad_norm': 0.6122744609671285, 'learning_rate': 5.534297713485767e-07, 'completion_length': 422.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.6691964268684387, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.65133935213089, 'reward_std': 0.10108609311282635, 'kl': 0.967041015625, 'epoch': 0.45}
+ 45%|████▍     | 1914/4286 [12:33:54<15:37:57, 23.73s/it] 45%|████▍     | 1915/4286 [12:34:17<15:40:29, 23.80s/it]                                                         {'loss': 0.0475, 'grad_norm': 2.8210035483382696, 'learning_rate': 5.53196453569762e-07, 'completion_length': 439.5268096923828, 'rewards/only_full_func_accuracy_reward': 0.6626488864421844, 'rewards/format_reward': 1.0, 'reward': 1.6626489162445068, 'reward_std': 0.05105544254183769, 'kl': 1.1875, 'epoch': 0.45}
+ 45%|████▍     | 1915/4286 [12:34:17<15:40:29, 23.80s/it] 45%|████▍     | 1916/4286 [12:34:40<15:26:31, 23.46s/it]                                                         {'loss': 0.0017, 'grad_norm': 0.23394959905755958, 'learning_rate': 5.529631357909472e-07, 'completion_length': 372.9285888671875, 'rewards/only_full_func_accuracy_reward': 0.7514881789684296, 'rewards/format_reward': 1.0, 'reward': 1.751488208770752, 'reward_std': 0.017728294245898724, 'kl': 0.04345703125, 'epoch': 0.45}
+ 45%|████▍     | 1916/4286 [12:34:40<15:26:31, 23.46s/it] 45%|████▍     | 1917/4286 [12:35:04<15:29:45, 23.55s/it]                                                         {'loss': 0.0108, 'grad_norm': 0.4995477496130762, 'learning_rate': 5.527298180121325e-07, 'completion_length': 403.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.6986607015132904, 'rewards/format_reward': 1.0, 'reward': 1.6986608505249023, 'reward_std': 0.0819144956767559, 'kl': 0.2689208984375, 'epoch': 0.45}
+ 45%|████▍     | 1917/4286 [12:35:04<15:29:45, 23.55s/it] 45%|████▍     | 1918/4286 [12:35:26<15:17:47, 23.25s/it]                                                         {'loss': 0.0532, 'grad_norm': 1.1039010841516956, 'learning_rate': 5.524965002333178e-07, 'completion_length': 329.92858123779297, 'rewards/only_full_func_accuracy_reward': 0.7217262089252472, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7038691639900208, 'reward_std': 0.10952349938452244, 'kl': 1.32421875, 'epoch': 0.45}
+ 45%|████▍     | 1918/4286 [12:35:26<15:17:47, 23.25s/it] 45%|████▍     | 1919/4286 [12:35:50<15:17:17, 23.25s/it]                                                         {'loss': 0.0371, 'grad_norm': 1.4895202748203862, 'learning_rate': 5.52263182454503e-07, 'completion_length': 402.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.551488071680069, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.5336310267448425, 'reward_std': 0.15199298597872257, 'kl': 0.9256591796875, 'epoch': 0.45}
+ 45%|████▍     | 1919/4286 [12:35:50<15:17:17, 23.25s/it] 45%|████▍     | 1920/4286 [12:36:14<15:33:38, 23.68s/it]                                                         {'loss': 0.0239, 'grad_norm': 0.728403481759345, 'learning_rate': 5.520298646756882e-07, 'completion_length': 443.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.6272322088479996, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6093751788139343, 'reward_std': 0.14214301481842995, 'kl': 0.59765625, 'epoch': 0.45}
+ 45%|████▍     | 1920/4286 [12:36:14<15:33:38, 23.68s/it] 45%|████▍     | 1921/4286 [12:36:37<15:20:42, 23.36s/it]                                                         {'loss': 0.005, 'grad_norm': 0.46058580599640336, 'learning_rate': 5.517965468968734e-07, 'completion_length': 405.0714416503906, 'rewards/only_full_func_accuracy_reward': 0.6800595819950104, 'rewards/format_reward': 1.0, 'reward': 1.6800596714019775, 'reward_std': 0.03807612881064415, 'kl': 0.1253662109375, 'epoch': 0.45}
+ 45%|████▍     | 1921/4286 [12:36:37<15:20:42, 23.36s/it] 45%|████▍     | 1922/4286 [12:37:01<15:30:13, 23.61s/it]                                                         {'loss': 0.0111, 'grad_norm': 0.5304384718208511, 'learning_rate': 5.515632291180588e-07, 'completion_length': 404.9643096923828, 'rewards/only_full_func_accuracy_reward': 0.6897321939468384, 'rewards/format_reward': 1.0, 'reward': 1.6897322535514832, 'reward_std': 0.10439293831586838, 'kl': 0.27734375, 'epoch': 0.45}
+ 45%|████▍     | 1922/4286 [12:37:01<15:30:13, 23.61s/it] 45%|████▍     | 1923/4286 [12:37:25<15:33:06, 23.69s/it]                                                         {'loss': 0.0153, 'grad_norm': 0.6153515697151641, 'learning_rate': 5.51329911339244e-07, 'completion_length': 404.4732360839844, 'rewards/only_full_func_accuracy_reward': 0.6363095641136169, 'rewards/format_reward': 1.0, 'reward': 1.6363096833229065, 'reward_std': 0.08016405813395977, 'kl': 0.38232421875, 'epoch': 0.45}
+ 45%|████▍     | 1923/4286 [12:37:25<15:33:06, 23.69s/it] 45%|████▍     | 1924/4286 [12:37:49<15:36:40, 23.79s/it]                                                         {'loss': 0.045, 'grad_norm': 0.5368219045014258, 'learning_rate': 5.510965935604292e-07, 'completion_length': 439.01788330078125, 'rewards/only_full_func_accuracy_reward': 0.6181176006793976, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.5824033617973328, 'reward_std': 0.1749341208487749, 'kl': 1.1192626953125, 'epoch': 0.45}
+ 45%|████▍     | 1924/4286 [12:37:49<15:36:40, 23.79s/it] 45%|████▍     | 1925/4286 [12:38:13<15:32:49, 23.71s/it]                                                         {'loss': 0.0221, 'grad_norm': 0.5490902796042477, 'learning_rate': 5.508632757816145e-07, 'completion_length': 405.6339416503906, 'rewards/only_full_func_accuracy_reward': 0.7455357611179352, 'rewards/format_reward': 1.0, 'reward': 1.7455357909202576, 'reward_std': 0.0915486104786396, 'kl': 0.5546875, 'epoch': 0.45}
+ 45%|████▍     | 1925/4286 [12:38:13<15:32:49, 23.71s/it] 45%|████▍     | 1926/4286 [12:38:36<15:24:30, 23.50s/it]                                                         {'loss': 0.0319, 'grad_norm': 0.6885477454240334, 'learning_rate': 5.506299580027998e-07, 'completion_length': 383.85716247558594, 'rewards/only_full_func_accuracy_reward': 0.7142857313156128, 'rewards/format_reward': 1.0, 'reward': 1.7142857909202576, 'reward_std': 0.09717117622494698, 'kl': 0.796875, 'epoch': 0.45}
+ 45%|████▍     | 1926/4286 [12:38:36<15:24:30, 23.50s/it] 45%|████▍     | 1927/4286 [12:39:00<15:36:50, 23.83s/it]                                                         {'loss': 0.04, 'grad_norm': 0.6576176974890608, 'learning_rate': 5.50396640223985e-07, 'completion_length': 424.9464416503906, 'rewards/only_full_func_accuracy_reward': 0.7239583730697632, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7150298357009888, 'reward_std': 0.134487334638834, 'kl': 1.001953125, 'epoch': 0.45}
+ 45%|████▍     | 1927/4286 [12:39:00<15:36:50, 23.83s/it] 45%|████▍     | 1928/4286 [12:39:24<15:40:05, 23.92s/it]                                                         {'loss': 0.0396, 'grad_norm': 0.9912625278626502, 'learning_rate': 5.501633224451703e-07, 'completion_length': 401.2321472167969, 'rewards/only_full_func_accuracy_reward': 0.851934552192688, 'rewards/format_reward': 0.973214328289032, 'reward': 1.8251489400863647, 'reward_std': 0.21558306366205215, 'kl': 0.986328125, 'epoch': 0.45}
+ 45%|████▍     | 1928/4286 [12:39:24<15:40:05, 23.92s/it] 45%|████▌     | 1929/4286 [12:39:48<15:41:44, 23.97s/it]                                                         {'loss': 0.0539, 'grad_norm': 1.432848221675291, 'learning_rate': 5.499300046663555e-07, 'completion_length': 417.68751525878906, 'rewards/only_full_func_accuracy_reward': 0.672619104385376, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6636905074119568, 'reward_std': 0.17030657082796097, 'kl': 1.349609375, 'epoch': 0.45}
+ 45%|████▌     | 1929/4286 [12:39:48<15:41:44, 23.97s/it] 45%|████▌     | 1930/4286 [12:40:12<15:41:52, 23.99s/it]                                                         {'loss': 0.1205, 'grad_norm': 2.1180638726724195, 'learning_rate': 5.496966868875408e-07, 'completion_length': 420.9732360839844, 'rewards/only_full_func_accuracy_reward': 0.612202376127243, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.576488196849823, 'reward_std': 0.19816983491182327, 'kl': 3.015625, 'epoch': 0.45}
+ 45%|████▌     | 1930/4286 [12:40:12<15:41:52, 23.99s/it] 45%|████▌     | 1931/4286 [12:40:34<15:10:49, 23.21s/it]                                                         {'loss': 0.1307, 'grad_norm': 1.3355282128202268, 'learning_rate': 5.49463369108726e-07, 'completion_length': 334.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.57663694024086, 'rewards/format_reward': 0.9464285969734192, 'reward': 1.5230655670166016, 'reward_std': 0.2702880948781967, 'kl': 3.265625, 'epoch': 0.45}
+ 45%|████▌     | 1931/4286 [12:40:34<15:10:49, 23.21s/it] 45%|████▌     | 1932/4286 [12:40:57<15:14:22, 23.31s/it]                                                         {'loss': 0.1102, 'grad_norm': 2.8045192040068456, 'learning_rate': 5.492300513299113e-07, 'completion_length': 414.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.6529761999845505, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.6172620058059692, 'reward_std': 0.17023728415369987, 'kl': 2.74609375, 'epoch': 0.45}
+ 45%|████▌     | 1932/4286 [12:40:57<15:14:22, 23.31s/it] 45%|████▌     | 1933/4286 [12:41:21<15:20:26, 23.47s/it]                                                         {'loss': 0.1602, 'grad_norm': 3.676561901183975, 'learning_rate': 5.489967335510965e-07, 'completion_length': 374.16966247558594, 'rewards/only_full_func_accuracy_reward': 0.7343751192092896, 'rewards/format_reward': 0.9375000298023224, 'reward': 1.6718751192092896, 'reward_std': 0.23946940153837204, 'kl': 4.0, 'epoch': 0.45}
+ 45%|████▌     | 1933/4286 [12:41:21<15:20:26, 23.47s/it] 45%|████▌     | 1934/4286 [12:41:45<15:26:35, 23.64s/it]                                                         {'loss': 0.1747, 'grad_norm': 3.3485299762344285, 'learning_rate': 5.487634157722818e-07, 'completion_length': 422.9643096923828, 'rewards/only_full_func_accuracy_reward': 0.635416716337204, 'rewards/format_reward': 0.910714328289032, 'reward': 1.5461310744285583, 'reward_std': 0.2897830605506897, 'kl': 4.375, 'epoch': 0.45}
+ 45%|████▌     | 1934/4286 [12:41:45<15:26:35, 23.64s/it] 45%|████▌     | 1935/4286 [12:42:10<15:34:36, 23.85s/it]                                                         {'loss': 0.2136, 'grad_norm': 6.223604180614585, 'learning_rate': 5.485300979934671e-07, 'completion_length': 422.4643096923828, 'rewards/only_full_func_accuracy_reward': 0.5189342498779297, 'rewards/format_reward': 0.973214328289032, 'reward': 1.4921486377716064, 'reward_std': 0.230964295566082, 'kl': 5.34375, 'epoch': 0.45}
+ 45%|████▌     | 1935/4286 [12:42:10<15:34:36, 23.85s/it] 45%|████▌     | 1936/4286 [12:42:32<15:19:52, 23.49s/it]                                                         {'loss': 0.1545, 'grad_norm': 2.9268627998745296, 'learning_rate': 5.482967802146523e-07, 'completion_length': 353.2589416503906, 'rewards/only_full_func_accuracy_reward': 0.6988095641136169, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.6630954146385193, 'reward_std': 0.28739843145012856, 'kl': 3.8671875, 'epoch': 0.45}
+ 45%|████▌     | 1936/4286 [12:42:32<15:19:52, 23.49s/it] 45%|████▌     | 1937/4286 [12:42:54<15:01:17, 23.02s/it]                                                         {'loss': 0.1373, 'grad_norm': 1.6424238683021777, 'learning_rate': 5.480634624358375e-07, 'completion_length': 353.7857208251953, 'rewards/only_full_func_accuracy_reward': 0.6964285969734192, 'rewards/format_reward': 0.9553571939468384, 'reward': 1.6517858505249023, 'reward_std': 0.2507925033569336, 'kl': 3.4296875, 'epoch': 0.45}
+ 45%|████▌     | 1937/4286 [12:42:54<15:01:17, 23.02s/it] 45%|████▌     | 1938/4286 [12:43:17<15:03:48, 23.10s/it]                                                         {'loss': 0.1479, 'grad_norm': 4.68347822031757, 'learning_rate': 5.478301446570229e-07, 'completion_length': 396.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.5523809790611267, 'rewards/format_reward': 0.9285714626312256, 'reward': 1.480952501296997, 'reward_std': 0.26834119111299515, 'kl': 3.6953125, 'epoch': 0.45}
+ 45%|████▌     | 1938/4286 [12:43:17<15:03:48, 23.10s/it] 45%|████▌     | 1939/4286 [12:43:39<14:42:42, 22.57s/it]                                                         {'loss': 0.0879, 'grad_norm': 1.9870903906051136, 'learning_rate': 5.475968268782081e-07, 'completion_length': 341.9464569091797, 'rewards/only_full_func_accuracy_reward': 0.7257440388202667, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.690029799938202, 'reward_std': 0.25418877601623535, 'kl': 2.1953125, 'epoch': 0.45}
+ 45%|████▌     | 1939/4286 [12:43:39<14:42:42, 22.57s/it] 45%|████▌     | 1940/4286 [12:44:01<14:40:35, 22.52s/it]                                                         {'loss': 0.0641, 'grad_norm': 1.3924557990369018, 'learning_rate': 5.473635090993933e-07, 'completion_length': 344.2410888671875, 'rewards/only_full_func_accuracy_reward': 0.6837798058986664, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6748512983322144, 'reward_std': 0.14107828959822655, 'kl': 1.60546875, 'epoch': 0.45}
+ 45%|████▌     | 1940/4286 [12:44:01<14:40:35, 22.52s/it] 45%|████▌     | 1941/4286 [12:44:25<14:58:20, 22.99s/it]                                                         {'loss': 0.0419, 'grad_norm': 3.7656378849177345, 'learning_rate': 5.471301913205786e-07, 'completion_length': 392.5803680419922, 'rewards/only_full_func_accuracy_reward': 0.590029776096344, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.5721727013587952, 'reward_std': 0.0736569594591856, 'kl': 1.044921875, 'epoch': 0.45}
+ 45%|████▌     | 1941/4286 [12:44:25<14:58:20, 22.99s/it] 45%|████▌     | 1942/4286 [12:44:49<15:10:42, 23.31s/it]                                                         {'loss': 0.0225, 'grad_norm': 0.8761471622795243, 'learning_rate': 5.468968735417639e-07, 'completion_length': 405.2232360839844, 'rewards/only_full_func_accuracy_reward': 0.674107164144516, 'rewards/format_reward': 1.0, 'reward': 1.674107313156128, 'reward_std': 0.07892527803778648, 'kl': 0.5634765625, 'epoch': 0.45}
+ 45%|████▌     | 1942/4286 [12:44:49<15:10:42, 23.31s/it] 45%|████▌     | 1943/4286 [12:45:12<15:03:27, 23.14s/it]                                                         {'loss': 0.0255, 'grad_norm': 2.38131647313569, 'learning_rate': 5.466635557629491e-07, 'completion_length': 392.2589416503906, 'rewards/only_full_func_accuracy_reward': 0.7790178954601288, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.770089328289032, 'reward_std': 0.08568724617362022, 'kl': 0.634765625, 'epoch': 0.45}
+ 45%|████▌     | 1943/4286 [12:45:12<15:03:27, 23.14s/it] 45%|████▌     | 1944/4286 [12:45:35<14:58:58, 23.03s/it]                                                         {'loss': 0.0182, 'grad_norm': 1.442271030890032, 'learning_rate': 5.464302379841343e-07, 'completion_length': 369.96429443359375, 'rewards/only_full_func_accuracy_reward': 0.6831845343112946, 'rewards/format_reward': 1.0, 'reward': 1.683184564113617, 'reward_std': 0.05080386996269226, 'kl': 0.4534912109375, 'epoch': 0.45}
+ 45%|████▌     | 1944/4286 [12:45:35<14:58:58, 23.03s/it] 45%|████▌     | 1945/4286 [12:45:59<15:06:20, 23.23s/it]                                                         {'loss': 0.0116, 'grad_norm': 2.0748073054082874, 'learning_rate': 5.461969202053196e-07, 'completion_length': 405.46429443359375, 'rewards/only_full_func_accuracy_reward': 0.7127976715564728, 'rewards/format_reward': 1.0, 'reward': 1.71279776096344, 'reward_std': 0.06987476348876953, 'kl': 0.291015625, 'epoch': 0.45}
+ 45%|████▌     | 1945/4286 [12:45:59<15:06:20, 23.23s/it] 45%|████▌     | 1946/4286 [12:46:21<14:58:00, 23.03s/it]                                                         {'loss': 0.01, 'grad_norm': 0.33437191993810483, 'learning_rate': 5.459636024265048e-07, 'completion_length': 376.35716247558594, 'rewards/only_full_func_accuracy_reward': 0.5751488506793976, 'rewards/format_reward': 1.0, 'reward': 1.5751489400863647, 'reward_std': 0.05293646082282066, 'kl': 0.251220703125, 'epoch': 0.45}
+ 45%|████▌     | 1946/4286 [12:46:21<14:58:00, 23.03s/it] 45%|████▌     | 1947/4286 [12:46:45<15:04:41, 23.21s/it]                                                         {'loss': 0.0288, 'grad_norm': 0.9607952179744013, 'learning_rate': 5.457302846476901e-07, 'completion_length': 399.64288330078125, 'rewards/only_full_func_accuracy_reward': 0.705357164144516, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6875001192092896, 'reward_std': 0.0878993421792984, 'kl': 0.7216796875, 'epoch': 0.45}
+ 45%|████▌     | 1947/4286 [12:46:45<15:04:41, 23.21s/it] 45%|████▌     | 1948/4286 [12:47:07<14:52:08, 22.89s/it]                                                         {'loss': 0.0456, 'grad_norm': 0.8053353448887052, 'learning_rate': 5.454969668688754e-07, 'completion_length': 394.7410888671875, 'rewards/only_full_func_accuracy_reward': 0.6912203133106232, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.673363208770752, 'reward_std': 0.10500914230942726, 'kl': 1.13671875, 'epoch': 0.45}
+ 45%|████▌     | 1948/4286 [12:47:07<14:52:08, 22.89s/it] 45%|████▌     | 1949/4286 [12:47:30<14:53:02, 22.93s/it]                                                         {'loss': 0.0101, 'grad_norm': 0.6294728394894253, 'learning_rate': 5.452636490900606e-07, 'completion_length': 390.0089416503906, 'rewards/only_full_func_accuracy_reward': 0.7938989102840424, 'rewards/format_reward': 1.0, 'reward': 1.7938989400863647, 'reward_std': 0.04819958843290806, 'kl': 0.2532958984375, 'epoch': 0.45}
+ 45%|████▌     | 1949/4286 [12:47:30<14:53:02, 22.93s/it] 45%|████▌     | 1950/4286 [12:47:53<14:52:55, 22.93s/it]                                                         {'loss': 0.0076, 'grad_norm': 0.4126294017915688, 'learning_rate': 5.450303313112458e-07, 'completion_length': 397.25001525878906, 'rewards/only_full_func_accuracy_reward': 0.6674107611179352, 'rewards/format_reward': 1.0, 'reward': 1.6674107909202576, 'reward_std': 0.01894036028534174, 'kl': 0.1912841796875, 'epoch': 0.45}
+ 45%|████▌     | 1950/4286 [12:47:53<14:52:55, 22.93s/it] 46%|████▌     | 1951/4286 [12:48:17<15:06:05, 23.28s/it]                                                         {'loss': 0.0099, 'grad_norm': 5.4847116490746695, 'learning_rate': 5.447970135324312e-07, 'completion_length': 399.15179443359375, 'rewards/only_full_func_accuracy_reward': 0.7380953133106232, 'rewards/format_reward': 1.0, 'reward': 1.7380953431129456, 'reward_std': 0.03076465055346489, 'kl': 0.24609375, 'epoch': 0.46}
+ 46%|████▌     | 1951/4286 [12:48:17<15:06:05, 23.28s/it] 46%|████▌     | 1952/4286 [12:48:42<15:31:14, 23.94s/it]                                                         {'loss': 0.0019, 'grad_norm': 0.6192943808138044, 'learning_rate': 5.445636957536164e-07, 'completion_length': 430.3035888671875, 'rewards/only_full_func_accuracy_reward': 0.7202381193637848, 'rewards/format_reward': 1.0, 'reward': 1.720238208770752, 'reward_std': 0.024950441904366016, 'kl': 0.0478515625, 'epoch': 0.46}
+ 46%|████▌     | 1952/4286 [12:48:42<15:31:14, 23.94s/it] 46%|████▌     | 1953/4286 [12:49:06<15:22:31, 23.73s/it]                                                         {'loss': 0.0345, 'grad_norm': 0.5736177863622844, 'learning_rate': 5.443303779748016e-07, 'completion_length': 401.7232360839844, 'rewards/only_full_func_accuracy_reward': 0.6867559850215912, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6688989400863647, 'reward_std': 0.12191670387983322, 'kl': 0.861328125, 'epoch': 0.46}
+ 46%|████▌     | 1953/4286 [12:49:06<15:22:31, 23.73s/it] 46%|████▌     | 1954/4286 [12:49:29<15:22:52, 23.74s/it]                                                         {'loss': 0.0093, 'grad_norm': 0.6663026210081046, 'learning_rate': 5.440970601959868e-07, 'completion_length': 431.3928680419922, 'rewards/only_full_func_accuracy_reward': 0.6287202835083008, 'rewards/format_reward': 1.0, 'reward': 1.6287203431129456, 'reward_std': 0.02996203163638711, 'kl': 0.232177734375, 'epoch': 0.46}
+ 46%|████▌     | 1954/4286 [12:49:29<15:22:52, 23.74s/it] 46%|████▌     | 1955/4286 [12:49:51<14:55:28, 23.05s/it]                                                         {'loss': 0.0096, 'grad_norm': 0.5470058906020288, 'learning_rate': 5.438637424171722e-07, 'completion_length': 356.9196472167969, 'rewards/only_full_func_accuracy_reward': 0.7596726417541504, 'rewards/format_reward': 1.0, 'reward': 1.7596727013587952, 'reward_std': 0.03531949780881405, 'kl': 0.240234375, 'epoch': 0.46}
+ 46%|████▌     | 1955/4286 [12:49:51<14:55:28, 23.05s/it] 46%|████▌     | 1956/4286 [12:50:15<15:02:33, 23.24s/it]                                                         {'loss': 0.006, 'grad_norm': 0.6230887946530006, 'learning_rate': 5.436304246383574e-07, 'completion_length': 421.2053680419922, 'rewards/only_full_func_accuracy_reward': 0.7098214328289032, 'rewards/format_reward': 1.0, 'reward': 1.7098215222358704, 'reward_std': 0.06056559085845947, 'kl': 0.150146484375, 'epoch': 0.46}
+ 46%|████▌     | 1956/4286 [12:50:15<15:02:33, 23.24s/it] 46%|████▌     | 1957/4286 [12:50:38<15:01:38, 23.23s/it]                                                         {'loss': 0.0033, 'grad_norm': 0.2734010419059005, 'learning_rate': 5.433971068595426e-07, 'completion_length': 405.4196472167969, 'rewards/only_full_func_accuracy_reward': 0.780654788017273, 'rewards/format_reward': 1.0, 'reward': 1.7806548476219177, 'reward_std': 0.011092002503573895, 'kl': 0.0816650390625, 'epoch': 0.46}
+ 46%|████▌     | 1957/4286 [12:50:38<15:01:38, 23.23s/it] 46%|████▌     | 1958/4286 [12:51:01<15:06:55, 23.37s/it]                                                         {'loss': 0.0019, 'grad_norm': 0.16062431888246437, 'learning_rate': 5.431637890807279e-07, 'completion_length': 422.0268096923828, 'rewards/only_full_func_accuracy_reward': 0.7507440745830536, 'rewards/format_reward': 1.0, 'reward': 1.7507442235946655, 'reward_std': 0.021868856623768806, 'kl': 0.04638671875, 'epoch': 0.46}
+ 46%|████▌     | 1958/4286 [12:51:01<15:06:55, 23.37s/it] 46%|████▌     | 1959/4286 [12:51:25<15:10:05, 23.47s/it]                                                         {'loss': 0.0217, 'grad_norm': 1.8128024668881324, 'learning_rate': 5.429304713019132e-07, 'completion_length': 398.23216247558594, 'rewards/only_full_func_accuracy_reward': 0.653885006904602, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6360279321670532, 'reward_std': 0.0808387529104948, 'kl': 0.54296875, 'epoch': 0.46}
+ 46%|████▌     | 1959/4286 [12:51:25<15:10:05, 23.47s/it] 46%|████▌     | 1960/4286 [12:51:48<15:01:31, 23.26s/it]                                                         {'loss': 0.0577, 'grad_norm': 1.600844534504675, 'learning_rate': 5.426971535230984e-07, 'completion_length': 394.1607208251953, 'rewards/only_full_func_accuracy_reward': 0.7105655372142792, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.692708432674408, 'reward_std': 0.12365636974573135, 'kl': 1.439453125, 'epoch': 0.46}
+ 46%|████▌     | 1960/4286 [12:51:48<15:01:31, 23.26s/it] 46%|████▌     | 1961/4286 [12:52:11<15:03:56, 23.33s/it]                                                         {'loss': 0.0328, 'grad_norm': 1.774570434189334, 'learning_rate': 5.424638357442837e-07, 'completion_length': 393.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.8296131193637848, 'rewards/format_reward': 1.0, 'reward': 1.829613208770752, 'reward_std': 0.05984667129814625, 'kl': 0.8203125, 'epoch': 0.46}
+ 46%|████▌     | 1961/4286 [12:52:11<15:03:56, 23.33s/it] 46%|████▌     | 1962/4286 [12:52:33<14:41:40, 22.76s/it]                                                         {'loss': 0.0224, 'grad_norm': 0.9293681607848794, 'learning_rate': 5.422305179654689e-07, 'completion_length': 359.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.7671130895614624, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7492560744285583, 'reward_std': 0.10444299504160881, 'kl': 0.560546875, 'epoch': 0.46}
+ 46%|████▌     | 1962/4286 [12:52:33<14:41:40, 22.76s/it] 46%|████▌     | 1963/4286 [12:52:56<14:50:33, 23.00s/it]                                                         {'loss': 0.0111, 'grad_norm': 1.4482207575884463, 'learning_rate': 5.419972001866542e-07, 'completion_length': 358.5446472167969, 'rewards/only_full_func_accuracy_reward': 0.7290179133415222, 'rewards/format_reward': 1.0, 'reward': 1.729017972946167, 'reward_std': 0.04718573018908501, 'kl': 0.2779541015625, 'epoch': 0.46}
+ 46%|████▌     | 1963/4286 [12:52:56<14:50:33, 23.00s/it] 46%|████▌     | 1964/4286 [12:53:18<14:36:17, 22.64s/it]                                                         {'loss': 0.045, 'grad_norm': 1.023092847370654, 'learning_rate': 5.417638824078395e-07, 'completion_length': 382.6696472167969, 'rewards/only_full_func_accuracy_reward': 0.5944940745830536, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5855656266212463, 'reward_std': 0.1462934985756874, 'kl': 1.123046875, 'epoch': 0.46}
+ 46%|████▌     | 1964/4286 [12:53:18<14:36:17, 22.64s/it] 46%|████▌     | 1965/4286 [12:53:42<14:52:13, 23.06s/it]                                                         {'loss': 0.0062, 'grad_norm': 1.8846428102719015, 'learning_rate': 5.415305646290247e-07, 'completion_length': 448.39288330078125, 'rewards/only_full_func_accuracy_reward': 0.765476256608963, 'rewards/format_reward': 1.0, 'reward': 1.7654762864112854, 'reward_std': 0.045260703191161156, 'kl': 0.155029296875, 'epoch': 0.46}
+ 46%|████▌     | 1965/4286 [12:53:42<14:52:13, 23.06s/it] 46%|████▌     | 1966/4286 [12:54:04<14:40:35, 22.77s/it]                                                         {'loss': 0.0152, 'grad_norm': 0.5121557806045454, 'learning_rate': 5.412972468502099e-07, 'completion_length': 346.35716247558594, 'rewards/only_full_func_accuracy_reward': 0.7467758059501648, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.73784738779068, 'reward_std': 0.0635317238047719, 'kl': 0.378662109375, 'epoch': 0.46}
+ 46%|████▌     | 1966/4286 [12:54:04<14:40:35, 22.77s/it] 46%|████▌     | 1967/4286 [12:54:27<14:43:57, 22.87s/it]                                                         {'loss': 0.0134, 'grad_norm': 0.44781810982118014, 'learning_rate': 5.410639290713952e-07, 'completion_length': 393.71429443359375, 'rewards/only_full_func_accuracy_reward': 0.7373512387275696, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.72842276096344, 'reward_std': 0.04419417679309845, 'kl': 0.3363037109375, 'epoch': 0.46}
+ 46%|████▌     | 1967/4286 [12:54:27<14:43:57, 22.87s/it] 46%|████▌     | 1968/4286 [12:54:52<14:57:55, 23.24s/it]                                                         {'loss': 0.0305, 'grad_norm': 0.6006100519706332, 'learning_rate': 5.408306112925805e-07, 'completion_length': 423.9464569091797, 'rewards/only_full_func_accuracy_reward': 0.6629464328289032, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6540179252624512, 'reward_std': 0.11628439649939537, 'kl': 0.7603759765625, 'epoch': 0.46}
+ 46%|████▌     | 1968/4286 [12:54:52<14:57:55, 23.24s/it] 46%|████▌     | 1969/4286 [12:55:15<15:03:38, 23.40s/it]                                                         {'loss': 0.0153, 'grad_norm': 0.6260088820706361, 'learning_rate': 5.405972935137657e-07, 'completion_length': 410.3393096923828, 'rewards/only_full_func_accuracy_reward': 0.5788690745830536, 'rewards/format_reward': 1.0, 'reward': 1.5788691639900208, 'reward_std': 0.08777973428368568, 'kl': 0.3839111328125, 'epoch': 0.46}
+ 46%|████▌     | 1969/4286 [12:55:15<15:03:38, 23.40s/it] 46%|████▌     | 1970/4286 [12:55:38<15:00:12, 23.32s/it]                                                         {'loss': 0.0019, 'grad_norm': 0.3126570535839388, 'learning_rate': 5.403639757349509e-07, 'completion_length': 418.76788330078125, 'rewards/only_full_func_accuracy_reward': 0.74702388048172, 'rewards/format_reward': 1.0, 'reward': 1.7470239400863647, 'reward_std': 0.01232259813696146, 'kl': 0.0484619140625, 'epoch': 0.46}
+ 46%|████▌     | 1970/4286 [12:55:38<15:00:12, 23.32s/it] 46%|████▌     | 1971/4286 [12:56:00<14:42:20, 22.87s/it]                                                         {'loss': 0.0424, 'grad_norm': 1.129500658863556, 'learning_rate': 5.401306579561363e-07, 'completion_length': 347.95538330078125, 'rewards/only_full_func_accuracy_reward': 0.6377976834774017, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.628869116306305, 'reward_std': 0.09091373533010483, 'kl': 1.056640625, 'epoch': 0.46}
+ 46%|████▌     | 1971/4286 [12:56:00<14:42:20, 22.87s/it] 46%|████▌     | 1972/4286 [12:56:23<14:36:25, 22.72s/it]                                                         {'loss': 0.0439, 'grad_norm': 0.8090302067774945, 'learning_rate': 5.398973401773215e-07, 'completion_length': 363.8482360839844, 'rewards/only_full_func_accuracy_reward': 0.785714328289032, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7678572535514832, 'reward_std': 0.1402570828795433, 'kl': 1.0926513671875, 'epoch': 0.46}
+ 46%|████▌     | 1972/4286 [12:56:23<14:36:25, 22.72s/it] 46%|████▌     | 1973/4286 [12:56:46<14:42:14, 22.89s/it]                                                         {'loss': 0.0178, 'grad_norm': 0.6756431404648717, 'learning_rate': 5.396640223985067e-07, 'completion_length': 423.4196472167969, 'rewards/only_full_func_accuracy_reward': 0.680059552192688, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6711310744285583, 'reward_std': 0.08112889155745506, 'kl': 0.445068359375, 'epoch': 0.46}
+ 46%|████▌     | 1973/4286 [12:56:46<14:42:14, 22.89s/it] 46%|████▌     | 1974/4286 [12:57:08<14:37:33, 22.77s/it]                                                         {'loss': 0.0525, 'grad_norm': 0.8122336714317107, 'learning_rate': 5.39430704619692e-07, 'completion_length': 410.7321472167969, 'rewards/only_full_func_accuracy_reward': 0.6476191282272339, 'rewards/format_reward': 0.973214328289032, 'reward': 1.620833396911621, 'reward_std': 0.12378546968102455, 'kl': 1.310546875, 'epoch': 0.46}
+ 46%|████▌     | 1974/4286 [12:57:08<14:37:33, 22.77s/it] 46%|████▌     | 1975/4286 [12:57:33<14:58:08, 23.32s/it]                                                         {'loss': 0.052, 'grad_norm': 9.289807923440017, 'learning_rate': 5.391973868408772e-07, 'completion_length': 423.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.6287202835083008, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.5930060744285583, 'reward_std': 0.14755629003047943, 'kl': 1.306640625, 'epoch': 0.46}
+ 46%|████▌     | 1975/4286 [12:57:33<14:58:08, 23.32s/it] 46%|████▌     | 1976/4286 [12:57:56<14:48:48, 23.09s/it]                                                         {'loss': 0.0998, 'grad_norm': 2.924676304586973, 'learning_rate': 5.389640690620625e-07, 'completion_length': 384.8482208251953, 'rewards/only_full_func_accuracy_reward': 0.7125000357627869, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.6767857670783997, 'reward_std': 0.20450115948915482, 'kl': 2.490234375, 'epoch': 0.46}
+ 46%|████▌     | 1976/4286 [12:57:56<14:48:48, 23.09s/it] 46%|████▌     | 1977/4286 [12:58:21<15:09:37, 23.64s/it]                                                         {'loss': 0.0176, 'grad_norm': 0.9653722406928194, 'learning_rate': 5.387307512832477e-07, 'completion_length': 398.5714569091797, 'rewards/only_full_func_accuracy_reward': 0.7276785671710968, 'rewards/format_reward': 1.0, 'reward': 1.7276787161827087, 'reward_std': 0.01928792241960764, 'kl': 0.4384765625, 'epoch': 0.46}
+ 46%|████▌     | 1977/4286 [12:58:21<15:09:37, 23.64s/it] 46%|████▌     | 1978/4286 [12:58:45<15:15:58, 23.81s/it]                                                         {'loss': 0.0154, 'grad_norm': 0.3074948577951924, 'learning_rate': 5.38497433504433e-07, 'completion_length': 435.0357360839844, 'rewards/only_full_func_accuracy_reward': 0.7537202835083008, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7447917461395264, 'reward_std': 0.07335358299314976, 'kl': 0.38671875, 'epoch': 0.46}
+ 46%|████▌     | 1978/4286 [12:58:45<15:15:58, 23.81s/it] 46%|████▌     | 1979/4286 [12:59:07<15:02:44, 23.48s/it]                                                         {'loss': 0.0319, 'grad_norm': 0.3558548009274942, 'learning_rate': 5.382641157256182e-07, 'completion_length': 372.7589416503906, 'rewards/only_full_func_accuracy_reward': 0.6696428656578064, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6517858505249023, 'reward_std': 0.11633052676916122, 'kl': 0.79443359375, 'epoch': 0.46}
+ 46%|████▌     | 1979/4286 [12:59:07<15:02:44, 23.48s/it] 46%|████▌     | 1980/4286 [12:59:31<14:59:30, 23.40s/it]                                                         {'loss': 0.044, 'grad_norm': 0.5660084154329755, 'learning_rate': 5.380307979468035e-07, 'completion_length': 411.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.6517857015132904, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.642857313156128, 'reward_std': 0.13798493146896362, 'kl': 1.09375, 'epoch': 0.46}
+ 46%|████▌     | 1980/4286 [12:59:31<14:59:30, 23.40s/it] 46%|████▌     | 1981/4286 [12:59:54<15:02:18, 23.49s/it]                                                         {'loss': 0.0019, 'grad_norm': 0.24462373041787375, 'learning_rate': 5.377974801679888e-07, 'completion_length': 380.31251525878906, 'rewards/only_full_func_accuracy_reward': 0.8139881193637848, 'rewards/format_reward': 1.0, 'reward': 1.813988208770752, 'reward_std': 0.05556340143084526, 'kl': 0.046630859375, 'epoch': 0.46}
+ 46%|████▌     | 1981/4286 [12:59:54<15:02:18, 23.49s/it] 46%|████▌     | 1982/4286 [13:00:17<14:53:41, 23.27s/it]                                                         {'loss': 0.0302, 'grad_norm': 0.5854497225002667, 'learning_rate': 5.37564162389174e-07, 'completion_length': 368.96429443359375, 'rewards/only_full_func_accuracy_reward': 0.8022321462631226, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7843750715255737, 'reward_std': 0.0793264964595437, 'kl': 0.754638671875, 'epoch': 0.46}
+ 46%|████▌     | 1982/4286 [13:00:17<14:53:41, 23.27s/it] 46%|████▋     | 1983/4286 [13:00:42<15:07:00, 23.63s/it]                                                         {'loss': 0.0327, 'grad_norm': 1.7041881010452424, 'learning_rate': 5.373308446103592e-07, 'completion_length': 434.0000305175781, 'rewards/only_full_func_accuracy_reward': 0.7351190745830536, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7261905670166016, 'reward_std': 0.09308681823313236, 'kl': 0.8177490234375, 'epoch': 0.46}
+ 46%|████▋     | 1983/4286 [13:00:42<15:07:00, 23.63s/it] 46%|████▋     | 1984/4286 [13:01:06<15:19:04, 23.95s/it]                                                         {'loss': 0.0018, 'grad_norm': 0.2873832302063586, 'learning_rate': 5.370975268315446e-07, 'completion_length': 406.58929443359375, 'rewards/only_full_func_accuracy_reward': 0.8193452656269073, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8104168176651, 'reward_std': 0.06200467795133591, 'kl': 0.0462646484375, 'epoch': 0.46}
+ 46%|████▋     | 1984/4286 [13:01:06<15:19:04, 23.95s/it] 46%|████▋     | 1985/4286 [13:01:28<14:57:48, 23.41s/it]                                                         {'loss': 0.0173, 'grad_norm': 3.864762283904653, 'learning_rate': 5.368642090527298e-07, 'completion_length': 366.96429443359375, 'rewards/only_full_func_accuracy_reward': 0.5724206864833832, 'rewards/format_reward': 1.0, 'reward': 1.5724207758903503, 'reward_std': 0.06020824983716011, 'kl': 0.43359375, 'epoch': 0.46}
+ 46%|████▋     | 1985/4286 [13:01:28<14:57:48, 23.41s/it] 46%|████▋     | 1986/4286 [13:01:52<15:02:50, 23.55s/it]                                                         {'loss': 0.0017, 'grad_norm': 0.18544192617565045, 'learning_rate': 5.36630891273915e-07, 'completion_length': 402.51788330078125, 'rewards/only_full_func_accuracy_reward': 0.8764881789684296, 'rewards/format_reward': 1.0, 'reward': 1.876488208770752, 'reward_std': 0.008266251534223557, 'kl': 0.0426025390625, 'epoch': 0.46}
+ 46%|████▋     | 1986/4286 [13:01:52<15:02:50, 23.55s/it] 46%|████▋     | 1987/4286 [13:02:14<14:40:00, 22.97s/it]                                                         {'loss': 0.0024, 'grad_norm': 0.34906449045647947, 'learning_rate': 5.363975734951003e-07, 'completion_length': 366.7143096923828, 'rewards/only_full_func_accuracy_reward': 0.6927083730697632, 'rewards/format_reward': 1.0, 'reward': 1.6927083730697632, 'reward_std': 0.02720661088824272, 'kl': 0.060546875, 'epoch': 0.46}
+ 46%|████▋     | 1987/4286 [13:02:14<14:40:00, 22.97s/it] 46%|████▋     | 1988/4286 [13:02:36<14:33:33, 22.81s/it]                                                         {'loss': 0.026, 'grad_norm': 0.8821239873390019, 'learning_rate': 5.361642557162856e-07, 'completion_length': 363.8482208251953, 'rewards/only_full_func_accuracy_reward': 0.6287202835083008, 'rewards/format_reward': 1.0, 'reward': 1.6287204027175903, 'reward_std': 0.07846405729651451, 'kl': 0.650146484375, 'epoch': 0.46}
+ 46%|████▋     | 1988/4286 [13:02:36<14:33:33, 22.81s/it] 46%|████▋     | 1989/4286 [13:03:00<14:47:59, 23.20s/it]                                                         {'loss': 0.0553, 'grad_norm': 214.79235928991812, 'learning_rate': 5.359309379374708e-07, 'completion_length': 404.58038330078125, 'rewards/only_full_func_accuracy_reward': 0.685119092464447, 'rewards/format_reward': 1.0, 'reward': 1.6851192116737366, 'reward_std': 0.09823253005743027, 'kl': 1.3818359375, 'epoch': 0.46}
+ 46%|████▋     | 1989/4286 [13:03:00<14:47:59, 23.20s/it] 46%|████▋     | 1990/4286 [13:03:24<14:50:59, 23.28s/it]                                                         {'loss': 0.0022, 'grad_norm': 0.5669997681840133, 'learning_rate': 5.35697620158656e-07, 'completion_length': 370.1339569091797, 'rewards/only_full_func_accuracy_reward': 0.7571429014205933, 'rewards/format_reward': 1.0, 'reward': 1.757142961025238, 'reward_std': 0.01712118787690997, 'kl': 0.0537109375, 'epoch': 0.46}
+ 46%|████▋     | 1990/4286 [13:03:24<14:50:59, 23.28s/it] 46%|████▋     | 1991/4286 [13:03:47<14:47:43, 23.21s/it]                                                         {'loss': 0.0024, 'grad_norm': 0.515583928613075, 'learning_rate': 5.354643023798413e-07, 'completion_length': 338.0714416503906, 'rewards/only_full_func_accuracy_reward': 0.6915922462940216, 'rewards/format_reward': 1.0, 'reward': 1.6915924549102783, 'reward_std': 0.0388810932636261, 'kl': 0.05908203125, 'epoch': 0.46}
+ 46%|████▋     | 1991/4286 [13:03:47<14:47:43, 23.21s/it] 46%|████▋     | 1992/4286 [13:04:10<14:42:58, 23.09s/it]                                                         {'loss': 0.0017, 'grad_norm': 0.1246859402892634, 'learning_rate': 5.352309846010266e-07, 'completion_length': 403.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.7001488208770752, 'rewards/format_reward': 1.0, 'reward': 1.7001489400863647, 'reward_std': 0.0063134534284472466, 'kl': 0.0418701171875, 'epoch': 0.46}
+ 46%|████▋     | 1992/4286 [13:04:10<14:42:58, 23.09s/it] 47%|████▋     | 1993/4286 [13:04:35<15:05:37, 23.70s/it]                                                         {'loss': 0.0221, 'grad_norm': 1.3150942146277835, 'learning_rate': 5.349976668222118e-07, 'completion_length': 434.26788330078125, 'rewards/only_full_func_accuracy_reward': 0.6480654776096344, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6391370296478271, 'reward_std': 0.06471075117588043, 'kl': 0.5523681640625, 'epoch': 0.47}
+ 47%|████▋     | 1993/4286 [13:04:35<15:05:37, 23.70s/it] 47%|████▋     | 1994/4286 [13:04:58<14:58:28, 23.52s/it]                                                         {'loss': 0.0373, 'grad_norm': 2.333019500299565, 'learning_rate': 5.347643490433971e-07, 'completion_length': 383.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.7224703431129456, 'rewards/format_reward': 1.0, 'reward': 1.7224704027175903, 'reward_std': 0.028681552037596703, 'kl': 0.9334716796875, 'epoch': 0.47}
+ 47%|████▋     | 1994/4286 [13:04:58<14:58:28, 23.52s/it] 47%|████▋     | 1995/4286 [13:05:23<15:14:21, 23.95s/it]                                                         {'loss': 0.0118, 'grad_norm': 0.9430971954633205, 'learning_rate': 5.345310312645823e-07, 'completion_length': 428.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.6861607730388641, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.677232265472412, 'reward_std': 0.11778862401843071, 'kl': 0.2952880859375, 'epoch': 0.47}
+ 47%|████▋     | 1995/4286 [13:05:23<15:14:21, 23.95s/it] 47%|████▋     | 1996/4286 [13:05:46<15:07:05, 23.77s/it]                                                         {'loss': 0.0024, 'grad_norm': 0.22399435075165094, 'learning_rate': 5.342977134857675e-07, 'completion_length': 368.66966247558594, 'rewards/only_full_func_accuracy_reward': 0.7671131491661072, 'rewards/format_reward': 1.0, 'reward': 1.767113208770752, 'reward_std': 0.01894036028534174, 'kl': 0.0595703125, 'epoch': 0.47}
+ 47%|████▋     | 1996/4286 [13:05:46<15:07:05, 23.77s/it] 47%|████▋     | 1997/4286 [13:06:10<15:09:14, 23.83s/it]                                                         {'loss': 0.0014, 'grad_norm': 0.5762481610622527, 'learning_rate': 5.340643957069529e-07, 'completion_length': 412.54466247558594, 'rewards/only_full_func_accuracy_reward': 0.8177083432674408, 'rewards/format_reward': 1.0, 'reward': 1.817708432674408, 'reward_std': 0.04286183696240187, 'kl': 0.034423828125, 'epoch': 0.47}
+ 47%|████▋     | 1997/4286 [13:06:10<15:09:14, 23.83s/it] 47%|████▋     | 1998/4286 [13:06:34<15:04:45, 23.73s/it]                                                         {'loss': 0.0121, 'grad_norm': 0.5779016469702938, 'learning_rate': 5.338310779281381e-07, 'completion_length': 367.0714569091797, 'rewards/only_full_func_accuracy_reward': 0.8035714626312256, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7946429252624512, 'reward_std': 0.025253813713788986, 'kl': 0.3037109375, 'epoch': 0.47}
+ 47%|████▋     | 1998/4286 [13:06:34<15:04:45, 23.73s/it] 47%|████▋     | 1999/4286 [13:06:57<14:59:22, 23.60s/it]                                                         {'loss': 0.0634, 'grad_norm': 2.6199681726715, 'learning_rate': 5.335977601493233e-07, 'completion_length': 379.1607360839844, 'rewards/only_full_func_accuracy_reward': 0.6662202775478363, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.648363173007965, 'reward_std': 0.1432088278234005, 'kl': 1.580078125, 'epoch': 0.47}
+ 47%|████▋     | 1999/4286 [13:06:57<14:59:22, 23.60s/it] 47%|████▋     | 2000/4286 [13:07:20<14:52:27, 23.42s/it]                                                         {'loss': 0.0019, 'grad_norm': 0.3589994203208272, 'learning_rate': 5.333644423705085e-07, 'completion_length': 390.52679443359375, 'rewards/only_full_func_accuracy_reward': 0.796131044626236, 'rewards/format_reward': 1.0, 'reward': 1.7961310744285583, 'reward_std': 0.06979554891586304, 'kl': 0.0472412109375, 'epoch': 0.47}
+ 47%|████▋     | 2000/4286 [13:07:20<14:52:27, 23.42s/it] 47%|████▋     | 2001/4286 [13:08:36<24:54:50, 39.25s/it]                                                         {'loss': 0.0101, 'grad_norm': 0.4623378886389442, 'learning_rate': 5.331311245916939e-07, 'completion_length': 393.4553680419922, 'rewards/only_full_func_accuracy_reward': 0.6331845223903656, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6242560744285583, 'reward_std': 0.08464106917381287, 'kl': 0.254150390625, 'epoch': 0.47}
+ 47%|████▋     | 2001/4286 [13:08:36<24:54:50, 39.25s/it] 47%|████▋     | 2002/4286 [13:08:59<21:41:11, 34.18s/it]                                                         {'loss': 0.0017, 'grad_norm': 0.35581140745354645, 'learning_rate': 5.328978068128791e-07, 'completion_length': 387.7678680419922, 'rewards/only_full_func_accuracy_reward': 0.755357176065445, 'rewards/format_reward': 1.0, 'reward': 1.7553573250770569, 'reward_std': 0.05271157901734114, 'kl': 0.043701171875, 'epoch': 0.47}
+ 47%|████▋     | 2002/4286 [13:08:59<21:41:11, 34.18s/it] 47%|████▋     | 2003/4286 [13:09:21<19:31:29, 30.79s/it]                                                         {'loss': 0.0092, 'grad_norm': 0.629047459304633, 'learning_rate': 5.326644890340643e-07, 'completion_length': 368.0714416503906, 'rewards/only_full_func_accuracy_reward': 0.7526786029338837, 'rewards/format_reward': 1.0, 'reward': 1.7526786923408508, 'reward_std': 0.08103553764522076, 'kl': 0.2294921875, 'epoch': 0.47}
+ 47%|████▋     | 2003/4286 [13:09:21<19:31:29, 30.79s/it] 47%|████▋     | 2004/4286 [13:09:47<18:27:28, 29.12s/it]                                                         {'loss': 0.0467, 'grad_norm': 0.6697073860005505, 'learning_rate': 5.324311712552496e-07, 'completion_length': 465.8750305175781, 'rewards/only_full_func_accuracy_reward': 0.5700893104076385, 'rewards/format_reward': 1.0, 'reward': 1.570089340209961, 'reward_std': 0.06705623492598534, 'kl': 1.169921875, 'epoch': 0.47}
+ 47%|████▋     | 2004/4286 [13:09:47<18:27:28, 29.12s/it] 47%|████▋     | 2005/4286 [13:10:12<17:39:07, 27.86s/it]                                                         {'loss': 0.0241, 'grad_norm': 0.36931414859267186, 'learning_rate': 5.321978534764349e-07, 'completion_length': 420.0893096923828, 'rewards/only_full_func_accuracy_reward': 0.680506020784378, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6715775728225708, 'reward_std': 0.11942137405276299, 'kl': 0.6015625, 'epoch': 0.47}
+ 47%|████▋     | 2005/4286 [13:10:12<17:39:07, 27.86s/it] 47%|████▋     | 2006/4286 [13:10:36<17:04:00, 26.95s/it]                                                         {'loss': 0.0185, 'grad_norm': 0.49876142233079096, 'learning_rate': 5.319645356976201e-07, 'completion_length': 387.0178680419922, 'rewards/only_full_func_accuracy_reward': 0.71726194024086, 'rewards/format_reward': 1.0, 'reward': 1.7172620296478271, 'reward_std': 0.058499131351709366, 'kl': 0.462890625, 'epoch': 0.47}
+ 47%|████▋     | 2006/4286 [13:10:36<17:04:00, 26.95s/it] 47%|████▋     | 2007/4286 [13:11:01<16:36:57, 26.25s/it]                                                         {'loss': 0.0104, 'grad_norm': 1.1861500544334387, 'learning_rate': 5.317312179188054e-07, 'completion_length': 439.66966247558594, 'rewards/only_full_func_accuracy_reward': 0.729166716337204, 'rewards/format_reward': 1.0, 'reward': 1.7291667461395264, 'reward_std': 0.04126224014908075, 'kl': 0.25927734375, 'epoch': 0.47}
+ 47%|████▋     | 2007/4286 [13:11:01<16:36:57, 26.25s/it] 47%|████▋     | 2008/4286 [13:11:27<16:30:57, 26.10s/it]                                                         {'loss': 0.0181, 'grad_norm': 1.4649235204518354, 'learning_rate': 5.314979001399906e-07, 'completion_length': 455.9732360839844, 'rewards/only_full_func_accuracy_reward': 0.479166716337204, 'rewards/format_reward': 1.0, 'reward': 1.4791667461395264, 'reward_std': 0.02089315839111805, 'kl': 0.4541015625, 'epoch': 0.47}
+ 47%|████▋     | 2008/4286 [13:11:27<16:30:57, 26.10s/it] 47%|████▋     | 2009/4286 [13:11:51<16:14:00, 25.67s/it]                                                         {'loss': 0.0142, 'grad_norm': 0.7433123803611992, 'learning_rate': 5.312645823611759e-07, 'completion_length': 395.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.6089286208152771, 'rewards/format_reward': 1.0, 'reward': 1.6089286804199219, 'reward_std': 0.03185958042740822, 'kl': 0.3548583984375, 'epoch': 0.47}
+ 47%|████▋     | 2009/4286 [13:11:51<16:14:00, 25.67s/it] 47%|████▋     | 2010/4286 [13:12:16<16:02:59, 25.39s/it]                                                         {'loss': 0.0121, 'grad_norm': 1.7121146524970363, 'learning_rate': 5.310312645823612e-07, 'completion_length': 368.5357208251953, 'rewards/only_full_func_accuracy_reward': 0.712053656578064, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7031251788139343, 'reward_std': 0.0908603873103857, 'kl': 0.305419921875, 'epoch': 0.47}
+ 47%|████▋     | 2010/4286 [13:12:16<16:02:59, 25.39s/it] 47%|████▋     | 2011/4286 [13:12:39<15:36:59, 24.71s/it]                                                         {'loss': 0.0111, 'grad_norm': 0.6588215767986183, 'learning_rate': 5.307979468035464e-07, 'completion_length': 404.33929443359375, 'rewards/only_full_func_accuracy_reward': 0.7220238745212555, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7130953669548035, 'reward_std': 0.06857037637382746, 'kl': 0.277587890625, 'epoch': 0.47}
+ 47%|████▋     | 2011/4286 [13:12:39<15:36:59, 24.71s/it] 47%|████▋     | 2012/4286 [13:13:03<15:29:54, 24.54s/it]                                                         {'loss': 0.0042, 'grad_norm': 0.40462074900457234, 'learning_rate': 5.305646290247316e-07, 'completion_length': 399.89288330078125, 'rewards/only_full_func_accuracy_reward': 0.610119104385376, 'rewards/format_reward': 1.0, 'reward': 1.6101191639900208, 'reward_std': 0.021144667640328407, 'kl': 0.1051025390625, 'epoch': 0.47}
+ 47%|████▋     | 2012/4286 [13:13:03<15:29:54, 24.54s/it] 47%|████▋     | 2013/4286 [13:13:25<15:00:16, 23.76s/it]                                                         {'loss': 0.0021, 'grad_norm': 0.8511061647393287, 'learning_rate': 5.303313112459169e-07, 'completion_length': 357.79466247558594, 'rewards/only_full_func_accuracy_reward': 0.8072917461395264, 'rewards/format_reward': 1.0, 'reward': 1.8072918057441711, 'reward_std': 0.05828637257218361, 'kl': 0.05322265625, 'epoch': 0.47}
+ 47%|████▋     | 2013/4286 [13:13:25<15:00:16, 23.76s/it] 47%|████▋     | 2014/4286 [13:13:49<14:55:17, 23.64s/it]                                                         {'loss': 0.0083, 'grad_norm': 0.523126278325514, 'learning_rate': 5.300979934671022e-07, 'completion_length': 416.7678680419922, 'rewards/only_full_func_accuracy_reward': 0.6406250298023224, 'rewards/format_reward': 1.0, 'reward': 1.6406250596046448, 'reward_std': 0.03745052497833967, 'kl': 0.208984375, 'epoch': 0.47}
+ 47%|████▋     | 2014/4286 [13:13:49<14:55:17, 23.64s/it] 47%|████▋     | 2015/4286 [13:14:11<14:34:11, 23.10s/it]                                                         {'loss': 0.0103, 'grad_norm': 0.7452826594761536, 'learning_rate': 5.298646756882874e-07, 'completion_length': 362.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.776041716337204, 'rewards/format_reward': 1.0, 'reward': 1.7760418057441711, 'reward_std': 0.04551742970943451, 'kl': 0.2568359375, 'epoch': 0.47}
+ 47%|████▋     | 2015/4286 [13:14:11<14:34:11, 23.10s/it] 47%|████▋     | 2016/4286 [13:14:36<14:57:25, 23.72s/it]                                                         {'loss': 0.0107, 'grad_norm': 0.5987017333927125, 'learning_rate': 5.296313579094726e-07, 'completion_length': 393.2053680419922, 'rewards/only_full_func_accuracy_reward': 0.7068452537059784, 'rewards/format_reward': 1.0, 'reward': 1.7068453431129456, 'reward_std': 0.07597562670707703, 'kl': 0.26708984375, 'epoch': 0.47}
+ 47%|████▋     | 2016/4286 [13:14:36<14:57:25, 23.72s/it] 47%|████▋     | 2017/4286 [13:15:01<15:13:29, 24.16s/it]                                                         {'loss': 0.0044, 'grad_norm': 1.04811657347469, 'learning_rate': 5.29398040130658e-07, 'completion_length': 436.4464416503906, 'rewards/only_full_func_accuracy_reward': 0.5572916567325592, 'rewards/format_reward': 1.0, 'reward': 1.5572917461395264, 'reward_std': 0.03389486204832792, 'kl': 0.1112060546875, 'epoch': 0.47}
+ 47%|████▋     | 2017/4286 [13:15:01<15:13:29, 24.16s/it] 47%|████▋     | 2018/4286 [13:15:24<15:02:02, 23.86s/it]                                                         {'loss': 0.0138, 'grad_norm': 3.8472793489054253, 'learning_rate': 5.291647223518432e-07, 'completion_length': 382.4643096923828, 'rewards/only_full_func_accuracy_reward': 0.6494048237800598, 'rewards/format_reward': 1.0, 'reward': 1.6494048237800598, 'reward_std': 0.040627146139740944, 'kl': 0.3447265625, 'epoch': 0.47}
+ 47%|████▋     | 2018/4286 [13:15:24<15:02:02, 23.86s/it] 47%|████▋     | 2019/4286 [13:15:48<14:57:37, 23.76s/it]                                                         {'loss': 0.0016, 'grad_norm': 0.3811644245182869, 'learning_rate': 5.289314045730284e-07, 'completion_length': 419.5089416503906, 'rewards/only_full_func_accuracy_reward': 0.7998512387275696, 'rewards/format_reward': 1.0, 'reward': 1.7998512983322144, 'reward_std': 0.08263636380434036, 'kl': 0.039794921875, 'epoch': 0.47}
+ 47%|████▋     | 2019/4286 [13:15:48<14:57:37, 23.76s/it] 47%|████▋     | 2020/4286 [13:16:11<14:57:22, 23.76s/it]                                                         {'loss': 0.0316, 'grad_norm': 1.4614622754627886, 'learning_rate': 5.286980867942137e-07, 'completion_length': 366.83929443359375, 'rewards/only_full_func_accuracy_reward': 0.558779776096344, 'rewards/format_reward': 1.0, 'reward': 1.5587798357009888, 'reward_std': 0.062401892617344856, 'kl': 0.7919921875, 'epoch': 0.47}
+ 47%|████▋     | 2020/4286 [13:16:11<14:57:22, 23.76s/it] 47%|████▋     | 2021/4286 [13:16:37<15:12:06, 24.16s/it]                                                         {'loss': 0.0215, 'grad_norm': 0.8967506591081503, 'learning_rate': 5.28464769015399e-07, 'completion_length': 418.5803680419922, 'rewards/only_full_func_accuracy_reward': 0.7482143640518188, 'rewards/format_reward': 1.0, 'reward': 1.7482143640518188, 'reward_std': 0.08753014542162418, 'kl': 0.536865234375, 'epoch': 0.47}
+ 47%|████▋     | 2021/4286 [13:16:37<15:12:06, 24.16s/it] 47%|████▋     | 2022/4286 [13:17:02<15:23:51, 24.48s/it]                                                         {'loss': 0.008, 'grad_norm': 0.4042131131133603, 'learning_rate': 5.282314512365842e-07, 'completion_length': 440.83929443359375, 'rewards/only_full_func_accuracy_reward': 0.801339328289032, 'rewards/format_reward': 1.0, 'reward': 1.8013394474983215, 'reward_std': 0.035285137593746185, 'kl': 0.2001953125, 'epoch': 0.47}
+ 47%|████▋     | 2022/4286 [13:17:02<15:23:51, 24.48s/it] 47%|████▋     | 2023/4286 [13:17:27<15:31:10, 24.69s/it]                                                         {'loss': 0.0119, 'grad_norm': 1.366506375898936, 'learning_rate': 5.279981334577694e-07, 'completion_length': 453.9553680419922, 'rewards/only_full_func_accuracy_reward': 0.723493367433548, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.687779188156128, 'reward_std': 0.17818766087293625, 'kl': 0.2965087890625, 'epoch': 0.47}
+ 47%|████▋     | 2023/4286 [13:17:27<15:31:10, 24.69s/it] 47%|████▋     | 2024/4286 [13:17:50<15:17:11, 24.33s/it]                                                         {'loss': 0.0365, 'grad_norm': 382.98034950159234, 'learning_rate': 5.277648156789547e-07, 'completion_length': 387.3393096923828, 'rewards/only_full_func_accuracy_reward': 0.6324405372142792, 'rewards/format_reward': 1.0, 'reward': 1.6324406266212463, 'reward_std': 0.0625277841463685, 'kl': 0.912109375, 'epoch': 0.47}
+ 47%|████▋     | 2024/4286 [13:17:50<15:17:11, 24.33s/it] 47%|████▋     | 2025/4286 [13:18:15<15:17:35, 24.35s/it]                                                         {'loss': 0.0525, 'grad_norm': 2.374160842751578, 'learning_rate': 5.275314979001399e-07, 'completion_length': 412.43751525878906, 'rewards/only_full_func_accuracy_reward': 0.5187500715255737, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.509821593761444, 'reward_std': 0.10019573755562305, 'kl': 1.318359375, 'epoch': 0.47}
+ 47%|████▋     | 2025/4286 [13:18:15<15:17:35, 24.35s/it] 47%|████▋     | 2026/4286 [13:18:39<15:17:22, 24.35s/it]                                                         {'loss': 0.0448, 'grad_norm': 0.9741616950794227, 'learning_rate': 5.272981801213252e-07, 'completion_length': 416.2143096923828, 'rewards/only_full_func_accuracy_reward': 0.510416716337204, 'rewards/format_reward': 1.0, 'reward': 1.5104167461395264, 'reward_std': 0.12820953130722046, 'kl': 1.119140625, 'epoch': 0.47}
+ 47%|████▋     | 2026/4286 [13:18:39<15:17:22, 24.35s/it] 47%|████▋     | 2027/4286 [13:19:03<15:14:26, 24.29s/it]                                                         {'loss': 0.0208, 'grad_norm': 0.8381459142893767, 'learning_rate': 5.270648623425105e-07, 'completion_length': 388.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.5744047611951828, 'rewards/format_reward': 1.0, 'reward': 1.5744048357009888, 'reward_std': 0.07365500181913376, 'kl': 0.5205078125, 'epoch': 0.47}
+ 47%|████▋     | 2027/4286 [13:19:03<15:14:26, 24.29s/it] 47%|████▋     | 2028/4286 [13:19:29<15:25:19, 24.59s/it]                                                         {'loss': 0.0125, 'grad_norm': 0.5984781476754513, 'learning_rate': 5.268315445636957e-07, 'completion_length': 450.2143096923828, 'rewards/only_full_func_accuracy_reward': 0.6776213645935059, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6686928868293762, 'reward_std': 0.10622924566268921, 'kl': 0.3121337890625, 'epoch': 0.47}
+ 47%|████▋     | 2028/4286 [13:19:29<15:25:19, 24.59s/it] 47%|████▋     | 2029/4286 [13:19:53<15:22:16, 24.52s/it]                                                         {'loss': 0.0449, 'grad_norm': 1.3536235852670981, 'learning_rate': 5.265982267848809e-07, 'completion_length': 425.2678680419922, 'rewards/only_full_func_accuracy_reward': 0.5617560148239136, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.5438989400863647, 'reward_std': 0.11589273437857628, 'kl': 1.125, 'epoch': 0.47}
+ 47%|████▋     | 2029/4286 [13:19:53<15:22:16, 24.52s/it] 47%|████▋     | 2030/4286 [13:20:18<15:27:27, 24.67s/it]                                                         {'loss': 0.0249, 'grad_norm': 0.8439418229005573, 'learning_rate': 5.263649090060663e-07, 'completion_length': 408.89288330078125, 'rewards/only_full_func_accuracy_reward': 0.6220239102840424, 'rewards/format_reward': 1.0, 'reward': 1.6220239400863647, 'reward_std': 0.04902266804128885, 'kl': 0.6220703125, 'epoch': 0.47}
+ 47%|████▋     | 2030/4286 [13:20:18<15:27:27, 24.67s/it] 47%|████▋     | 2031/4286 [13:20:43<15:27:27, 24.68s/it]                                                         {'loss': 0.0575, 'grad_norm': 0.7180554476788992, 'learning_rate': 5.261315912272515e-07, 'completion_length': 401.9643096923828, 'rewards/only_full_func_accuracy_reward': 0.5434028059244156, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.5255457162857056, 'reward_std': 0.11771193891763687, 'kl': 1.4375, 'epoch': 0.47}
+ 47%|████▋     | 2031/4286 [13:20:43<15:27:27, 24.68s/it] 47%|████▋     | 2032/4286 [13:21:08<15:31:34, 24.80s/it]                                                         {'loss': 0.0492, 'grad_norm': 1.0505810167939145, 'learning_rate': 5.258982734484367e-07, 'completion_length': 391.9910888671875, 'rewards/only_full_func_accuracy_reward': 0.7455357313156128, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7276787161827087, 'reward_std': 0.13047803565859795, 'kl': 1.2265625, 'epoch': 0.47}
+ 47%|████▋     | 2032/4286 [13:21:08<15:31:34, 24.80s/it] 47%|████▋     | 2033/4286 [13:21:32<15:29:34, 24.76s/it]                                                         {'loss': 0.0858, 'grad_norm': 0.8097728324172921, 'learning_rate': 5.25664955669622e-07, 'completion_length': 352.1428680419922, 'rewards/only_full_func_accuracy_reward': 0.767857164144516, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.7321429252624512, 'reward_std': 0.17859501391649246, 'kl': 2.1484375, 'epoch': 0.47}
+ 47%|████▋     | 2033/4286 [13:21:32<15:29:34, 24.76s/it] 47%|████▋     | 2034/4286 [13:21:57<15:22:16, 24.57s/it]                                                         {'loss': 0.021, 'grad_norm': 1.0174179183422365, 'learning_rate': 5.254316378908073e-07, 'completion_length': 448.2589416503906, 'rewards/only_full_func_accuracy_reward': 0.7477678656578064, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.738839328289032, 'reward_std': 0.07021967135369778, 'kl': 0.5244140625, 'epoch': 0.47}
+ 47%|████▋     | 2034/4286 [13:21:57<15:22:16, 24.57s/it] 47%|████▋     | 2035/4286 [13:22:20<15:07:11, 24.18s/it]                                                         {'loss': 0.0665, 'grad_norm': 2.8457019048958907, 'learning_rate': 5.251983201119925e-07, 'completion_length': 416.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.6532737910747528, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6443453431129456, 'reward_std': 0.15954827889800072, 'kl': 1.66015625, 'epoch': 0.47}
+ 47%|████▋     | 2035/4286 [13:22:20<15:07:11, 24.18s/it] 48%|████▊     | 2036/4286 [13:22:45<15:15:19, 24.41s/it]                                                         {'loss': 0.1382, 'grad_norm': 2.422899459896089, 'learning_rate': 5.249650023331777e-07, 'completion_length': 418.7768096923828, 'rewards/only_full_func_accuracy_reward': 0.5572916716337204, 'rewards/format_reward': 0.9464286267757416, 'reward': 1.5037203431129456, 'reward_std': 0.22700346261262894, 'kl': 3.453125, 'epoch': 0.48}
+ 48%|████▊     | 2036/4286 [13:22:45<15:15:19, 24.41s/it] 48%|████▊     | 2037/4286 [13:23:08<14:56:30, 23.92s/it]                                                         {'loss': 0.1037, 'grad_norm': 1.3674923619392618, 'learning_rate': 5.24731684554363e-07, 'completion_length': 369.2410888671875, 'rewards/only_full_func_accuracy_reward': 0.7763392925262451, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.758482277393341, 'reward_std': 0.17381203919649124, 'kl': 2.578125, 'epoch': 0.48}
+ 48%|████▊     | 2037/4286 [13:23:08<14:56:30, 23.92s/it] 48%|████▊     | 2038/4286 [13:23:33<15:11:33, 24.33s/it]                                                         {'loss': 0.1039, 'grad_norm': 0.9522888960868013, 'learning_rate': 5.244983667755483e-07, 'completion_length': 428.31251525878906, 'rewards/only_full_func_accuracy_reward': 0.6986607611179352, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.680803656578064, 'reward_std': 0.21612001210451126, 'kl': 2.59375, 'epoch': 0.48}
+ 48%|████▊     | 2038/4286 [13:23:33<15:11:33, 24.33s/it] 48%|████▊     | 2039/4286 [13:23:57<15:08:12, 24.25s/it]                                                         {'loss': 0.08, 'grad_norm': 1.1327795757835906, 'learning_rate': 5.242650489967335e-07, 'completion_length': 384.7232208251953, 'rewards/only_full_func_accuracy_reward': 0.7059524059295654, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6970239877700806, 'reward_std': 0.13203587383031845, 'kl': 2.0, 'epoch': 0.48}
+ 48%|████▊     | 2039/4286 [13:23:57<15:08:12, 24.25s/it] 48%|████▊     | 2040/4286 [13:24:22<15:19:20, 24.56s/it]                                                         {'loss': 0.0515, 'grad_norm': 1.2527965317976437, 'learning_rate': 5.240317312179188e-07, 'completion_length': 421.7232360839844, 'rewards/only_full_func_accuracy_reward': 0.6011905074119568, 'rewards/format_reward': 1.0, 'reward': 1.6011905670166016, 'reward_std': 0.13087859004735947, 'kl': 1.2890625, 'epoch': 0.48}
+ 48%|████▊     | 2040/4286 [13:24:22<15:19:20, 24.56s/it] 48%|████▊     | 2041/4286 [13:24:46<15:09:13, 24.30s/it]                                                         {'loss': 0.0302, 'grad_norm': 0.6645606247989502, 'learning_rate': 5.23798413439104e-07, 'completion_length': 411.4643096923828, 'rewards/only_full_func_accuracy_reward': 0.6944940686225891, 'rewards/format_reward': 1.0, 'reward': 1.6944940686225891, 'reward_std': 0.04964805208146572, 'kl': 0.755859375, 'epoch': 0.48}
+ 48%|████▊     | 2041/4286 [13:24:46<15:09:13, 24.30s/it] 48%|████▊     | 2042/4286 [13:25:10<15:09:13, 24.31s/it]                                                         {'loss': 0.0673, 'grad_norm': 1.2729968922306163, 'learning_rate': 5.235650956602893e-07, 'completion_length': 453.26788330078125, 'rewards/only_full_func_accuracy_reward': 0.4747024178504944, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.4568454027175903, 'reward_std': 0.11319981515407562, 'kl': 1.6875, 'epoch': 0.48}
+ 48%|████▊     | 2042/4286 [13:25:10<15:09:13, 24.31s/it] 48%|████▊     | 2043/4286 [13:25:34<15:01:01, 24.10s/it]                                                         {'loss': 0.1214, 'grad_norm': 1.454264943783729, 'learning_rate': 5.233317778814746e-07, 'completion_length': 388.1964416503906, 'rewards/only_full_func_accuracy_reward': 0.7648810148239136, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.7291668057441711, 'reward_std': 0.24371984601020813, 'kl': 3.03125, 'epoch': 0.48}
+ 48%|████▊     | 2043/4286 [13:25:34<15:01:01, 24.10s/it] 48%|████▊     | 2044/4286 [13:25:59<15:12:12, 24.41s/it]                                                         {'loss': 0.0819, 'grad_norm': 0.7494184239477713, 'learning_rate': 5.230984601026598e-07, 'completion_length': 446.96429443359375, 'rewards/only_full_func_accuracy_reward': 0.5735119432210922, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.5556548833847046, 'reward_std': 0.1274682581424713, 'kl': 2.0390625, 'epoch': 0.48}
+ 48%|████▊     | 2044/4286 [13:25:59<15:12:12, 24.41s/it] 48%|████▊     | 2045/4286 [13:26:22<14:58:46, 24.06s/it]                                                         {'loss': 0.0653, 'grad_norm': 0.92957952247425, 'learning_rate': 5.22865142323845e-07, 'completion_length': 403.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.6443452537059784, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.6175596117973328, 'reward_std': 0.1835579052567482, 'kl': 1.623046875, 'epoch': 0.48}
+ 48%|████▊     | 2045/4286 [13:26:22<14:58:46, 24.06s/it] 48%|████▊     | 2046/4286 [13:26:47<15:06:28, 24.28s/it]                                                         {'loss': 0.0459, 'grad_norm': 1.674044066084616, 'learning_rate': 5.226318245450302e-07, 'completion_length': 430.95538330078125, 'rewards/only_full_func_accuracy_reward': 0.7502976953983307, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7324405312538147, 'reward_std': 0.15229316800832748, 'kl': 1.15234375, 'epoch': 0.48}
+ 48%|████▊     | 2046/4286 [13:26:47<15:06:28, 24.28s/it] 48%|████▊     | 2047/4286 [13:27:12<15:11:08, 24.42s/it]                                                         {'loss': 0.0633, 'grad_norm': 1.3168406032188682, 'learning_rate': 5.223985067662156e-07, 'completion_length': 462.64288330078125, 'rewards/only_full_func_accuracy_reward': 0.6063988506793976, 'rewards/format_reward': 0.973214328289032, 'reward': 1.579613208770752, 'reward_std': 0.17632024735212326, 'kl': 1.58203125, 'epoch': 0.48}
+ 48%|████▊     | 2047/4286 [13:27:12<15:11:08, 24.42s/it] 48%|████▊     | 2048/4286 [13:27:36<15:06:08, 24.29s/it]                                                         {'loss': 0.0931, 'grad_norm': 1.624362666837554, 'learning_rate': 5.221651889874008e-07, 'completion_length': 422.4464416503906, 'rewards/only_full_func_accuracy_reward': 0.6569940745830536, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.630208432674408, 'reward_std': 0.2256464958190918, 'kl': 2.328125, 'epoch': 0.48}
+ 48%|████▊     | 2048/4286 [13:27:36<15:06:08, 24.29s/it] 48%|████▊     | 2049/4286 [13:27:57<14:35:21, 23.48s/it]                                                         {'loss': 0.151, 'grad_norm': 1.0966528742501969, 'learning_rate': 5.21931871208586e-07, 'completion_length': 349.9732360839844, 'rewards/only_full_func_accuracy_reward': 0.7028273940086365, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.667113184928894, 'reward_std': 0.25676336884498596, 'kl': 3.78125, 'epoch': 0.48}
+ 48%|████▊     | 2049/4286 [13:27:57<14:35:21, 23.48s/it] 48%|████▊     | 2050/4286 [13:28:21<14:42:21, 23.68s/it]                                                         {'loss': 0.086, 'grad_norm': 1.3075940437137448, 'learning_rate': 5.216985534297713e-07, 'completion_length': 372.0178680419922, 'rewards/only_full_func_accuracy_reward': 0.7723214626312256, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7544644474983215, 'reward_std': 0.16510110348463058, 'kl': 2.1484375, 'epoch': 0.48}
+ 48%|████▊     | 2050/4286 [13:28:21<14:42:21, 23.68s/it] 48%|████▊     | 2051/4286 [13:28:45<14:44:27, 23.74s/it]                                                         {'loss': 0.0497, 'grad_norm': 0.9722405773145459, 'learning_rate': 5.214652356509566e-07, 'completion_length': 384.1607360839844, 'rewards/only_full_func_accuracy_reward': 0.7819940447807312, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7730656266212463, 'reward_std': 0.08513807319104671, 'kl': 1.2421875, 'epoch': 0.48}
+ 48%|████▊     | 2051/4286 [13:28:45<14:44:27, 23.74s/it] 48%|████▊     | 2052/4286 [13:29:09<14:38:11, 23.59s/it]                                                         {'loss': 0.035, 'grad_norm': 0.6573329272705, 'learning_rate': 5.212319178721418e-07, 'completion_length': 390.65179443359375, 'rewards/only_full_func_accuracy_reward': 0.7641369104385376, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.755208432674408, 'reward_std': 0.09980403911322355, 'kl': 0.8759765625, 'epoch': 0.48}
+ 48%|████▊     | 2052/4286 [13:29:09<14:38:11, 23.59s/it] 48%|████▊     | 2053/4286 [13:29:32<14:39:37, 23.64s/it]                                                         {'loss': 0.1406, 'grad_norm': 5.154866463585845, 'learning_rate': 5.209986000933271e-07, 'completion_length': 376.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.66567462682724, 'rewards/format_reward': 0.9464285969734192, 'reward': 1.612103283405304, 'reward_std': 0.21286674588918686, 'kl': 3.50390625, 'epoch': 0.48}
+ 48%|████▊     | 2053/4286 [13:29:32<14:39:37, 23.64s/it] 48%|████▊     | 2054/4286 [13:29:55<14:33:16, 23.48s/it]                                                         {'loss': 0.0998, 'grad_norm': 1.5871254592750939, 'learning_rate': 5.207652823145123e-07, 'completion_length': 403.5893096923828, 'rewards/only_full_func_accuracy_reward': 0.8125000298023224, 'rewards/format_reward': 0.9553571939468384, 'reward': 1.7678571939468384, 'reward_std': 0.22545847296714783, 'kl': 2.484375, 'epoch': 0.48}
+ 48%|████▊     | 2054/4286 [13:29:55<14:33:16, 23.48s/it] 48%|████▊     | 2055/4286 [13:30:18<14:24:00, 23.24s/it]                                                         {'loss': 0.0601, 'grad_norm': 1.028256456810254, 'learning_rate': 5.205319645356976e-07, 'completion_length': 356.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.7425595223903656, 'rewards/format_reward': 0.973214328289032, 'reward': 1.7157739400863647, 'reward_std': 0.15952903777360916, 'kl': 1.505859375, 'epoch': 0.48}
+ 48%|████▊     | 2055/4286 [13:30:18<14:24:00, 23.24s/it] 48%|████▊     | 2056/4286 [13:30:42<14:34:20, 23.52s/it]                                                         {'loss': 0.1345, 'grad_norm': 2.446077148524802, 'learning_rate': 5.202986467568829e-07, 'completion_length': 389.6339416503906, 'rewards/only_full_func_accuracy_reward': 0.598214328289032, 'rewards/format_reward': 0.9464285969734192, 'reward': 1.544642984867096, 'reward_std': 0.2686597406864166, 'kl': 3.359375, 'epoch': 0.48}
+ 48%|████▊     | 2056/4286 [13:30:42<14:34:20, 23.52s/it] 48%|████▊     | 2057/4286 [13:31:06<14:37:46, 23.63s/it]                                                         {'loss': 0.0589, 'grad_norm': 1.9935906787242172, 'learning_rate': 5.200653289780681e-07, 'completion_length': 424.5268096923828, 'rewards/only_full_func_accuracy_reward': 0.5602678656578064, 'rewards/format_reward': 1.0, 'reward': 1.560267984867096, 'reward_std': 0.09573201462626457, 'kl': 1.470703125, 'epoch': 0.48}
+ 48%|████▊     | 2057/4286 [13:31:06<14:37:46, 23.63s/it] 48%|████▊     | 2058/4286 [13:31:30<14:40:48, 23.72s/it]                                                         {'loss': 0.0629, 'grad_norm': 0.6846971210062703, 'learning_rate': 5.198320111992533e-07, 'completion_length': 434.8035888671875, 'rewards/only_full_func_accuracy_reward': 0.5401786118745804, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.5223215818405151, 'reward_std': 0.13108072616159916, 'kl': 1.57080078125, 'epoch': 0.48}
+ 48%|████▊     | 2058/4286 [13:31:30<14:40:48, 23.72s/it] 48%|████▊     | 2059/4286 [13:31:54<14:42:48, 23.78s/it]                                                         {'loss': 0.0652, 'grad_norm': 2.302182517526202, 'learning_rate': 5.195986934204386e-07, 'completion_length': 388.5178680419922, 'rewards/only_full_func_accuracy_reward': 0.605654776096344, 'rewards/format_reward': 1.0, 'reward': 1.6056549549102783, 'reward_std': 0.048938559368252754, 'kl': 1.6307373046875, 'epoch': 0.48}
+ 48%|████▊     | 2059/4286 [13:31:54<14:42:48, 23.78s/it] 48%|████▊     | 2060/4286 [13:32:18<14:45:25, 23.87s/it]                                                         {'loss': 0.0023, 'grad_norm': 0.9316025499251118, 'learning_rate': 5.193653756416239e-07, 'completion_length': 405.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.6315476298332214, 'rewards/format_reward': 1.0, 'reward': 1.631547749042511, 'reward_std': 0.0677554551512003, 'kl': 0.0584716796875, 'epoch': 0.48}
+ 48%|████▊     | 2060/4286 [13:32:18<14:45:25, 23.87s/it] 48%|████▊     | 2061/4286 [13:32:43<14:57:17, 24.20s/it]                                                         {'loss': 0.0137, 'grad_norm': 0.41596358948260853, 'learning_rate': 5.191320578628091e-07, 'completion_length': 456.3214569091797, 'rewards/only_full_func_accuracy_reward': 0.8059524297714233, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7970239520072937, 'reward_std': 0.04826713167130947, 'kl': 0.34326171875, 'epoch': 0.48}
+ 48%|████▊     | 2061/4286 [13:32:43<14:57:17, 24.20s/it] 48%|████▊     | 2062/4286 [13:33:08<15:04:32, 24.40s/it]                                                         {'loss': 0.0327, 'grad_norm': 1.0025357099047258, 'learning_rate': 5.188987400839943e-07, 'completion_length': 402.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.7090774178504944, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7001489400863647, 'reward_std': 0.08524895459413528, 'kl': 0.8203125, 'epoch': 0.48}
+ 48%|████▊     | 2062/4286 [13:33:08<15:04:32, 24.40s/it] 48%|████▊     | 2063/4286 [13:33:31<14:47:11, 23.95s/it]                                                         {'loss': 0.0019, 'grad_norm': 0.11573310243086656, 'learning_rate': 5.186654223051797e-07, 'completion_length': 380.00001525878906, 'rewards/only_full_func_accuracy_reward': 0.7217262089252472, 'rewards/format_reward': 1.0, 'reward': 1.7217263579368591, 'reward_std': 0.018483899533748627, 'kl': 0.046875, 'epoch': 0.48}
+ 48%|████▊     | 2063/4286 [13:33:31<14:47:11, 23.95s/it] 48%|████▊     | 2064/4286 [13:33:56<15:01:33, 24.34s/it]                                                         {'loss': 0.005, 'grad_norm': 1.0648000552476509, 'learning_rate': 5.184321045263649e-07, 'completion_length': 451.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.7078869342803955, 'rewards/format_reward': 1.0, 'reward': 1.7078869938850403, 'reward_std': 0.0600949302315712, 'kl': 0.12451171875, 'epoch': 0.48}
+ 48%|████▊     | 2064/4286 [13:33:56<15:01:33, 24.34s/it] 48%|████▊     | 2065/4286 [13:34:19<14:41:34, 23.82s/it]                                                         {'loss': 0.0928, 'grad_norm': 3.968888436871059, 'learning_rate': 5.181987867475501e-07, 'completion_length': 356.2678680419922, 'rewards/only_full_func_accuracy_reward': 0.7461310029029846, 'rewards/format_reward': 0.9464285969734192, 'reward': 1.6925595998764038, 'reward_std': 0.2254730984568596, 'kl': 2.3125, 'epoch': 0.48}
+ 48%|████▊     | 2065/4286 [13:34:19<14:41:34, 23.82s/it] 48%|████▊     | 2066/4286 [13:34:45<15:03:42, 24.42s/it]                                                         {'loss': 0.0016, 'grad_norm': 0.7177450917448508, 'learning_rate': 5.179654689687354e-07, 'completion_length': 457.9018096923828, 'rewards/only_full_func_accuracy_reward': 0.7831845581531525, 'rewards/format_reward': 1.0, 'reward': 1.7831845879554749, 'reward_std': 0.02206255216151476, 'kl': 0.0389404296875, 'epoch': 0.48}
+ 48%|████▊     | 2066/4286 [13:34:45<15:03:42, 24.42s/it] 48%|████▊     | 2067/4286 [13:35:11<15:26:57, 25.06s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.2646773311056868, 'learning_rate': 5.177321511899207e-07, 'completion_length': 481.50001525878906, 'rewards/only_full_func_accuracy_reward': 0.6793155521154404, 'rewards/format_reward': 1.0, 'reward': 1.6793155670166016, 'reward_std': 0.039529211819171906, 'kl': 0.037841796875, 'epoch': 0.48}
+ 48%|████▊     | 2067/4286 [13:35:11<15:26:57, 25.06s/it] 48%|████▊     | 2068/4286 [13:35:33<14:57:10, 24.27s/it]                                                         {'loss': 0.0473, 'grad_norm': 0.7767602527899568, 'learning_rate': 5.174988334111059e-07, 'completion_length': 380.0803680419922, 'rewards/only_full_func_accuracy_reward': 0.6251488327980042, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6072917580604553, 'reward_std': 0.10747140645980835, 'kl': 1.1796875, 'epoch': 0.48}
+ 48%|████▊     | 2068/4286 [13:35:34<14:57:10, 24.27s/it] 48%|████▊     | 2069/4286 [13:35:57<14:49:19, 24.07s/it]                                                         {'loss': 0.0265, 'grad_norm': 0.6324820071980941, 'learning_rate': 5.172655156322911e-07, 'completion_length': 371.9643096923828, 'rewards/only_full_func_accuracy_reward': 0.8035715222358704, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.794642984867096, 'reward_std': 0.05034329369664192, 'kl': 0.66015625, 'epoch': 0.48}
+ 48%|████▊     | 2069/4286 [13:35:57<14:49:19, 24.07s/it] 48%|████▊     | 2070/4286 [13:36:21<14:45:37, 23.98s/it]                                                         {'loss': 0.0253, 'grad_norm': 0.7042289969469884, 'learning_rate': 5.170321978534764e-07, 'completion_length': 402.2589416503906, 'rewards/only_full_func_accuracy_reward': 0.7053572237491608, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6875001788139343, 'reward_std': 0.06929583381861448, 'kl': 0.633056640625, 'epoch': 0.48}
+ 48%|████▊     | 2070/4286 [13:36:21<14:45:37, 23.98s/it] 48%|████▊     | 2071/4286 [13:36:44<14:39:05, 23.81s/it]                                                         {'loss': 0.0019, 'grad_norm': 0.45329334767759893, 'learning_rate': 5.167988800746616e-07, 'completion_length': 408.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.7559523582458496, 'rewards/format_reward': 1.0, 'reward': 1.755952537059784, 'reward_std': 0.030334603041410446, 'kl': 0.0478515625, 'epoch': 0.48}
+ 48%|████▊     | 2071/4286 [13:36:44<14:39:05, 23.81s/it] 48%|████▊     | 2072/4286 [13:37:07<14:26:18, 23.48s/it]                                                         {'loss': 0.0104, 'grad_norm': 0.7732260293221512, 'learning_rate': 5.165655622958469e-07, 'completion_length': 380.0268096923828, 'rewards/only_full_func_accuracy_reward': 0.7138393223285675, 'rewards/format_reward': 1.0, 'reward': 1.71383935213089, 'reward_std': 0.03966650553047657, 'kl': 0.2591552734375, 'epoch': 0.48}
+ 48%|████▊     | 2072/4286 [13:37:07<14:26:18, 23.48s/it] 48%|████▊     | 2073/4286 [13:37:30<14:21:02, 23.35s/it]                                                         {'loss': 0.0214, 'grad_norm': 1.3179560843410385, 'learning_rate': 5.163322445170322e-07, 'completion_length': 380.7232360839844, 'rewards/only_full_func_accuracy_reward': 0.6071428954601288, 'rewards/format_reward': 1.0, 'reward': 1.6071429252624512, 'reward_std': 0.025453456677496433, 'kl': 0.5345458984375, 'epoch': 0.48}
+ 48%|████▊     | 2073/4286 [13:37:30<14:21:02, 23.35s/it] 48%|████▊     | 2074/4286 [13:37:53<14:12:46, 23.13s/it]                                                         {'loss': 0.0258, 'grad_norm': 0.7104063908643423, 'learning_rate': 5.160989267382174e-07, 'completion_length': 368.2678680419922, 'rewards/only_full_func_accuracy_reward': 0.735119104385376, 'rewards/format_reward': 1.0, 'reward': 1.7351191639900208, 'reward_std': 0.029487721621990204, 'kl': 0.6446533203125, 'epoch': 0.48}
+ 48%|████▊     | 2074/4286 [13:37:53<14:12:46, 23.13s/it] 48%|████▊     | 2075/4286 [13:38:16<14:19:33, 23.33s/it]                                                         {'loss': 0.0199, 'grad_norm': 1.349929580184378, 'learning_rate': 5.158656089594026e-07, 'completion_length': 416.2232360839844, 'rewards/only_full_func_accuracy_reward': 0.7470238506793976, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7380954027175903, 'reward_std': 0.09229394793510437, 'kl': 0.498046875, 'epoch': 0.48}
+ 48%|████▊     | 2075/4286 [13:38:16<14:19:33, 23.33s/it] 48%|████▊     | 2076/4286 [13:38:40<14:23:25, 23.44s/it]                                                         {'loss': 0.0207, 'grad_norm': 0.9839459823966438, 'learning_rate': 5.15632291180588e-07, 'completion_length': 398.77679443359375, 'rewards/only_full_func_accuracy_reward': 0.71726194024086, 'rewards/format_reward': 1.0, 'reward': 1.7172619700431824, 'reward_std': 0.04959750920534134, 'kl': 0.5179443359375, 'epoch': 0.48}
+ 48%|████▊     | 2076/4286 [13:38:40<14:23:25, 23.44s/it] 48%|████▊     | 2077/4286 [13:39:06<14:50:26, 24.19s/it]                                                         {'loss': 0.0066, 'grad_norm': 0.2864367053383038, 'learning_rate': 5.153989734017732e-07, 'completion_length': 448.6339569091797, 'rewards/only_full_func_accuracy_reward': 0.65383180975914, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6449033617973328, 'reward_std': 0.04320790898054838, 'kl': 0.165283203125, 'epoch': 0.48}
+ 48%|████▊     | 2077/4286 [13:39:06<14:50:26, 24.19s/it] 48%|████▊     | 2078/4286 [13:39:29<14:39:59, 23.91s/it]                                                         {'loss': 0.0381, 'grad_norm': 1.8475881762209416, 'learning_rate': 5.151656556229584e-07, 'completion_length': 386.89288330078125, 'rewards/only_full_func_accuracy_reward': 0.836309552192688, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8273810744285583, 'reward_std': 0.10101525112986565, 'kl': 0.953125, 'epoch': 0.48}
+ 48%|████▊     | 2078/4286 [13:39:29<14:39:59, 23.91s/it] 49%|████▊     | 2079/4286 [13:39:53<14:41:07, 23.95s/it]                                                         {'loss': 0.0382, 'grad_norm': 2.4412742416805298, 'learning_rate': 5.149323378441437e-07, 'completion_length': 385.08038330078125, 'rewards/only_full_func_accuracy_reward': 0.6153274476528168, 'rewards/format_reward': 1.0, 'reward': 1.6153274774551392, 'reward_std': 0.09817609190940857, 'kl': 0.95703125, 'epoch': 0.49}
+ 49%|████▊     | 2079/4286 [13:39:53<14:41:07, 23.95s/it] 49%|████▊     | 2080/4286 [13:40:18<14:52:43, 24.28s/it]                                                         {'loss': 0.0505, 'grad_norm': 1.8926744450649498, 'learning_rate': 5.14699020065329e-07, 'completion_length': 420.85716247558594, 'rewards/only_full_func_accuracy_reward': 0.7373512089252472, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7284227013587952, 'reward_std': 0.10824957117438316, 'kl': 1.2578125, 'epoch': 0.49}
+ 49%|████▊     | 2080/4286 [13:40:18<14:52:43, 24.28s/it] 49%|████▊     | 2081/4286 [13:40:43<14:58:29, 24.45s/it]                                                         {'loss': 0.0115, 'grad_norm': 0.7233524428962153, 'learning_rate': 5.144657022865142e-07, 'completion_length': 444.92860412597656, 'rewards/only_full_func_accuracy_reward': 0.8452381491661072, 'rewards/format_reward': 1.0, 'reward': 1.845238208770752, 'reward_std': 0.011021665297448635, 'kl': 0.28564453125, 'epoch': 0.49}
+ 49%|████▊     | 2081/4286 [13:40:43<14:58:29, 24.45s/it] 49%|████▊     | 2082/4286 [13:41:08<15:04:41, 24.63s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.4497351390135556, 'learning_rate': 5.142323845076994e-07, 'completion_length': 454.43751525878906, 'rewards/only_full_func_accuracy_reward': 0.666666716337204, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.657738208770752, 'reward_std': 0.036275483667850494, 'kl': 0.036376953125, 'epoch': 0.49}
+ 49%|████▊     | 2082/4286 [13:41:08<15:04:41, 24.63s/it] 49%|████▊     | 2083/4286 [13:41:33<14:59:53, 24.51s/it]                                                         {'loss': 0.0133, 'grad_norm': 1.9841237804688112, 'learning_rate': 5.139990667288847e-07, 'completion_length': 408.7768096923828, 'rewards/only_full_func_accuracy_reward': 0.7892857491970062, 'rewards/format_reward': 1.0, 'reward': 1.7892858982086182, 'reward_std': 0.050131792202591896, 'kl': 0.33203125, 'epoch': 0.49}
+ 49%|████▊     | 2083/4286 [13:41:33<14:59:53, 24.51s/it] 49%|████▊     | 2084/4286 [13:41:57<15:00:24, 24.53s/it]                                                         {'loss': 0.0078, 'grad_norm': 0.6771274868289281, 'learning_rate': 5.1376574895007e-07, 'completion_length': 433.8214569091797, 'rewards/only_full_func_accuracy_reward': 0.595982164144516, 'rewards/format_reward': 1.0, 'reward': 1.5959822535514832, 'reward_std': 0.01635938324034214, 'kl': 0.1949462890625, 'epoch': 0.49}
+ 49%|████▊     | 2084/4286 [13:41:57<15:00:24, 24.53s/it] 49%|████▊     | 2085/4286 [13:42:22<15:07:22, 24.74s/it]                                                         {'loss': 0.0014, 'grad_norm': 0.3213167251726597, 'learning_rate': 5.135324311712552e-07, 'completion_length': 478.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.7440476715564728, 'rewards/format_reward': 1.0, 'reward': 1.7440477013587952, 'reward_std': 0.027857543900609016, 'kl': 0.035888671875, 'epoch': 0.49}
+ 49%|████▊     | 2085/4286 [13:42:22<15:07:22, 24.74s/it] 49%|████▊     | 2086/4286 [13:42:48<15:19:03, 25.07s/it]                                                         {'loss': 0.0025, 'grad_norm': 0.7037404023308577, 'learning_rate': 5.132991133924405e-07, 'completion_length': 429.4107360839844, 'rewards/only_full_func_accuracy_reward': 0.7321428656578064, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7232143878936768, 'reward_std': 0.06581608019769192, 'kl': 0.0615234375, 'epoch': 0.49}
+ 49%|████▊     | 2086/4286 [13:42:48<15:19:03, 25.07s/it] 49%|████▊     | 2087/4286 [13:43:12<15:00:35, 24.57s/it]                                                         {'loss': 0.0016, 'grad_norm': 0.21416401185322678, 'learning_rate': 5.130657956136257e-07, 'completion_length': 411.6428680419922, 'rewards/only_full_func_accuracy_reward': 0.696577399969101, 'rewards/format_reward': 1.0, 'reward': 1.6965774893760681, 'reward_std': 0.01641497970558703, 'kl': 0.039306640625, 'epoch': 0.49}
+ 49%|████▊     | 2087/4286 [13:43:12<15:00:35, 24.57s/it] 49%|████▊     | 2088/4286 [13:43:35<14:44:50, 24.15s/it]                                                         {'loss': 0.0167, 'grad_norm': 1.0894889967286794, 'learning_rate': 5.12832477834811e-07, 'completion_length': 393.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.6845238506793976, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6755953431129456, 'reward_std': 0.10821830853819847, 'kl': 0.41796875, 'epoch': 0.49}
+ 49%|████▊     | 2088/4286 [13:43:35<14:44:50, 24.15s/it] 49%|████▊     | 2089/4286 [13:43:58<14:38:32, 23.99s/it]                                                         {'loss': 0.0124, 'grad_norm': 0.4178969001133987, 'learning_rate': 5.125991600559963e-07, 'completion_length': 412.9285888671875, 'rewards/only_full_func_accuracy_reward': 0.7180059850215912, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.709077537059784, 'reward_std': 0.06087836530059576, 'kl': 0.310546875, 'epoch': 0.49}
+ 49%|████▊     | 2089/4286 [13:43:58<14:38:32, 23.99s/it] 49%|████▉     | 2090/4286 [13:44:23<14:42:50, 24.12s/it]                                                         {'loss': 0.0353, 'grad_norm': 2.4212011586521744, 'learning_rate': 5.123658422771815e-07, 'completion_length': 425.04466247558594, 'rewards/only_full_func_accuracy_reward': 0.7760416865348816, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7581846714019775, 'reward_std': 0.07464916631579399, 'kl': 0.8837890625, 'epoch': 0.49}
+ 49%|████▉     | 2090/4286 [13:44:23<14:42:50, 24.12s/it] 49%|████▉     | 2091/4286 [13:44:47<14:45:29, 24.20s/it]                                                         {'loss': 0.0222, 'grad_norm': 0.5982728204945793, 'learning_rate': 5.121325244983667e-07, 'completion_length': 436.3214569091797, 'rewards/only_full_func_accuracy_reward': 0.6956845223903656, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.677827537059784, 'reward_std': 0.1031197402626276, 'kl': 0.5545654296875, 'epoch': 0.49}
+ 49%|████▉     | 2091/4286 [13:44:47<14:45:29, 24.20s/it] 49%|████▉     | 2092/4286 [13:45:12<14:49:50, 24.33s/it]                                                         {'loss': 0.0021, 'grad_norm': 0.3087822125107112, 'learning_rate': 5.11899206719552e-07, 'completion_length': 405.12501525878906, 'rewards/only_full_func_accuracy_reward': 0.8311012387275696, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.82217276096344, 'reward_std': 0.0659884475171566, 'kl': 0.05224609375, 'epoch': 0.49}
+ 49%|████▉     | 2092/4286 [13:45:12<14:49:50, 24.33s/it] 49%|████▉     | 2093/4286 [13:45:37<15:03:19, 24.71s/it]                                                         {'loss': 0.0783, 'grad_norm': 4.584603050506124, 'learning_rate': 5.116658889407373e-07, 'completion_length': 455.89288330078125, 'rewards/only_full_func_accuracy_reward': 0.6610119342803955, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.652083396911621, 'reward_std': 0.0567106269299984, 'kl': 1.965087890625, 'epoch': 0.49}
+ 49%|████▉     | 2093/4286 [13:45:37<15:03:19, 24.71s/it] 49%|████▉     | 2094/4286 [13:46:02<14:56:07, 24.53s/it]                                                         {'loss': 0.0124, 'grad_norm': 0.814966555876465, 'learning_rate': 5.114325711619225e-07, 'completion_length': 415.0982360839844, 'rewards/only_full_func_accuracy_reward': 0.7142857611179352, 'rewards/format_reward': 1.0, 'reward': 1.7142858505249023, 'reward_std': 0.056517235934734344, 'kl': 0.308349609375, 'epoch': 0.49}
+ 49%|████▉     | 2094/4286 [13:46:02<14:56:07, 24.53s/it] 49%|████▉     | 2095/4286 [13:46:25<14:39:00, 24.07s/it]                                                         {'loss': 0.0019, 'grad_norm': 0.28125889935052717, 'learning_rate': 5.111992533831077e-07, 'completion_length': 378.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.7291666865348816, 'rewards/format_reward': 1.0, 'reward': 1.7291668057441711, 'reward_std': 0.048241179436445236, 'kl': 0.0462646484375, 'epoch': 0.49}
+ 49%|████▉     | 2095/4286 [13:46:25<14:39:00, 24.07s/it] 49%|████▉     | 2096/4286 [13:46:49<14:46:49, 24.30s/it]                                                         {'loss': 0.0069, 'grad_norm': 0.509739233888815, 'learning_rate': 5.10965935604293e-07, 'completion_length': 416.64288330078125, 'rewards/only_full_func_accuracy_reward': 0.5907737910747528, 'rewards/format_reward': 1.0, 'reward': 1.5907739400863647, 'reward_std': 0.019287919625639915, 'kl': 0.1710205078125, 'epoch': 0.49}
+ 49%|████▉     | 2096/4286 [13:46:49<14:46:49, 24.30s/it] 49%|████▉     | 2097/4286 [13:47:13<14:42:42, 24.20s/it]                                                         {'loss': 0.022, 'grad_norm': 1.6996280613908314, 'learning_rate': 5.107326178254783e-07, 'completion_length': 424.9375305175781, 'rewards/only_full_func_accuracy_reward': 0.5939980745315552, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.585069477558136, 'reward_std': 0.11126404628157616, 'kl': 0.5472412109375, 'epoch': 0.49}
+ 49%|████▉     | 2097/4286 [13:47:13<14:42:42, 24.20s/it] 49%|████▉     | 2098/4286 [13:47:38<14:47:42, 24.34s/it]                                                         {'loss': 0.0095, 'grad_norm': 0.9730521967444937, 'learning_rate': 5.104993000466635e-07, 'completion_length': 429.08929443359375, 'rewards/only_full_func_accuracy_reward': 0.7611607313156128, 'rewards/format_reward': 1.0, 'reward': 1.7611608505249023, 'reward_std': 0.042762018740177155, 'kl': 0.238525390625, 'epoch': 0.49}
+ 49%|████▉     | 2098/4286 [13:47:38<14:47:42, 24.34s/it] 49%|████▉     | 2099/4286 [13:48:01<14:32:23, 23.93s/it]                                                         {'loss': 0.0021, 'grad_norm': 0.3232080894548861, 'learning_rate': 5.102659822678488e-07, 'completion_length': 373.5803680419922, 'rewards/only_full_func_accuracy_reward': 0.688244104385376, 'rewards/format_reward': 1.0, 'reward': 1.6882441639900208, 'reward_std': 0.039680151268839836, 'kl': 0.05322265625, 'epoch': 0.49}
+ 49%|████▉     | 2099/4286 [13:48:01<14:32:23, 23.93s/it] 49%|████▉     | 2100/4286 [13:48:26<14:48:25, 24.38s/it]                                                         {'loss': 0.0243, 'grad_norm': 0.8234209587161989, 'learning_rate': 5.10032664489034e-07, 'completion_length': 468.43751525878906, 'rewards/only_full_func_accuracy_reward': 0.5877976715564728, 'rewards/format_reward': 1.0, 'reward': 1.58779776096344, 'reward_std': 0.07767826272174716, 'kl': 0.60546875, 'epoch': 0.49}
+ 49%|████▉     | 2100/4286 [13:48:26<14:48:25, 24.38s/it] 49%|████▉     | 2101/4286 [13:49:52<25:59:52, 42.83s/it]                                                         {'loss': 0.0693, 'grad_norm': 1.1504245536660656, 'learning_rate': 5.097993467102193e-07, 'completion_length': 370.26788330078125, 'rewards/only_full_func_accuracy_reward': 0.776041716337204, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7581846714019775, 'reward_std': 0.1479697749018669, 'kl': 1.73046875, 'epoch': 0.49}
+ 49%|████▉     | 2101/4286 [13:49:52<25:59:52, 42.83s/it] 49%|████▉     | 2102/4286 [13:50:17<22:40:16, 37.37s/it]                                                         {'loss': 0.0536, 'grad_norm': 0.752701727784359, 'learning_rate': 5.095660289314046e-07, 'completion_length': 412.79466247558594, 'rewards/only_full_func_accuracy_reward': 0.5949405133724213, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5860120058059692, 'reward_std': 0.13210096955299377, 'kl': 1.33984375, 'epoch': 0.49}
+ 49%|████▉     | 2102/4286 [13:50:17<22:40:16, 37.37s/it] 49%|████▉     | 2103/4286 [13:50:40<20:02:14, 33.04s/it]                                                         {'loss': 0.0164, 'grad_norm': 0.4085450656578164, 'learning_rate': 5.093327111525898e-07, 'completion_length': 406.0357360839844, 'rewards/only_full_func_accuracy_reward': 0.7732143700122833, 'rewards/format_reward': 1.0, 'reward': 1.7732143998146057, 'reward_std': 0.038129870081320405, 'kl': 0.4091796875, 'epoch': 0.49}
+ 49%|████▉     | 2103/4286 [13:50:40<20:02:14, 33.04s/it] 49%|████▉     | 2104/4286 [13:51:05<18:33:20, 30.61s/it]                                                         {'loss': 0.0129, 'grad_norm': 0.5784254420511262, 'learning_rate': 5.09099393373775e-07, 'completion_length': 439.7589569091797, 'rewards/only_full_func_accuracy_reward': 0.658482164144516, 'rewards/format_reward': 1.0, 'reward': 1.6584822535514832, 'reward_std': 0.060422372072935104, 'kl': 0.3236083984375, 'epoch': 0.49}
+ 49%|████▉     | 2104/4286 [13:51:05<18:33:20, 30.61s/it] 49%|████▉     | 2105/4286 [13:51:29<17:18:38, 28.57s/it]                                                         {'loss': 0.0153, 'grad_norm': 0.5876390428868765, 'learning_rate': 5.088660755949603e-07, 'completion_length': 429.35716247558594, 'rewards/only_full_func_accuracy_reward': 0.7056547999382019, 'rewards/format_reward': 1.0, 'reward': 1.7056549191474915, 'reward_std': 0.08192844688892365, 'kl': 0.381591796875, 'epoch': 0.49}
+ 49%|████▉     | 2105/4286 [13:51:29<17:18:38, 28.57s/it] 49%|████▉     | 2106/4286 [13:51:53<16:35:19, 27.39s/it]                                                         {'loss': 0.0137, 'grad_norm': 0.5637087518964896, 'learning_rate': 5.086327578161456e-07, 'completion_length': 395.27679443359375, 'rewards/only_full_func_accuracy_reward': 0.5505314767360687, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5416030287742615, 'reward_std': 0.09755409136414528, 'kl': 0.3426513671875, 'epoch': 0.49}
+ 49%|████▉     | 2106/4286 [13:51:53<16:35:19, 27.39s/it] 49%|████▉     | 2107/4286 [13:52:18<16:01:08, 26.47s/it]                                                         {'loss': 0.0657, 'grad_norm': 1.831409872229429, 'learning_rate': 5.083994400373308e-07, 'completion_length': 432.0535888671875, 'rewards/only_full_func_accuracy_reward': 0.684374988079071, 'rewards/format_reward': 0.973214328289032, 'reward': 1.6575893759727478, 'reward_std': 0.1983005627989769, 'kl': 1.6484375, 'epoch': 0.49}
+ 49%|████▉     | 2107/4286 [13:52:18<16:01:08, 26.47s/it] 49%|████▉     | 2108/4286 [13:52:43<15:50:57, 26.20s/it]                                                         {'loss': 0.07, 'grad_norm': 0.9510762948690018, 'learning_rate': 5.08166122258516e-07, 'completion_length': 442.2678680419922, 'rewards/only_full_func_accuracy_reward': 0.694727897644043, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6768708229064941, 'reward_std': 0.1560511589050293, 'kl': 1.75, 'epoch': 0.49}
+ 49%|████▉     | 2108/4286 [13:52:43<15:50:57, 26.20s/it] 49%|████▉     | 2109/4286 [13:53:08<15:34:39, 25.76s/it]                                                         {'loss': 0.0179, 'grad_norm': 1.2578526680569808, 'learning_rate': 5.079328044797014e-07, 'completion_length': 419.26788330078125, 'rewards/only_full_func_accuracy_reward': 0.7061012387275696, 'rewards/format_reward': 1.0, 'reward': 1.7061013579368591, 'reward_std': 0.07716651260852814, 'kl': 0.447265625, 'epoch': 0.49}
+ 49%|████▉     | 2109/4286 [13:53:08<15:34:39, 25.76s/it] 49%|████▉     | 2110/4286 [13:53:32<15:13:09, 25.18s/it]                                                         {'loss': 0.1472, 'grad_norm': 1.3744426683654272, 'learning_rate': 5.076994867008866e-07, 'completion_length': 401.9285888671875, 'rewards/only_full_func_accuracy_reward': 0.7077381014823914, 'rewards/format_reward': 0.9375000298023224, 'reward': 1.645238220691681, 'reward_std': 0.2498978152871132, 'kl': 3.6796875, 'epoch': 0.49}
+ 49%|████▉     | 2110/4286 [13:53:32<15:13:09, 25.18s/it] 49%|████▉     | 2111/4286 [13:53:55<14:49:56, 24.55s/it]                                                         {'loss': 0.0954, 'grad_norm': 2.934768406320874, 'learning_rate': 5.074661689220718e-07, 'completion_length': 362.75001525878906, 'rewards/only_full_func_accuracy_reward': 0.6666666865348816, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6488096117973328, 'reward_std': 0.1062227226793766, 'kl': 2.3828125, 'epoch': 0.49}
+ 49%|████▉     | 2111/4286 [13:53:55<14:49:56, 24.55s/it] 49%|████▉     | 2112/4286 [13:54:19<14:46:27, 24.47s/it]                                                         {'loss': 0.0518, 'grad_norm': 1.0064320378865592, 'learning_rate': 5.072328511432571e-07, 'completion_length': 366.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.682886928319931, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6650298833847046, 'reward_std': 0.12258854135870934, 'kl': 1.298828125, 'epoch': 0.49}
+ 49%|████▉     | 2112/4286 [13:54:19<14:46:27, 24.47s/it] 49%|████▉     | 2113/4286 [13:54:42<14:24:34, 23.87s/it]                                                         {'loss': 0.121, 'grad_norm': 2.1774961282031637, 'learning_rate': 5.069995333644424e-07, 'completion_length': 374.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.7392857372760773, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.7035714983940125, 'reward_std': 0.2974040359258652, 'kl': 3.021484375, 'epoch': 0.49}
+ 49%|████▉     | 2113/4286 [13:54:42<14:24:34, 23.87s/it] 49%|████▉     | 2114/4286 [13:55:06<14:31:43, 24.08s/it]                                                         {'loss': 0.1512, 'grad_norm': 3.087277054393347, 'learning_rate': 5.067662155856276e-07, 'completion_length': 410.5357360839844, 'rewards/only_full_func_accuracy_reward': 0.5877977013587952, 'rewards/format_reward': 0.955357164144516, 'reward': 1.5431548953056335, 'reward_std': 0.1932663507759571, 'kl': 3.7734375, 'epoch': 0.49}
+ 49%|████▉     | 2114/4286 [13:55:06<14:31:43, 24.08s/it] 49%|████▉     | 2115/4286 [13:55:30<14:28:29, 24.00s/it]                                                         {'loss': 0.1116, 'grad_norm': 2.0631470978546607, 'learning_rate': 5.065328978068128e-07, 'completion_length': 389.9643096923828, 'rewards/only_full_func_accuracy_reward': 0.510416641831398, 'rewards/format_reward': 0.955357164144516, 'reward': 1.4657739400863647, 'reward_std': 0.19235412776470184, 'kl': 2.78125, 'epoch': 0.49}
+ 49%|████▉     | 2115/4286 [13:55:30<14:28:29, 24.00s/it] 49%|████▉     | 2116/4286 [13:55:55<14:34:39, 24.18s/it]                                                         {'loss': 0.1661, 'grad_norm': 3.4942039247038066, 'learning_rate': 5.062995800279981e-07, 'completion_length': 406.2321472167969, 'rewards/only_full_func_accuracy_reward': 0.6788690984249115, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.643154799938202, 'reward_std': 0.23106148093938828, 'kl': 4.1640625, 'epoch': 0.49}
+ 49%|████▉     | 2116/4286 [13:55:55<14:34:39, 24.18s/it] 49%|████▉     | 2117/4286 [13:56:20<14:50:38, 24.64s/it]                                                         {'loss': 0.0931, 'grad_norm': 2.131674904813184, 'learning_rate': 5.060662622491834e-07, 'completion_length': 427.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.6411458551883698, 'rewards/format_reward': 0.955357164144516, 'reward': 1.5965030789375305, 'reward_std': 0.2498222216963768, 'kl': 2.328125, 'epoch': 0.49}
+ 49%|████▉     | 2117/4286 [13:56:20<14:50:38, 24.64s/it] 49%|████▉     | 2118/4286 [13:56:45<14:47:44, 24.57s/it]                                                         {'loss': 0.0441, 'grad_norm': 0.8434136861224136, 'learning_rate': 5.058329444703686e-07, 'completion_length': 425.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.668154776096344, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6502977013587952, 'reward_std': 0.11557835713028908, 'kl': 1.09765625, 'epoch': 0.49}
+ 49%|█���██▉     | 2118/4286 [13:56:45<14:47:44, 24.57s/it] 49%|████▉     | 2119/4286 [13:57:08<14:35:15, 24.23s/it]                                                         {'loss': 0.0285, 'grad_norm': 0.8460891818641707, 'learning_rate': 5.055996266915539e-07, 'completion_length': 348.4553680419922, 'rewards/only_full_func_accuracy_reward': 0.4568452537059784, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.4479167461395264, 'reward_std': 0.07714395597577095, 'kl': 0.712890625, 'epoch': 0.49}
+ 49%|████▉     | 2119/4286 [13:57:08<14:35:15, 24.23s/it] 49%|████▉     | 2120/4286 [13:57:32<14:31:34, 24.14s/it]                                                         {'loss': 0.0213, 'grad_norm': 1.147667748527582, 'learning_rate': 5.053663089127391e-07, 'completion_length': 388.40179443359375, 'rewards/only_full_func_accuracy_reward': 0.7313988506793976, 'rewards/format_reward': 1.0, 'reward': 1.7313989400863647, 'reward_std': 0.05478634312748909, 'kl': 0.5322265625, 'epoch': 0.49}
+ 49%|████▉     | 2120/4286 [13:57:32<14:31:34, 24.14s/it] 49%|████▉     | 2121/4286 [13:57:57<14:38:38, 24.35s/it]                                                         {'loss': 0.0142, 'grad_norm': 0.5604286627097207, 'learning_rate': 5.051329911339243e-07, 'completion_length': 446.43751525878906, 'rewards/only_full_func_accuracy_reward': 0.6381165087223053, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6202594637870789, 'reward_std': 0.08290012367069721, 'kl': 0.35595703125, 'epoch': 0.49}
+ 49%|████▉     | 2121/4286 [13:57:57<14:38:38, 24.35s/it] 50%|████▉     | 2122/4286 [13:58:21<14:36:14, 24.30s/it]                                                         {'loss': 0.0087, 'grad_norm': 0.7941187984365125, 'learning_rate': 5.048996733551097e-07, 'completion_length': 434.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.8186012208461761, 'rewards/format_reward': 1.0, 'reward': 1.8186013102531433, 'reward_std': 0.07375669479370117, 'kl': 0.21728515625, 'epoch': 0.5}
+ 50%|████▉     | 2122/4286 [13:58:21<14:36:14, 24.30s/it] 50%|████▉     | 2123/4286 [13:58:45<14:33:58, 24.24s/it]                                                         {'loss': 0.0338, 'grad_norm': 1.3763670048372132, 'learning_rate': 5.046663555762949e-07, 'completion_length': 400.2232360839844, 'rewards/only_full_func_accuracy_reward': 0.7712798416614532, 'rewards/format_reward': 1.0, 'reward': 1.7712799310684204, 'reward_std': 0.08298264443874359, 'kl': 0.84765625, 'epoch': 0.5}
+ 50%|████▉     | 2123/4286 [13:58:45<14:33:58, 24.24s/it] 50%|████▉     | 2124/4286 [13:59:11<14:48:53, 24.67s/it]                                                         {'loss': 0.0255, 'grad_norm': 1.264617138926352, 'learning_rate': 5.044330377974801e-07, 'completion_length': 421.6964569091797, 'rewards/only_full_func_accuracy_reward': 0.6723213791847229, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.6455358266830444, 'reward_std': 0.09402744006365538, 'kl': 0.6383056640625, 'epoch': 0.5}
+ 50%|████▉     | 2124/4286 [13:59:11<14:48:53, 24.67s/it] 50%|████▉     | 2125/4286 [13:59:33<14:26:33, 24.06s/it]                                                         {'loss': 0.0123, 'grad_norm': 0.9186490862750492, 'learning_rate': 5.041997200186654e-07, 'completion_length': 418.8303680419922, 'rewards/only_full_func_accuracy_reward': 0.7242560088634491, 'rewards/format_reward': 1.0, 'reward': 1.7242560982704163, 'reward_std': 0.09072200953960419, 'kl': 0.3070068359375, 'epoch': 0.5}
+ 50%|████▉     | 2125/4286 [13:59:33<14:26:33, 24.06s/it] 50%|████▉     | 2126/4286 [13:59:56<14:10:48, 23.63s/it]                                                         {'loss': 0.0597, 'grad_norm': 1.5174971699093085, 'learning_rate': 5.039664022398507e-07, 'completion_length': 372.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.6358631253242493, 'rewards/format_reward': 0.973214328289032, 'reward': 1.6090774536132812, 'reward_std': 0.10649824142456055, 'kl': 1.49609375, 'epoch': 0.5}
+ 50%|████▉     | 2126/4286 [13:59:56<14:10:48, 23.63s/it] 50%|████▉     | 2127/4286 [14:00:20<14:10:43, 23.64s/it]                                                         {'loss': 0.0017, 'grad_norm': 0.04507444865741287, 'learning_rate': 5.037330844610359e-07, 'completion_length': 413.20538330078125, 'rewards/only_full_func_accuracy_reward': 0.6428571343421936, 'rewards/format_reward': 1.0, 'reward': 1.642857313156128, 'reward_std': 0.0, 'kl': 0.042236328125, 'epoch': 0.5}
+ 50%|████▉     | 2127/4286 [14:00:20<14:10:43, 23.64s/it] 50%|████▉     | 2128/4286 [14:00:43<14:09:54, 23.63s/it]                                                         {'loss': 0.0139, 'grad_norm': 1.1122313011412057, 'learning_rate': 5.034997666822211e-07, 'completion_length': 387.8839416503906, 'rewards/only_full_func_accuracy_reward': 0.7633928954601288, 'rewards/format_reward': 1.0, 'reward': 1.763392984867096, 'reward_std': 0.008266251534223557, 'kl': 0.34814453125, 'epoch': 0.5}
+ 50%|████▉     | 2128/4286 [14:00:43<14:09:54, 23.63s/it] 50%|████▉     | 2129/4286 [14:01:08<14:17:03, 23.84s/it]                                                         {'loss': 0.0022, 'grad_norm': 1.0588885338128442, 'learning_rate': 5.032664489034064e-07, 'completion_length': 418.6785888671875, 'rewards/only_full_func_accuracy_reward': 0.677083432674408, 'rewards/format_reward': 1.0, 'reward': 1.6770834922790527, 'reward_std': 0.03788072243332863, 'kl': 0.054443359375, 'epoch': 0.5}
+ 50%|████▉     | 2129/4286 [14:01:08<14:17:03, 23.84s/it] 50%|████▉     | 2130/4286 [14:01:31<14:11:13, 23.69s/it]                                                         {'loss': 0.0018, 'grad_norm': 1.8330797030195063, 'learning_rate': 5.030331311245917e-07, 'completion_length': 412.1339416503906, 'rewards/only_full_func_accuracy_reward': 0.7641369998455048, 'rewards/format_reward': 1.0, 'reward': 1.7641370296478271, 'reward_std': 0.0510068703442812, 'kl': 0.0455322265625, 'epoch': 0.5}
+ 50%|████▉     | 2130/4286 [14:01:31<14:11:13, 23.69s/it] 50%|████▉     | 2131/4286 [14:01:56<14:22:42, 24.02s/it]                                                         {'loss': 0.0124, 'grad_norm': 0.6789337051509697, 'learning_rate': 5.027998133457769e-07, 'completion_length': 410.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.6525298357009888, 'rewards/format_reward': 1.0, 'reward': 1.6525298357009888, 'reward_std': 0.022899823263287544, 'kl': 0.3092041015625, 'epoch': 0.5}
+ 50%|████▉     | 2131/4286 [14:01:56<14:22:42, 24.02s/it] 50%|████▉     | 2132/4286 [14:02:22<14:41:14, 24.55s/it]                                                         {'loss': 0.0126, 'grad_norm': 0.5318652291272342, 'learning_rate': 5.025664955669622e-07, 'completion_length': 460.3214569091797, 'rewards/only_full_func_accuracy_reward': 0.63764888048172, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6287203431129456, 'reward_std': 0.05914096161723137, 'kl': 0.315673828125, 'epoch': 0.5}
+ 50%|████▉     | 2132/4286 [14:02:22<14:41:14, 24.55s/it] 50%|████▉     | 2133/4286 [14:02:46<14:36:38, 24.43s/it]                                                         {'loss': 0.0245, 'grad_norm': 1.2196502530996562, 'learning_rate': 5.023331777881474e-07, 'completion_length': 430.1607360839844, 'rewards/only_full_func_accuracy_reward': 0.7537203133106232, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7447918057441711, 'reward_std': 0.06694754585623741, 'kl': 0.61279296875, 'epoch': 0.5}
+ 50%|████▉     | 2133/4286 [14:02:46<14:36:38, 24.43s/it] 50%|████▉     | 2134/4286 [14:03:12<14:52:29, 24.88s/it]                                                         {'loss': 0.0109, 'grad_norm': 0.6147473186874612, 'learning_rate': 5.020998600093327e-07, 'completion_length': 440.8660888671875, 'rewards/only_full_func_accuracy_reward': 0.7470238506793976, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7380952835083008, 'reward_std': 0.09745525941252708, 'kl': 0.271728515625, 'epoch': 0.5}
+ 50%|████▉     | 2134/4286 [14:03:12<14:52:29, 24.88s/it] 50%|████▉     | 2135/4286 [14:03:36<14:49:12, 24.80s/it]                                                         {'loss': 0.0258, 'grad_norm': 0.48632277335675184, 'learning_rate': 5.01866542230518e-07, 'completion_length': 375.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.7470238208770752, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7380954027175903, 'reward_std': 0.10540002211928368, 'kl': 0.64501953125, 'epoch': 0.5}
+ 50%|████▉     | 2135/4286 [14:03:36<14:49:12, 24.80s/it] 50%|████▉     | 2136/4286 [14:04:02<14:59:11, 25.09s/it]                                                         {'loss': 0.002, 'grad_norm': 0.32532630628945636, 'learning_rate': 5.016332244517032e-07, 'completion_length': 489.4018096923828, 'rewards/only_full_func_accuracy_reward': 0.6421131491661072, 'rewards/format_reward': 1.0, 'reward': 1.642113208770752, 'reward_std': 0.009241949766874313, 'kl': 0.0511474609375, 'epoch': 0.5}
+ 50%|████▉     | 2136/4286 [14:04:02<14:59:11, 25.09s/it] 50%|████▉     | 2137/4286 [14:04:26<14:45:01, 24.71s/it]                                                         {'loss': 0.0214, 'grad_norm': 2.6604042856237418, 'learning_rate': 5.013999066728884e-07, 'completion_length': 397.40179443359375, 'rewards/only_full_func_accuracy_reward': 0.693452388048172, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6845239400863647, 'reward_std': 0.10010513663291931, 'kl': 0.5345458984375, 'epoch': 0.5}
+ 50%|████▉     | 2137/4286 [14:04:26<14:45:01, 24.71s/it] 50%|████▉     | 2138/4286 [14:04:49<14:29:33, 24.29s/it]                                                         {'loss': 0.002, 'grad_norm': 0.5666968713662226, 'learning_rate': 5.011665888940737e-07, 'completion_length': 405.31251525878906, 'rewards/only_full_func_accuracy_reward': 0.814732164144516, 'rewards/format_reward': 1.0, 'reward': 1.8147321939468384, 'reward_std': 0.07063759490847588, 'kl': 0.049072265625, 'epoch': 0.5}
+ 50%|████▉     | 2138/4286 [14:04:49<14:29:33, 24.29s/it] 50%|████▉     | 2139/4286 [14:05:15<14:48:58, 24.84s/it]                                                         {'loss': 0.0028, 'grad_norm': 2.0946910592637105, 'learning_rate': 5.00933271115259e-07, 'completion_length': 455.0268096923828, 'rewards/only_full_func_accuracy_reward': 0.7247024178504944, 'rewards/format_reward': 1.0, 'reward': 1.724702537059784, 'reward_std': 0.06513151526451111, 'kl': 0.069091796875, 'epoch': 0.5}
+ 50%|████▉     | 2139/4286 [14:05:15<14:48:58, 24.84s/it] 50%|████▉     | 2140/4286 [14:05:38<14:21:07, 24.08s/it]                                                         {'loss': 0.0415, 'grad_norm': 1.163561912612544, 'learning_rate': 5.006999533364442e-07, 'completion_length': 343.6339569091797, 'rewards/only_full_func_accuracy_reward': 0.7574405372142792, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7485119700431824, 'reward_std': 0.0899011455476284, 'kl': 1.037109375, 'epoch': 0.5}
+ 50%|████▉     | 2140/4286 [14:05:38<14:21:07, 24.08s/it] 50%|████▉     | 2141/4286 [14:06:03<14:33:52, 24.44s/it]                                                         {'loss': 0.0016, 'grad_norm': 0.05779558645353179, 'learning_rate': 5.004666355576294e-07, 'completion_length': 445.58038330078125, 'rewards/only_full_func_accuracy_reward': 0.7857142984867096, 'rewards/format_reward': 1.0, 'reward': 1.7857144474983215, 'reward_std': 0.0, 'kl': 0.0404052734375, 'epoch': 0.5}
+ 50%|████▉     | 2141/4286 [14:06:03<14:33:52, 24.44s/it] 50%|████▉     | 2142/4286 [14:06:27<14:27:56, 24.29s/it]                                                         {'loss': 0.0024, 'grad_norm': 0.685589857242346, 'learning_rate': 5.002333177788148e-07, 'completion_length': 368.8928680419922, 'rewards/only_full_func_accuracy_reward': 0.7473958432674408, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7384673953056335, 'reward_std': 0.05674764607101679, 'kl': 0.06103515625, 'epoch': 0.5}
+ 50%|████▉     | 2142/4286 [14:06:27<14:27:56, 24.29s/it] 50%|█████     | 2143/4286 [14:06:49<14:02:12, 23.58s/it]                                                         {'loss': 0.0104, 'grad_norm': 1.2813084283348442, 'learning_rate': 5e-07, 'completion_length': 346.3571472167969, 'rewards/only_full_func_accuracy_reward': 0.6086309552192688, 'rewards/format_reward': 1.0, 'reward': 1.6086310744285583, 'reward_std': 0.03983304928988218, 'kl': 0.26025390625, 'epoch': 0.5}
+ 50%|█████     | 2143/4286 [14:06:49<14:02:12, 23.58s/it] 50%|█████     | 2144/4286 [14:07:14<14:14:52, 23.95s/it]                                                         {'loss': 0.0308, 'grad_norm': 1.9925940114643603, 'learning_rate': 4.997666822211852e-07, 'completion_length': 429.7589569091797, 'rewards/only_full_func_accuracy_reward': 0.7693452537059784, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.751488208770752, 'reward_std': 0.11419328674674034, 'kl': 0.771484375, 'epoch': 0.5}
+ 50%|█████     | 2144/4286 [14:07:14<14:14:52, 23.95s/it] 50%|█████     | 2145/4286 [14:07:38<14:23:23, 24.20s/it]                                                         {'loss': 0.0624, 'grad_norm': 2.4908618889061187, 'learning_rate': 4.995333644423705e-07, 'completion_length': 433.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.77872034907341, 'rewards/format_reward': 0.955357164144516, 'reward': 1.7340774536132812, 'reward_std': 0.1236715093255043, 'kl': 1.55859375, 'epoch': 0.5}
+ 50%|█████     | 2145/4286 [14:07:38<14:23:23, 24.20s/it] 50%|█████     | 2146/4286 [14:08:04<14:36:00, 24.56s/it]                                                         {'loss': 0.0322, 'grad_norm': 0.8634233062702372, 'learning_rate': 4.993000466635557e-07, 'completion_length': 460.9910888671875, 'rewards/only_full_func_accuracy_reward': 0.7202381789684296, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7023810744285583, 'reward_std': 0.13714604638516903, 'kl': 0.8062744140625, 'epoch': 0.5}
+ 50%|█████     | 2146/4286 [14:08:04<14:36:00, 24.56s/it] 50%|█████     | 2147/4286 [14:08:27<14:22:26, 24.19s/it]                                                         {'loss': 0.0452, 'grad_norm': 2.2906956071765663, 'learning_rate': 4.99066728884741e-07, 'completion_length': 386.4732208251953, 'rewards/only_full_func_accuracy_reward': 0.7120536267757416, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.6763394474983215, 'reward_std': 0.061329509131610394, 'kl': 1.130859375, 'epoch': 0.5}
+ 50%|█████     | 2147/4286 [14:08:27<14:22:26, 24.19s/it] 50%|█████     | 2148/4286 [14:08:52<14:24:01, 24.25s/it]                                                         {'loss': 0.0187, 'grad_norm': 3.2043713201532995, 'learning_rate': 4.988334111059263e-07, 'completion_length': 439.68751525878906, 'rewards/only_full_func_accuracy_reward': 0.592857152223587, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.5750001072883606, 'reward_std': 0.14628422260284424, 'kl': 0.466796875, 'epoch': 0.5}
+ 50%|█████     | 2148/4286 [14:08:52<14:24:01, 24.25s/it] 50%|█████     | 2149/4286 [14:09:17<14:36:41, 24.61s/it]                                                         {'loss': 0.0325, 'grad_norm': 2.5969067018323297, 'learning_rate': 4.986000933271115e-07, 'completion_length': 472.2589416503906, 'rewards/only_full_func_accuracy_reward': 0.6287202835083008, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6197918057441711, 'reward_std': 0.10877317935228348, 'kl': 0.8125, 'epoch': 0.5}
+ 50%|█████     | 2149/4286 [14:09:17<14:36:41, 24.61s/it] 50%|█████     | 2150/4286 [14:09:43<14:50:18, 25.01s/it]                                                         {'loss': 0.0245, 'grad_norm': 1.6703935907839025, 'learning_rate': 4.983667755482967e-07, 'completion_length': 428.23216247558594, 'rewards/only_full_func_accuracy_reward': 0.7455357313156128, 'rewards/format_reward': 1.0, 'reward': 1.7455357909202576, 'reward_std': 0.07150060869753361, 'kl': 0.609130859375, 'epoch': 0.5}
+ 50%|█████     | 2150/4286 [14:09:43<14:50:18, 25.01s/it] 50%|█████     | 2151/4286 [14:10:08<14:52:48, 25.09s/it]                                                         {'loss': 0.0241, 'grad_norm': 0.8348219617067199, 'learning_rate': 4.98133457769482e-07, 'completion_length': 448.86610412597656, 'rewards/only_full_func_accuracy_reward': 0.4538690596818924, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.4360119700431824, 'reward_std': 0.09023384749889374, 'kl': 0.603515625, 'epoch': 0.5}
+ 50%|█████     | 2151/4286 [14:10:08<14:52:48, 25.09s/it] 50%|█████     | 2152/4286 [14:10:32<14:35:21, 24.61s/it]                                                         {'loss': 0.0193, 'grad_norm': 1.0054736474408492, 'learning_rate': 4.979001399906673e-07, 'completion_length': 397.81251525878906, 'rewards/only_full_func_accuracy_reward': 0.7217262089252472, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.703869104385376, 'reward_std': 0.07706330670043826, 'kl': 0.4833984375, 'epoch': 0.5}
+ 50%|█████     | 2152/4286 [14:10:32<14:35:21, 24.61s/it] 50%|█████     | 2153/4286 [14:10:56<14:34:32, 24.60s/it]                                                         {'loss': 0.0022, 'grad_norm': 0.4797556351016222, 'learning_rate': 4.976668222118525e-07, 'completion_length': 450.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.682291716337204, 'rewards/format_reward': 1.0, 'reward': 1.6822917461395264, 'reward_std': 0.060506751760840416, 'kl': 0.0543212890625, 'epoch': 0.5}
+ 50%|█████     | 2153/4286 [14:10:56<14:34:32, 24.60s/it] 50%|█████     | 2154/4286 [14:11:21<14:30:35, 24.50s/it]                                                         {'loss': 0.0096, 'grad_norm': 0.7000076571768967, 'learning_rate': 4.974335044330377e-07, 'completion_length': 426.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.7321429252624512, 'rewards/format_reward': 1.0, 'reward': 1.7321429252624512, 'reward_std': 0.016835876740515232, 'kl': 0.238037109375, 'epoch': 0.5}
+ 50%|█████     | 2154/4286 [14:11:21<14:30:35, 24.50s/it] 50%|█████     | 2155/4286 [14:11:46<14:36:43, 24.68s/it]                                                         {'loss': 0.0268, 'grad_norm': 0.6640264559800584, 'learning_rate': 4.972001866542231e-07, 'completion_length': 452.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.6138392984867096, 'rewards/format_reward': 1.0, 'reward': 1.6138393878936768, 'reward_std': 0.02607782557606697, 'kl': 0.674072265625, 'epoch': 0.5}
+ 50%|█████     | 2155/4286 [14:11:46<14:36:43, 24.68s/it] 50%|█████     | 2156/4286 [14:12:12<14:56:21, 25.25s/it]                                                         {'loss': 0.0138, 'grad_norm': 0.5476926600520725, 'learning_rate': 4.969668688754083e-07, 'completion_length': 486.2857360839844, 'rewards/only_full_func_accuracy_reward': 0.7500000298023224, 'rewards/format_reward': 1.0, 'reward': 1.7500001192092896, 'reward_std': 0.058873698115348816, 'kl': 0.345947265625, 'epoch': 0.5}
+ 50%|█████     | 2156/4286 [14:12:12<14:56:21, 25.25s/it] 50%|█████     | 2157/4286 [14:12:37<14:47:26, 25.01s/it]                                                         {'loss': 0.0014, 'grad_norm': 0.5459220623035277, 'learning_rate': 4.967335510965935e-07, 'completion_length': 482.7589416503906, 'rewards/only_full_func_accuracy_reward': 0.7559524178504944, 'rewards/format_reward': 1.0, 'reward': 1.7559524774551392, 'reward_std': 0.02785754669457674, 'kl': 0.035400390625, 'epoch': 0.5}
+ 50%|█████     | 2157/4286 [14:12:37<14:47:26, 25.01s/it] 50%|█████     | 2158/4286 [14:13:02<14:49:06, 25.07s/it]                                                         {'loss': 0.002, 'grad_norm': 0.42489302944642265, 'learning_rate': 4.965002333177788e-07, 'completion_length': 474.0982360839844, 'rewards/only_full_func_accuracy_reward': 0.7581845223903656, 'rewards/format_reward': 1.0, 'reward': 1.7581846117973328, 'reward_std': 0.025774452835321426, 'kl': 0.0504150390625, 'epoch': 0.5}
+ 50%|█████     | 2158/4286 [14:13:02<14:49:06, 25.07s/it] 50%|█████     | 2159/4286 [14:13:29<15:09:36, 25.66s/it]                                                         {'loss': 0.0026, 'grad_norm': 0.7828897007487923, 'learning_rate': 4.962669155389641e-07, 'completion_length': 443.4464569091797, 'rewards/only_full_func_accuracy_reward': 0.690178632736206, 'rewards/format_reward': 1.0, 'reward': 1.6901786923408508, 'reward_std': 0.02872080821543932, 'kl': 0.0653076171875, 'epoch': 0.5}
+ 50%|█████     | 2159/4286 [14:13:29<15:09:36, 25.66s/it] 50%|█████     | 2160/4286 [14:13:52<14:45:39, 25.00s/it]                                                         {'loss': 0.0019, 'grad_norm': 0.45720646783118274, 'learning_rate': 4.960335977601493e-07, 'completion_length': 413.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.7489583790302277, 'rewards/format_reward': 1.0, 'reward': 1.7489584684371948, 'reward_std': 0.03231804817914963, 'kl': 0.048095703125, 'epoch': 0.5}
+ 50%|█████     | 2160/4286 [14:13:52<14:45:39, 25.00s/it] 50%|█████     | 2161/4286 [14:14:16<14:30:52, 24.59s/it]                                                         {'loss': 0.0332, 'grad_norm': 0.6009622359318665, 'learning_rate': 4.958002799813345e-07, 'completion_length': 399.2589416503906, 'rewards/only_full_func_accuracy_reward': 0.8110119700431824, 'rewards/format_reward': 1.0, 'reward': 1.8110120296478271, 'reward_std': 0.06431440822780132, 'kl': 0.830078125, 'epoch': 0.5}
+ 50%|█████     | 2161/4286 [14:14:16<14:30:52, 24.59s/it] 50%|█████     | 2162/4286 [14:14:40<14:28:38, 24.54s/it]                                                         {'loss': 0.0034, 'grad_norm': 20.40705640718774, 'learning_rate': 4.955669622025198e-07, 'completion_length': 378.85716247558594, 'rewards/only_full_func_accuracy_reward': 0.7656251192092896, 'rewards/format_reward': 1.0, 'reward': 1.7656251192092896, 'reward_std': 0.01733511872589588, 'kl': 0.0845947265625, 'epoch': 0.5}
+ 50%|█████     | 2162/4286 [14:14:40<14:28:38, 24.54s/it] 50%|█████     | 2163/4286 [14:15:03<14:09:11, 24.00s/it]                                                         {'loss': 0.002, 'grad_norm': 0.7458237098102097, 'learning_rate': 4.953336444237051e-07, 'completion_length': 372.67857360839844, 'rewards/only_full_func_accuracy_reward': 0.6373511850833893, 'rewards/format_reward': 1.0, 'reward': 1.6373513340950012, 'reward_std': 0.047798434272408485, 'kl': 0.0499267578125, 'epoch': 0.5}
+ 50%|█████     | 2163/4286 [14:15:03<14:09:11, 24.00s/it] 50%|█████     | 2164/4286 [14:15:29<14:23:33, 24.42s/it]                                                         {'loss': 0.0017, 'grad_norm': 0.2643238661486377, 'learning_rate': 4.951003266448903e-07, 'completion_length': 460.26788330078125, 'rewards/only_full_func_accuracy_reward': 0.7477678954601288, 'rewards/format_reward': 1.0, 'reward': 1.747767984867096, 'reward_std': 0.024948295671492815, 'kl': 0.0416259765625, 'epoch': 0.5}
+ 50%|█████     | 2164/4286 [14:15:29<14:23:33, 24.42s/it] 51%|█████     | 2165/4286 [14:15:53<14:22:31, 24.40s/it]                                                         {'loss': 0.0018, 'grad_norm': 3.1549611676121363, 'learning_rate': 4.948670088660756e-07, 'completion_length': 423.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.664434552192688, 'rewards/format_reward': 1.0, 'reward': 1.6644346117973328, 'reward_std': 0.04854332096874714, 'kl': 0.0450439453125, 'epoch': 0.51}
+ 51%|█████     | 2165/4286 [14:15:53<14:22:31, 24.40s/it] 51%|█████     | 2166/4286 [14:16:18<14:30:08, 24.63s/it]                                                         {'loss': 0.0018, 'grad_norm': 0.6274982040838496, 'learning_rate': 4.946336910872608e-07, 'completion_length': 442.7768096923828, 'rewards/only_full_func_accuracy_reward': 0.6398809850215912, 'rewards/format_reward': 1.0, 'reward': 1.6398810744285583, 'reward_std': 0.04774313047528267, 'kl': 0.0455322265625, 'epoch': 0.51}
+ 51%|█████     | 2166/4286 [14:16:18<14:30:08, 24.63s/it] 51%|█████     | 2167/4286 [14:16:42<14:27:37, 24.57s/it]                                                         {'loss': 0.0024, 'grad_norm': 0.5129433076122917, 'learning_rate': 4.94400373308446e-07, 'completion_length': 390.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.6870535910129547, 'rewards/format_reward': 1.0, 'reward': 1.6870537400245667, 'reward_std': 0.02470972388982773, 'kl': 0.0596923828125, 'epoch': 0.51}
+ 51%|█████     | 2167/4286 [14:16:42<14:27:37, 24.57s/it] 51%|█████     | 2168/4286 [14:17:06<14:12:43, 24.16s/it]                                                         {'loss': 0.0128, 'grad_norm': 0.6952189761663867, 'learning_rate': 4.941670555296314e-07, 'completion_length': 383.3035888671875, 'rewards/only_full_func_accuracy_reward': 0.604166716337204, 'rewards/format_reward': 1.0, 'reward': 1.6041668057441711, 'reward_std': 0.05050762556493282, 'kl': 0.3182373046875, 'epoch': 0.51}
+ 51%|█████     | 2168/4286 [14:17:06<14:12:43, 24.16s/it] 51%|█████     | 2169/4286 [14:17:32<14:32:41, 24.73s/it]                                                         {'loss': 0.0014, 'grad_norm': 0.304621150772279, 'learning_rate': 4.939337377508166e-07, 'completion_length': 485.5893096923828, 'rewards/only_full_func_accuracy_reward': 0.5952381491661072, 'rewards/format_reward': 1.0, 'reward': 1.595238208770752, 'reward_std': 0.05520184524357319, 'kl': 0.0357666015625, 'epoch': 0.51}
+ 51%|█████     | 2169/4286 [14:17:32<14:32:41, 24.73s/it] 51%|█████     | 2170/4286 [14:17:55<14:21:31, 24.43s/it]                                                         {'loss': 0.0171, 'grad_norm': 0.5619261666060917, 'learning_rate': 4.937004199720018e-07, 'completion_length': 382.23216247558594, 'rewards/only_full_func_accuracy_reward': 0.605654776096344, 'rewards/format_reward': 1.0, 'reward': 1.6056548953056335, 'reward_std': 0.029159409925341606, 'kl': 0.4263916015625, 'epoch': 0.51}
+ 51%|█████     | 2170/4286 [14:17:55<14:21:31, 24.43s/it] 51%|█████     | 2171/4286 [14:18:20<14:17:02, 24.31s/it]                                                         {'loss': 0.0109, 'grad_norm': 0.708237298131717, 'learning_rate': 4.934671021931872e-07, 'completion_length': 349.90179443359375, 'rewards/only_full_func_accuracy_reward': 0.7046131789684296, 'rewards/format_reward': 1.0, 'reward': 1.704613208770752, 'reward_std': 0.049726396799087524, 'kl': 0.271728515625, 'epoch': 0.51}
+ 51%|█████     | 2171/4286 [14:18:20<14:17:02, 24.31s/it] 51%|█████     | 2172/4286 [14:18:46<14:35:22, 24.85s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.4008888720521879, 'learning_rate': 4.932337844143724e-07, 'completion_length': 445.5982360839844, 'rewards/only_full_func_accuracy_reward': 0.68601194024086, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6681548357009888, 'reward_std': 0.04733102768659592, 'kl': 0.037841796875, 'epoch': 0.51}
+ 51%|█████     | 2172/4286 [14:18:46<14:35:22, 24.85s/it] 51%|█████     | 2173/4286 [14:19:09<14:20:56, 24.45s/it]                                                         {'loss': 0.0024, 'grad_norm': 0.5246041932754724, 'learning_rate': 4.930004666355576e-07, 'completion_length': 375.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.7979167401790619, 'rewards/format_reward': 1.0, 'reward': 1.797916829586029, 'reward_std': 0.026521824300289154, 'kl': 0.0609130859375, 'epoch': 0.51}
+ 51%|█████     | 2173/4286 [14:19:09<14:20:56, 24.45s/it] 51%|█████     | 2174/4286 [14:19:35<14:39:23, 24.98s/it]                                                         {'loss': 0.0014, 'grad_norm': 0.13135794418220748, 'learning_rate': 4.927671488567428e-07, 'completion_length': 507.3839416503906, 'rewards/only_full_func_accuracy_reward': 0.5654762089252472, 'rewards/format_reward': 1.0, 'reward': 1.5654762387275696, 'reward_std': 0.006363361608237028, 'kl': 0.0343017578125, 'epoch': 0.51}
+ 51%|█████     | 2174/4286 [14:19:35<14:39:23, 24.98s/it] 51%|█████     | 2175/4286 [14:19:58<14:13:36, 24.26s/it]                                                         {'loss': 0.0231, 'grad_norm': 0.5156614812804816, 'learning_rate': 4.925338310779281e-07, 'completion_length': 379.5357360839844, 'rewards/only_full_func_accuracy_reward': 0.7752976715564728, 'rewards/format_reward': 1.0, 'reward': 1.7752977013587952, 'reward_std': 0.047181734815239906, 'kl': 0.5791015625, 'epoch': 0.51}
+ 51%|█████     | 2175/4286 [14:19:58<14:13:36, 24.26s/it] 51%|█████     | 2176/4286 [14:20:21<14:05:43, 24.05s/it]                                                         {'loss': 0.0019, 'grad_norm': 0.02345998218371275, 'learning_rate': 4.923005132991134e-07, 'completion_length': 400.5893096923828, 'rewards/only_full_func_accuracy_reward': 0.761904776096344, 'rewards/format_reward': 1.0, 'reward': 1.7619048357009888, 'reward_std': 0.0, 'kl': 0.048583984375, 'epoch': 0.51}
+ 51%|█████     | 2176/4286 [14:20:21<14:05:43, 24.05s/it] 51%|█████     | 2177/4286 [14:20:46<14:09:20, 24.16s/it]                                                         {'loss': 0.0017, 'grad_norm': 0.2330474345051084, 'learning_rate': 4.920671955202986e-07, 'completion_length': 442.26788330078125, 'rewards/only_full_func_accuracy_reward': 0.860119104385376, 'rewards/format_reward': 1.0, 'reward': 1.860119104385376, 'reward_std': 0.008417938835918903, 'kl': 0.0430908203125, 'epoch': 0.51}
+ 51%|█████     | 2177/4286 [14:20:46<14:09:20, 24.16s/it] 51%|█████     | 2178/4286 [14:21:11<14:14:20, 24.32s/it]                                                         {'loss': 0.0018, 'grad_norm': 0.02818578608970234, 'learning_rate': 4.918338777414839e-07, 'completion_length': 441.6428680419922, 'rewards/only_full_func_accuracy_reward': 0.8392857909202576, 'rewards/format_reward': 1.0, 'reward': 1.8392858505249023, 'reward_std': 0.0, 'kl': 0.0439453125, 'epoch': 0.51}
+ 51%|█████     | 2178/4286 [14:21:11<14:14:20, 24.32s/it] 51%|█████     | 2179/4286 [14:21:37<14:38:22, 25.01s/it]                                                         {'loss': 0.0016, 'grad_norm': 0.3500038140756932, 'learning_rate': 4.916005599626691e-07, 'completion_length': 472.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.6160714328289032, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6071430444717407, 'reward_std': 0.07575659453868866, 'kl': 0.04052734375, 'epoch': 0.51}
+ 51%|█████     | 2179/4286 [14:21:37<14:38:22, 25.01s/it] 51%|█████     | 2180/4286 [14:22:02<14:35:26, 24.94s/it]                                                         {'loss': 0.0016, 'grad_norm': 0.20226757275319115, 'learning_rate': 4.913672421838544e-07, 'completion_length': 468.85716247558594, 'rewards/only_full_func_accuracy_reward': 0.63913694024086, 'rewards/format_reward': 1.0, 'reward': 1.6391369700431824, 'reward_std': 0.038401360623538494, 'kl': 0.0400390625, 'epoch': 0.51}
+ 51%|█████     | 2180/4286 [14:22:02<14:35:26, 24.94s/it] 51%|█████     | 2181/4286 [14:22:28<14:47:02, 25.28s/it]                                                         {'loss': 0.0019, 'grad_norm': 0.3779505009638279, 'learning_rate': 4.911339244050397e-07, 'completion_length': 448.2232360839844, 'rewards/only_full_func_accuracy_reward': 0.6592262387275696, 'rewards/format_reward': 1.0, 'reward': 1.6592262387275696, 'reward_std': 0.03870445489883423, 'kl': 0.0467529296875, 'epoch': 0.51}
+ 51%|█████     | 2181/4286 [14:22:28<14:47:02, 25.28s/it] 51%|█████     | 2182/4286 [14:22:53<14:40:00, 25.10s/it]                                                         {'loss': 0.0019, 'grad_norm': 0.6357012666805647, 'learning_rate': 4.909006066262249e-07, 'completion_length': 416.90179443359375, 'rewards/only_full_func_accuracy_reward': 0.6979166567325592, 'rewards/format_reward': 1.0, 'reward': 1.6979168057441711, 'reward_std': 0.1011464111506939, 'kl': 0.04736328125, 'epoch': 0.51}
+ 51%|█████     | 2182/4286 [14:22:53<14:40:00, 25.10s/it] 51%|█████     | 2183/4286 [14:23:18<14:38:55, 25.08s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.25004698798603914, 'learning_rate': 4.906672888474101e-07, 'completion_length': 440.2500305175781, 'rewards/only_full_func_accuracy_reward': 0.694196492433548, 'rewards/format_reward': 1.0, 'reward': 1.6941965818405151, 'reward_std': 0.030135108157992363, 'kl': 0.038330078125, 'epoch': 0.51}
+ 51%|█████     | 2183/4286 [14:23:18<14:38:55, 25.08s/it] 51%|█████     | 2184/4286 [14:23:43<14:36:11, 25.01s/it]                                                         {'loss': 0.0016, 'grad_norm': 0.2410720158082757, 'learning_rate': 4.904339710685954e-07, 'completion_length': 439.0982360839844, 'rewards/only_full_func_accuracy_reward': 0.7380952835083008, 'rewards/format_reward': 1.0, 'reward': 1.7380953431129456, 'reward_std': 0.02186764683574438, 'kl': 0.038818359375, 'epoch': 0.51}
+ 51%|█████     | 2184/4286 [14:23:43<14:36:11, 25.01s/it] 51%|█████     | 2185/4286 [14:24:07<14:28:46, 24.81s/it]                                                         {'loss': 0.0016, 'grad_norm': 0.28724959712497883, 'learning_rate': 4.902006532897807e-07, 'completion_length': 443.7143096923828, 'rewards/only_full_func_accuracy_reward': 0.7641369104385376, 'rewards/format_reward': 1.0, 'reward': 1.7641370296478271, 'reward_std': 0.0435501541942358, 'kl': 0.039306640625, 'epoch': 0.51}
+ 51%|█████     | 2185/4286 [14:24:07<14:28:46, 24.81s/it] 51%|█████     | 2186/4286 [14:24:31<14:21:22, 24.61s/it]                                                         {'loss': 0.0016, 'grad_norm': 0.3141642732372965, 'learning_rate': 4.899673355109659e-07, 'completion_length': 464.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.7391369938850403, 'rewards/format_reward': 1.0, 'reward': 1.7391369938850403, 'reward_std': 0.060049308463931084, 'kl': 0.0411376953125, 'epoch': 0.51}
+ 51%|█████     | 2186/4286 [14:24:31<14:21:22, 24.61s/it] 51%|█████     | 2187/4286 [14:24:55<14:16:21, 24.48s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.3715460802069006, 'learning_rate': 4.897340177321511e-07, 'completion_length': 459.66966247558594, 'rewards/only_full_func_accuracy_reward': 0.736607164144516, 'rewards/format_reward': 1.0, 'reward': 1.736607313156128, 'reward_std': 0.026901833713054657, 'kl': 0.0384521484375, 'epoch': 0.51}
+ 51%|█████     | 2187/4286 [14:24:55<14:16:21, 24.48s/it] 51%|█████     | 2188/4286 [14:25:21<14:25:14, 24.74s/it]                                                         {'loss': 0.0019, 'grad_norm': 0.10150332926204766, 'learning_rate': 4.895006999533365e-07, 'completion_length': 389.64288330078125, 'rewards/only_full_func_accuracy_reward': 0.7738096117973328, 'rewards/format_reward': 1.0, 'reward': 1.7738096117973328, 'reward_std': 0.01272672601044178, 'kl': 0.0482177734375, 'epoch': 0.51}
+ 51%|█████     | 2188/4286 [14:25:21<14:25:14, 24.74s/it] 51%|█████     | 2189/4286 [14:25:45<14:22:49, 24.69s/it]                                                         {'loss': 0.0014, 'grad_norm': 0.277978205439764, 'learning_rate': 4.892673821745217e-07, 'completion_length': 417.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.8424107432365417, 'rewards/format_reward': 1.0, 'reward': 1.8424108028411865, 'reward_std': 0.021465741097927094, 'kl': 0.0352783203125, 'epoch': 0.51}
+ 51%|█████     | 2189/4286 [14:25:45<14:22:49, 24.69s/it] 51%|█████     | 2190/4286 [14:26:09<14:11:07, 24.36s/it]                                                         {'loss': 0.0024, 'grad_norm': 0.2641865874442637, 'learning_rate': 4.890340643957069e-07, 'completion_length': 431.6607360839844, 'rewards/only_full_func_accuracy_reward': 0.6160714030265808, 'rewards/format_reward': 1.0, 'reward': 1.6160715818405151, 'reward_std': 0.01555540319532156, 'kl': 0.06005859375, 'epoch': 0.51}
+ 51%|█████     | 2190/4286 [14:26:09<14:11:07, 24.36s/it] 51%|█████     | 2191/4286 [14:26:32<13:57:52, 24.00s/it]                                                         {'loss': 0.0023, 'grad_norm': 0.32134360066957357, 'learning_rate': 4.888007466168922e-07, 'completion_length': 388.00001525878906, 'rewards/only_full_func_accuracy_reward': 0.8035714626312256, 'rewards/format_reward': 1.0, 'reward': 1.8035714626312256, 'reward_std': 0.030764650087803602, 'kl': 0.056640625, 'epoch': 0.51}
+ 51%|█████     | 2191/4286 [14:26:32<13:57:52, 24.00s/it] 51%|█████     | 2192/4286 [14:26:58<14:14:19, 24.48s/it]                                                         {'loss': 0.0013, 'grad_norm': 0.3821693784486423, 'learning_rate': 4.885674288380775e-07, 'completion_length': 474.58038330078125, 'rewards/only_full_func_accuracy_reward': 0.8415179550647736, 'rewards/format_reward': 1.0, 'reward': 1.8415179252624512, 'reward_std': 0.017659885808825493, 'kl': 0.0338134765625, 'epoch': 0.51}
+ 51%|█████     | 2192/4286 [14:26:58<14:14:19, 24.48s/it] 51%|█████     | 2193/4286 [14:27:22<14:18:05, 24.60s/it]                                                         {'loss': 0.0106, 'grad_norm': 0.7404262240192919, 'learning_rate': 4.883341110592627e-07, 'completion_length': 412.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.6517857611179352, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6428571939468384, 'reward_std': 0.09043605625629425, 'kl': 0.266357421875, 'epoch': 0.51}
+ 51%|█████     | 2193/4286 [14:27:22<14:18:05, 24.60s/it] 51%|█████     | 2194/4286 [14:27:47<14:19:34, 24.65s/it]                                                         {'loss': 0.0018, 'grad_norm': 0.5744607258700446, 'learning_rate': 4.88100793280448e-07, 'completion_length': 437.5089569091797, 'rewards/only_full_func_accuracy_reward': 0.6726190745830536, 'rewards/format_reward': 1.0, 'reward': 1.6726191639900208, 'reward_std': 0.03176220506429672, 'kl': 0.044189453125, 'epoch': 0.51}
+ 51%|█████     | 2194/4286 [14:27:47<14:19:34, 24.65s/it] 51%|█████     | 2195/4286 [14:28:12<14:25:11, 24.83s/it]                                                         {'loss': 0.0019, 'grad_norm': 0.09916775779583654, 'learning_rate': 4.878674755016332e-07, 'completion_length': 437.85716247558594, 'rewards/only_full_func_accuracy_reward': 0.610119104385376, 'rewards/format_reward': 1.0, 'reward': 1.610119104385376, 'reward_std': 0.026766609400510788, 'kl': 0.047607421875, 'epoch': 0.51}
+ 51%|█████     | 2195/4286 [14:28:12<14:25:11, 24.83s/it] 51%|█████     | 2196/4286 [14:28:37<14:25:26, 24.85s/it]                                                         {'loss': 0.0017, 'grad_norm': 0.24548111884842705, 'learning_rate': 4.876341577228184e-07, 'completion_length': 443.1250305175781, 'rewards/only_full_func_accuracy_reward': 0.699404776096344, 'rewards/format_reward': 1.0, 'reward': 1.6994048953056335, 'reward_std': 0.02089315839111805, 'kl': 0.0435791015625, 'epoch': 0.51}
+ 51%|█████     | 2196/4286 [14:28:37<14:25:26, 24.85s/it] 51%|█████▏    | 2197/4286 [14:29:01<14:10:25, 24.43s/it]                                                         {'loss': 0.0017, 'grad_norm': 0.34249847056366267, 'learning_rate': 4.874008399440037e-07, 'completion_length': 409.7768096923828, 'rewards/only_full_func_accuracy_reward': 0.7261905074119568, 'rewards/format_reward': 1.0, 'reward': 1.7261905670166016, 'reward_std': 0.04516763798892498, 'kl': 0.04150390625, 'epoch': 0.51}
+ 51%|█████▏    | 2197/4286 [14:29:01<14:10:25, 24.43s/it] 51%|█████▏    | 2198/4286 [14:29:27<14:23:36, 24.82s/it]                                                         {'loss': 0.0178, 'grad_norm': 0.6975697378666712, 'learning_rate': 4.87167522165189e-07, 'completion_length': 464.7589569091797, 'rewards/only_full_func_accuracy_reward': 0.7113095819950104, 'rewards/format_reward': 1.0, 'reward': 1.7113096117973328, 'reward_std': 0.07079404406249523, 'kl': 0.4464111328125, 'epoch': 0.51}
+ 51%|█████▏    | 2198/4286 [14:29:27<14:23:36, 24.82s/it] 51%|█████▏    | 2199/4286 [14:29:51<14:16:07, 24.61s/it]                                                         {'loss': 0.0143, 'grad_norm': 1.135573298802503, 'learning_rate': 4.869342043863742e-07, 'completion_length': 396.5982360839844, 'rewards/only_full_func_accuracy_reward': 0.7132440805435181, 'rewards/format_reward': 1.0, 'reward': 1.7132441997528076, 'reward_std': 0.08470292575657368, 'kl': 0.359619140625, 'epoch': 0.51}
+ 51%|█████▏    | 2199/4286 [14:29:51<14:16:07, 24.61s/it] 51%|█████▏    | 2200/4286 [14:30:16<14:18:55, 24.71s/it]                                                         {'loss': 0.0019, 'grad_norm': 0.39008632643475893, 'learning_rate': 4.867008866075594e-07, 'completion_length': 423.33038330078125, 'rewards/only_full_func_accuracy_reward': 0.6696429550647736, 'rewards/format_reward': 1.0, 'reward': 1.6696430444717407, 'reward_std': 0.03907275013625622, 'kl': 0.046630859375, 'epoch': 0.51}
+ 51%|█████▏    | 2200/4286 [14:30:16<14:18:55, 24.71s/it] 51%|█████▏    | 2201/4286 [14:31:34<23:34:52, 40.72s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.26394792862575656, 'learning_rate': 4.864675688287448e-07, 'completion_length': 441.23216247558594, 'rewards/only_full_func_accuracy_reward': 0.584970235824585, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5760417580604553, 'reward_std': 0.06346849165856838, 'kl': 0.038330078125, 'epoch': 0.51}
+ 51%|█████▏    | 2201/4286 [14:31:34<23:34:52, 40.72s/it] 51%|█████▏    | 2202/4286 [14:31:59<20:52:40, 36.07s/it]                                                         {'loss': 0.0116, 'grad_norm': 3.1917881568762225, 'learning_rate': 4.8623425104993e-07, 'completion_length': 482.8839569091797, 'rewards/only_full_func_accuracy_reward': 0.5394345670938492, 'rewards/format_reward': 1.0, 'reward': 1.5394346117973328, 'reward_std': 0.03399228677153587, 'kl': 0.2906494140625, 'epoch': 0.51}
+ 51%|█████▏    | 2202/4286 [14:31:59<20:52:40, 36.07s/it] 51%|█████▏    | 2203/4286 [14:32:22<18:38:15, 32.21s/it]                                                         {'loss': 0.0131, 'grad_norm': 0.34982170665869394, 'learning_rate': 4.860009332711152e-07, 'completion_length': 392.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.8571428656578064, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8482143878936768, 'reward_std': 0.06583808548748493, 'kl': 0.3262939453125, 'epoch': 0.51}
+ 51%|█████▏    | 2203/4286 [14:32:22<18:38:15, 32.21s/it] 51%|█████▏    | 2204/4286 [14:32:48<17:30:55, 30.29s/it]                                                         {'loss': 0.0019, 'grad_norm': 0.32315745938377854, 'learning_rate': 4.857676154923005e-07, 'completion_length': 441.6428680419922, 'rewards/only_full_func_accuracy_reward': 0.6410714983940125, 'rewards/format_reward': 1.0, 'reward': 1.6410715579986572, 'reward_std': 0.041034793481230736, 'kl': 0.047119140625, 'epoch': 0.51}
+ 51%|█████▏    | 2204/4286 [14:32:48<17:30:55, 30.29s/it] 51%|█████▏    | 2205/4286 [14:33:14<16:44:12, 28.95s/it]                                                         {'loss': 0.0014, 'grad_norm': 0.3708166771012778, 'learning_rate': 4.855342977134858e-07, 'completion_length': 480.7589569091797, 'rewards/only_full_func_accuracy_reward': 0.7787203192710876, 'rewards/format_reward': 1.0, 'reward': 1.7787203192710876, 'reward_std': 0.03758252505213022, 'kl': 0.0350341796875, 'epoch': 0.51}
+ 51%|█████▏    | 2205/4286 [14:33:14<16:44:12, 28.95s/it] 51%|█████▏    | 2206/4286 [14:33:39<16:04:00, 27.81s/it]                                                         {'loss': 0.0028, 'grad_norm': 1.0074966078000613, 'learning_rate': 4.85300979934671e-07, 'completion_length': 438.12501525878906, 'rewards/only_full_func_accuracy_reward': 0.6488095223903656, 'rewards/format_reward': 1.0, 'reward': 1.6488096714019775, 'reward_std': 0.06906487280502915, 'kl': 0.0701904296875, 'epoch': 0.51}
+ 51%|█████▏    | 2206/4286 [14:33:39<16:04:00, 27.81s/it] 51%|█████▏    | 2207/4286 [14:34:03<15:21:54, 26.61s/it]                                                         {'loss': 0.0277, 'grad_norm': 0.791505609272892, 'learning_rate': 4.850676621558562e-07, 'completion_length': 393.3393096923828, 'rewards/only_full_func_accuracy_reward': 0.6199405193328857, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6110119819641113, 'reward_std': 0.09062045067548752, 'kl': 0.6939697265625, 'epoch': 0.51}
+ 51%|█████▏    | 2207/4286 [14:34:03<15:21:54, 26.61s/it] 52%|█████▏    | 2208/4286 [14:34:26<14:51:59, 25.76s/it]                                                         {'loss': 0.0014, 'grad_norm': 0.12256331530265674, 'learning_rate': 4.848343443770415e-07, 'completion_length': 444.9732360839844, 'rewards/only_full_func_accuracy_reward': 0.7290178835391998, 'rewards/format_reward': 1.0, 'reward': 1.729017972946167, 'reward_std': 0.014731388539075851, 'kl': 0.03466796875, 'epoch': 0.52}
+ 52%|█████▏    | 2208/4286 [14:34:26<14:51:59, 25.76s/it] 52%|█████▏    | 2209/4286 [14:34:50<14:28:01, 25.08s/it]                                                         {'loss': 0.0244, 'grad_norm': 0.31734057362232687, 'learning_rate': 4.846010265982268e-07, 'completion_length': 410.0714569091797, 'rewards/only_full_func_accuracy_reward': 0.7069941163063049, 'rewards/format_reward': 1.0, 'reward': 1.7069941759109497, 'reward_std': 0.026235518977046013, 'kl': 0.613037109375, 'epoch': 0.52}
+ 52%|█████▏    | 2209/4286 [14:34:50<14:28:01, 25.08s/it] 52%|█████▏    | 2210/4286 [14:35:12<13:51:23, 24.03s/it]                                                         {'loss': 0.0375, 'grad_norm': 0.3278839330099745, 'learning_rate': 4.84367708819412e-07, 'completion_length': 341.75001525878906, 'rewards/only_full_func_accuracy_reward': 0.7038690745830536, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6860119700431824, 'reward_std': 0.06773525290191174, 'kl': 0.93359375, 'epoch': 0.52}
+ 52%|█████▏    | 2210/4286 [14:35:12<13:51:23, 24.03s/it] 52%|█████▏    | 2211/4286 [14:35:38<14:14:30, 24.71s/it]                                                         {'loss': 0.055, 'grad_norm': 2763.5705519923404, 'learning_rate': 4.841343910405973e-07, 'completion_length': 493.8303680419922, 'rewards/only_full_func_accuracy_reward': 0.7651785612106323, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.7383930683135986, 'reward_std': 0.154753178358078, 'kl': 1.37890625, 'epoch': 0.52}
+ 52%|█████▏    | 2211/4286 [14:35:38<14:14:30, 24.71s/it] 52%|█████▏    | 2212/4286 [14:36:03<14:14:41, 24.73s/it]                                                         {'loss': 0.0228, 'grad_norm': 0.46840468757755277, 'learning_rate': 4.839010732617825e-07, 'completion_length': 469.2589416503906, 'rewards/only_full_func_accuracy_reward': 0.5319940745830536, 'rewards/format_reward': 1.0, 'reward': 1.5319941639900208, 'reward_std': 0.0458792969584465, 'kl': 0.5703125, 'epoch': 0.52}
+ 52%|█████▏    | 2212/4286 [14:36:03<14:14:41, 24.73s/it] 52%|█████▏    | 2213/4286 [14:36:25<13:46:15, 23.91s/it]                                                         {'loss': 0.0014, 'grad_norm': 0.31795464107296695, 'learning_rate': 4.836677554829678e-07, 'completion_length': 383.9553680419922, 'rewards/only_full_func_accuracy_reward': 0.7827380895614624, 'rewards/format_reward': 1.0, 'reward': 1.782738208770752, 'reward_std': 0.009545044973492622, 'kl': 0.035400390625, 'epoch': 0.52}
+ 52%|█████▏    | 2213/4286 [14:36:25<13:46:15, 23.91s/it] 52%|█████▏    | 2214/4286 [14:36:50<13:58:37, 24.28s/it]                                                         {'loss': 0.0245, 'grad_norm': 0.7451570409915047, 'learning_rate': 4.834344377041531e-07, 'completion_length': 418.6607360839844, 'rewards/only_full_func_accuracy_reward': 0.660714328289032, 'rewards/format_reward': 1.0, 'reward': 1.6607143878936768, 'reward_std': 0.056623756885528564, 'kl': 0.61328125, 'epoch': 0.52}
+ 52%|█████▏    | 2214/4286 [14:36:50<13:58:37, 24.28s/it] 52%|█████▏    | 2215/4286 [14:37:15<14:08:08, 24.57s/it]                                                         {'loss': 0.0239, 'grad_norm': 16.503174912690664, 'learning_rate': 4.832011199253383e-07, 'completion_length': 468.7232360839844, 'rewards/only_full_func_accuracy_reward': 0.636904776096344, 'rewards/format_reward': 1.0, 'reward': 1.6369048953056335, 'reward_std': 0.09055747836828232, 'kl': 0.599609375, 'epoch': 0.52}
+ 52%|█████▏    | 2215/4286 [14:37:15<14:08:08, 24.57s/it] 52%|█████▏    | 2216/4286 [14:37:39<14:04:54, 24.49s/it]                                                         {'loss': 0.0134, 'grad_norm': 0.7123353246691343, 'learning_rate': 4.829678021465235e-07, 'completion_length': 411.8035888671875, 'rewards/only_full_func_accuracy_reward': 0.669494092464447, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6605656147003174, 'reward_std': 0.09527242556214333, 'kl': 0.3365478515625, 'epoch': 0.52}
+ 52%|█████▏    | 2216/4286 [14:37:39<14:04:54, 24.49s/it] 52%|█████▏    | 2217/4286 [14:38:05<14:17:40, 24.87s/it]                                                         {'loss': 0.0242, 'grad_norm': 1.0486462879428473, 'learning_rate': 4.827344843677089e-07, 'completion_length': 446.6518096923828, 'rewards/only_full_func_accuracy_reward': 0.6128827035427094, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6039541959762573, 'reward_std': 0.08447728864848614, 'kl': 0.60546875, 'epoch': 0.52}
+ 52%|█████▏    | 2217/4286 [14:38:05<14:17:40, 24.87s/it] 52%|█████▏    | 2218/4286 [14:38:28<13:59:29, 24.36s/it]                                                         {'loss': 0.0132, 'grad_norm': 0.8230123810078329, 'learning_rate': 4.825011665888941e-07, 'completion_length': 343.12501525878906, 'rewards/only_full_func_accuracy_reward': 0.7388392984867096, 'rewards/format_reward': 1.0, 'reward': 1.7388393878936768, 'reward_std': 0.027444439008831978, 'kl': 0.329345703125, 'epoch': 0.52}
+ 52%|█████▏    | 2218/4286 [14:38:28<13:59:29, 24.36s/it] 52%|█████▏    | 2219/4286 [14:38:51<13:44:30, 23.93s/it]                                                         {'loss': 0.0208, 'grad_norm': 1.2761544834892655, 'learning_rate': 4.822678488100793e-07, 'completion_length': 372.27679443359375, 'rewards/only_full_func_accuracy_reward': 0.6525298058986664, 'rewards/format_reward': 1.0, 'reward': 1.6525298357009888, 'reward_std': 0.04408527351915836, 'kl': 0.521240234375, 'epoch': 0.52}
+ 52%|█████▏    | 2219/4286 [14:38:51<13:44:30, 23.93s/it] 52%|█████▏    | 2220/4286 [14:39:15<13:41:09, 23.85s/it]                                                         {'loss': 0.0293, 'grad_norm': 0.6845161998288432, 'learning_rate': 4.820345310312645e-07, 'completion_length': 394.2857360839844, 'rewards/only_full_func_accuracy_reward': 0.709077388048172, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7001489400863647, 'reward_std': 0.11312964465469122, 'kl': 0.7330322265625, 'epoch': 0.52}
+ 52%|█████▏    | 2220/4286 [14:39:15<13:41:09, 23.85s/it] 52%|█████▏    | 2221/4286 [14:39:40<13:52:49, 24.20s/it]                                                         {'loss': 0.0419, 'grad_norm': 1.02982035307774, 'learning_rate': 4.818012132524499e-07, 'completion_length': 412.16966247558594, 'rewards/only_full_func_accuracy_reward': 0.6026786267757416, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.5848215818405151, 'reward_std': 0.12846489623188972, 'kl': 1.0401611328125, 'epoch': 0.52}
+ 52%|█████▏    | 2221/4286 [14:39:40<13:52:49, 24.20s/it] 52%|█████▏    | 2222/4286 [14:40:03<13:40:24, 23.85s/it]                                                         {'loss': 0.0131, 'grad_norm': 0.5513831618519364, 'learning_rate': 4.815678954736351e-07, 'completion_length': 403.0982360839844, 'rewards/only_full_func_accuracy_reward': 0.6986607313156128, 'rewards/format_reward': 1.0, 'reward': 1.6986608505249023, 'reward_std': 0.07037154212594032, 'kl': 0.329833984375, 'epoch': 0.52}
+ 52%|█████▏    | 2222/4286 [14:40:03<13:40:24, 23.85s/it] 52%|█████▏    | 2223/4286 [14:40:27<13:43:58, 23.96s/it]                                                         {'loss': 0.0041, 'grad_norm': 1.051526532133394, 'learning_rate': 4.813345776948203e-07, 'completion_length': 424.1250305175781, 'rewards/only_full_func_accuracy_reward': 0.73288694024086, 'rewards/format_reward': 1.0, 'reward': 1.7328869700431824, 'reward_std': 0.11701984703540802, 'kl': 0.103515625, 'epoch': 0.52}
+ 52%|█████▏    | 2223/4286 [14:40:27<13:43:58, 23.96s/it] 52%|█████▏    | 2224/4286 [14:40:52<13:49:54, 24.15s/it]                                                         {'loss': 0.0944, 'grad_norm': 0.9463250153906997, 'learning_rate': 4.811012599160056e-07, 'completion_length': 397.79466247558594, 'rewards/only_full_func_accuracy_reward': 0.5468750149011612, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.5200893878936768, 'reward_std': 0.17741671949625015, 'kl': 2.353515625, 'epoch': 0.52}
+ 52%|█████▏    | 2224/4286 [14:40:52<13:49:54, 24.15s/it] 52%|█████▏    | 2225/4286 [14:41:14<13:32:59, 23.67s/it]                                                         {'loss': 0.0337, 'grad_norm': 0.7044120864138567, 'learning_rate': 4.808679421371908e-07, 'completion_length': 375.1964416503906, 'rewards/only_full_func_accuracy_reward': 0.6562500298023224, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6383929252624512, 'reward_std': 0.07680271565914154, 'kl': 0.845703125, 'epoch': 0.52}
+ 52%|█████▏    | 2225/4286 [14:41:14<13:32:59, 23.67s/it] 52%|█████▏    | 2226/4286 [14:41:37<13:19:30, 23.29s/it]                                                         {'loss': 0.0143, 'grad_norm': 1.2451650476983256, 'learning_rate': 4.806346243583761e-07, 'completion_length': 365.4107208251953, 'rewards/only_full_func_accuracy_reward': 0.7549107372760773, 'rewards/format_reward': 1.0, 'reward': 1.7549108266830444, 'reward_std': 0.07594310492277145, 'kl': 0.3580322265625, 'epoch': 0.52}
+ 52%|█████▏    | 2226/4286 [14:41:37<13:19:30, 23.29s/it] 52%|█████▏    | 2227/4286 [14:42:01<13:29:20, 23.58s/it]                                                         {'loss': 0.0262, 'grad_norm': 0.4769084371255304, 'learning_rate': 4.804013065795614e-07, 'completion_length': 378.7589416503906, 'rewards/only_full_func_accuracy_reward': 0.7321428656578064, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7232144474983215, 'reward_std': 0.08270017057657242, 'kl': 0.656494140625, 'epoch': 0.52}
+ 52%|█████▏    | 2227/4286 [14:42:01<13:29:20, 23.58s/it] 52%|█████▏    | 2228/4286 [14:42:24<13:26:53, 23.52s/it]                                                         {'loss': 0.0359, 'grad_norm': 0.6835152994297418, 'learning_rate': 4.801679888007466e-07, 'completion_length': 383.8035888671875, 'rewards/only_full_func_accuracy_reward': 0.6741071939468384, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6651787161827087, 'reward_std': 0.15538421645760536, 'kl': 0.8946533203125, 'epoch': 0.52}
+ 52%|█████▏    | 2228/4286 [14:42:24<13:26:53, 23.52s/it] 52%|█████▏    | 2229/4286 [14:42:48<13:27:50, 23.56s/it]                                                         {'loss': 0.0014, 'grad_norm': 0.2795861741213353, 'learning_rate': 4.799346710219318e-07, 'completion_length': 421.58038330078125, 'rewards/only_full_func_accuracy_reward': 0.68601194024086, 'rewards/format_reward': 1.0, 'reward': 1.6860120296478271, 'reward_std': 0.03644688054919243, 'kl': 0.03515625, 'epoch': 0.52}
+ 52%|█████▏    | 2229/4286 [14:42:48<13:27:50, 23.56s/it] 52%|█████▏    | 2230/4286 [14:43:11<13:24:27, 23.48s/it]                                                         {'loss': 0.0129, 'grad_norm': 0.5885636523387966, 'learning_rate': 4.797013532431171e-07, 'completion_length': 389.1696472167969, 'rewards/only_full_func_accuracy_reward': 0.785714328289032, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7767857909202576, 'reward_std': 0.10579267516732216, 'kl': 0.32421875, 'epoch': 0.52}
+ 52%|█████▏    | 2230/4286 [14:43:11<13:24:27, 23.48s/it] 52%|█████▏    | 2231/4286 [14:43:35<13:26:26, 23.55s/it]                                                         {'loss': 0.0135, 'grad_norm': 0.7646673684209999, 'learning_rate': 4.794680354643024e-07, 'completion_length': 405.6518096923828, 'rewards/only_full_func_accuracy_reward': 0.6994048058986664, 'rewards/format_reward': 1.0, 'reward': 1.6994048953056335, 'reward_std': 0.008417940698564053, 'kl': 0.336181640625, 'epoch': 0.52}
+ 52%|█████▏    | 2231/4286 [14:43:35<13:26:26, 23.55s/it] 52%|█████▏    | 2232/4286 [14:43:59<13:26:47, 23.57s/it]                                                         {'loss': 0.0711, 'grad_norm': 1.1817415432949925, 'learning_rate': 4.792347176854876e-07, 'completion_length': 366.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.7523809671401978, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7345239520072937, 'reward_std': 0.1541416198015213, 'kl': 1.77734375, 'epoch': 0.52}
+ 52%|█████▏    | 2232/4286 [14:43:59<13:26:47, 23.57s/it] 52%|█████▏    | 2233/4286 [14:44:22<13:23:10, 23.47s/it]                                                         {'loss': 0.0626, 'grad_norm': 8.886145806645377, 'learning_rate': 4.790013999066728e-07, 'completion_length': 403.0089416503906, 'rewards/only_full_func_accuracy_reward': 0.6852679550647736, 'rewards/format_reward': 0.973214328289032, 'reward': 1.6584822535514832, 'reward_std': 0.1235881820321083, 'kl': 1.5625, 'epoch': 0.52}
+ 52%|█████▏    | 2233/4286 [14:44:22<13:23:10, 23.47s/it] 52%|█████▏    | 2234/4286 [14:44:44<13:09:05, 23.07s/it]                                                         {'loss': 0.0754, 'grad_norm': 1.2321108838451882, 'learning_rate': 4.787680821278582e-07, 'completion_length': 373.9732360839844, 'rewards/only_full_func_accuracy_reward': 0.6592262387275696, 'rewards/format_reward': 0.955357164144516, 'reward': 1.614583432674408, 'reward_std': 0.2000289037823677, 'kl': 1.89453125, 'epoch': 0.52}
+ 52%|█████▏    | 2234/4286 [14:44:44<13:09:05, 23.07s/it] 52%|█████▏    | 2235/4286 [14:45:08<13:16:46, 23.31s/it]                                                         {'loss': 0.097, 'grad_norm': 1.0064655346142237, 'learning_rate': 4.785347643490434e-07, 'completion_length': 402.71429443359375, 'rewards/only_full_func_accuracy_reward': 0.6641369462013245, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.6284226775169373, 'reward_std': 0.1791560873389244, 'kl': 2.42578125, 'epoch': 0.52}
+ 52%|█████▏    | 2235/4286 [14:45:08<13:16:46, 23.31s/it] 52%|█████▏    | 2236/4286 [14:45:28<12:47:10, 22.45s/it]                                                         {'loss': 0.0219, 'grad_norm': 0.6497619422901868, 'learning_rate': 4.783014465702286e-07, 'completion_length': 343.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.7480655610561371, 'rewards/format_reward': 1.0, 'reward': 1.7480656504631042, 'reward_std': 0.041593773290514946, 'kl': 0.5482177734375, 'epoch': 0.52}
+ 52%|█████▏    | 2236/4286 [14:45:28<12:47:10, 22.45s/it] 52%|█████▏    | 2237/4286 [14:45:50<12:44:24, 22.38s/it]                                                         {'loss': 0.0551, 'grad_norm': 0.9182426514352274, 'learning_rate': 4.780681287914139e-07, 'completion_length': 361.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.6320617198944092, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.6052760481834412, 'reward_std': 0.12675831466913223, 'kl': 1.380859375, 'epoch': 0.52}
+ 52%|█████▏    | 2237/4286 [14:45:50<12:44:24, 22.38s/it] 52%|█████▏    | 2238/4286 [14:46:15<13:09:34, 23.13s/it]                                                         {'loss': 0.0677, 'grad_norm': 1.456048689392676, 'learning_rate': 4.778348110125992e-07, 'completion_length': 397.8035888671875, 'rewards/only_full_func_accuracy_reward': 0.7812500596046448, 'rewards/format_reward': 1.0, 'reward': 1.7812501788139343, 'reward_std': 0.11110324785113335, 'kl': 1.69140625, 'epoch': 0.52}
+ 52%|█████▏    | 2238/4286 [14:46:15<13:09:34, 23.13s/it] 52%|█████▏    | 2239/4286 [14:46:37<12:54:16, 22.70s/it]                                                         {'loss': 0.0345, 'grad_norm': 1.701110414997764, 'learning_rate': 4.776014932337844e-07, 'completion_length': 328.9464416503906, 'rewards/only_full_func_accuracy_reward': 0.67038694024086, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.661458432674408, 'reward_std': 0.08828897401690483, 'kl': 0.865234375, 'epoch': 0.52}
+ 52%|█████▏    | 2239/4286 [14:46:37<12:54:16, 22.70s/it] 52%|█████▏    | 2240/4286 [14:47:01<13:06:18, 23.06s/it]                                                         {'loss': 0.0643, 'grad_norm': 1.255833853257615, 'learning_rate': 4.773681754549697e-07, 'completion_length': 402.2589569091797, 'rewards/only_full_func_accuracy_reward': 0.6562499701976776, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6383929252624512, 'reward_std': 0.20809897780418396, 'kl': 1.60546875, 'epoch': 0.52}
+ 52%|█████▏    | 2240/4286 [14:47:01<13:06:18, 23.06s/it] 52%|█████▏    | 2241/4286 [14:47:25<13:18:59, 23.44s/it]                                                         {'loss': 0.0374, 'grad_norm': 1.3630832988190085, 'learning_rate': 4.771348576761549e-07, 'completion_length': 387.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.5995535850524902, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5906250476837158, 'reward_std': 0.09800278395414352, 'kl': 0.935546875, 'epoch': 0.52}
+ 52%|█████▏    | 2241/4286 [14:47:25<13:18:59, 23.44s/it] 52%|█████▏    | 2242/4286 [14:47:49<13:21:01, 23.51s/it]                                                         {'loss': 0.114, 'grad_norm': 2.3717434672873106, 'learning_rate': 4.769015398973402e-07, 'completion_length': 374.75001525878906, 'rewards/only_full_func_accuracy_reward': 0.6059523820877075, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5970239639282227, 'reward_std': 0.14098497293889523, 'kl': 2.849609375, 'epoch': 0.52}
+ 52%|█████▏    | 2242/4286 [14:47:49<13:21:01, 23.51s/it] 52%|█████▏    | 2243/4286 [14:48:14<13:32:14, 23.85s/it]                                                         {'loss': 0.0695, 'grad_norm': 0.9043968744509518, 'learning_rate': 4.7666822211852543e-07, 'completion_length': 435.7768096923828, 'rewards/only_full_func_accuracy_reward': 0.7410714626312256, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7321430444717407, 'reward_std': 0.12175579369068146, 'kl': 1.73828125, 'epoch': 0.52}
+ 52%|█████▏    | 2243/4286 [14:48:14<13:32:14, 23.85s/it] 52%|█████▏    | 2244/4286 [14:48:37<13:30:38, 23.82s/it]                                                         {'loss': 0.0901, 'grad_norm': 1.7116064861496258, 'learning_rate': 4.7643490433971065e-07, 'completion_length': 394.91966247558594, 'rewards/only_full_func_accuracy_reward': 0.535714328289032, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5267857909202576, 'reward_std': 0.15189724043011665, 'kl': 2.25, 'epoch': 0.52}
+ 52%|█████▏    | 2244/4286 [14:48:37<13:30:38, 23.82s/it] 52%|█████▏    | 2245/4286 [14:49:01<13:32:22, 23.88s/it]                                                         {'loss': 0.0868, 'grad_norm': 1.570430331426167, 'learning_rate': 4.762015865608959e-07, 'completion_length': 413.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.6949405074119568, 'rewards/format_reward': 0.9464285969734192, 'reward': 1.6413691639900208, 'reward_std': 0.2991692125797272, 'kl': 2.16796875, 'epoch': 0.52}
+ 52%|█████▏    | 2245/4286 [14:49:01<13:32:22, 23.88s/it] 52%|█████▏    | 2246/4286 [14:49:27<13:48:10, 24.36s/it]                                                         {'loss': 0.0725, 'grad_norm': 3.0097050366306624, 'learning_rate': 4.759682687820812e-07, 'completion_length': 398.65179443359375, 'rewards/only_full_func_accuracy_reward': 0.6918154656887054, 'rewards/format_reward': 0.973214328289032, 'reward': 1.6650298833847046, 'reward_std': 0.2004893496632576, 'kl': 1.8125, 'epoch': 0.52}
+ 52%|█████▏    | 2246/4286 [14:49:27<13:48:10, 24.36s/it] 52%|█████▏    | 2247/4286 [14:49:51<13:48:43, 24.39s/it]                                                         {'loss': 0.0358, 'grad_norm': 0.7627781943174656, 'learning_rate': 4.757349510032664e-07, 'completion_length': 368.3571472167969, 'rewards/only_full_func_accuracy_reward': 0.7336310148239136, 'rewards/format_reward': 1.0, 'reward': 1.7336310744285583, 'reward_std': 0.03171699494123459, 'kl': 0.8936767578125, 'epoch': 0.52}
+ 52%|█████▏    | 2247/4286 [14:49:51<13:48:43, 24.39s/it] 52%|█████▏    | 2248/4286 [14:50:16<13:54:49, 24.58s/it]                                                         {'loss': 0.0396, 'grad_norm': 2.3917300518155873, 'learning_rate': 4.755016332244517e-07, 'completion_length': 373.6339416503906, 'rewards/only_full_func_accuracy_reward': 0.6845238506793976, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6755954027175903, 'reward_std': 0.11381628923118114, 'kl': 0.9912109375, 'epoch': 0.52}
+ 52%|█████▏    | 2248/4286 [14:50:16<13:54:49, 24.58s/it] 52%|█████▏    | 2249/4286 [14:50:38<13:25:00, 23.71s/it]                                                         {'loss': 0.0508, 'grad_norm': 0.9608924680933068, 'learning_rate': 4.7526831544563697e-07, 'completion_length': 343.4732360839844, 'rewards/only_full_func_accuracy_reward': 0.719494104385376, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7016370296478271, 'reward_std': 0.1301213949918747, 'kl': 1.267578125, 'epoch': 0.52}
+ 52%|█████▏    | 2249/4286 [14:50:38<13:25:00, 23.71s/it] 52%|█████▏    | 2250/4286 [14:51:03<13:38:34, 24.12s/it]                                                         {'loss': 0.0394, 'grad_norm': 1.1686278198374718, 'learning_rate': 4.750349976668222e-07, 'completion_length': 353.4821472167969, 'rewards/only_full_func_accuracy_reward': 0.6555060148239136, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6465774774551392, 'reward_std': 0.11732971854507923, 'kl': 0.9892578125, 'epoch': 0.52}
+ 52%|█████▏    | 2250/4286 [14:51:03<13:38:34, 24.12s/it] 53%|█████▎    | 2251/4286 [14:51:26<13:22:27, 23.66s/it]                                                         {'loss': 0.02, 'grad_norm': 0.4092729041007787, 'learning_rate': 4.7480167988800747e-07, 'completion_length': 355.9553680419922, 'rewards/only_full_func_accuracy_reward': 0.7894345223903656, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7805060744285583, 'reward_std': 0.07080444693565369, 'kl': 0.5010986328125, 'epoch': 0.53}
+ 53%|█████▎    | 2251/4286 [14:51:26<13:22:27, 23.66s/it] 53%|█████▎    | 2252/4286 [14:51:47<13:03:20, 23.11s/it]                                                         {'loss': 0.0493, 'grad_norm': 0.8505606258480732, 'learning_rate': 4.745683621091927e-07, 'completion_length': 367.8303680419922, 'rewards/only_full_func_accuracy_reward': 0.517857164144516, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.5000001192092896, 'reward_std': 0.19811591878533363, 'kl': 1.234375, 'epoch': 0.53}
+ 53%|█████▎    | 2252/4286 [14:51:47<13:03:20, 23.11s/it] 53%|█████▎    | 2253/4286 [14:52:10<13:01:16, 23.06s/it]                                                         {'loss': 0.1032, 'grad_norm': 9.568007635378418, 'learning_rate': 4.7433504433037797e-07, 'completion_length': 365.70538330078125, 'rewards/only_full_func_accuracy_reward': 0.6480655372142792, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.630208432674408, 'reward_std': 0.19687990099191666, 'kl': 2.578125, 'epoch': 0.53}
+ 53%|█████▎    | 2253/4286 [14:52:10<13:01:16, 23.06s/it] 53%|█████▎    | 2254/4286 [14:52:33<12:53:07, 22.83s/it]                                                         {'loss': 0.0779, 'grad_norm': 3.5640101790874006, 'learning_rate': 4.7410172655156324e-07, 'completion_length': 369.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.541666716337204, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.5238096714019775, 'reward_std': 0.13828494399785995, 'kl': 1.953125, 'epoch': 0.53}
+ 53%|█████▎    | 2254/4286 [14:52:33<12:53:07, 22.83s/it] 53%|█████▎    | 2255/4286 [14:52:56<13:00:32, 23.06s/it]                                                         {'loss': 0.0235, 'grad_norm': 2.037186829979729, 'learning_rate': 4.7386840877274847e-07, 'completion_length': 415.8482360839844, 'rewards/only_full_func_accuracy_reward': 0.8514881134033203, 'rewards/format_reward': 1.0, 'reward': 1.851488173007965, 'reward_std': 0.06310824118554592, 'kl': 0.587890625, 'epoch': 0.53}
+ 53%|█████▎    | 2255/4286 [14:52:56<13:00:32, 23.06s/it] 53%|█████▎    | 2256/4286 [14:53:21<13:21:49, 23.70s/it]                                                         {'loss': 0.0802, 'grad_norm': 1.6839131531585971, 'learning_rate': 4.7363509099393374e-07, 'completion_length': 419.7143096923828, 'rewards/only_full_func_accuracy_reward': 0.7849702835083008, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.767113208770752, 'reward_std': 0.15129536390304565, 'kl': 2.0078125, 'epoch': 0.53}
+ 53%|█████▎    | 2256/4286 [14:53:21<13:21:49, 23.70s/it] 53%|█████▎    | 2257/4286 [14:53:44<13:11:28, 23.40s/it]                                                         {'loss': 0.0099, 'grad_norm': 1.0713566581527325, 'learning_rate': 4.7340177321511896e-07, 'completion_length': 400.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.7656250298023224, 'rewards/format_reward': 1.0, 'reward': 1.7656251192092896, 'reward_std': 0.036931706592440605, 'kl': 0.2469482421875, 'epoch': 0.53}
+ 53%|█████▎    | 2257/4286 [14:53:44<13:11:28, 23.40s/it] 53%|█████▎    | 2258/4286 [14:54:09<13:22:01, 23.73s/it]                                                         {'loss': 0.0128, 'grad_norm': 0.6984591858825902, 'learning_rate': 4.7316845543630424e-07, 'completion_length': 385.7589416503906, 'rewards/only_full_func_accuracy_reward': 0.7849703133106232, 'rewards/format_reward': 1.0, 'reward': 1.7849703431129456, 'reward_std': 0.07613038644194603, 'kl': 0.318359375, 'epoch': 0.53}
+ 53%|█████▎    | 2258/4286 [14:54:09<13:22:01, 23.73s/it] 53%|█████▎    | 2259/4286 [14:54:32<13:13:29, 23.49s/it]                                                         {'loss': 0.0476, 'grad_norm': 1.5710397653946715, 'learning_rate': 4.729351376574895e-07, 'completion_length': 391.2232360839844, 'rewards/only_full_func_accuracy_reward': 0.6086309999227524, 'rewards/format_reward': 1.0, 'reward': 1.6086310744285583, 'reward_std': 0.09714797139167786, 'kl': 1.193359375, 'epoch': 0.53}
+ 53%|█████▎    | 2259/4286 [14:54:32<13:13:29, 23.49s/it] 53%|█████▎    | 2260/4286 [14:54:55<13:16:53, 23.60s/it]                                                         {'loss': 0.0312, 'grad_norm': 0.9595608994592758, 'learning_rate': 4.7270181987867473e-07, 'completion_length': 408.60716247558594, 'rewards/only_full_func_accuracy_reward': 0.7861607670783997, 'rewards/format_reward': 1.0, 'reward': 1.7861607670783997, 'reward_std': 0.06709561869502068, 'kl': 0.781005859375, 'epoch': 0.53}
+ 53%|█████▎    | 2260/4286 [14:54:55<13:16:53, 23.60s/it] 53%|█████▎    | 2261/4286 [14:55:19<13:12:04, 23.47s/it]                                                         {'loss': 0.0015, 'grad_norm': 1.1727874851314914, 'learning_rate': 4.7246850209986e-07, 'completion_length': 387.39288330078125, 'rewards/only_full_func_accuracy_reward': 0.7834822535514832, 'rewards/format_reward': 1.0, 'reward': 1.7834822535514832, 'reward_std': 0.01733512431383133, 'kl': 0.036865234375, 'epoch': 0.53}
+ 53%|█████▎    | 2261/4286 [14:55:19<13:12:04, 23.47s/it] 53%|█████▎    | 2262/4286 [14:55:40<12:54:30, 22.96s/it]                                                         {'loss': 0.0491, 'grad_norm': 0.9927491245780554, 'learning_rate': 4.7223518432104523e-07, 'completion_length': 379.2946472167969, 'rewards/only_full_func_accuracy_reward': 0.6413690745830536, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6324405670166016, 'reward_std': 0.1258162446320057, 'kl': 1.22265625, 'epoch': 0.53}
+ 53%|█████▎    | 2262/4286 [14:55:40<12:54:30, 22.96s/it] 53%|█████▎    | 2263/4286 [14:56:03<12:51:12, 22.87s/it]                                                         {'loss': 0.0384, 'grad_norm': 1.5281673617406308, 'learning_rate': 4.720018665422305e-07, 'completion_length': 365.0000305175781, 'rewards/only_full_func_accuracy_reward': 0.52976194024086, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5208333730697632, 'reward_std': 0.025253813713788986, 'kl': 0.95703125, 'epoch': 0.53}
+ 53%|█████▎    | 2263/4286 [14:56:03<12:51:12, 22.87s/it] 53%|█████▎    | 2264/4286 [14:56:27<13:00:00, 23.15s/it]                                                         {'loss': 0.0356, 'grad_norm': 0.47013493857616157, 'learning_rate': 4.717685487634158e-07, 'completion_length': 388.79466247558594, 'rewards/only_full_func_accuracy_reward': 0.7090774178504944, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7001489400863647, 'reward_std': 0.08395088091492653, 'kl': 0.8896484375, 'epoch': 0.53}
+ 53%|████��▎    | 2264/4286 [14:56:27<13:00:00, 23.15s/it] 53%|█████▎    | 2265/4286 [14:56:49<12:50:32, 22.88s/it]                                                         {'loss': 0.027, 'grad_norm': 1.7599422244058107, 'learning_rate': 4.71535230984601e-07, 'completion_length': 343.43751525878906, 'rewards/only_full_func_accuracy_reward': 0.7812500298023224, 'rewards/format_reward': 1.0, 'reward': 1.7812501788139343, 'reward_std': 0.0395770575851202, 'kl': 0.674072265625, 'epoch': 0.53}
+ 53%|█████▎    | 2265/4286 [14:56:49<12:50:32, 22.88s/it] 53%|█████▎    | 2266/4286 [14:57:12<12:46:50, 22.78s/it]                                                         {'loss': 0.016, 'grad_norm': 0.5041301474799895, 'learning_rate': 4.713019132057863e-07, 'completion_length': 381.39288330078125, 'rewards/only_full_func_accuracy_reward': 0.6696428656578064, 'rewards/format_reward': 1.0, 'reward': 1.669642984867096, 'reward_std': 0.025253815576434135, 'kl': 0.39990234375, 'epoch': 0.53}
+ 53%|█████▎    | 2266/4286 [14:57:12<12:46:50, 22.78s/it] 53%|█████▎    | 2267/4286 [14:57:35<12:51:28, 22.93s/it]                                                         {'loss': 0.0501, 'grad_norm': 1.7062505482085346, 'learning_rate': 4.710685954269715e-07, 'completion_length': 395.39288330078125, 'rewards/only_full_func_accuracy_reward': 0.6945685148239136, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6767114400863647, 'reward_std': 0.08599107339978218, 'kl': 1.25390625, 'epoch': 0.53}
+ 53%|█████▎    | 2267/4286 [14:57:35<12:51:28, 22.93s/it] 53%|█████▎    | 2268/4286 [14:57:58<12:53:56, 23.01s/it]                                                         {'loss': 0.0081, 'grad_norm': 1.321150947005429, 'learning_rate': 4.708352776481568e-07, 'completion_length': 376.45538330078125, 'rewards/only_full_func_accuracy_reward': 0.662946492433548, 'rewards/format_reward': 1.0, 'reward': 1.6629465222358704, 'reward_std': 0.042610323056578636, 'kl': 0.2022705078125, 'epoch': 0.53}
+ 53%|█████▎    | 2268/4286 [14:57:58<12:53:56, 23.01s/it] 53%|█████▎    | 2269/4286 [14:58:22<12:59:54, 23.20s/it]                                                         {'loss': 0.0196, 'grad_norm': 0.7457030081123216, 'learning_rate': 4.7060195986934205e-07, 'completion_length': 403.54466247558594, 'rewards/only_full_func_accuracy_reward': 0.6086309850215912, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.59077388048172, 'reward_std': 0.06793344020843506, 'kl': 0.4906005859375, 'epoch': 0.53}
+ 53%|█████▎    | 2269/4286 [14:58:22<12:59:54, 23.20s/it] 53%|█████▎    | 2270/4286 [14:58:46<13:09:15, 23.49s/it]                                                         {'loss': 0.0122, 'grad_norm': 0.36839197025146153, 'learning_rate': 4.703686420905273e-07, 'completion_length': 409.3393096923828, 'rewards/only_full_func_accuracy_reward': 0.6309524476528168, 'rewards/format_reward': 1.0, 'reward': 1.630952537059784, 'reward_std': 0.04080921411514282, 'kl': 0.3070068359375, 'epoch': 0.53}
+ 53%|█████▎    | 2270/4286 [14:58:46<13:09:15, 23.49s/it] 53%|█████▎    | 2271/4286 [14:59:08<12:55:36, 23.10s/it]                                                         {'loss': 0.0019, 'grad_norm': 0.25535009655548524, 'learning_rate': 4.7013532431171255e-07, 'completion_length': 344.2232208251953, 'rewards/only_full_func_accuracy_reward': 0.7492559850215912, 'rewards/format_reward': 1.0, 'reward': 1.7492560744285583, 'reward_std': 0.04291369952261448, 'kl': 0.0482177734375, 'epoch': 0.53}
+ 53%|█████▎    | 2271/4286 [14:59:08<12:55:36, 23.10s/it] 53%|█████▎    | 2272/4286 [14:59:31<12:57:16, 23.16s/it]                                                         {'loss': 0.0149, 'grad_norm': 1.5387545899535147, 'learning_rate': 4.699020065328978e-07, 'completion_length': 368.6607360839844, 'rewards/only_full_func_accuracy_reward': 0.7805059552192688, 'rewards/format_reward': 1.0, 'reward': 1.7805061340332031, 'reward_std': 0.02852986752986908, 'kl': 0.371826171875, 'epoch': 0.53}
+ 53%|█████▎    | 2272/4286 [14:59:31<12:57:16, 23.16s/it] 53%|█████▎    | 2273/4286 [14:59:53<12:39:03, 22.62s/it]                                                         {'loss': 0.0129, 'grad_norm': 2.0361463949043523, 'learning_rate': 4.6966868875408305e-07, 'completion_length': 377.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.7718254327774048, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7628968954086304, 'reward_std': 0.06729992479085922, 'kl': 0.3204345703125, 'epoch': 0.53}
+ 53%|█████▎    | 2273/4286 [14:59:53<12:39:03, 22.62s/it] 53%|█████▎    | 2274/4286 [15:00:17<12:50:01, 22.96s/it]                                                         {'loss': 0.0475, 'grad_norm': 1.3781574921466047, 'learning_rate': 4.694353709752683e-07, 'completion_length': 383.5089416503906, 'rewards/only_full_func_accuracy_reward': 0.6130952537059784, 'rewards/format_reward': 1.0, 'reward': 1.6130953431129456, 'reward_std': 0.06809162348508835, 'kl': 1.18115234375, 'epoch': 0.53}
+ 53%|█████▎    | 2274/4286 [15:00:17<12:50:01, 22.96s/it] 53%|█████▎    | 2275/4286 [15:00:39<12:48:31, 22.93s/it]                                                         {'loss': 0.0248, 'grad_norm': 0.9372742917480318, 'learning_rate': 4.6920205319645354e-07, 'completion_length': 410.9732360839844, 'rewards/only_full_func_accuracy_reward': 0.6986607313156128, 'rewards/format_reward': 1.0, 'reward': 1.6986608505249023, 'reward_std': 0.05758874863386154, 'kl': 0.61865234375, 'epoch': 0.53}
+ 53%|█████▎    | 2275/4286 [15:00:39<12:48:31, 22.93s/it] 53%|█████▎    | 2276/4286 [15:01:02<12:46:35, 22.88s/it]                                                         {'loss': 0.0169, 'grad_norm': 1.1874169387382112, 'learning_rate': 4.689687354176388e-07, 'completion_length': 396.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.7031250596046448, 'rewards/format_reward': 1.0, 'reward': 1.7031250596046448, 'reward_std': 0.05554060637950897, 'kl': 0.422119140625, 'epoch': 0.53}
+ 53%|█████▎    | 2276/4286 [15:01:02<12:46:35, 22.88s/it] 53%|█████▎    | 2277/4286 [15:01:26<12:55:01, 23.15s/it]                                                         {'loss': 0.0297, 'grad_norm': 0.812102705429015, 'learning_rate': 4.687354176388241e-07, 'completion_length': 434.8482360839844, 'rewards/only_full_func_accuracy_reward': 0.5974702835083008, 'rewards/format_reward': 1.0, 'reward': 1.5974703431129456, 'reward_std': 0.06688704527914524, 'kl': 0.7421875, 'epoch': 0.53}
+ 53%|█████▎    | 2277/4286 [15:01:26<12:55:01, 23.15s/it] 53%|█████▎    | 2278/4286 [15:01:49<12:50:39, 23.03s/it]                                                         {'loss': 0.01, 'grad_norm': 0.466955537300987, 'learning_rate': 4.685020998600093e-07, 'completion_length': 393.2321472167969, 'rewards/only_full_func_accuracy_reward': 0.6324405074119568, 'rewards/format_reward': 1.0, 'reward': 1.6324406266212463, 'reward_std': 0.012626906856894493, 'kl': 0.250732421875, 'epoch': 0.53}
+ 53%|█████▎    | 2278/4286 [15:01:49<12:50:39, 23.03s/it] 53%|█████▎    | 2279/4286 [15:02:12<12:57:02, 23.23s/it]                                                         {'loss': 0.0106, 'grad_norm': 1.0487702828437477, 'learning_rate': 4.682687820811946e-07, 'completion_length': 418.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.6889881491661072, 'rewards/format_reward': 1.0, 'reward': 1.688988208770752, 'reward_std': 0.04505617544054985, 'kl': 0.2662353515625, 'epoch': 0.53}
+ 53%|█████▎    | 2279/4286 [15:02:12<12:57:02, 23.23s/it] 53%|█████▎    | 2280/4286 [15:02:34<12:41:39, 22.78s/it]                                                         {'loss': 0.004, 'grad_norm': 0.3825055391996555, 'learning_rate': 4.680354643023798e-07, 'completion_length': 310.46429443359375, 'rewards/only_full_func_accuracy_reward': 0.730654776096344, 'rewards/format_reward': 1.0, 'reward': 1.7306548953056335, 'reward_std': 0.022693805396556854, 'kl': 0.1015625, 'epoch': 0.53}
+ 53%|█████▎    | 2280/4286 [15:02:34<12:41:39, 22.78s/it] 53%|█████▎    | 2281/4286 [15:02:59<12:59:08, 23.32s/it]                                                         {'loss': 0.017, 'grad_norm': 1.1243075270021288, 'learning_rate': 4.678021465235651e-07, 'completion_length': 436.1607360839844, 'rewards/only_full_func_accuracy_reward': 0.69866082072258, 'rewards/format_reward': 1.0, 'reward': 1.6986608505249023, 'reward_std': 0.051050592213869095, 'kl': 0.4248046875, 'epoch': 0.53}
+ 53%|█████▎    | 2281/4286 [15:02:59<12:59:08, 23.32s/it] 53%|█████▎    | 2282/4286 [15:03:22<13:01:42, 23.40s/it]                                                         {'loss': 0.0026, 'grad_norm': 0.4401821820742767, 'learning_rate': 4.6756882874475036e-07, 'completion_length': 400.1518096923828, 'rewards/only_full_func_accuracy_reward': 0.6599703133106232, 'rewards/format_reward': 1.0, 'reward': 1.6599703431129456, 'reward_std': 0.027306430973112583, 'kl': 0.064697265625, 'epoch': 0.53}
+ 53%|█████▎    | 2282/4286 [15:03:22<13:01:42, 23.40s/it] 53%|█████▎    | 2283/4286 [15:03:46<13:08:37, 23.62s/it]                                                         {'loss': 0.002, 'grad_norm': 0.7567630233591773, 'learning_rate': 4.673355109659356e-07, 'completion_length': 433.1428680419922, 'rewards/only_full_func_accuracy_reward': 0.6934523582458496, 'rewards/format_reward': 1.0, 'reward': 1.6934524774551392, 'reward_std': 0.051966650411486626, 'kl': 0.0487060546875, 'epoch': 0.53}
+ 53%|█████▎    | 2283/4286 [15:03:46<13:08:37, 23.62s/it] 53%|█████▎    | 2284/4286 [15:04:10<13:09:07, 23.65s/it]                                                         {'loss': 0.0083, 'grad_norm': 1.0695982141455107, 'learning_rate': 4.6710219318712086e-07, 'completion_length': 398.2500305175781, 'rewards/only_full_func_accuracy_reward': 0.8050596415996552, 'rewards/format_reward': 1.0, 'reward': 1.8050596117973328, 'reward_std': 0.04629865661263466, 'kl': 0.207763671875, 'epoch': 0.53}
+ 53%|█████▎    | 2284/4286 [15:04:10<13:09:07, 23.65s/it] 53%|█████▎    | 2285/4286 [15:04:35<13:18:21, 23.94s/it]                                                         {'loss': 0.0186, 'grad_norm': 1.041883013613762, 'learning_rate': 4.668688754083061e-07, 'completion_length': 408.7768096923828, 'rewards/only_full_func_accuracy_reward': 0.6607143580913544, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6517857909202576, 'reward_std': 0.10394778847694397, 'kl': 0.4658203125, 'epoch': 0.53}
+ 53%|█████▎    | 2285/4286 [15:04:35<13:18:21, 23.94s/it] 53%|█████▎    | 2286/4286 [15:04:59<13:19:34, 23.99s/it]                                                         {'loss': 0.0117, 'grad_norm': 0.42172443746791133, 'learning_rate': 4.6663555762949136e-07, 'completion_length': 397.0714416503906, 'rewards/only_full_func_accuracy_reward': 0.6636332869529724, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6547046899795532, 'reward_std': 0.08086871728301048, 'kl': 0.2918701171875, 'epoch': 0.53}
+ 53%|█████▎    | 2286/4286 [15:04:59<13:19:34, 23.99s/it] 53%|█████▎    | 2287/4286 [15:05:24<13:26:01, 24.19s/it]                                                         {'loss': 0.0206, 'grad_norm': 1.3100196263758244, 'learning_rate': 4.6640223985067663e-07, 'completion_length': 437.89288330078125, 'rewards/only_full_func_accuracy_reward': 0.7485119700431824, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7306548953056335, 'reward_std': 0.05410985089838505, 'kl': 0.515625, 'epoch': 0.53}
+ 53%|█████▎    | 2287/4286 [15:05:24<13:26:01, 24.19s/it] 53%|█████▎    | 2288/4286 [15:05:48<13:29:44, 24.32s/it]                                                         {'loss': 0.0206, 'grad_norm': 1.4043323645734396, 'learning_rate': 4.6616892207186186e-07, 'completion_length': 438.8214416503906, 'rewards/only_full_func_accuracy_reward': 0.7619048655033112, 'rewards/format_reward': 1.0, 'reward': 1.7619048357009888, 'reward_std': 0.05757780745625496, 'kl': 0.5137939453125, 'epoch': 0.53}
+ 53%|█████▎    | 2288/4286 [15:05:48<13:29:44, 24.32s/it] 53%|█████▎    | 2289/4286 [15:06:14<13:43:50, 24.75s/it]                                                         {'loss': 0.0198, 'grad_norm': 1.6121245744599981, 'learning_rate': 4.6593560429304713e-07, 'completion_length': 440.0893096923828, 'rewards/only_full_func_accuracy_reward': 0.6188988536596298, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6099703907966614, 'reward_std': 0.0682827178388834, 'kl': 0.4949951171875, 'epoch': 0.53}
+ 53%|█████▎    | 2289/4286 [15:06:14<13:43:50, 24.75s/it] 53%|█████▎    | 2290/4286 [15:06:38<13:33:16, 24.45s/it]                                                         {'loss': 0.006, 'grad_norm': 1.2630911140348813, 'learning_rate': 4.6570228651423235e-07, 'completion_length': 394.1964416503906, 'rewards/only_full_func_accuracy_reward': 0.8464286029338837, 'rewards/format_reward': 1.0, 'reward': 1.8464286923408508, 'reward_std': 0.030623442493379116, 'kl': 0.1502685546875, 'epoch': 0.53}
+ 53%|█████▎    | 2290/4286 [15:06:38<13:33:16, 24.45s/it] 53%|█████▎    | 2291/4286 [15:07:03<13:41:03, 24.69s/it]                                                         {'loss': 0.0483, 'grad_norm': 2.4275849420871705, 'learning_rate': 4.6546896873541763e-07, 'completion_length': 345.25001525878906, 'rewards/only_full_func_accuracy_reward': 0.646577388048172, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6287203431129456, 'reward_std': 0.03937845956534147, 'kl': 1.2060546875, 'epoch': 0.53}
+ 53%|█████▎    | 2291/4286 [15:07:03<13:41:03, 24.69s/it] 53%|█████▎    | 2292/4286 [15:07:28<13:47:23, 24.90s/it]                                                         {'loss': 0.0151, 'grad_norm': 1.770730840345368, 'learning_rate': 4.652356509566029e-07, 'completion_length': 467.60716247558594, 'rewards/only_full_func_accuracy_reward': 0.6183035969734192, 'rewards/format_reward': 1.0, 'reward': 1.618303656578064, 'reward_std': 0.05739543214440346, 'kl': 0.379638671875, 'epoch': 0.53}
+ 53%|█████▎    | 2292/4286 [15:07:28<13:47:23, 24.90s/it] 53%|█████▎    | 2293/4286 [15:07:52<13:38:34, 24.64s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.9145128498821674, 'learning_rate': 4.6500233317778813e-07, 'completion_length': 422.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.666666716337204, 'rewards/format_reward': 1.0, 'reward': 1.6666667461395264, 'reward_std': 0.038726589642465115, 'kl': 0.03759765625, 'epoch': 0.53}
+ 53%|█████▎    | 2293/4286 [15:07:52<13:38:34, 24.64s/it] 54%|█████▎    | 2294/4286 [15:08:17<13:34:34, 24.54s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.14080133579164358, 'learning_rate': 4.647690153989734e-07, 'completion_length': 434.17860412597656, 'rewards/only_full_func_accuracy_reward': 0.6522321701049805, 'rewards/format_reward': 1.0, 'reward': 1.6522322297096252, 'reward_std': 0.0076211076229810715, 'kl': 0.0367431640625, 'epoch': 0.54}
+ 54%|█████▎    | 2294/4286 [15:08:17<13:34:34, 24.54s/it] 54%|█████▎    | 2295/4286 [15:08:40<13:22:27, 24.18s/it]                                                         {'loss': 0.0025, 'grad_norm': 0.3816750381027005, 'learning_rate': 4.645356976201587e-07, 'completion_length': 409.01788330078125, 'rewards/only_full_func_accuracy_reward': 0.785714328289032, 'rewards/format_reward': 1.0, 'reward': 1.785714328289032, 'reward_std': 0.04415163956582546, 'kl': 0.06201171875, 'epoch': 0.54}
+ 54%|█████▎    | 2295/4286 [15:08:40<13:22:27, 24.18s/it] 54%|█████▎    | 2296/4286 [15:09:05<13:33:46, 24.54s/it]                                                         {'loss': 0.0124, 'grad_norm': 0.2747007467065278, 'learning_rate': 4.643023798413439e-07, 'completion_length': 434.3839569091797, 'rewards/only_full_func_accuracy_reward': 0.692708432674408, 'rewards/format_reward': 1.0, 'reward': 1.692708432674408, 'reward_std': 0.0359470434486866, 'kl': 0.308837890625, 'epoch': 0.54}
+ 54%|█████▎    | 2296/4286 [15:09:05<13:33:46, 24.54s/it] 54%|█████▎    | 2297/4286 [15:09:28<13:16:08, 24.02s/it]                                                         {'loss': 0.0228, 'grad_norm': 0.37658884950770344, 'learning_rate': 4.640690620625292e-07, 'completion_length': 359.9107360839844, 'rewards/only_full_func_accuracy_reward': 0.8080357611179352, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7991071939468384, 'reward_std': 0.061608873307704926, 'kl': 0.5703125, 'epoch': 0.54}
+ 54%|█████▎    | 2297/4286 [15:09:28<13:16:08, 24.02s/it] 54%|█████▎    | 2298/4286 [15:09:53<13:24:08, 24.27s/it]                                                         {'loss': 0.0309, 'grad_norm': 1.2685147032723072, 'learning_rate': 4.638357442837144e-07, 'completion_length': 447.8393096923828, 'rewards/only_full_func_accuracy_reward': 0.6845238208770752, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6666668057441711, 'reward_std': 0.09865168482065201, 'kl': 0.7705078125, 'epoch': 0.54}
+ 54%|█████▎    | 2298/4286 [15:09:53<13:24:08, 24.27s/it] 54%|█████▎    | 2299/4286 [15:10:16<13:10:04, 23.86s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.3175084757844741, 'learning_rate': 4.6360242650489967e-07, 'completion_length': 380.23216247558594, 'rewards/only_full_func_accuracy_reward': 0.6651785969734192, 'rewards/format_reward': 1.0, 'reward': 1.6651787161827087, 'reward_std': 0.022693804930895567, 'kl': 0.0369873046875, 'epoch': 0.54}
+ 54%|█████▎    | 2299/4286 [15:10:16<13:10:04, 23.86s/it] 54%|█████▎    | 2300/4286 [15:10:40<13:08:28, 23.82s/it]                                                         {'loss': 0.0056, 'grad_norm': 0.6150012414422898, 'learning_rate': 4.6336910872608495e-07, 'completion_length': 388.58929443359375, 'rewards/only_full_func_accuracy_reward': 0.7723214626312256, 'rewards/format_reward': 1.0, 'reward': 1.7723215222358704, 'reward_std': 0.023648572154343128, 'kl': 0.139892578125, 'epoch': 0.54}
+ 54%|█████▎    | 2300/4286 [15:10:40<13:08:28, 23.82s/it] 54%|█████▎    | 2301/4286 [15:12:30<27:25:58, 49.75s/it]                                                         {'loss': 0.0124, 'grad_norm': 0.3046618105970133, 'learning_rate': 4.6313579094727017e-07, 'completion_length': 413.8839569091797, 'rewards/only_full_func_accuracy_reward': 0.7142857015132904, 'rewards/format_reward': 1.0, 'reward': 1.7142858505249023, 'reward_std': 0.05625566095113754, 'kl': 0.3115234375, 'epoch': 0.54}
+ 54%|█████▎    | 2301/4286 [15:12:30<27:25:58, 49.75s/it] 54%|█████▎    | 2302/4286 [15:12:56<23:27:20, 42.56s/it]                                                         {'loss': 0.0111, 'grad_norm': 0.6223711427057189, 'learning_rate': 4.6290247316845544e-07, 'completion_length': 447.26788330078125, 'rewards/only_full_func_accuracy_reward': 0.6502976715564728, 'rewards/format_reward': 1.0, 'reward': 1.6502977013587952, 'reward_std': 0.021044842898845673, 'kl': 0.27850341796875, 'epoch': 0.54}
+ 54%|█████▎    | 2302/4286 [15:12:56<23:27:20, 42.56s/it] 54%|█████▎    | 2303/4286 [15:13:21<20:37:12, 37.43s/it]                                                         {'loss': 0.0015, 'grad_norm': 1.2383830287239566, 'learning_rate': 4.6266915538964067e-07, 'completion_length': 472.04466247558594, 'rewards/only_full_func_accuracy_reward': 0.6458333432674408, 'rewards/format_reward': 1.0, 'reward': 1.6458334922790527, 'reward_std': 0.059392184019088745, 'kl': 0.0379638671875, 'epoch': 0.54}
+ 54%|█████▎    | 2303/4286 [15:13:21<20:37:12, 37.43s/it] 54%|█████▍    | 2304/4286 [15:13:45<18:25:14, 33.46s/it]                                                         {'loss': 0.0019, 'grad_norm': 0.5666100354882249, 'learning_rate': 4.6243583761082594e-07, 'completion_length': 410.6339416503906, 'rewards/only_full_func_accuracy_reward': 0.8284226357936859, 'rewards/format_reward': 1.0, 'reward': 1.8284227848052979, 'reward_std': 0.05730548873543739, 'kl': 0.0484619140625, 'epoch': 0.54}
+ 54%|█████▍    | 2304/4286 [15:13:45<18:25:14, 33.46s/it] 54%|█████▍    | 2305/4286 [15:14:09<16:47:11, 30.51s/it]                                                         {'loss': 0.0191, 'grad_norm': 2.316618223679749, 'learning_rate': 4.622025198320112e-07, 'completion_length': 373.0089569091797, 'rewards/only_full_func_accuracy_reward': 0.6860119700431824, 'rewards/format_reward': 1.0, 'reward': 1.6860119700431824, 'reward_std': 0.07936366647481918, 'kl': 0.4765625, 'epoch': 0.54}
+ 54%|█████▍    | 2305/4286 [15:14:09<16:47:11, 30.51s/it] 54%|█████▍    | 2306/4286 [15:14:33<15:46:04, 28.67s/it]                                                         {'loss': 0.0048, 'grad_norm': 0.7588783750792362, 'learning_rate': 4.6196920205319644e-07, 'completion_length': 400.1428680419922, 'rewards/only_full_func_accuracy_reward': 0.5297619104385376, 'rewards/format_reward': 1.0, 'reward': 1.5297619700431824, 'reward_std': 0.03649812936782837, 'kl': 0.1209716796875, 'epoch': 0.54}
+ 54%|█████▍    | 2306/4286 [15:14:33<15:46:04, 28.67s/it] 54%|█████▍    | 2307/4286 [15:14:57<14:57:00, 27.20s/it]                                                         {'loss': 0.0016, 'grad_norm': 0.027048464229057455, 'learning_rate': 4.617358842743817e-07, 'completion_length': 384.8928680419922, 'rewards/only_full_func_accuracy_reward': 0.7083333730697632, 'rewards/format_reward': 1.0, 'reward': 1.708333432674408, 'reward_std': 0.0, 'kl': 0.0401611328125, 'epoch': 0.54}
+ 54%|█████▍    | 2307/4286 [15:14:57<14:57:00, 27.20s/it] 54%|█████▍    | 2308/4286 [15:15:22<14:35:18, 26.55s/it]                                                         {'loss': 0.0151, 'grad_norm': 0.8480475304662356, 'learning_rate': 4.6150256649556694e-07, 'completion_length': 438.85716247558594, 'rewards/only_full_func_accuracy_reward': 0.6815476715564728, 'rewards/format_reward': 1.0, 'reward': 1.6815477013587952, 'reward_std': 0.019439605996012688, 'kl': 0.37646484375, 'epoch': 0.54}
+ 54%|█████▍    | 2308/4286 [15:15:22<14:35:18, 26.55s/it] 54%|█████▍    | 2309/4286 [15:15:46<14:07:28, 25.72s/it]                                                         {'loss': 0.0014, 'grad_norm': 0.2897490382176645, 'learning_rate': 4.612692487167522e-07, 'completion_length': 417.0357208251953, 'rewards/only_full_func_accuracy_reward': 0.7321428954601288, 'rewards/format_reward': 1.0, 'reward': 1.7321429252624512, 'reward_std': 0.026750151067972183, 'kl': 0.0341796875, 'epoch': 0.54}
+ 54%|█████▍    | 2309/4286 [15:15:46<14:07:28, 25.72s/it] 54%|█████▍    | 2310/4286 [15:16:09<13:43:11, 25.00s/it]                                                         {'loss': 0.0018, 'grad_norm': 0.24697790011675783, 'learning_rate': 4.610359309379375e-07, 'completion_length': 391.0982208251953, 'rewards/only_full_func_accuracy_reward': 0.7909226715564728, 'rewards/format_reward': 1.0, 'reward': 1.7909227013587952, 'reward_std': 0.014731390867382288, 'kl': 0.0450439453125, 'epoch': 0.54}
+ 54%|█████▍    | 2310/4286 [15:16:09<13:43:11, 25.00s/it] 54%|█████▍    | 2311/4286 [15:16:34<13:45:01, 25.06s/it]                                                         {'loss': 0.0013, 'grad_norm': 0.7220320737580919, 'learning_rate': 4.608026131591227e-07, 'completion_length': 462.92860412597656, 'rewards/only_full_func_accuracy_reward': 0.725446492433548, 'rewards/format_reward': 1.0, 'reward': 1.7254465222358704, 'reward_std': 0.02317072544246912, 'kl': 0.03271484375, 'epoch': 0.54}
+ 54%|█████▍    | 2311/4286 [15:16:34<13:45:01, 25.06s/it] 54%|█████▍    | 2312/4286 [15:16:57<13:19:41, 24.31s/it]                                                         {'loss': 0.0019, 'grad_norm': 0.2720389337890496, 'learning_rate': 4.60569295380308e-07, 'completion_length': 373.4107208251953, 'rewards/only_full_func_accuracy_reward': 0.6421131193637848, 'rewards/format_reward': 1.0, 'reward': 1.642113208770752, 'reward_std': 0.042588936164975166, 'kl': 0.046875, 'epoch': 0.54}
+ 54%|█████▍    | 2312/4286 [15:16:57<13:19:41, 24.31s/it] 54%|█████▍    | 2313/4286 [15:17:21<13:14:55, 24.17s/it]                                                         {'loss': 0.0056, 'grad_norm': 1.004370926613126, 'learning_rate': 4.603359776014932e-07, 'completion_length': 370.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.71726194024086, 'rewards/format_reward': 1.0, 'reward': 1.717262089252472, 'reward_std': 0.026577068492770195, 'kl': 0.1396484375, 'epoch': 0.54}
+ 54%|█████▍    | 2313/4286 [15:17:21<13:14:55, 24.17s/it] 54%|█████▍    | 2314/4286 [15:17:45<13:14:59, 24.19s/it]                                                         {'loss': 0.0018, 'grad_norm': 0.35533115149356853, 'learning_rate': 4.601026598226785e-07, 'completion_length': 415.31251525878906, 'rewards/only_full_func_accuracy_reward': 0.6302083730697632, 'rewards/format_reward': 1.0, 'reward': 1.6302084922790527, 'reward_std': 0.014579705893993378, 'kl': 0.045654296875, 'epoch': 0.54}
+ 54%|█████▍    | 2314/4286 [15:17:45<13:14:59, 24.19s/it] 54%|█████▍    | 2315/4286 [15:18:09<13:16:36, 24.25s/it]                                                         {'loss': 0.0017, 'grad_norm': 0.31641009978179363, 'learning_rate': 4.5986934204386376e-07, 'completion_length': 428.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.6004464626312256, 'rewards/format_reward': 1.0, 'reward': 1.6004465222358704, 'reward_std': 0.042762015014886856, 'kl': 0.0426025390625, 'epoch': 0.54}
+ 54%|█████▍    | 2315/4286 [15:18:09<13:16:36, 24.25s/it] 54%|█████▍    | 2316/4286 [15:18:33<13:09:57, 24.06s/it]                                                         {'loss': 0.0019, 'grad_norm': 1.6893567224317172, 'learning_rate': 4.59636024265049e-07, 'completion_length': 403.8839569091797, 'rewards/only_full_func_accuracy_reward': 0.8125000596046448, 'rewards/format_reward': 1.0, 'reward': 1.8125001192092896, 'reward_std': 0.044086672365665436, 'kl': 0.046875, 'epoch': 0.54}
+ 54%|█████▍    | 2316/4286 [15:18:33<13:09:57, 24.06s/it] 54%|█████▍    | 2317/4286 [15:18:58<13:14:10, 24.20s/it]                                                         {'loss': 0.0014, 'grad_norm': 2.518047446749313, 'learning_rate': 4.5940270648623425e-07, 'completion_length': 436.9285888671875, 'rewards/only_full_func_accuracy_reward': 0.6968750655651093, 'rewards/format_reward': 1.0, 'reward': 1.6968750953674316, 'reward_std': 0.04116993676871061, 'kl': 0.034912109375, 'epoch': 0.54}
+ 54%|█████▍    | 2317/4286 [15:18:58<13:14:10, 24.20s/it] 54%|█████▍    | 2318/4286 [15:19:21<13:02:05, 23.84s/it]                                                         {'loss': 0.0037, 'grad_norm': 0.6130976251065755, 'learning_rate': 4.5916938870741953e-07, 'completion_length': 389.5714416503906, 'rewards/only_full_func_accuracy_reward': 0.7976190745830536, 'rewards/format_reward': 1.0, 'reward': 1.7976191639900208, 'reward_std': 0.03926153481006622, 'kl': 0.09326171875, 'epoch': 0.54}
+ 54%|█████▍    | 2318/4286 [15:19:21<13:02:05, 23.84s/it] 54%|█████▍    | 2319/4286 [15:19:45<13:03:13, 23.89s/it]                                                         {'loss': 0.0035, 'grad_norm': 1.8975919804840846, 'learning_rate': 4.5893607092860475e-07, 'completion_length': 384.8125305175781, 'rewards/only_full_func_accuracy_reward': 0.6949405372142792, 'rewards/format_reward': 1.0, 'reward': 1.6949405670166016, 'reward_std': 0.0704878605902195, 'kl': 0.08837890625, 'epoch': 0.54}
+ 54%|█████▍    | 2319/4286 [15:19:45<13:03:13, 23.89s/it] 54%|█████▍    | 2320/4286 [15:20:08<12:54:47, 23.65s/it]                                                         {'loss': 0.0245, 'grad_norm': 1.8872931600518639, 'learning_rate': 4.5870275314979e-07, 'completion_length': 392.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.853422611951828, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8444941639900208, 'reward_std': 0.062006219290196896, 'kl': 0.611328125, 'epoch': 0.54}
+ 54%|█████▍    | 2320/4286 [15:20:08<12:54:47, 23.65s/it] 54%|█████▍    | 2321/4286 [15:20:31<12:51:44, 23.56s/it]                                                         {'loss': 0.0017, 'grad_norm': 0.565128661603827, 'learning_rate': 4.5846943537097525e-07, 'completion_length': 403.1518096923828, 'rewards/only_full_func_accuracy_reward': 0.6398809850215912, 'rewards/format_reward': 1.0, 'reward': 1.6398810744285583, 'reward_std': 0.06989008374512196, 'kl': 0.0418701171875, 'epoch': 0.54}
+ 54%|█████▍    | 2321/4286 [15:20:31<12:51:44, 23.56s/it] 54%|█████▍    | 2322/4286 [15:20:54<12:43:55, 23.34s/it]                                                         {'loss': 0.0017, 'grad_norm': 0.3166645699858671, 'learning_rate': 4.582361175921605e-07, 'completion_length': 404.2768096923828, 'rewards/only_full_func_accuracy_reward': 0.742559552192688, 'rewards/format_reward': 1.0, 'reward': 1.7425596714019775, 'reward_std': 0.016835871152579784, 'kl': 0.0435791015625, 'epoch': 0.54}
+ 54%|█████▍    | 2322/4286 [15:20:54<12:43:55, 23.34s/it] 54%|█████▍    | 2323/4286 [15:21:18<12:47:16, 23.45s/it]                                                         {'loss': 0.012, 'grad_norm': 0.6222972925992784, 'learning_rate': 4.580027998133458e-07, 'completion_length': 391.31251525878906, 'rewards/only_full_func_accuracy_reward': 0.8434523940086365, 'rewards/format_reward': 1.0, 'reward': 1.8434525728225708, 'reward_std': 0.00505076302215457, 'kl': 0.2967529296875, 'epoch': 0.54}
+ 54%|█████▍    | 2323/4286 [15:21:18<12:47:16, 23.45s/it] 54%|█████▍    | 2324/4286 [15:21:41<12:46:49, 23.45s/it]                                                         {'loss': 0.0017, 'grad_norm': 0.031179549680085974, 'learning_rate': 4.57769482034531e-07, 'completion_length': 396.3303680419922, 'rewards/only_full_func_accuracy_reward': 0.7202380895614624, 'rewards/format_reward': 1.0, 'reward': 1.720238208770752, 'reward_std': 0.0, 'kl': 0.0419921875, 'epoch': 0.54}
+ 54%|█████▍    | 2324/4286 [15:21:41<12:46:49, 23.45s/it] 54%|█████▍    | 2325/4286 [15:22:04<12:41:33, 23.30s/it]                                                         {'loss': 0.0018, 'grad_norm': 0.8852281594643604, 'learning_rate': 4.575361642557163e-07, 'completion_length': 367.8393096923828, 'rewards/only_full_func_accuracy_reward': 0.8169643580913544, 'rewards/format_reward': 1.0, 'reward': 1.8169644474983215, 'reward_std': 0.019287917762994766, 'kl': 0.0457763671875, 'epoch': 0.54}
+ 54%|█████▍    | 2325/4286 [15:22:04<12:41:33, 23.30s/it] 54%|█████▍    | 2326/4286 [15:22:29<12:54:50, 23.72s/it]                                                         {'loss': 0.0157, 'grad_norm': 1.4493430937675365, 'learning_rate': 4.573028464769015e-07, 'completion_length': 428.91966247558594, 'rewards/only_full_func_accuracy_reward': 0.7462798058986664, 'rewards/format_reward': 1.0, 'reward': 1.7462799549102783, 'reward_std': 0.05636434257030487, 'kl': 0.3935546875, 'epoch': 0.54}
+ 54%|█████▍    | 2326/4286 [15:22:29<12:54:50, 23.72s/it] 54%|█████▍    | 2327/4286 [15:22:53<12:55:59, 23.77s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.14437209831812417, 'learning_rate': 4.570695286980868e-07, 'completion_length': 410.5178680419922, 'rewards/only_full_func_accuracy_reward': 0.7767857313156128, 'rewards/format_reward': 1.0, 'reward': 1.7767857909202576, 'reward_std': 0.005510836374014616, 'kl': 0.03662109375, 'epoch': 0.54}
+ 54%|█████▍    | 2327/4286 [15:22:53<12:55:59, 23.77s/it] 54%|█████▍    | 2328/4286 [15:23:15<12:46:05, 23.48s/it]                                                         {'loss': 0.0017, 'grad_norm': 0.19554870494588925, 'learning_rate': 4.5683621091927207e-07, 'completion_length': 387.54466247558594, 'rewards/only_full_func_accuracy_reward': 0.7425595223903656, 'rewards/format_reward': 1.0, 'reward': 1.7425596714019775, 'reward_std': 0.022171951830387115, 'kl': 0.0419921875, 'epoch': 0.54}
+ 54%|█████▍    | 2328/4286 [15:23:15<12:46:05, 23.48s/it] 54%|█████▍    | 2329/4286 [15:23:39<12:51:57, 23.67s/it]                                                         {'loss': 0.0267, 'grad_norm': 1.0988234309222806, 'learning_rate': 4.566028931404573e-07, 'completion_length': 411.3928680419922, 'rewards/only_full_func_accuracy_reward': 0.65476194024086, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6458334922790527, 'reward_std': 0.11437913402915001, 'kl': 0.6689453125, 'epoch': 0.54}
+ 54%|█████▍    | 2329/4286 [15:23:39<12:51:57, 23.67s/it] 54%|█████▍    | 2330/4286 [15:24:05<13:09:26, 24.22s/it]                                                         {'loss': 0.0101, 'grad_norm': 0.4305887962519593, 'learning_rate': 4.5636957536164257e-07, 'completion_length': 457.9375305175781, 'rewards/only_full_func_accuracy_reward': 0.7157738506793976, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7068454027175903, 'reward_std': 0.05359550751745701, 'kl': 0.25146484375, 'epoch': 0.54}
+ 54%|█████▍    | 2330/4286 [15:24:05<13:09:26, 24.22s/it] 54%|█████▍    | 2331/4286 [15:24:28<12:53:59, 23.75s/it]                                                         {'loss': 0.0018, 'grad_norm': 0.326013850742337, 'learning_rate': 4.561362575828278e-07, 'completion_length': 415.1339416503906, 'rewards/only_full_func_accuracy_reward': 0.6808036267757416, 'rewards/format_reward': 1.0, 'reward': 1.680803656578064, 'reward_std': 0.030645616818219423, 'kl': 0.044189453125, 'epoch': 0.54}
+ 54%|█████▍    | 2331/4286 [15:24:28<12:53:59, 23.75s/it] 54%|█████▍    | 2332/4286 [15:24:51<12:47:02, 23.55s/it]                                                         {'loss': 0.0022, 'grad_norm': 0.2738139242310864, 'learning_rate': 4.5590293980401306e-07, 'completion_length': 361.8482208251953, 'rewards/only_full_func_accuracy_reward': 0.74851194024086, 'rewards/format_reward': 1.0, 'reward': 1.748512089252472, 'reward_std': 0.07170024141669273, 'kl': 0.0545654296875, 'epoch': 0.54}
+ 54%|█████▍    | 2332/4286 [15:24:51<12:47:02, 23.55s/it] 54%|��████▍    | 2333/4286 [15:25:15<12:49:25, 23.64s/it]                                                         {'loss': 0.022, 'grad_norm': 1.0608701586735931, 'learning_rate': 4.5566962202519834e-07, 'completion_length': 419.70538330078125, 'rewards/only_full_func_accuracy_reward': 0.787946492433548, 'rewards/format_reward': 1.0, 'reward': 1.7879465222358704, 'reward_std': 0.08787834271788597, 'kl': 0.549560546875, 'epoch': 0.54}
+ 54%|█████▍    | 2333/4286 [15:25:15<12:49:25, 23.64s/it] 54%|█████▍    | 2334/4286 [15:25:39<12:54:28, 23.81s/it]                                                         {'loss': 0.0082, 'grad_norm': 0.5246586285224892, 'learning_rate': 4.5543630424638356e-07, 'completion_length': 431.01788330078125, 'rewards/only_full_func_accuracy_reward': 0.7455357909202576, 'rewards/format_reward': 1.0, 'reward': 1.7455359101295471, 'reward_std': 0.03765370510518551, 'kl': 0.20556640625, 'epoch': 0.54}
+ 54%|█████▍    | 2334/4286 [15:25:39<12:54:28, 23.81s/it] 54%|█████▍    | 2335/4286 [15:26:03<12:56:54, 23.89s/it]                                                         {'loss': 0.0395, 'grad_norm': 0.7462745794021546, 'learning_rate': 4.5520298646756884e-07, 'completion_length': 392.4018096923828, 'rewards/only_full_func_accuracy_reward': 0.6699405014514923, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6610119938850403, 'reward_std': 0.09033795073628426, 'kl': 0.986328125, 'epoch': 0.54}
+ 54%|█████▍    | 2335/4286 [15:26:03<12:56:54, 23.89s/it] 55%|█████▍    | 2336/4286 [15:26:29<13:13:39, 24.42s/it]                                                         {'loss': 0.0071, 'grad_norm': 0.7896033817753415, 'learning_rate': 4.5496966868875406e-07, 'completion_length': 500.78575134277344, 'rewards/only_full_func_accuracy_reward': 0.7648809850215912, 'rewards/format_reward': 1.0, 'reward': 1.7648810744285583, 'reward_std': 0.04859808273613453, 'kl': 0.1788330078125, 'epoch': 0.55}
+ 55%|█████▍    | 2336/4286 [15:26:29<13:13:39, 24.42s/it] 55%|█████▍    | 2337/4286 [15:26:52<13:01:49, 24.07s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.2771857719426122, 'learning_rate': 4.5473635090993933e-07, 'completion_length': 426.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.8156250417232513, 'rewards/format_reward': 1.0, 'reward': 1.8156251311302185, 'reward_std': 0.03003235999494791, 'kl': 0.0364990234375, 'epoch': 0.55}
+ 55%|█████▍    | 2337/4286 [15:26:52<13:01:49, 24.07s/it] 55%|█████▍    | 2338/4286 [15:27:15<12:53:36, 23.83s/it]                                                         {'loss': 0.0014, 'grad_norm': 0.3909099654899955, 'learning_rate': 4.545030331311246e-07, 'completion_length': 375.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.7647321820259094, 'rewards/format_reward': 1.0, 'reward': 1.7647322416305542, 'reward_std': 0.03596807271242142, 'kl': 0.0357666015625, 'epoch': 0.55}
+ 55%|█████▍    | 2338/4286 [15:27:15<12:53:36, 23.83s/it] 55%|█████▍    | 2339/4286 [15:27:38<12:48:11, 23.67s/it]                                                         {'loss': 0.0332, 'grad_norm': 1.3538619843617106, 'learning_rate': 4.5426971535230983e-07, 'completion_length': 380.4732360839844, 'rewards/only_full_func_accuracy_reward': 0.5930059552192688, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.584077537059784, 'reward_std': 0.07360881194472313, 'kl': 0.830078125, 'epoch': 0.55}
+ 55%|█████▍    | 2339/4286 [15:27:38<12:48:11, 23.67s/it] 55%|█████▍    | 2340/4286 [15:28:03<12:58:26, 24.00s/it]                                                         {'loss': 0.0242, 'grad_norm': 0.82440850695923, 'learning_rate': 4.540363975734951e-07, 'completion_length': 401.6607208251953, 'rewards/only_full_func_accuracy_reward': 0.6495535969734192, 'rewards/format_reward': 1.0, 'reward': 1.649553656578064, 'reward_std': 0.042762018740177155, 'kl': 0.60546875, 'epoch': 0.55}
+ 55%|█████▍    | 2340/4286 [15:28:03<12:58:26, 24.00s/it] 55%|█████▍    | 2341/4286 [15:28:26<12:46:50, 23.66s/it]                                                         {'loss': 0.0243, 'grad_norm': 0.7271590931259455, 'learning_rate': 4.5380307979468033e-07, 'completion_length': 369.5714416503906, 'rewards/only_full_func_accuracy_reward': 0.6168155074119568, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6078869700431824, 'reward_std': 0.06304986961185932, 'kl': 0.6109619140625, 'epoch': 0.55}
+ 55%|█████▍    | 2341/4286 [15:28:26<12:46:50, 23.66s/it] 55%|█████▍    | 2342/4286 [15:28:49<12:36:07, 23.34s/it]                                                         {'loss': 0.0138, 'grad_norm': 0.8800099140712621, 'learning_rate': 4.535697620158656e-07, 'completion_length': 359.21429443359375, 'rewards/only_full_func_accuracy_reward': 0.6979166567325592, 'rewards/format_reward': 1.0, 'reward': 1.6979168057441711, 'reward_std': 0.01781129650771618, 'kl': 0.3447265625, 'epoch': 0.55}
+ 55%|█████▍    | 2342/4286 [15:28:49<12:36:07, 23.34s/it] 55%|█████▍    | 2343/4286 [15:29:13<12:41:47, 23.52s/it]                                                         {'loss': 0.0799, 'grad_norm': 1.0196048705998972, 'learning_rate': 4.533364442370509e-07, 'completion_length': 412.6428680419922, 'rewards/only_full_func_accuracy_reward': 0.6541666984558105, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.6184524893760681, 'reward_std': 0.19313229620456696, 'kl': 1.99609375, 'epoch': 0.55}
+ 55%|█████▍    | 2343/4286 [15:29:13<12:41:47, 23.52s/it] 55%|█████▍    | 2344/4286 [15:29:37<12:47:27, 23.71s/it]                                                         {'loss': 0.034, 'grad_norm': 1.2187469742159414, 'learning_rate': 4.531031264582361e-07, 'completion_length': 408.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.6994048058986664, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6904762983322144, 'reward_std': 0.0877261832356453, 'kl': 0.853515625, 'epoch': 0.55}
+ 55%|█████▍    | 2344/4286 [15:29:37<12:47:27, 23.71s/it] 55%|█████▍    | 2345/4286 [15:30:00<12:41:27, 23.54s/it]                                                         {'loss': 0.0158, 'grad_norm': 0.4055486881172014, 'learning_rate': 4.528698086794214e-07, 'completion_length': 398.68751525878906, 'rewards/only_full_func_accuracy_reward': 0.7455357611179352, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7366072535514832, 'reward_std': 0.05839047580957413, 'kl': 0.3927001953125, 'epoch': 0.55}
+ 55%|█████▍    | 2345/4286 [15:30:00<12:41:27, 23.54s/it] 55%|█████▍    | 2346/4286 [15:30:25<12:53:51, 23.93s/it]                                                         {'loss': 0.0495, 'grad_norm': 0.6090944607334468, 'learning_rate': 4.5263649090060665e-07, 'completion_length': 457.08929443359375, 'rewards/only_full_func_accuracy_reward': 0.4821428805589676, 'rewards/format_reward': 0.973214328289032, 'reward': 1.4553571939468384, 'reward_std': 0.1280127316713333, 'kl': 1.234375, 'epoch': 0.55}
+ 55%|█████▍    | 2346/4286 [15:30:25<12:53:51, 23.93s/it] 55%|█████▍    | 2347/4286 [15:30:50<13:04:40, 24.28s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.4775531360297077, 'learning_rate': 4.5240317312179187e-07, 'completion_length': 449.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.7217262387275696, 'rewards/format_reward': 1.0, 'reward': 1.7217262387275696, 'reward_std': 0.016684187576174736, 'kl': 0.0377197265625, 'epoch': 0.55}
+ 55%|█████▍    | 2347/4286 [15:30:50<13:04:40, 24.28s/it] 55%|█████▍    | 2348/4286 [15:31:13<12:58:44, 24.11s/it]                                                         {'loss': 0.0143, 'grad_norm': 1.6943038890630142, 'learning_rate': 4.5216985534297715e-07, 'completion_length': 391.5714416503906, 'rewards/only_full_func_accuracy_reward': 0.694196492433548, 'rewards/format_reward': 1.0, 'reward': 1.6941965818405151, 'reward_std': 0.03516855835914612, 'kl': 0.35791015625, 'epoch': 0.55}
+ 55%|█████▍    | 2348/4286 [15:31:13<12:58:44, 24.11s/it] 55%|█████▍    | 2349/4286 [15:31:40<13:23:30, 24.89s/it]                                                         {'loss': 0.0259, 'grad_norm': 0.4191514398354254, 'learning_rate': 4.5193653756416237e-07, 'completion_length': 453.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.642857164144516, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6250000596046448, 'reward_std': 0.10253607109189034, 'kl': 0.644775390625, 'epoch': 0.55}
+ 55%|█████▍    | 2349/4286 [15:31:40<13:23:30, 24.89s/it] 55%|█████▍    | 2350/4286 [15:32:05<13:19:59, 24.79s/it]                                                         {'loss': 0.0203, 'grad_norm': 1.1701794691803902, 'learning_rate': 4.5170321978534765e-07, 'completion_length': 421.35716247558594, 'rewards/only_full_func_accuracy_reward': 0.7321428954601288, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7232144474983215, 'reward_std': 0.09757143631577492, 'kl': 0.505615234375, 'epoch': 0.55}
+ 55%|█████▍    | 2350/4286 [15:32:05<13:19:59, 24.79s/it] 55%|█████▍    | 2351/4286 [15:32:28<13:06:43, 24.39s/it]                                                         {'loss': 0.0265, 'grad_norm': 0.37603018990606807, 'learning_rate': 4.514699020065329e-07, 'completion_length': 413.6875305175781, 'rewards/only_full_func_accuracy_reward': 0.7232142686843872, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7053572535514832, 'reward_std': 0.05202764179557562, 'kl': 0.6639404296875, 'epoch': 0.55}
+ 55%|█████▍    | 2351/4286 [15:32:28<13:06:43, 24.39s/it] 55%|█████▍    | 2352/4286 [15:32:51<12:55:20, 24.05s/it]                                                         {'loss': 0.0249, 'grad_norm': 1.0393088330627054, 'learning_rate': 4.5123658422771814e-07, 'completion_length': 392.5982360839844, 'rewards/only_full_func_accuracy_reward': 0.773809552192688, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7648811340332031, 'reward_std': 0.08089209906756878, 'kl': 0.623779296875, 'epoch': 0.55}
+ 55%|█████▍    | 2352/4286 [15:32:51<12:55:20, 24.05s/it] 55%|█████▍    | 2353/4286 [15:33:16<12:55:08, 24.06s/it]                                                         {'loss': 0.0392, 'grad_norm': 0.7519756669788135, 'learning_rate': 4.510032664489034e-07, 'completion_length': 410.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.7285715043544769, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7196429371833801, 'reward_std': 0.08606298267841339, 'kl': 0.982421875, 'epoch': 0.55}
+ 55%|█████▍    | 2353/4286 [15:33:16<12:55:08, 24.06s/it] 55%|█████▍    | 2354/4286 [15:33:39<12:48:30, 23.87s/it]                                                         {'loss': 0.0215, 'grad_norm': 0.8708252068877442, 'learning_rate': 4.5076994867008864e-07, 'completion_length': 374.48216247558594, 'rewards/only_full_func_accuracy_reward': 0.6875, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6785715222358704, 'reward_std': 0.08858799189329147, 'kl': 0.5350341796875, 'epoch': 0.55}
+ 55%|█████▍    | 2354/4286 [15:33:39<12:48:30, 23.87s/it] 55%|█████▍    | 2355/4286 [15:34:04<12:58:18, 24.18s/it]                                                         {'loss': 0.037, 'grad_norm': 0.9544648949932341, 'learning_rate': 4.505366308912739e-07, 'completion_length': 449.17860412597656, 'rewards/only_full_func_accuracy_reward': 0.8303571939468384, 'rewards/format_reward': 1.0, 'reward': 1.8303571939468384, 'reward_std': 0.06117239221930504, 'kl': 0.923828125, 'epoch': 0.55}
+ 55%|█████▍    | 2355/4286 [15:34:04<12:58:18, 24.18s/it] 55%|█████▍    | 2356/4286 [15:34:27<12:50:52, 23.96s/it]                                                         {'loss': 0.0384, 'grad_norm': 1.318082839897994, 'learning_rate': 4.503033131124592e-07, 'completion_length': 367.4464569091797, 'rewards/only_full_func_accuracy_reward': 0.7467261552810669, 'rewards/format_reward': 1.0, 'reward': 1.7467263340950012, 'reward_std': 0.05846157390624285, 'kl': 0.96337890625, 'epoch': 0.55}
+ 55%|█████▍    | 2356/4286 [15:34:27<12:50:52, 23.96s/it] 55%|█████▍    | 2357/4286 [15:34:52<12:57:10, 24.17s/it]                                                         {'loss': 0.0275, 'grad_norm': 0.7119697141570372, 'learning_rate': 4.500699953336444e-07, 'completion_length': 435.6785888671875, 'rewards/only_full_func_accuracy_reward': 0.660714328289032, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6517857909202576, 'reward_std': 0.10202942043542862, 'kl': 0.6875, 'epoch': 0.55}
+ 55%|█████▍    | 2357/4286 [15:34:52<12:57:10, 24.17s/it] 55%|█████▌    | 2358/4286 [15:35:16<12:51:50, 24.02s/it]                                                         {'loss': 0.0133, 'grad_norm': 0.38722260560251975, 'learning_rate': 4.498366775548297e-07, 'completion_length': 391.4643096923828, 'rewards/only_full_func_accuracy_reward': 0.67038694024086, 'rewards/format_reward': 1.0, 'reward': 1.6703870296478271, 'reward_std': 0.06765411421656609, 'kl': 0.3326416015625, 'epoch': 0.55}
+ 55%|█████▌    | 2358/4286 [15:35:16<12:51:50, 24.02s/it] 55%|█████▌    | 2359/4286 [15:35:40<12:58:50, 24.25s/it]                                                         {'loss': 0.0431, 'grad_norm': 0.3523604866443662, 'learning_rate': 4.496033597760149e-07, 'completion_length': 423.3393096923828, 'rewards/only_full_func_accuracy_reward': 0.834970235824585, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8260418772697449, 'reward_std': 0.0977657102048397, 'kl': 1.078125, 'epoch': 0.55}
+ 55%|█████▌    | 2359/4286 [15:35:40<12:58:50, 24.25s/it] 55%|█████▌    | 2360/4286 [15:36:04<12:50:42, 24.01s/it]                                                         {'loss': 0.0142, 'grad_norm': 0.7702034097987586, 'learning_rate': 4.493700419972002e-07, 'completion_length': 391.43751525878906, 'rewards/only_full_func_accuracy_reward': 0.8095239102840424, 'rewards/format_reward': 1.0, 'reward': 1.8095239400863647, 'reward_std': 0.03479885496199131, 'kl': 0.3558349609375, 'epoch': 0.55}
+ 55%|█████▌    | 2360/4286 [15:36:04<12:50:42, 24.01s/it] 55%|█████▌    | 2361/4286 [15:36:28<12:55:46, 24.18s/it]                                                         {'loss': 0.0149, 'grad_norm': 0.2975111618138014, 'learning_rate': 4.4913672421838546e-07, 'completion_length': 417.52679443359375, 'rewards/only_full_func_accuracy_reward': 0.734375, 'rewards/format_reward': 1.0, 'reward': 1.7343751192092896, 'reward_std': 0.0344957634806633, 'kl': 0.3724365234375, 'epoch': 0.55}
+ 55%|█████▌    | 2361/4286 [15:36:28<12:55:46, 24.18s/it] 55%|█████▌    | 2362/4286 [15:36:51<12:36:29, 23.59s/it]                                                         {'loss': 0.0421, 'grad_norm': 1.2943543078671016, 'learning_rate': 4.489034064395707e-07, 'completion_length': 383.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.7619048058986664, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7529762983322144, 'reward_std': 0.0968063585460186, 'kl': 1.048828125, 'epoch': 0.55}
+ 55%|█████▌    | 2362/4286 [15:36:51<12:36:29, 23.59s/it] 55%|█████▌    | 2363/4286 [15:37:14<12:31:23, 23.44s/it]                                                         {'loss': 0.0493, 'grad_norm': 1.4626327053535413, 'learning_rate': 4.4867008866075596e-07, 'completion_length': 371.49107360839844, 'rewards/only_full_func_accuracy_reward': 0.6837798058986664, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6659227013587952, 'reward_std': 0.13207559287548065, 'kl': 1.234375, 'epoch': 0.55}
+ 55%|█████▌    | 2363/4286 [15:37:14<12:31:23, 23.44s/it] 55%|█████▌    | 2364/4286 [15:37:38<12:34:26, 23.55s/it]                                                         {'loss': 0.0135, 'grad_norm': 0.31204868937452557, 'learning_rate': 4.484367708819412e-07, 'completion_length': 399.58038330078125, 'rewards/only_full_func_accuracy_reward': 0.7514881193637848, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7425596714019775, 'reward_std': 0.08288824930787086, 'kl': 0.338623046875, 'epoch': 0.55}
+ 55%|█████▌    | 2364/4286 [15:37:38<12:34:26, 23.55s/it] 55%|█████▌    | 2365/4286 [15:38:00<12:20:58, 23.14s/it]                                                         {'loss': 0.0145, 'grad_norm': 1.8775165407178593, 'learning_rate': 4.4820345310312646e-07, 'completion_length': 369.0535888671875, 'rewards/only_full_func_accuracy_reward': 0.6183035671710968, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6093750596046448, 'reward_std': 0.06760836578905582, 'kl': 0.36328125, 'epoch': 0.55}
+ 55%|█████▌    | 2365/4286 [15:38:00<12:20:58, 23.14s/it] 55%|█████▌    | 2366/4286 [15:38:22<12:08:19, 22.76s/it]                                                         {'loss': 0.084, 'grad_norm': 10.052494462043603, 'learning_rate': 4.4797013532431173e-07, 'completion_length': 348.3839416503906, 'rewards/only_full_func_accuracy_reward': 0.5357142984867096, 'rewards/format_reward': 0.973214328289032, 'reward': 1.5089287161827087, 'reward_std': 0.15955106168985367, 'kl': 2.09375, 'epoch': 0.55}
+ 55%|█████▌    | 2366/4286 [15:38:22<12:08:19, 22.76s/it] 55%|█████▌    | 2367/4286 [15:38:45<12:17:36, 23.06s/it]                                                         {'loss': 0.0361, 'grad_norm': 0.545794248189968, 'learning_rate': 4.4773681754549695e-07, 'completion_length': 424.89288330078125, 'rewards/only_full_func_accuracy_reward': 0.8876488208770752, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8787204027175903, 'reward_std': 0.1431705243885517, 'kl': 0.9033203125, 'epoch': 0.55}
+ 55%|█████▌    | 2367/4286 [15:38:45<12:17:36, 23.06s/it] 55%|█████▌    | 2368/4286 [15:39:09<12:24:08, 23.28s/it]                                                         {'loss': 0.0251, 'grad_norm': 0.938014118111618, 'learning_rate': 4.4750349976668223e-07, 'completion_length': 370.7589416503906, 'rewards/only_full_func_accuracy_reward': 0.7931548058986664, 'rewards/format_reward': 1.0, 'reward': 1.7931548357009888, 'reward_std': 0.09008432179689407, 'kl': 0.6298828125, 'epoch': 0.55}
+ 55%|█████▌    | 2368/4286 [15:39:09<12:24:08, 23.28s/it] 55%|█████▌    | 2369/4286 [15:39:31<12:08:31, 22.80s/it]                                                         {'loss': 0.0132, 'grad_norm': 0.7693507730670345, 'learning_rate': 4.472701819878675e-07, 'completion_length': 357.7589416503906, 'rewards/only_full_func_accuracy_reward': 0.791666716337204, 'rewards/format_reward': 1.0, 'reward': 1.7916668057441711, 'reward_std': 0.0661628469824791, 'kl': 0.33056640625, 'epoch': 0.55}
+ 55%|█████▌    | 2369/4286 [15:39:31<12:08:31, 22.80s/it] 55%|█████▌    | 2370/4286 [15:39:52<11:55:46, 22.41s/it]                                                         {'loss': 0.0274, 'grad_norm': 0.7124696608223074, 'learning_rate': 4.470368642090527e-07, 'completion_length': 338.7857360839844, 'rewards/only_full_func_accuracy_reward': 0.8340774178504944, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8251489400863647, 'reward_std': 0.08613217808306217, 'kl': 0.6812744140625, 'epoch': 0.55}
+ 55%|█████▌    | 2370/4286 [15:39:52<11:55:46, 22.41s/it] 55%|█████▌    | 2371/4286 [15:40:16<12:07:36, 22.80s/it]                                                         {'loss': 0.061, 'grad_norm': 0.9961814707892663, 'learning_rate': 4.46803546430238e-07, 'completion_length': 360.2857360839844, 'rewards/only_full_func_accuracy_reward': 0.6242560148239136, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6153274774551392, 'reward_std': 0.0999795151874423, 'kl': 1.5234375, 'epoch': 0.55}
+ 55%|█████▌    | 2371/4286 [15:40:16<12:07:36, 22.80s/it] 55%|█████▌    | 2372/4286 [15:40:39<12:09:27, 22.87s/it]                                                         {'loss': 0.0872, 'grad_norm': 2.2963611281691687, 'learning_rate': 4.465702286514232e-07, 'completion_length': 340.16966247558594, 'rewards/only_full_func_accuracy_reward': 0.5706845223903656, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.5528274774551392, 'reward_std': 0.15859750658273697, 'kl': 2.1796875, 'epoch': 0.55}
+ 55%|█████▌    | 2372/4286 [15:40:39<12:09:27, 22.87s/it] 55%|█████▌    | 2373/4286 [15:41:04<12:26:18, 23.41s/it]                                                         {'loss': 0.0151, 'grad_norm': 0.2897385591293879, 'learning_rate': 4.463369108726085e-07, 'completion_length': 413.3928680419922, 'rewards/only_full_func_accuracy_reward': 0.7284226715564728, 'rewards/format_reward': 1.0, 'reward': 1.7284227013587952, 'reward_std': 0.02299764472991228, 'kl': 0.3775634765625, 'epoch': 0.55}
+ 55%|█████▌    | 2373/4286 [15:41:04<12:26:18, 23.41s/it] 55%|█████▌    | 2374/4286 [15:41:26<12:15:29, 23.08s/it]                                                         {'loss': 0.0328, 'grad_norm': 0.5893110819290185, 'learning_rate': 4.4610359309379377e-07, 'completion_length': 409.51788330078125, 'rewards/only_full_func_accuracy_reward': 0.7872024476528168, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7693454027175903, 'reward_std': 0.0786360539495945, 'kl': 0.8203125, 'epoch': 0.55}
+ 55%|█████▌    | 2374/4286 [15:41:26<12:15:29, 23.08s/it] 55%|█████▌    | 2375/4286 [15:41:50<12:19:14, 23.21s/it]                                                         {'loss': 0.0671, 'grad_norm': 1.2076088002678445, 'learning_rate': 4.45870275314979e-07, 'completion_length': 395.7410888671875, 'rewards/only_full_func_accuracy_reward': 0.6943452656269073, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.676488220691681, 'reward_std': 0.14611710608005524, 'kl': 1.67578125, 'epoch': 0.55}
+ 55%|█████▌    | 2375/4286 [15:41:50<12:19:14, 23.21s/it] 55%|█████▌    | 2376/4286 [15:42:13<12:22:10, 23.31s/it]                                                         {'loss': 0.0164, 'grad_norm': 0.30183191320492553, 'learning_rate': 4.4563695753616427e-07, 'completion_length': 412.76788330078125, 'rewards/only_full_func_accuracy_reward': 0.8318452835083008, 'rewards/format_reward': 1.0, 'reward': 1.8318453431129456, 'reward_std': 0.04629865661263466, 'kl': 0.410888671875, 'epoch': 0.55}
+ 55%|█████▌    | 2376/4286 [15:42:13<12:22:10, 23.31s/it] 55%|█████▌    | 2377/4286 [15:42:38<12:34:08, 23.70s/it]                                                         {'loss': 0.0571, 'grad_norm': 1.4962502665993804, 'learning_rate': 4.454036397573495e-07, 'completion_length': 411.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.8058035969734192, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7879465222358704, 'reward_std': 0.15011930465698242, 'kl': 1.42578125, 'epoch': 0.55}
+ 55%|█████▌    | 2377/4286 [15:42:38<12:34:08, 23.70s/it] 55%|█████▌    | 2378/4286 [15:43:00<12:22:14, 23.34s/it]                                                         {'loss': 0.0479, 'grad_norm': 5.859018830479643, 'learning_rate': 4.4517032197853477e-07, 'completion_length': 364.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.6912202835083008, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.673363208770752, 'reward_std': 0.10145949199795723, 'kl': 1.19775390625, 'epoch': 0.55}
+ 55%|█████▌    | 2378/4286 [15:43:00<12:22:14, 23.34s/it] 56%|█████▌    | 2379/4286 [15:43:24<12:24:40, 23.43s/it]                                                         {'loss': 0.0145, 'grad_norm': 0.5963348126713055, 'learning_rate': 4.4493700419972004e-07, 'completion_length': 404.5089416503906, 'rewards/only_full_func_accuracy_reward': 0.70163694024086, 'rewards/format_reward': 1.0, 'reward': 1.7016370296478271, 'reward_std': 0.053610604256391525, 'kl': 0.3634033203125, 'epoch': 0.56}
+ 56%|█████▌    | 2379/4286 [15:43:24<12:24:40, 23.43s/it] 56%|█████▌    | 2380/4286 [15:43:48<12:26:11, 23.49s/it]                                                         {'loss': 0.0595, 'grad_norm': 0.7526560766249323, 'learning_rate': 4.4470368642090527e-07, 'completion_length': 410.3839416503906, 'rewards/only_full_func_accuracy_reward': 0.6614584028720856, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6436012983322144, 'reward_std': 0.1228841096162796, 'kl': 1.48828125, 'epoch': 0.56}
+ 56%|█████▌    | 2380/4286 [15:43:48<12:26:11, 23.49s/it] 56%|█████▌    | 2381/4286 [15:44:13<12:40:14, 23.94s/it]                                                         {'loss': 0.0273, 'grad_norm': 0.47602116731450494, 'learning_rate': 4.4447036864209054e-07, 'completion_length': 441.0714569091797, 'rewards/only_full_func_accuracy_reward': 0.7109375298023224, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7020090222358704, 'reward_std': 0.10395774990320206, 'kl': 0.67724609375, 'epoch': 0.56}
+ 56%|█████▌    | 2381/4286 [15:44:13<12:40:14, 23.94s/it] 56%|█████▌    | 2382/4286 [15:44:36<12:39:26, 23.93s/it]                                                         {'loss': 0.0408, 'grad_norm': 0.727298303252157, 'learning_rate': 4.4423705086327576e-07, 'completion_length': 397.35716247558594, 'rewards/only_full_func_accuracy_reward': 0.632440522313118, 'rewards/format_reward': 0.973214328289032, 'reward': 1.6056548357009888, 'reward_std': 0.11831344664096832, 'kl': 1.021484375, 'epoch': 0.56}
+ 56%|█████▌    | 2382/4286 [15:44:36<12:39:26, 23.93s/it] 56%|█████▌    | 2383/4286 [15:44:59<12:30:23, 23.66s/it]                                                         {'loss': 0.0265, 'grad_norm': 0.5494480562415501, 'learning_rate': 4.4400373308446104e-07, 'completion_length': 389.2768096923828, 'rewards/only_full_func_accuracy_reward': 0.7068452835083008, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6979168057441711, 'reward_std': 0.06313453428447247, 'kl': 0.662109375, 'epoch': 0.56}
+ 56%|█████▌    | 2383/4286 [15:44:59<12:30:23, 23.66s/it] 56%|█████▌    | 2384/4286 [15:45:24<12:34:29, 23.80s/it]                                                         {'loss': 0.0636, 'grad_norm': 1.7771204979719204, 'learning_rate': 4.437704153056463e-07, 'completion_length': 429.5357360839844, 'rewards/only_full_func_accuracy_reward': 0.661309540271759, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6523810625076294, 'reward_std': 0.09165070205926895, 'kl': 1.58935546875, 'epoch': 0.56}
+ 56%|█████▌    | 2384/4286 [15:45:24<12:34:29, 23.80s/it] 56%|█████▌    | 2385/4286 [15:45:47<12:32:51, 23.76s/it]                                                         {'loss': 0.0771, 'grad_norm': 2.1305673819686084, 'learning_rate': 4.4353709752683153e-07, 'completion_length': 402.9643096923828, 'rewards/only_full_func_accuracy_reward': 0.6585246920585632, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6406675577163696, 'reward_std': 0.13611815497279167, 'kl': 1.927734375, 'epoch': 0.56}
+ 56%|█████▌    | 2385/4286 [15:45:47<12:32:51, 23.76s/it] 56%|█████▌    | 2386/4286 [15:46:11<12:34:03, 23.81s/it]                                                         {'loss': 0.0476, 'grad_norm': 1.1090504283647296, 'learning_rate': 4.433037797480168e-07, 'completion_length': 421.75001525878906, 'rewards/only_full_func_accuracy_reward': 0.6532738208770752, 'rewards/format_reward': 1.0, 'reward': 1.6532739400863647, 'reward_std': 0.13183873891830444, 'kl': 1.19140625, 'epoch': 0.56}
+ 56%|█████▌    | 2386/4286 [15:46:11<12:34:03, 23.81s/it] 56%|█████▌    | 2387/4286 [15:46:35<12:32:06, 23.76s/it]                                                         {'loss': 0.0429, 'grad_norm': 2.0669916203406653, 'learning_rate': 4.4307046196920203e-07, 'completion_length': 414.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.6227678656578064, 'rewards/format_reward': 1.0, 'reward': 1.6227680444717407, 'reward_std': 0.07305796630680561, 'kl': 1.0703125, 'epoch': 0.56}
+ 56%|█████▌    | 2387/4286 [15:46:35<12:32:06, 23.76s/it] 56%|█████▌    | 2388/4286 [15:46:57<12:17:54, 23.33s/it]                                                         {'loss': 0.0658, 'grad_norm': 1.3560395296834429, 'learning_rate': 4.428371441903873e-07, 'completion_length': 381.75001525878906, 'rewards/only_full_func_accuracy_reward': 0.7604166865348816, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.751488208770752, 'reward_std': 0.09424534067511559, 'kl': 1.638671875, 'epoch': 0.56}
+ 56%|█████▌    | 2388/4286 [15:46:57<12:17:54, 23.33s/it] 56%|█████▌    | 2389/4286 [15:47:21<12:26:12, 23.60s/it]                                                         {'loss': 0.0251, 'grad_norm': 0.6825288614101678, 'learning_rate': 4.426038264115726e-07, 'completion_length': 375.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.6525298058986664, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6346727013587952, 'reward_std': 0.07871945202350616, 'kl': 0.629150390625, 'epoch': 0.56}
+ 56%|█████▌    | 2389/4286 [15:47:21<12:26:12, 23.60s/it] 56%|█████▌    | 2390/4286 [15:47:45<12:24:16, 23.55s/it]                                                         {'loss': 0.0475, 'grad_norm': 0.6422755125877969, 'learning_rate': 4.423705086327578e-07, 'completion_length': 396.7143096923828, 'rewards/only_full_func_accuracy_reward': 0.70163694024086, 'rewards/format_reward': 1.0, 'reward': 1.7016370296478271, 'reward_std': 0.09992586821317673, 'kl': 1.18359375, 'epoch': 0.56}
+ 56%|█████▌    | 2390/4286 [15:47:45<12:24:16, 23.55s/it] 56%|█████▌    | 2391/4286 [15:48:08<12:21:28, 23.48s/it]                                                         {'loss': 0.0739, 'grad_norm': 1.3003392757890342, 'learning_rate': 4.421371908539431e-07, 'completion_length': 340.0982360839844, 'rewards/only_full_func_accuracy_reward': 0.6093750298023224, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6004465222358704, 'reward_std': 0.15086716040968895, 'kl': 1.84765625, 'epoch': 0.56}
+ 56%|█████▌    | 2391/4286 [15:48:08<12:21:28, 23.48s/it] 56%|█████▌    | 2392/4286 [15:48:31<12:12:49, 23.22s/it]                                                         {'loss': 0.0471, 'grad_norm': 0.626065216790925, 'learning_rate': 4.4190387307512836e-07, 'completion_length': 380.79466247558594, 'rewards/only_full_func_accuracy_reward': 0.6924107372760773, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6834822297096252, 'reward_std': 0.08987235277891159, 'kl': 1.177490234375, 'epoch': 0.56}
+ 56%|█████▌    | 2392/4286 [15:48:31<12:12:49, 23.22s/it] 56%|█████▌    | 2393/4286 [15:48:55<12:26:15, 23.65s/it]                                                         {'loss': 0.0217, 'grad_norm': 1.379484559314212, 'learning_rate': 4.416705552963136e-07, 'completion_length': 411.8214569091797, 'rewards/only_full_func_accuracy_reward': 0.6376488208770752, 'rewards/format_reward': 1.0, 'reward': 1.6376489400863647, 'reward_std': 0.07951394096016884, 'kl': 0.5439453125, 'epoch': 0.56}
+ 56%|█████▌    | 2393/4286 [15:48:55<12:26:15, 23.65s/it] 56%|█████▌    | 2394/4286 [15:49:20<12:32:10, 23.85s/it]                                                         {'loss': 0.0529, 'grad_norm': 1.3271636705543925, 'learning_rate': 4.4143723751749885e-07, 'completion_length': 391.3035888671875, 'rewards/only_full_func_accuracy_reward': 0.6798295974731445, 'rewards/format_reward': 0.973214328289032, 'reward': 1.6530438661575317, 'reward_std': 0.14931102842092514, 'kl': 1.318359375, 'epoch': 0.56}
+ 56%|█████▌    | 2394/4286 [15:49:20<12:32:10, 23.85s/it] 56%|█████▌    | 2395/4286 [15:49:44<12:35:24, 23.97s/it]                                                         {'loss': 0.0389, 'grad_norm': 1.01223439925841, 'learning_rate': 4.412039197386841e-07, 'completion_length': 426.75001525878906, 'rewards/only_full_func_accuracy_reward': 0.6935200095176697, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6756629943847656, 'reward_std': 0.10641113668680191, 'kl': 0.973876953125, 'epoch': 0.56}
+ 56%|█████▌    | 2395/4286 [15:49:44<12:35:24, 23.97s/it] 56%|█████▌    | 2396/4286 [15:50:08<12:36:00, 24.00s/it]                                                         {'loss': 0.0376, 'grad_norm': 1.8729359162376285, 'learning_rate': 4.4097060195986935e-07, 'completion_length': 418.8839416503906, 'rewards/only_full_func_accuracy_reward': 0.6116071939468384, 'rewards/format_reward': 1.0, 'reward': 1.6116071939468384, 'reward_std': 0.053282758221030235, 'kl': 0.943359375, 'epoch': 0.56}
+ 56%|█████▌    | 2396/4286 [15:50:08<12:36:00, 24.00s/it] 56%|█████▌    | 2397/4286 [15:50:31<12:29:08, 23.79s/it]                                                         {'loss': 0.0107, 'grad_norm': 0.6427781862983827, 'learning_rate': 4.407372841810546e-07, 'completion_length': 391.8928680419922, 'rewards/only_full_func_accuracy_reward': 0.5714285969734192, 'rewards/format_reward': 1.0, 'reward': 1.5714285969734192, 'reward_std': 0.04285800829529762, 'kl': 0.2701416015625, 'epoch': 0.56}
+ 56%|█████▌    | 2397/4286 [15:50:31<12:29:08, 23.79s/it] 56%|█████▌    | 2398/4286 [15:50:55<12:22:38, 23.60s/it]                                                         {'loss': 0.0362, 'grad_norm': 2.110720377872901, 'learning_rate': 4.4050396640223985e-07, 'completion_length': 380.6339416503906, 'rewards/only_full_func_accuracy_reward': 0.7217262387275696, 'rewards/format_reward': 1.0, 'reward': 1.7217262983322144, 'reward_std': 0.06313453428447247, 'kl': 0.90234375, 'epoch': 0.56}
+ 56%|█████▌    | 2398/4286 [15:50:55<12:22:38, 23.60s/it] 56%|█████▌    | 2399/4286 [15:51:20<12:38:08, 24.11s/it]                                                         {'loss': 0.0176, 'grad_norm': 0.9140661820533097, 'learning_rate': 4.402706486234251e-07, 'completion_length': 441.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.7001488506793976, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6912204027175903, 'reward_std': 0.11797207407653332, 'kl': 0.4420166015625, 'epoch': 0.56}
+ 56%|█████▌    | 2399/4286 [15:51:20<12:38:08, 24.11s/it] 56%|█████▌    | 2400/4286 [15:51:44<12:39:35, 24.17s/it]                                                         {'loss': 0.0656, 'grad_norm': 1.3658073643442183, 'learning_rate': 4.4003733084461034e-07, 'completion_length': 410.08929443359375, 'rewards/only_full_func_accuracy_reward': 0.7260417342185974, 'rewards/format_reward': 1.0, 'reward': 1.7260417342185974, 'reward_std': 0.11117060109972954, 'kl': 1.638671875, 'epoch': 0.56}
+ 56%|█████▌    | 2400/4286 [15:51:44<12:39:35, 24.17s/it] 56%|█████▌    | 2401/4286 [15:53:22<24:10:49, 46.18s/it]                                                         {'loss': 0.0198, 'grad_norm': 1.3984886759035, 'learning_rate': 4.398040130657956e-07, 'completion_length': 356.0982208251953, 'rewards/only_full_func_accuracy_reward': 0.7470238208770752, 'rewards/format_reward': 1.0, 'reward': 1.7470239400863647, 'reward_std': 0.07432927936315536, 'kl': 0.494140625, 'epoch': 0.56}
+ 56%|█████▌    | 2401/4286 [15:53:22<24:10:49, 46.18s/it] 56%|█████▌    | 2402/4286 [15:53:46<20:48:14, 39.75s/it]                                                         {'loss': 0.0361, 'grad_norm': 0.5343148736556034, 'learning_rate': 4.395706952869809e-07, 'completion_length': 413.9553680419922, 'rewards/only_full_func_accuracy_reward': 0.6726191341876984, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6636905670166016, 'reward_std': 0.07576144859194756, 'kl': 0.900390625, 'epoch': 0.56}
+ 56%|█████▌    | 2402/4286 [15:53:46<20:48:14, 39.75s/it] 56%|█████▌    | 2403/4286 [15:54:11<18:21:47, 35.11s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.49965870908979065, 'learning_rate': 4.393373775081661e-07, 'completion_length': 451.70538330078125, 'rewards/only_full_func_accuracy_reward': 0.8114583790302277, 'rewards/format_reward': 1.0, 'reward': 1.8114584684371948, 'reward_std': 0.030178749933838844, 'kl': 0.0369873046875, 'epoch': 0.56}
+ 56%|█████▌    | 2403/4286 [15:54:11<18:21:47, 35.11s/it] 56%|█████▌    | 2404/4286 [15:54:33<16:21:12, 31.28s/it]                                                         {'loss': 0.0229, 'grad_norm': 0.9010212678069447, 'learning_rate': 4.391040597293514e-07, 'completion_length': 380.48216247558594, 'rewards/only_full_func_accuracy_reward': 0.7860119342803955, 'rewards/format_reward': 1.0, 'reward': 1.786012053489685, 'reward_std': 0.04530518129467964, 'kl': 0.5711669921875, 'epoch': 0.56}
+ 56%|█████▌    | 2404/4286 [15:54:33<16:21:12, 31.28s/it] 56%|█████▌    | 2405/4286 [15:54:58<15:23:46, 29.47s/it]                                                         {'loss': 0.0476, 'grad_norm': 1.4143695859395586, 'learning_rate': 4.388707419505366e-07, 'completion_length': 412.9464569091797, 'rewards/only_full_func_accuracy_reward': 0.6071428656578064, 'rewards/format_reward': 1.0, 'reward': 1.607142984867096, 'reward_std': 0.07825713232159615, 'kl': 1.19140625, 'epoch': 0.56}
+ 56%|█████▌    | 2405/4286 [15:54:58<15:23:46, 29.47s/it] 56%|█████▌    | 2406/4286 [15:55:22<14:33:51, 27.89s/it]                                                         {'loss': 0.0487, 'grad_norm': 1.4933991322463058, 'learning_rate': 4.386374241717219e-07, 'completion_length': 411.66966247558594, 'rewards/only_full_func_accuracy_reward': 0.5863095223903656, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.5684524774551392, 'reward_std': 0.15611806884407997, 'kl': 1.21484375, 'epoch': 0.56}
+ 56%|█████▌    | 2406/4286 [15:55:22<14:33:51, 27.89s/it] 56%|█████▌    | 2407/4286 [15:55:47<13:59:52, 26.82s/it]                                                         {'loss': 0.0206, 'grad_norm': 1.300016022569136, 'learning_rate': 4.3840410639290716e-07, 'completion_length': 423.50001525878906, 'rewards/only_full_func_accuracy_reward': 0.5610119104385376, 'rewards/format_reward': 1.0, 'reward': 1.5610120296478271, 'reward_std': 0.03501640260219574, 'kl': 0.5146484375, 'epoch': 0.56}
+ 56%|█████▌    | 2407/4286 [15:55:47<13:59:52, 26.82s/it] 56%|█████▌    | 2408/4286 [15:56:10<13:30:07, 25.88s/it]                                                         {'loss': 0.0096, 'grad_norm': 0.8666975598362545, 'learning_rate': 4.381707886140924e-07, 'completion_length': 382.60716247558594, 'rewards/only_full_func_accuracy_reward': 0.630952388048172, 'rewards/format_reward': 1.0, 'reward': 1.6309524774551392, 'reward_std': 0.026077548041939735, 'kl': 0.23974609375, 'epoch': 0.56}
+ 56%|█████▌    | 2408/4286 [15:56:10<13:30:07, 25.88s/it] 56%|█████▌    | 2409/4286 [15:56:35<13:17:25, 25.49s/it]                                                         {'loss': 0.008, 'grad_norm': 0.8101889986913918, 'learning_rate': 4.3793747083527766e-07, 'completion_length': 448.4464416503906, 'rewards/only_full_func_accuracy_reward': 0.7142857313156128, 'rewards/format_reward': 1.0, 'reward': 1.7142858505249023, 'reward_std': 0.05005257111042738, 'kl': 0.2003173828125, 'epoch': 0.56}
+ 56%|█████▌    | 2409/4286 [15:56:35<13:17:25, 25.49s/it] 56%|█████▌    | 2410/4286 [15:56:59<12:58:52, 24.91s/it]                                                         {'loss': 0.0797, 'grad_norm': 1.2288087309230622, 'learning_rate': 4.377041530564629e-07, 'completion_length': 370.7410888671875, 'rewards/only_full_func_accuracy_reward': 0.6845238506793976, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.6488096714019775, 'reward_std': 0.13813083618879318, 'kl': 1.9921875, 'epoch': 0.56}
+ 56%|█████▌    | 2410/4286 [15:56:59<12:58:52, 24.91s/it] 56%|█████▋    | 2411/4286 [15:57:23<12:57:35, 24.88s/it]                                                         {'loss': 0.0276, 'grad_norm': 1.8687757424451357, 'learning_rate': 4.374708352776481e-07, 'completion_length': 434.51788330078125, 'rewards/only_full_func_accuracy_reward': 0.6517857313156128, 'rewards/format_reward': 1.0, 'reward': 1.6517858505249023, 'reward_std': 0.0417863167822361, 'kl': 0.6910400390625, 'epoch': 0.56}
+ 56%|█████▋    | 2411/4286 [15:57:23<12:57:35, 24.88s/it] 56%|█████▋    | 2412/4286 [15:57:48<12:54:56, 24.81s/it]                                                         {'loss': 0.0122, 'grad_norm': 0.6531648987782368, 'learning_rate': 4.372375174988334e-07, 'completion_length': 443.8125305175781, 'rewards/only_full_func_accuracy_reward': 0.6949405074119568, 'rewards/format_reward': 1.0, 'reward': 1.6949406266212463, 'reward_std': 0.07094573229551315, 'kl': 0.3048095703125, 'epoch': 0.56}
+ 56%|█████▋    | 2412/4286 [15:57:48<12:54:56, 24.81s/it] 56%|█████▋    | 2413/4286 [15:58:11<12:36:14, 24.23s/it]                                                         {'loss': 0.0016, 'grad_norm': 0.4561228046475568, 'learning_rate': 4.370041997200186e-07, 'completion_length': 380.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.6138392984867096, 'rewards/format_reward': 1.0, 'reward': 1.6138393878936768, 'reward_std': 0.02607782557606697, 'kl': 0.041015625, 'epoch': 0.56}
+ 56%|█████▋    | 2413/4286 [15:58:11<12:36:14, 24.23s/it] 56%|█████▋    | 2414/4286 [15:58:34<12:25:06, 23.88s/it]                                                         {'loss': 0.0081, 'grad_norm': 0.576097981354507, 'learning_rate': 4.367708819412039e-07, 'completion_length': 343.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.700892835855484, 'rewards/format_reward': 1.0, 'reward': 1.7008929252624512, 'reward_std': 0.033671753481030464, 'kl': 0.2032470703125, 'epoch': 0.56}
+ 56%|█████▋    | 2414/4286 [15:58:34<12:25:06, 23.88s/it] 56%|█████▋    | 2415/4286 [15:58:59<12:30:34, 24.07s/it]                                                         {'loss': 0.0209, 'grad_norm': 0.8038957335021549, 'learning_rate': 4.365375641623891e-07, 'completion_length': 445.50001525878906, 'rewards/only_full_func_accuracy_reward': 0.6711310148239136, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.662202537059784, 'reward_std': 0.10890382900834084, 'kl': 0.52490234375, 'epoch': 0.56}
+ 56%|█████▋    | 2415/4286 [15:58:59<12:30:34, 24.07s/it] 56%|█████▋    | 2416/4286 [15:59:22<12:21:47, 23.80s/it]                                                         {'loss': 0.0018, 'grad_norm': 0.19810973216824543, 'learning_rate': 4.363042463835744e-07, 'completion_length': 400.7410888671875, 'rewards/only_full_func_accuracy_reward': 0.7455357611179352, 'rewards/format_reward': 1.0, 'reward': 1.7455358505249023, 'reward_std': 0.021044845692813396, 'kl': 0.044921875, 'epoch': 0.56}
+ 56%|█████▋    | 2416/4286 [15:59:22<12:21:47, 23.80s/it] 56%|█████▋    | 2417/4286 [15:59:45<12:18:11, 23.70s/it]                                                         {'loss': 0.0014, 'grad_norm': 0.33657740507162687, 'learning_rate': 4.3607092860475965e-07, 'completion_length': 402.48216247558594, 'rewards/only_full_func_accuracy_reward': 0.60788694024086, 'rewards/format_reward': 1.0, 'reward': 1.6078870296478271, 'reward_std': 0.02833203785121441, 'kl': 0.0361328125, 'epoch': 0.56}
+ 56%|█████▋    | 2417/4286 [15:59:45<12:18:11, 23.70s/it] 56%|█████▋    | 2418/4286 [16:00:09<12:15:33, 23.63s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.3474293924808216, 'learning_rate': 4.358376108259449e-07, 'completion_length': 415.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.68601194024086, 'rewards/format_reward': 1.0, 'reward': 1.6860119700431824, 'reward_std': 0.039377059787511826, 'kl': 0.0379638671875, 'epoch': 0.56}
+ 56%|█████▋    | 2418/4286 [16:00:09<12:15:33, 23.63s/it] 56%|█████▋    | 2419/4286 [16:00:32<12:14:59, 23.62s/it]                                                         {'loss': 0.0542, 'grad_norm': 1.3911384927296222, 'learning_rate': 4.3560429304713015e-07, 'completion_length': 418.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.723214328289032, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7142858505249023, 'reward_std': 0.1264687180519104, 'kl': 1.35546875, 'epoch': 0.56}
+ 56%|█████▋    | 2419/4286 [16:00:32<12:14:59, 23.62s/it] 56%|█████▋    | 2420/4286 [16:00:57<12:25:42, 23.98s/it]                                                         {'loss': 0.0016, 'grad_norm': 0.15236848736647574, 'learning_rate': 4.353709752683154e-07, 'completion_length': 411.25001525878906, 'rewards/only_full_func_accuracy_reward': 0.8593750298023224, 'rewards/format_reward': 1.0, 'reward': 1.8593751192092896, 'reward_std': 0.035168553702533245, 'kl': 0.0400390625, 'epoch': 0.56}
+ 56%|█████▋    | 2420/4286 [16:00:57<12:25:42, 23.98s/it] 56%|█████▋    | 2421/4286 [16:01:21<12:22:55, 23.90s/it]                                                         {'loss': 0.0018, 'grad_norm': 0.8552621492768996, 'learning_rate': 4.3513765748950065e-07, 'completion_length': 396.6339416503906, 'rewards/only_full_func_accuracy_reward': 0.7909226715564728, 'rewards/format_reward': 1.0, 'reward': 1.7909227013587952, 'reward_std': 0.041112310253083706, 'kl': 0.044677734375, 'epoch': 0.56}
+ 56%|█████▋    | 2421/4286 [16:01:21<12:22:55, 23.90s/it] 57%|█████▋    | 2422/4286 [16:01:43<12:04:06, 23.31s/it]                                                         {'loss': 0.0436, 'grad_norm': 1.1365655617473682, 'learning_rate': 4.349043397106859e-07, 'completion_length': 322.6518096923828, 'rewards/only_full_func_accuracy_reward': 0.758556604385376, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7496280670166016, 'reward_std': 0.08087096735835075, 'kl': 1.08984375, 'epoch': 0.57}
+ 57%|█████▋    | 2422/4286 [16:01:43<12:04:06, 23.31s/it] 57%|█████▋    | 2423/4286 [16:02:07<12:12:45, 23.60s/it]                                                         {'loss': 0.0015, 'grad_norm': 1.0004450411198367, 'learning_rate': 4.3467102193187114e-07, 'completion_length': 418.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.675595223903656, 'rewards/format_reward': 1.0, 'reward': 1.6755953431129456, 'reward_std': 0.016532503068447113, 'kl': 0.0384521484375, 'epoch': 0.57}
+ 57%|█████▋    | 2423/4286 [16:02:07<12:12:45, 23.60s/it] 57%|█████▋    | 2424/4286 [16:02:31<12:19:50, 23.84s/it]                                                         {'loss': 0.0124, 'grad_norm': 0.9290551310097509, 'learning_rate': 4.344377041530564e-07, 'completion_length': 427.6518096923828, 'rewards/only_full_func_accuracy_reward': 0.7088913917541504, 'rewards/format_reward': 1.0, 'reward': 1.70889151096344, 'reward_std': 0.10003408789634705, 'kl': 0.3101806640625, 'epoch': 0.57}
+ 57%|█████▋    | 2424/4286 [16:02:31<12:19:50, 23.84s/it] 57%|█████▋    | 2425/4286 [16:02:56<12:27:15, 24.09s/it]                                                         {'loss': 0.0121, 'grad_norm': 0.6674634833356895, 'learning_rate': 4.342043863742417e-07, 'completion_length': 422.89288330078125, 'rewards/only_full_func_accuracy_reward': 0.766369104385376, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7574405670166016, 'reward_std': 0.04193800315260887, 'kl': 0.3016357421875, 'epoch': 0.57}
+ 57%|█████▋    | 2425/4286 [16:02:56<12:27:15, 24.09s/it] 57%|█████▋    | 2426/4286 [16:03:20<12:25:50, 24.06s/it]                                                         {'loss': 0.0725, 'grad_norm': 7.354325037936295, 'learning_rate': 4.339710685954269e-07, 'completion_length': 404.79466247558594, 'rewards/only_full_func_accuracy_reward': 0.5416667014360428, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.5059524774551392, 'reward_std': 0.19178859889507294, 'kl': 1.81640625, 'epoch': 0.57}
+ 57%|█████▋    | 2426/4286 [16:03:20<12:25:50, 24.06s/it] 57%|█████▋    | 2427/4286 [16:03:45<12:31:34, 24.26s/it]                                                         {'loss': 0.0156, 'grad_norm': 0.9636883817152497, 'learning_rate': 4.337377508166122e-07, 'completion_length': 440.7053680419922, 'rewards/only_full_func_accuracy_reward': 0.7299107611179352, 'rewards/format_reward': 1.0, 'reward': 1.7299108505249023, 'reward_std': 0.057023853063583374, 'kl': 0.390380859375, 'epoch': 0.57}
+ 57%|█████▋    | 2427/4286 [16:03:45<12:31:34, 24.26s/it] 57%|█████▋    | 2428/4286 [16:04:09<12:30:51, 24.25s/it]                                                         {'loss': 0.013, 'grad_norm': 0.9142144291746414, 'learning_rate': 4.335044330377974e-07, 'completion_length': 417.7589416503906, 'rewards/only_full_func_accuracy_reward': 0.7455357611179352, 'rewards/format_reward': 1.0, 'reward': 1.7455359101295471, 'reward_std': 0.01899026846513152, 'kl': 0.3262939453125, 'epoch': 0.57}
+ 57%|█████▋    | 2428/4286 [16:04:09<12:30:51, 24.25s/it] 57%|█████▋    | 2429/4286 [16:04:33<12:30:15, 24.24s/it]                                                         {'loss': 0.0495, 'grad_norm': 0.9313132446566317, 'learning_rate': 4.332711152589827e-07, 'completion_length': 426.9553680419922, 'rewards/only_full_func_accuracy_reward': 0.6528273522853851, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6349703073501587, 'reward_std': 0.1193397305905819, 'kl': 1.2421875, 'epoch': 0.57}
+ 57%|█████▋    | 2429/4286 [16:04:33<12:30:15, 24.24s/it] 57%|█████▋    | 2430/4286 [16:04:57<12:28:10, 24.19s/it]                                                         {'loss': 0.081, 'grad_norm': 1.469879128673979, 'learning_rate': 4.3303779748016796e-07, 'completion_length': 417.16966247558594, 'rewards/only_full_func_accuracy_reward': 0.5517113357782364, 'rewards/format_reward': 0.9464285969734192, 'reward': 1.4981399774551392, 'reward_std': 0.20421767979860306, 'kl': 2.0234375, 'epoch': 0.57}
+ 57%|█████▋    | 2430/4286 [16:04:57<12:28:10, 24.19s/it] 57%|█████▋    | 2431/4286 [16:05:22<12:32:17, 24.33s/it]                                                         {'loss': 0.0302, 'grad_norm': 1.6240343993692699, 'learning_rate': 4.328044797013532e-07, 'completion_length': 407.5535888671875, 'rewards/only_full_func_accuracy_reward': 0.70163694024086, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.692708432674408, 'reward_std': 0.11706762760877609, 'kl': 0.7567138671875, 'epoch': 0.57}
+ 57%|█████▋    | 2431/4286 [16:05:22<12:32:17, 24.33s/it] 57%|█████▋    | 2432/4286 [16:05:44<12:13:42, 23.74s/it]                                                         {'loss': 0.0891, 'grad_norm': 1.0193777187277302, 'learning_rate': 4.3257116192253846e-07, 'completion_length': 374.1428680419922, 'rewards/only_full_func_accuracy_reward': 0.7328869700431824, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.6971727013587952, 'reward_std': 0.2240312620997429, 'kl': 2.2265625, 'epoch': 0.57}
+ 57%|█████▋    | 2432/4286 [16:05:44<12:13:42, 23.74s/it] 57%|█████▋    | 2433/4286 [16:06:09<12:20:45, 23.99s/it]                                                         {'loss': 0.047, 'grad_norm': 0.6727125355307629, 'learning_rate': 4.323378441437237e-07, 'completion_length': 393.9107208251953, 'rewards/only_full_func_accuracy_reward': 0.6205357313156128, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6116072535514832, 'reward_std': 0.058505693450570107, 'kl': 1.171875, 'epoch': 0.57}
+ 57%|█████▋    | 2433/4286 [16:06:09<12:20:45, 23.99s/it] 57%|█████▋    | 2434/4286 [16:06:34<12:27:56, 24.23s/it]                                                         {'loss': 0.115, 'grad_norm': 3.3610265627369964, 'learning_rate': 4.3210452636490896e-07, 'completion_length': 452.04466247558594, 'rewards/only_full_func_accuracy_reward': 0.6636905670166016, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.6279763579368591, 'reward_std': 0.17381508275866508, 'kl': 2.869140625, 'epoch': 0.57}
+ 57%|█████▋    | 2434/4286 [16:06:34<12:27:56, 24.23s/it] 57%|█████▋    | 2435/4286 [16:06:56<12:11:34, 23.71s/it]                                                         {'loss': 0.0103, 'grad_norm': 0.6954337156280369, 'learning_rate': 4.3187120858609423e-07, 'completion_length': 355.80357360839844, 'rewards/only_full_func_accuracy_reward': 0.9136904776096344, 'rewards/format_reward': 1.0, 'reward': 1.9136905670166016, 'reward_std': 0.04722033999860287, 'kl': 0.2568359375, 'epoch': 0.57}
+ 57%|█████▋    | 2435/4286 [16:06:56<12:11:34, 23.71s/it] 57%|█████▋    | 2436/4286 [16:07:21<12:23:12, 24.10s/it]                                                         {'loss': 0.0676, 'grad_norm': 0.5711827346571596, 'learning_rate': 4.3163789080727946e-07, 'completion_length': 441.7053680419922, 'rewards/only_full_func_accuracy_reward': 0.57589291036129, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5669643878936768, 'reward_std': 0.10747844353318214, 'kl': 1.69140625, 'epoch': 0.57}
+ 57%|█████▋    | 2436/4286 [16:07:21<12:23:12, 24.10s/it] 57%|█████▋    | 2437/4286 [16:07:46<12:26:37, 24.23s/it]                                                         {'loss': 0.0469, 'grad_norm': 0.9752927296186675, 'learning_rate': 4.3140457302846473e-07, 'completion_length': 419.71429443359375, 'rewards/only_full_func_accuracy_reward': 0.6642857193946838, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.6375000476837158, 'reward_std': 0.1797398440539837, 'kl': 1.1778564453125, 'epoch': 0.57}
+ 57%|█████▋    | 2437/4286 [16:07:46<12:26:37, 24.23s/it] 57%|█████▋    | 2438/4286 [16:08:10<12:28:33, 24.30s/it]                                                         {'loss': 0.0674, 'grad_norm': 2.0243505160242807, 'learning_rate': 4.3117125524964995e-07, 'completion_length': 445.64288330078125, 'rewards/only_full_func_accuracy_reward': 0.543898805975914, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.5260418057441711, 'reward_std': 0.08741096407175064, 'kl': 1.6875, 'epoch': 0.57}
+ 57%|█████▋    | 2438/4286 [16:08:10<12:28:33, 24.30s/it] 57%|█████▋    | 2439/4286 [16:08:35<12:32:32, 24.45s/it]                                                         {'loss': 0.013, 'grad_norm': 0.8895952624554594, 'learning_rate': 4.3093793747083523e-07, 'completion_length': 397.8214416503906, 'rewards/only_full_func_accuracy_reward': 0.7459821701049805, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7370536923408508, 'reward_std': 0.06669726222753525, 'kl': 0.3265380859375, 'epoch': 0.57}
+ 57%|█████▋    | 2439/4286 [16:08:35<12:32:32, 24.45s/it] 57%|█████▋    | 2440/4286 [16:09:00<12:37:27, 24.62s/it]                                                         {'loss': 0.0326, 'grad_norm': 1.1149307494645229, 'learning_rate': 4.307046196920205e-07, 'completion_length': 375.12501525878906, 'rewards/only_full_func_accuracy_reward': 0.7906250059604645, 'rewards/format_reward': 1.0, 'reward': 1.7906250953674316, 'reward_std': 0.10634506493806839, 'kl': 0.814453125, 'epoch': 0.57}
+ 57%|█████▋    | 2440/4286 [16:09:00<12:37:27, 24.62s/it] 57%|█████▋    | 2441/4286 [16:09:24<12:34:09, 24.53s/it]                                                         {'loss': 0.039, 'grad_norm': 0.9336402529701001, 'learning_rate': 4.304713019132057e-07, 'completion_length': 421.50001525878906, 'rewards/only_full_func_accuracy_reward': 0.7306548058986664, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7217262983322144, 'reward_std': 0.10901084542274475, 'kl': 0.9765625, 'epoch': 0.57}
+ 57%|█████▋    | 2441/4286 [16:09:24<12:34:09, 24.53s/it] 57%|█████▋    | 2442/4286 [16:09:46<12:06:23, 23.64s/it]                                                         {'loss': 0.0159, 'grad_norm': 0.38050819781640965, 'learning_rate': 4.30237984134391e-07, 'completion_length': 340.61607360839844, 'rewards/only_full_func_accuracy_reward': 0.8018850088119507, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7929564118385315, 'reward_std': 0.062090384773910046, 'kl': 0.39794921875, 'epoch': 0.57}
+ 57%|█████▋    | 2442/4286 [16:09:46<12:06:23, 23.64s/it] 57%|█████▋    | 2443/4286 [16:10:11<12:18:04, 24.03s/it]                                                         {'loss': 0.054, 'grad_norm': 1.4976981486174206, 'learning_rate': 4.300046663555763e-07, 'completion_length': 416.9285888671875, 'rewards/only_full_func_accuracy_reward': 0.6837798357009888, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6748512983322144, 'reward_std': 0.06944799050688744, 'kl': 1.34765625, 'epoch': 0.57}
+ 57%|█████▋    | 2443/4286 [16:10:11<12:18:04, 24.03s/it] 57%|█████▋    | 2444/4286 [16:10:36<12:26:35, 24.32s/it]                                                         {'loss': 0.0387, 'grad_norm': 1.6961862852077088, 'learning_rate': 4.297713485767615e-07, 'completion_length': 436.9643096923828, 'rewards/only_full_func_accuracy_reward': 0.7061012983322144, 'rewards/format_reward': 1.0, 'reward': 1.7061013579368591, 'reward_std': 0.08890824019908905, 'kl': 0.96484375, 'epoch': 0.57}
+ 57%|█████▋    | 2444/4286 [16:10:36<12:26:35, 24.32s/it] 57%|█████▋    | 2445/4286 [16:11:01<12:38:39, 24.73s/it]                                                         {'loss': 0.0311, 'grad_norm': 0.5439496711108565, 'learning_rate': 4.2953803079794677e-07, 'completion_length': 442.77679443359375, 'rewards/only_full_func_accuracy_reward': 0.6376488506793976, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6197918057441711, 'reward_std': 0.10629157349467278, 'kl': 0.77734375, 'epoch': 0.57}
+ 57%|█████▋    | 2445/4286 [16:11:01<12:38:39, 24.73s/it] 57%|█████▋    | 2446/4286 [16:11:25<12:30:37, 24.48s/it]                                                         {'loss': 0.0128, 'grad_norm': 0.6365865622445774, 'learning_rate': 4.29304713019132e-07, 'completion_length': 415.2410888671875, 'rewards/only_full_func_accuracy_reward': 0.6553571820259094, 'rewards/format_reward': 1.0, 'reward': 1.6553571820259094, 'reward_std': 0.08332508988678455, 'kl': 0.3192138671875, 'epoch': 0.57}
+ 57%|█████▋    | 2446/4286 [16:11:25<12:30:37, 24.48s/it] 57%|█████▋    | 2447/4286 [16:11:49<12:21:45, 24.20s/it]                                                         {'loss': 0.0018, 'grad_norm': 0.313106535105977, 'learning_rate': 4.2907139524031727e-07, 'completion_length': 396.31251525878906, 'rewards/only_full_func_accuracy_reward': 0.8504464626312256, 'rewards/format_reward': 1.0, 'reward': 1.8504464626312256, 'reward_std': 0.04166465159505606, 'kl': 0.0452880859375, 'epoch': 0.57}
+ 57%|█████▋    | 2447/4286 [16:11:49<12:21:45, 24.20s/it] 57%|█████▋    | 2448/4286 [16:12:13<12:20:19, 24.17s/it]                                                         {'loss': 0.0304, 'grad_norm': 0.7885373634316654, 'learning_rate': 4.2883807746150255e-07, 'completion_length': 410.4732360839844, 'rewards/only_full_func_accuracy_reward': 0.5548469573259354, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.5369899272918701, 'reward_std': 0.1219933032989502, 'kl': 0.7578125, 'epoch': 0.57}
+ 57%|█████▋    | 2448/4286 [16:12:13<12:20:19, 24.17s/it] 57%|█████▋    | 2449/4286 [16:12:35<11:59:29, 23.50s/it]                                                         {'loss': 0.0017, 'grad_norm': 0.23183841443494974, 'learning_rate': 4.2860475968268777e-07, 'completion_length': 362.12501525878906, 'rewards/only_full_func_accuracy_reward': 0.7842262387275696, 'rewards/format_reward': 1.0, 'reward': 1.7842263579368591, 'reward_std': 0.023648572154343128, 'kl': 0.0416259765625, 'epoch': 0.57}
+ 57%|█████▋    | 2449/4286 [16:12:35<11:59:29, 23.50s/it] 57%|█████▋    | 2450/4286 [16:13:00<12:11:13, 23.90s/it]                                                         {'loss': 0.0203, 'grad_norm': 0.9625021263986012, 'learning_rate': 4.2837144190387304e-07, 'completion_length': 408.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.6026213765144348, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5936928391456604, 'reward_std': 0.0864910427480936, 'kl': 0.50830078125, 'epoch': 0.57}
+ 57%|█████▋    | 2450/4286 [16:13:00<12:11:13, 23.90s/it] 57%|█████▋    | 2451/4286 [16:13:24<12:11:44, 23.93s/it]                                                         {'loss': 0.0271, 'grad_norm': 0.8579361868367149, 'learning_rate': 4.2813812412505827e-07, 'completion_length': 406.7857360839844, 'rewards/only_full_func_accuracy_reward': 0.6601191163063049, 'rewards/format_reward': 1.0, 'reward': 1.660119116306305, 'reward_std': 0.07171610370278358, 'kl': 0.677734375, 'epoch': 0.57}
+ 57%|█████▋    | 2451/4286 [16:13:24<12:11:44, 23.93s/it] 57%|█████▋    | 2452/4286 [16:13:47<12:06:31, 23.77s/it]                                                         {'loss': 0.0016, 'grad_norm': 0.09318682271020566, 'learning_rate': 4.2790480634624354e-07, 'completion_length': 413.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.660714328289032, 'rewards/format_reward': 1.0, 'reward': 1.6607144474983215, 'reward_std': 0.0, 'kl': 0.0400390625, 'epoch': 0.57}
+ 57%|█████▋    | 2452/4286 [16:13:47<12:06:31, 23.77s/it] 57%|█████▋    | 2453/4286 [16:14:11<12:10:56, 23.93s/it]                                                         {'loss': 0.0335, 'grad_norm': 1.1415462581955789, 'learning_rate': 4.276714885674288e-07, 'completion_length': 408.2589416503906, 'rewards/only_full_func_accuracy_reward': 0.7439331710338593, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7350046634674072, 'reward_std': 0.09384135901927948, 'kl': 0.8369140625, 'epoch': 0.57}
+ 57%|█████▋    | 2453/4286 [16:14:11<12:10:56, 23.93s/it] 57%|█████▋    | 2454/4286 [16:14:34<12:00:24, 23.59s/it]                                                         {'loss': 0.0257, 'grad_norm': 0.6003726351181566, 'learning_rate': 4.2743817078861404e-07, 'completion_length': 373.83038330078125, 'rewards/only_full_func_accuracy_reward': 0.7671131491661072, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7581846714019775, 'reward_std': 0.0650873351842165, 'kl': 0.640625, 'epoch': 0.57}
+ 57%|█████▋    | 2454/4286 [16:14:34<12:00:24, 23.59s/it] 57%|█████▋    | 2455/4286 [16:14:59<12:08:21, 23.87s/it]                                                         {'loss': 0.0108, 'grad_norm': 0.5663730887583424, 'learning_rate': 4.272048530097993e-07, 'completion_length': 432.6339416503906, 'rewards/only_full_func_accuracy_reward': 0.7150298357009888, 'rewards/format_reward': 1.0, 'reward': 1.7150298953056335, 'reward_std': 0.039833517745137215, 'kl': 0.2681884765625, 'epoch': 0.57}
+ 57%|█████▋    | 2455/4286 [16:14:59<12:08:21, 23.87s/it] 57%|█████▋    | 2456/4286 [16:15:22<12:00:51, 23.63s/it]                                                         {'loss': 0.0012, 'grad_norm': 0.1604675703009004, 'learning_rate': 4.2697153523098454e-07, 'completion_length': 406.9910888671875, 'rewards/only_full_func_accuracy_reward': 0.721726268529892, 'rewards/format_reward': 1.0, 'reward': 1.7217262983322144, 'reward_std': 0.030309587717056274, 'kl': 0.03009033203125, 'epoch': 0.57}
+ 57%|█████▋    | 2456/4286 [16:15:22<12:00:51, 23.63s/it] 57%|█████▋    | 2457/4286 [16:15:45<11:54:14, 23.43s/it]                                                         {'loss': 0.0017, 'grad_norm': 0.6474963272724515, 'learning_rate': 4.267382174521698e-07, 'completion_length': 390.04466247558594, 'rewards/only_full_func_accuracy_reward': 0.7153274416923523, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7063989043235779, 'reward_std': 0.080290537327528, 'kl': 0.0421142578125, 'epoch': 0.57}
+ 57%|█████▋    | 2457/4286 [16:15:45<11:54:14, 23.43s/it] 57%|█████▋    | 2458/4286 [16:16:08<11:53:52, 23.43s/it]                                                         {'loss': 0.0192, 'grad_norm': 1.8301951906809621, 'learning_rate': 4.265048996733551e-07, 'completion_length': 387.7143096923828, 'rewards/only_full_func_accuracy_reward': 0.7519345879554749, 'rewards/format_reward': 1.0, 'reward': 1.7519345879554749, 'reward_std': 0.11967387050390244, 'kl': 0.480712890625, 'epoch': 0.57}
+ 57%|█████▋    | 2458/4286 [16:16:08<11:53:52, 23.43s/it] 57%|█████▋    | 2459/4286 [16:16:32<11:56:53, 23.54s/it]                                                         {'loss': 0.014, 'grad_norm': 0.34518284627129026, 'learning_rate': 4.262715818945403e-07, 'completion_length': 429.2857360839844, 'rewards/only_full_func_accuracy_reward': 0.7217262089252472, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.71279776096344, 'reward_std': 0.06313453800976276, 'kl': 0.3504638671875, 'epoch': 0.57}
+ 57%|█████▋    | 2459/4286 [16:16:32<11:56:53, 23.54s/it] 57%|█████▋    | 2460/4286 [16:16:55<11:52:06, 23.40s/it]                                                         {'loss': 0.0427, 'grad_norm': 0.9532651633135694, 'learning_rate': 4.260382641157256e-07, 'completion_length': 358.8839416503906, 'rewards/only_full_func_accuracy_reward': 0.62351194024086, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.614583432674408, 'reward_std': 0.09244563058018684, 'kl': 1.064453125, 'epoch': 0.57}
+ 57%|█████▋    | 2460/4286 [16:16:55<11:52:06, 23.40s/it] 57%|█████▋    | 2461/4286 [16:17:19<11:56:15, 23.55s/it]                                                         {'loss': 0.0021, 'grad_norm': 0.2532300760188155, 'learning_rate': 4.258049463369108e-07, 'completion_length': 399.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.7611607313156128, 'rewards/format_reward': 1.0, 'reward': 1.7611607909202576, 'reward_std': 0.031112208031117916, 'kl': 0.0523681640625, 'epoch': 0.57}
+ 57%|█████▋    | 2461/4286 [16:17:19<11:56:15, 23.55s/it] 57%|█████▋    | 2462/4286 [16:17:41<11:40:48, 23.05s/it]                                                         {'loss': 0.0136, 'grad_norm': 0.47101162696449317, 'learning_rate': 4.255716285580961e-07, 'completion_length': 327.23216247558594, 'rewards/only_full_func_accuracy_reward': 0.8846726417541504, 'rewards/format_reward': 1.0, 'reward': 1.88467276096344, 'reward_std': 0.04551743343472481, 'kl': 0.3414306640625, 'epoch': 0.57}
+ 57%|█████▋    | 2462/4286 [16:17:41<11:40:48, 23.05s/it] 57%|█████▋    | 2463/4286 [16:18:04<11:39:04, 23.01s/it]                                                         {'loss': 0.0545, 'grad_norm': 7.117592296948901, 'learning_rate': 4.2533831077928136e-07, 'completion_length': 358.1428680419922, 'rewards/only_full_func_accuracy_reward': 0.7157738506793976, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.688988208770752, 'reward_std': 0.15023780055344105, 'kl': 1.359375, 'epoch': 0.57}
+ 57%|█████▋    | 2463/4286 [16:18:04<11:39:04, 23.01s/it] 57%|█████▋    | 2464/4286 [16:18:28<11:53:10, 23.49s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.9064665533920441, 'learning_rate': 4.251049930004666e-07, 'completion_length': 436.3035888671875, 'rewards/only_full_func_accuracy_reward': 0.7748512327671051, 'rewards/format_reward': 1.0, 'reward': 1.7748513221740723, 'reward_std': 0.09929065778851509, 'kl': 0.0367431640625, 'epoch': 0.57}
+ 57%|█████▋    | 2464/4286 [16:18:28<11:53:10, 23.49s/it] 58%|█████▊    | 2465/4286 [16:18:51<11:49:02, 23.36s/it]                                                         {'loss': 0.0313, 'grad_norm': 0.9684777461354475, 'learning_rate': 4.2487167522165185e-07, 'completion_length': 411.48216247558594, 'rewards/only_full_func_accuracy_reward': 0.6889881491661072, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6711310744285583, 'reward_std': 0.14518583193421364, 'kl': 0.78515625, 'epoch': 0.58}
+ 58%|█████▊    | 2465/4286 [16:18:52<11:49:02, 23.36s/it] 58%|█████▊    | 2466/4286 [16:19:14<11:43:20, 23.19s/it]                                                         {'loss': 0.0421, 'grad_norm': 0.8577985440657201, 'learning_rate': 4.2463835744283713e-07, 'completion_length': 386.0357360839844, 'rewards/only_full_func_accuracy_reward': 0.7581845223903656, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7492560744285583, 'reward_std': 0.09267470613121986, 'kl': 1.052734375, 'epoch': 0.58}
+ 58%|█████▊    | 2466/4286 [16:19:14<11:43:20, 23.19s/it] 58%|█████▊    | 2467/4286 [16:19:39<12:01:25, 23.80s/it]                                                         {'loss': 0.0409, 'grad_norm': 0.9404761695584514, 'learning_rate': 4.2440503966402235e-07, 'completion_length': 453.669677734375, 'rewards/only_full_func_accuracy_reward': 0.7309736907482147, 'rewards/format_reward': 0.973214328289032, 'reward': 1.7041879892349243, 'reward_std': 0.13132600113749504, 'kl': 1.021484375, 'epoch': 0.58}
+ 58%|█████▊    | 2467/4286 [16:19:39<12:01:25, 23.80s/it] 58%|█████▊    | 2468/4286 [16:20:04<12:10:28, 24.11s/it]                                                         {'loss': 0.0243, 'grad_norm': 0.9688372530359075, 'learning_rate': 4.241717218852076e-07, 'completion_length': 414.64288330078125, 'rewards/only_full_func_accuracy_reward': 0.8375000357627869, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8285715579986572, 'reward_std': 0.0885303309187293, 'kl': 0.607421875, 'epoch': 0.58}
+ 58%|█████▊    | 2468/4286 [16:20:04<12:10:28, 24.11s/it] 58%|█████▊    | 2469/4286 [16:20:28<12:09:08, 24.08s/it]                                                         {'loss': 0.0333, 'grad_norm': 0.7798429825155663, 'learning_rate': 4.2393840410639285e-07, 'completion_length': 396.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.7983631789684296, 'rewards/format_reward': 1.0, 'reward': 1.7983632683753967, 'reward_std': 0.05116336606442928, 'kl': 0.8302001953125, 'epoch': 0.58}
+ 58%|█████▊    | 2469/4286 [16:20:28<12:09:08, 24.08s/it] 58%|█████▊    | 2470/4286 [16:20:50<11:49:41, 23.45s/it]                                                         {'loss': 0.0303, 'grad_norm': 0.278043762336615, 'learning_rate': 4.237050863275781e-07, 'completion_length': 327.33929443359375, 'rewards/only_full_func_accuracy_reward': 0.8348214626312256, 'rewards/format_reward': 1.0, 'reward': 1.8348215222358704, 'reward_std': 0.03577427752315998, 'kl': 0.76171875, 'epoch': 0.58}
+ 58%|█████▊    | 2470/4286 [16:20:50<11:49:41, 23.45s/it] 58%|█████▊    | 2471/4286 [16:21:14<11:51:59, 23.54s/it]                                                         {'loss': 0.0451, 'grad_norm': 1.5996208043318083, 'learning_rate': 4.234717685487634e-07, 'completion_length': 431.33038330078125, 'rewards/only_full_func_accuracy_reward': 0.5848215073347092, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.5580358505249023, 'reward_std': 0.07844980619847775, 'kl': 1.12841796875, 'epoch': 0.58}
+ 58%|█████▊    | 2471/4286 [16:21:14<11:51:59, 23.54s/it] 58%|█████▊    | 2472/4286 [16:21:36<11:37:47, 23.08s/it]                                                         {'loss': 0.0622, 'grad_norm': 0.6301482715679542, 'learning_rate': 4.232384507699486e-07, 'completion_length': 357.8393096923828, 'rewards/only_full_func_accuracy_reward': 0.7023809552192688, 'rewards/format_reward': 1.0, 'reward': 1.7023810744285583, 'reward_std': 0.10456276312470436, 'kl': 1.5546875, 'epoch': 0.58}
+ 58%|█████▊    | 2472/4286 [16:21:36<11:37:47, 23.08s/it] 58%|█████▊    | 2473/4286 [16:22:00<11:46:12, 23.37s/it]                                                         {'loss': 0.0846, 'grad_norm': 0.8522868895564754, 'learning_rate': 4.230051329911339e-07, 'completion_length': 425.5089569091797, 'rewards/only_full_func_accuracy_reward': 0.6867559850215912, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.6510418057441711, 'reward_std': 0.23595266044139862, 'kl': 2.1171875, 'epoch': 0.58}
+ 58%|█████▊    | 2473/4286 [16:22:00<11:46:12, 23.37s/it] 58%|█████▊    | 2474/4286 [16:22:23<11:41:34, 23.23s/it]                                                         {'loss': 0.002, 'grad_norm': 0.6654478509370662, 'learning_rate': 4.227718152123191e-07, 'completion_length': 373.4107360839844, 'rewards/only_full_func_accuracy_reward': 0.8601190745830536, 'rewards/format_reward': 1.0, 'reward': 1.8601191639900208, 'reward_std': 0.058664982207119465, 'kl': 0.049560546875, 'epoch': 0.58}
+ 58%|█████▊    | 2474/4286 [16:22:23<11:41:34, 23.23s/it] 58%|█████▊    | 2475/4286 [16:22:45<11:32:26, 22.94s/it]                                                         {'loss': 0.0515, 'grad_norm': 0.7772271213033859, 'learning_rate': 4.225384974335044e-07, 'completion_length': 376.2857360839844, 'rewards/only_full_func_accuracy_reward': 0.6309524327516556, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6130954027175903, 'reward_std': 0.1223943941295147, 'kl': 1.2890625, 'epoch': 0.58}
+ 58%|█████▊    | 2475/4286 [16:22:45<11:32:26, 22.94s/it] 58%|█████▊    | 2476/4286 [16:23:07<11:25:00, 22.71s/it]                                                         {'loss': 0.0884, 'grad_norm': 2.14899194466856, 'learning_rate': 4.2230517965468967e-07, 'completion_length': 348.50001525878906, 'rewards/only_full_func_accuracy_reward': 0.7032738924026489, 'rewards/format_reward': 1.0, 'reward': 1.703273892402649, 'reward_std': 0.08817793428897858, 'kl': 2.20703125, 'epoch': 0.58}
+ 58%|█████▊    | 2476/4286 [16:23:07<11:25:00, 22.71s/it] 58%|█████▊    | 2477/4286 [16:23:30<11:24:01, 22.69s/it]                                                         {'loss': 0.0821, 'grad_norm': 2.1901301085059184, 'learning_rate': 4.220718618758749e-07, 'completion_length': 377.27679443359375, 'rewards/only_full_func_accuracy_reward': 0.6123512387275696, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.60342276096344, 'reward_std': 0.15872934833168983, 'kl': 2.046875, 'epoch': 0.58}
+ 58%|█████▊    | 2477/4286 [16:23:30<11:24:01, 22.69s/it] 58%|█████▊    | 2478/4286 [16:23:55<11:39:58, 23.23s/it]                                                         {'loss': 0.1029, 'grad_norm': 1.5943154620102715, 'learning_rate': 4.2183854409706017e-07, 'completion_length': 409.66966247558594, 'rewards/only_full_func_accuracy_reward': 0.7142857313156128, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.6785714626312256, 'reward_std': 0.22664429992437363, 'kl': 2.578125, 'epoch': 0.58}
+ 58%|█████▊    | 2478/4286 [16:23:55<11:39:58, 23.23s/it] 58%|█████▊    | 2479/4286 [16:24:16<11:19:10, 22.55s/it]                                                         {'loss': 0.0343, 'grad_norm': 2.876248193884962, 'learning_rate': 4.216052263182454e-07, 'completion_length': 327.6607360839844, 'rewards/only_full_func_accuracy_reward': 0.7514881491661072, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.742559552192688, 'reward_std': 0.10928151197731495, 'kl': 0.8564453125, 'epoch': 0.58}
+ 58%|█████▊    | 2479/4286 [16:24:16<11:19:10, 22.55s/it] 58%|█████▊    | 2480/4286 [16:24:39<11:27:48, 22.85s/it]                                                         {'loss': 0.0409, 'grad_norm': 0.8257435518005445, 'learning_rate': 4.2137190853943066e-07, 'completion_length': 370.8928680419922, 'rewards/only_full_func_accuracy_reward': 0.6253882050514221, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.607531189918518, 'reward_std': 0.10243343375623226, 'kl': 1.020751953125, 'epoch': 0.58}
+ 58%|█████▊    | 2480/4286 [16:24:39<11:27:48, 22.85s/it] 58%|█████▊    | 2481/4286 [16:25:03<11:40:20, 23.28s/it]                                                         {'loss': 0.0829, 'grad_norm': 1.2447472989153114, 'learning_rate': 4.2113859076061594e-07, 'completion_length': 407.2143096923828, 'rewards/only_full_func_accuracy_reward': 0.7547123730182648, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7368552684783936, 'reward_std': 0.16031412780284882, 'kl': 2.06640625, 'epoch': 0.58}
+ 58%|█████▊    | 2481/4286 [16:25:03<11:40:20, 23.28s/it] 58%|█████▊    | 2482/4286 [16:25:26<11:34:40, 23.10s/it]                                                         {'loss': 0.0126, 'grad_norm': 0.5348998555267536, 'learning_rate': 4.2090527298180116e-07, 'completion_length': 400.20538330078125, 'rewards/only_full_func_accuracy_reward': 0.7433035969734192, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7343751192092896, 'reward_std': 0.06215715780854225, 'kl': 0.3131103515625, 'epoch': 0.58}
+ 58%|█████▊    | 2482/4286 [16:25:26<11:34:40, 23.10s/it] 58%|█████▊    | 2483/4286 [16:25:47<11:17:00, 22.53s/it]                                                         {'loss': 0.0354, 'grad_norm': 0.41105371740315727, 'learning_rate': 4.2067195520298644e-07, 'completion_length': 335.91966247558594, 'rewards/only_full_func_accuracy_reward': 0.7589286267757416, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7410715818405151, 'reward_std': 0.12112845666706562, 'kl': 0.88427734375, 'epoch': 0.58}
+ 58%|█████▊    | 2483/4286 [16:25:47<11:17:00, 22.53s/it] 58%|█████▊    | 2484/4286 [16:26:09<11:08:40, 22.26s/it]                                                         {'loss': 0.0218, 'grad_norm': 1.9817336649657782, 'learning_rate': 4.2043863742417166e-07, 'completion_length': 315.20538330078125, 'rewards/only_full_func_accuracy_reward': 0.6763392686843872, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6674109101295471, 'reward_std': 0.06195173226296902, 'kl': 0.5439453125, 'epoch': 0.58}
+ 58%|█████▊    | 2484/4286 [16:26:09<11:08:40, 22.26s/it] 58%|█████▊    | 2485/4286 [16:26:33<11:22:56, 22.75s/it]                                                         {'loss': 0.0093, 'grad_norm': 0.8772216229160543, 'learning_rate': 4.2020531964535693e-07, 'completion_length': 411.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.6607142984867096, 'rewards/format_reward': 1.0, 'reward': 1.6607143878936768, 'reward_std': 0.03951186686754227, 'kl': 0.23193359375, 'epoch': 0.58}
+ 58%|█████▊    | 2485/4286 [16:26:33<11:22:56, 22.75s/it] 58%|█████▊    | 2486/4286 [16:26:57<11:34:25, 23.15s/it]                                                         {'loss': 0.0304, 'grad_norm': 0.5797790931058253, 'learning_rate': 4.199720018665422e-07, 'completion_length': 417.8303680419922, 'rewards/only_full_func_accuracy_reward': 0.800186038017273, 'rewards/format_reward': 1.0, 'reward': 1.8001860976219177, 'reward_std': 0.050192092545330524, 'kl': 0.765625, 'epoch': 0.58}
+ 58%|█████▊    | 2486/4286 [16:26:57<11:34:25, 23.15s/it] 58%|█████▊    | 2487/4286 [16:27:20<11:37:46, 23.27s/it]                                                         {'loss': 0.0209, 'grad_norm': 1.1461728846814412, 'learning_rate': 4.1973868408772743e-07, 'completion_length': 396.51788330078125, 'rewards/only_full_func_accuracy_reward': 0.87202388048172, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.8541668057441711, 'reward_std': 0.14185606501996517, 'kl': 0.524169921875, 'epoch': 0.58}
+ 58%|█████▊    | 2487/4286 [16:27:20<11:37:46, 23.27s/it] 58%|█████▊    | 2488/4286 [16:27:44<11:35:40, 23.21s/it]                                                         {'loss': 0.0523, 'grad_norm': 0.9371971184193164, 'learning_rate': 4.195053663089127e-07, 'completion_length': 366.95538330078125, 'rewards/only_full_func_accuracy_reward': 0.5379464626312256, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.5200893878936768, 'reward_std': 0.11893769353628159, 'kl': 1.306640625, 'epoch': 0.58}
+ 58%|█████▊    | 2488/4286 [16:27:44<11:35:40, 23.21s/it] 58%|█████▊    | 2489/4286 [16:28:07<11:34:29, 23.19s/it]                                                         {'loss': 0.0351, 'grad_norm': 1.1262324156077257, 'learning_rate': 4.19272048530098e-07, 'completion_length': 360.64288330078125, 'rewards/only_full_func_accuracy_reward': 0.7486607134342194, 'rewards/format_reward': 1.0, 'reward': 1.7486608028411865, 'reward_std': 0.08608023077249527, 'kl': 0.876953125, 'epoch': 0.58}
+ 58%|█████▊    | 2489/4286 [16:28:07<11:34:29, 23.19s/it] 58%|█████▊    | 2490/4286 [16:28:30<11:34:33, 23.20s/it]                                                         {'loss': 0.0207, 'grad_norm': 1.0106855523387408, 'learning_rate': 4.190387307512832e-07, 'completion_length': 389.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.7474702596664429, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7385417819023132, 'reward_std': 0.09773790463805199, 'kl': 0.5166015625, 'epoch': 0.58}
+ 58%|█████▊    | 2490/4286 [16:28:30<11:34:33, 23.20s/it] 58%|█████▊    | 2491/4286 [16:28:54<11:42:50, 23.49s/it]                                                         {'loss': 0.0323, 'grad_norm': 0.5761526764927992, 'learning_rate': 4.188054129724685e-07, 'completion_length': 406.08038330078125, 'rewards/only_full_func_accuracy_reward': 0.7284226417541504, 'rewards/format_reward': 1.0, 'reward': 1.7284227013587952, 'reward_std': 0.08338847011327744, 'kl': 0.810546875, 'epoch': 0.58}
+ 58%|█████▊    | 2491/4286 [16:28:54<11:42:50, 23.49s/it] 58%|█████▊    | 2492/4286 [16:29:16<11:26:28, 22.96s/it]                                                         {'loss': 0.0241, 'grad_norm': 1.3600696234680774, 'learning_rate': 4.185720951936537e-07, 'completion_length': 326.77679443359375, 'rewards/only_full_func_accuracy_reward': 0.8593750298023224, 'rewards/format_reward': 1.0, 'reward': 1.8593750596046448, 'reward_std': 0.030135109089314938, 'kl': 0.604248046875, 'epoch': 0.58}
+ 58%|█████▊    | 2492/4286 [16:29:16<11:26:28, 22.96s/it] 58%|█████▊    | 2493/4286 [16:29:40<11:34:50, 23.25s/it]                                                         {'loss': 0.0265, 'grad_norm': 0.6161456887968089, 'learning_rate': 4.18338777414839e-07, 'completion_length': 394.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.80952388048172, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8005954027175903, 'reward_std': 0.08920277655124664, 'kl': 0.660400390625, 'epoch': 0.58}
+ 58%|█████▊    | 2493/4286 [16:29:40<11:34:50, 23.25s/it] 58%|█████▊    | 2494/4286 [16:30:01<11:15:17, 22.61s/it]                                                         {'loss': 0.0016, 'grad_norm': 0.3719655874784233, 'learning_rate': 4.1810545963602425e-07, 'completion_length': 355.46429443359375, 'rewards/only_full_func_accuracy_reward': 0.71577388048172, 'rewards/format_reward': 1.0, 'reward': 1.7157739400863647, 'reward_std': 0.029159409925341606, 'kl': 0.0400390625, 'epoch': 0.58}
+ 58%|█████▊    | 2494/4286 [16:30:01<11:15:17, 22.61s/it] 58%|█████▊    | 2495/4286 [16:30:23<11:06:38, 22.33s/it]                                                         {'loss': 0.0417, 'grad_norm': 1.1955899685897773, 'learning_rate': 4.1787214185720947e-07, 'completion_length': 372.00001525878906, 'rewards/only_full_func_accuracy_reward': 0.6355654895305634, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6177083849906921, 'reward_std': 0.1186647079885006, 'kl': 1.04296875, 'epoch': 0.58}
+ 58%|█████▊    | 2495/4286 [16:30:23<11:06:38, 22.33s/it] 58%|█████▊    | 2496/4286 [16:30:47<11:21:49, 22.85s/it]                                                         {'loss': 0.0764, 'grad_norm': 1.215048573221883, 'learning_rate': 4.1763882407839475e-07, 'completion_length': 396.54466247558594, 'rewards/only_full_func_accuracy_reward': 0.7933036088943481, 'rewards/format_reward': 0.973214328289032, 'reward': 1.766517996788025, 'reward_std': 0.17916464805603027, 'kl': 1.91015625, 'epoch': 0.58}
+ 58%|█████▊    | 2496/4286 [16:30:47<11:21:49, 22.85s/it] 58%|█████▊    | 2497/4286 [16:31:09<11:20:52, 22.84s/it]                                                         {'loss': 0.0486, 'grad_norm': 1.2342042937282118, 'learning_rate': 4.1740550629957997e-07, 'completion_length': 367.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.7857143580913544, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.767857313156128, 'reward_std': 0.13318603485822678, 'kl': 1.216796875, 'epoch': 0.58}
+ 58%|█████▊    | 2497/4286 [16:31:09<11:20:52, 22.84s/it] 58%|█████▊    | 2498/4286 [16:31:33<11:31:57, 23.22s/it]                                                         {'loss': 0.0767, 'grad_norm': 2.1831386098844674, 'learning_rate': 4.1717218852076524e-07, 'completion_length': 375.0535888671875, 'rewards/only_full_func_accuracy_reward': 0.5870536267757416, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.5691965222358704, 'reward_std': 0.1100861094892025, 'kl': 1.908203125, 'epoch': 0.58}
+ 58%|█████▊    | 2498/4286 [16:31:33<11:31:57, 23.22s/it] 58%|█████▊    | 2499/4286 [16:31:57<11:31:22, 23.21s/it]                                                         {'loss': 0.0304, 'grad_norm': 0.7490813818784685, 'learning_rate': 4.169388707419505e-07, 'completion_length': 370.16966247558594, 'rewards/only_full_func_accuracy_reward': 0.7226190567016602, 'rewards/format_reward': 1.0, 'reward': 1.722619116306305, 'reward_std': 0.03508619614876807, 'kl': 0.76171875, 'epoch': 0.58}
+ 58%|█████▊    | 2499/4286 [16:31:57<11:31:22, 23.21s/it] 58%|█████▊    | 2500/4286 [16:32:18<11:15:22, 22.69s/it]                                                         {'loss': 0.0271, 'grad_norm': 0.7806173485896938, 'learning_rate': 4.1670555296313574e-07, 'completion_length': 342.2053680419922, 'rewards/only_full_func_accuracy_reward': 0.7775298357009888, 'rewards/format_reward': 1.0, 'reward': 1.7775298357009888, 'reward_std': 0.06853506527841091, 'kl': 0.67578125, 'epoch': 0.58}
+ 58%|█████▊    | 2500/4286 [16:32:18<11:15:22, 22.69s/it] 58%|█████▊    | 2501/4286 [16:34:00<23:05:42, 46.58s/it]                                                         {'loss': 0.0586, 'grad_norm': 0.7695569343164238, 'learning_rate': 4.16472235184321e-07, 'completion_length': 368.5893096923828, 'rewards/only_full_func_accuracy_reward': 0.555059552192688, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.5282739400863647, 'reward_std': 0.11454336531460285, 'kl': 1.4696044921875, 'epoch': 0.58}
+ 58%|█████▊    | 2501/4286 [16:34:00<23:05:42, 46.58s/it] 58%|█████▊    | 2502/4286 [16:34:21<19:11:57, 38.74s/it]                                                         {'loss': 0.0201, 'grad_norm': 0.6401933832747129, 'learning_rate': 4.1623891740550624e-07, 'completion_length': 401.8839416503906, 'rewards/only_full_func_accuracy_reward': 0.6250000298023224, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6160715818405151, 'reward_std': 0.05916136875748634, 'kl': 0.5013427734375, 'epoch': 0.58}
+ 58%|█████▊    | 2502/4286 [16:34:21<19:11:57, 38.74s/it] 58%|█████▊    | 2503/4286 [16:34:42<16:34:04, 33.45s/it]                                                         {'loss': 0.0132, 'grad_norm': 0.9537254091974211, 'learning_rate': 4.160055996266915e-07, 'completion_length': 387.00001525878906, 'rewards/only_full_func_accuracy_reward': 0.6986607611179352, 'rewards/format_reward': 1.0, 'reward': 1.6986608505249023, 'reward_std': 0.03547286055982113, 'kl': 0.329833984375, 'epoch': 0.58}
+ 58%|█████▊    | 2503/4286 [16:34:42<16:34:04, 33.45s/it] 58%|█████▊    | 2504/4286 [16:35:02<14:31:32, 29.34s/it]                                                         {'loss': 0.0207, 'grad_norm': 1.0875207589156086, 'learning_rate': 4.157722818478768e-07, 'completion_length': 381.12501525878906, 'rewards/only_full_func_accuracy_reward': 0.7261905372142792, 'rewards/format_reward': 1.0, 'reward': 1.7261905670166016, 'reward_std': 0.048013316467404366, 'kl': 0.5185546875, 'epoch': 0.58}
+ 58%|█████▊    | 2504/4286 [16:35:02<14:31:32, 29.34s/it] 58%|█████▊    | 2505/4286 [16:35:26<13:48:53, 27.92s/it]                                                         {'loss': 0.0192, 'grad_norm': 0.9416618836198329, 'learning_rate': 4.15538964069062e-07, 'completion_length': 427.1518096923828, 'rewards/only_full_func_accuracy_reward': 0.6406250298023224, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6316965818405151, 'reward_std': 0.06556758470833302, 'kl': 0.4775390625, 'epoch': 0.58}
+ 58%|█████▊    | 2505/4286 [16:35:26<13:48:53, 27.92s/it] 58%|█████▊    | 2506/4286 [16:35:50<13:09:30, 26.61s/it]                                                         {'loss': 0.0264, 'grad_norm': 0.7941128514179974, 'learning_rate': 4.153056462902473e-07, 'completion_length': 431.4464416503906, 'rewards/only_full_func_accuracy_reward': 0.648809552192688, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6398810744285583, 'reward_std': 0.08287494536489248, 'kl': 0.65966796875, 'epoch': 0.58}
+ 58%|█████▊    | 2506/4286 [16:35:50<13:09:30, 26.61s/it] 58%|█████▊    | 2507/4286 [16:36:13<12:37:56, 25.56s/it]                                                         {'loss': 0.0123, 'grad_norm': 3.837905675510425, 'learning_rate': 4.150723285114325e-07, 'completion_length': 388.9107360839844, 'rewards/only_full_func_accuracy_reward': 0.7834822237491608, 'rewards/format_reward': 1.0, 'reward': 1.7834822535514832, 'reward_std': 0.03126389440149069, 'kl': 0.3082275390625, 'epoch': 0.58}
+ 58%|█████▊    | 2507/4286 [16:36:13<12:37:56, 25.56s/it] 59%|█████▊    | 2508/4286 [16:36:37<12:25:27, 25.16s/it]                                                         {'loss': 0.0014, 'grad_norm': 0.8435123601903165, 'learning_rate': 4.148390107326178e-07, 'completion_length': 427.27679443359375, 'rewards/only_full_func_accuracy_reward': 0.676339328289032, 'rewards/format_reward': 1.0, 'reward': 1.676339328289032, 'reward_std': 0.06785970367491245, 'kl': 0.0361328125, 'epoch': 0.59}
+ 59%|█████▊    | 2508/4286 [16:36:37<12:25:27, 25.16s/it] 59%|█████▊    | 2509/4286 [16:37:00<12:00:18, 24.32s/it]                                                         {'loss': 0.0138, 'grad_norm': 0.6458000322028328, 'learning_rate': 4.1460569295380306e-07, 'completion_length': 386.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.7782738506793976, 'rewards/format_reward': 1.0, 'reward': 1.7782739400863647, 'reward_std': 0.06395827233791351, 'kl': 0.34423828125, 'epoch': 0.59}
+ 59%|█████▊    | 2509/4286 [16:37:00<12:00:18, 24.32s/it] 59%|█████▊    | 2510/4286 [16:37:22<11:40:26, 23.66s/it]                                                         {'loss': 0.002, 'grad_norm': 0.24715521310556213, 'learning_rate': 4.143723751749883e-07, 'completion_length': 363.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.6971726417541504, 'rewards/format_reward': 1.0, 'reward': 1.6971727013587952, 'reward_std': 0.022845957428216934, 'kl': 0.051025390625, 'epoch': 0.59}
+ 59%|█████▊    | 2510/4286 [16:37:22<11:40:26, 23.66s/it] 59%|█████▊    | 2511/4286 [16:37:45<11:32:16, 23.40s/it]                                                         {'loss': 0.0074, 'grad_norm': 0.6330286979561911, 'learning_rate': 4.1413905739617356e-07, 'completion_length': 413.2053680419922, 'rewards/only_full_func_accuracy_reward': 0.6145833432674408, 'rewards/format_reward': 1.0, 'reward': 1.6145834922790527, 'reward_std': 0.025770582258701324, 'kl': 0.1851806640625, 'epoch': 0.59}
+ 59%|█████▊    | 2511/4286 [16:37:45<11:32:16, 23.40s/it] 59%|█████▊    | 2512/4286 [16:38:08<11:33:31, 23.46s/it]                                                         {'loss': 0.0016, 'grad_norm': 0.049772455137702384, 'learning_rate': 4.1390573961735883e-07, 'completion_length': 415.31251525878906, 'rewards/only_full_func_accuracy_reward': 0.8392857611179352, 'rewards/format_reward': 1.0, 'reward': 1.8392858505249023, 'reward_std': 0.0, 'kl': 0.0396728515625, 'epoch': 0.59}
+ 59%|█████▊    | 2512/4286 [16:38:08<11:33:31, 23.46s/it] 59%|█████▊    | 2513/4286 [16:38:29<11:14:08, 22.81s/it]                                                         {'loss': 0.0562, 'grad_norm': 0.5390072845388738, 'learning_rate': 4.1367242183854405e-07, 'completion_length': 334.6785888671875, 'rewards/only_full_func_accuracy_reward': 0.8617559969425201, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.8349702954292297, 'reward_std': 0.1693006120622158, 'kl': 1.4053955078125, 'epoch': 0.59}
+ 59%|█████▊    | 2513/4286 [16:38:29<11:14:08, 22.81s/it] 59%|█████▊    | 2514/4286 [16:38:52<11:11:20, 22.73s/it]                                                         {'loss': 0.0507, 'grad_norm': 3.1411880505707552, 'learning_rate': 4.1343910405972933e-07, 'completion_length': 385.4643096923828, 'rewards/only_full_func_accuracy_reward': 0.6703869700431824, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.661458432674408, 'reward_std': 0.06962625309824944, 'kl': 1.271484375, 'epoch': 0.59}
+ 59%|█████▊    | 2514/4286 [16:38:52<11:11:20, 22.73s/it] 59%|█████▊    | 2515/4286 [16:39:14<11:00:52, 22.39s/it]                                                         {'loss': 0.0268, 'grad_norm': 0.7351900674667151, 'learning_rate': 4.1320578628091455e-07, 'completion_length': 351.7232208251953, 'rewards/only_full_func_accuracy_reward': 0.7207521796226501, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7028951048851013, 'reward_std': 0.10211286321282387, 'kl': 0.669677734375, 'epoch': 0.59}
+ 59%|█████▊    | 2515/4286 [16:39:14<11:00:52, 22.39s/it] 59%|█████▊    | 2516/4286 [16:39:37<11:08:15, 22.65s/it]                                                         {'loss': 0.014, 'grad_norm': 0.7847928189901289, 'learning_rate': 4.1297246850209983e-07, 'completion_length': 384.3928680419922, 'rewards/only_full_func_accuracy_reward': 0.7564360797405243, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7475075721740723, 'reward_std': 0.06272529531270266, 'kl': 0.3514404296875, 'epoch': 0.59}
+ 59%|█████▊    | 2516/4286 [16:39:37<11:08:15, 22.65s/it] 59%|█████▊    | 2517/4286 [16:40:00<11:15:30, 22.91s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.35322798307235587, 'learning_rate': 4.127391507232851e-07, 'completion_length': 406.0357208251953, 'rewards/only_full_func_accuracy_reward': 0.7730655372142792, 'rewards/format_reward': 1.0, 'reward': 1.7730656266212463, 'reward_std': 0.0356245469301939, 'kl': 0.037109375, 'epoch': 0.59}
+ 59%|█████▊    | 2517/4286 [16:40:00<11:15:30, 22.91s/it] 59%|█████▊    | 2518/4286 [16:40:22<11:06:38, 22.62s/it]                                                         {'loss': 0.0022, 'grad_norm': 0.232510044038316, 'learning_rate': 4.125058329444703e-07, 'completion_length': 373.9285888671875, 'rewards/only_full_func_accuracy_reward': 0.7537203133106232, 'rewards/format_reward': 1.0, 'reward': 1.7537203431129456, 'reward_std': 0.028181099332869053, 'kl': 0.0540771484375, 'epoch': 0.59}
+ 59%|█████▊    | 2518/4286 [16:40:22<11:06:38, 22.62s/it] 59%|█████▉    | 2519/4286 [16:40:45<11:11:02, 22.79s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.0283352514081688, 'learning_rate': 4.122725151656556e-07, 'completion_length': 406.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.7083334028720856, 'rewards/format_reward': 1.0, 'reward': 1.708333432674408, 'reward_std': 0.0, 'kl': 0.0374755859375, 'epoch': 0.59}
+ 59%|█████▉    | 2519/4286 [16:40:46<11:11:02, 22.79s/it] 59%|█████▉    | 2520/4286 [16:41:08<11:11:01, 22.80s/it]                                                         {'loss': 0.0056, 'grad_norm': 0.879531678033231, 'learning_rate': 4.120391973868408e-07, 'completion_length': 399.0178680419922, 'rewards/only_full_func_accuracy_reward': 0.6510416865348816, 'rewards/format_reward': 1.0, 'reward': 1.6510418057441711, 'reward_std': 0.08120019547641277, 'kl': 0.1405029296875, 'epoch': 0.59}
+ 59%|█████▉    | 2520/4286 [16:41:08<11:11:01, 22.80s/it] 59%|█████▉    | 2521/4286 [16:41:32<11:16:03, 22.98s/it]                                                         {'loss': 0.0014, 'grad_norm': 0.42368616179409, 'learning_rate': 4.118058796080261e-07, 'completion_length': 408.8214416503906, 'rewards/only_full_func_accuracy_reward': 0.7492559552192688, 'rewards/format_reward': 1.0, 'reward': 1.7492560744285583, 'reward_std': 0.025303728878498077, 'kl': 0.0352783203125, 'epoch': 0.59}
+ 59%|█████▉    | 2521/4286 [16:41:32<11:16:03, 22.98s/it] 59%|█████▉    | 2522/4286 [16:41:54<11:13:13, 22.90s/it]                                                         {'loss': 0.0561, 'grad_norm': 1.5785165380235204, 'learning_rate': 4.1157256182921137e-07, 'completion_length': 353.8035888671875, 'rewards/only_full_func_accuracy_reward': 0.6941964626312256, 'rewards/format_reward': 0.973214328289032, 'reward': 1.6674107909202576, 'reward_std': 0.09070982411503792, 'kl': 1.3984375, 'epoch': 0.59}
+ 59%|█████▉    | 2522/4286 [16:41:54<11:13:13, 22.90s/it] 59%|█████▉    | 2523/4286 [16:42:18<11:21:37, 23.20s/it]                                                         {'loss': 0.0388, 'grad_norm': 1.2764880084192711, 'learning_rate': 4.113392440503966e-07, 'completion_length': 423.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.5833333879709244, 'rewards/format_reward': 1.0, 'reward': 1.583333432674408, 'reward_std': 0.09214132092893124, 'kl': 0.97265625, 'epoch': 0.59}
+ 59%|█████▉    | 2523/4286 [16:42:18<11:21:37, 23.20s/it] 59%|█████▉    | 2524/4286 [16:42:42<11:23:31, 23.28s/it]                                                         {'loss': 0.0516, 'grad_norm': 2.2541964995137205, 'learning_rate': 4.1110592627158187e-07, 'completion_length': 412.3750305175781, 'rewards/only_full_func_accuracy_reward': 0.7269345819950104, 'rewards/format_reward': 1.0, 'reward': 1.7269346117973328, 'reward_std': 0.05362626723945141, 'kl': 1.2890625, 'epoch': 0.59}
+ 59%|█████▉    | 2524/4286 [16:42:42<11:23:31, 23.28s/it] 59%|█████▉    | 2525/4286 [16:43:06<11:28:04, 23.44s/it]                                                         {'loss': 0.0296, 'grad_norm': 0.6026642300691493, 'learning_rate': 4.108726084927671e-07, 'completion_length': 405.4732208251953, 'rewards/only_full_func_accuracy_reward': 0.6547619700431824, 'rewards/format_reward': 1.0, 'reward': 1.6547620296478271, 'reward_std': 0.053500302135944366, 'kl': 0.7410888671875, 'epoch': 0.59}
+ 59%|█████▉    | 2525/4286 [16:43:06<11:28:04, 23.44s/it] 59%|█████▉    | 2526/4286 [16:43:28<11:21:54, 23.25s/it]                                                         {'loss': 0.0018, 'grad_norm': 0.04721950642624657, 'learning_rate': 4.1063929071395237e-07, 'completion_length': 365.31251525878906, 'rewards/only_full_func_accuracy_reward': 0.8571428954601288, 'rewards/format_reward': 1.0, 'reward': 1.8571429252624512, 'reward_std': 0.0, 'kl': 0.0458984375, 'epoch': 0.59}
+ 59%|█████▉    | 2526/4286 [16:43:28<11:21:54, 23.25s/it] 59%|█████▉    | 2527/4286 [16:43:52<11:24:31, 23.35s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.558341909517077, 'learning_rate': 4.1040597293513764e-07, 'completion_length': 387.8660888671875, 'rewards/only_full_func_accuracy_reward': 0.6994048058986664, 'rewards/format_reward': 1.0, 'reward': 1.6994048953056335, 'reward_std': 0.03206651099026203, 'kl': 0.037841796875, 'epoch': 0.59}
+ 59%|█████▉    | 2527/4286 [16:43:52<11:24:31, 23.35s/it] 59%|█████▉    | 2528/4286 [16:44:16<11:31:26, 23.60s/it]                                                         {'loss': 0.0017, 'grad_norm': 0.12746844248592018, 'learning_rate': 4.1017265515632286e-07, 'completion_length': 426.3928680419922, 'rewards/only_full_func_accuracy_reward': 0.7313988506793976, 'rewards/format_reward': 1.0, 'reward': 1.7313989400863647, 'reward_std': 0.009241949766874313, 'kl': 0.043212890625, 'epoch': 0.59}
+ 59%|█████▉    | 2528/4286 [16:44:16<11:31:26, 23.60s/it] 59%|█████▉    | 2529/4286 [16:44:41<11:38:12, 23.84s/it]                                                         {'loss': 0.0018, 'grad_norm': 0.22571278547489673, 'learning_rate': 4.0993933737750814e-07, 'completion_length': 423.11610412597656, 'rewards/only_full_func_accuracy_reward': 0.6108631491661072, 'rewards/format_reward': 1.0, 'reward': 1.610863208770752, 'reward_std': 0.050051167607307434, 'kl': 0.045166015625, 'epoch': 0.59}
+ 59%|█████▉    | 2529/4286 [16:44:41<11:38:12, 23.84s/it] 59%|█████▉    | 2530/4286 [16:45:03<11:26:09, 23.45s/it]                                                         {'loss': 0.0016, 'grad_norm': 0.14660251489927253, 'learning_rate': 4.0970601959869336e-07, 'completion_length': 378.1428680419922, 'rewards/only_full_func_accuracy_reward': 0.6101190745830536, 'rewards/format_reward': 1.0, 'reward': 1.6101191639900208, 'reward_std': 0.01232259813696146, 'kl': 0.038818359375, 'epoch': 0.59}
+ 59%|█████▉    | 2530/4286 [16:45:03<11:26:09, 23.45s/it] 59%|█████▉    | 2531/4286 [16:45:27<11:33:37, 23.71s/it]                                                         {'loss': 0.0093, 'grad_norm': 1.4135170980339105, 'learning_rate': 4.0947270181987864e-07, 'completion_length': 439.20538330078125, 'rewards/only_full_func_accuracy_reward': 0.6666666865348816, 'rewards/format_reward': 1.0, 'reward': 1.6666668057441711, 'reward_std': 0.02564850077033043, 'kl': 0.2325439453125, 'epoch': 0.59}
+ 59%|█████▉    | 2531/4286 [16:45:27<11:33:37, 23.71s/it] 59%|█████▉    | 2532/4286 [16:45:51<11:33:34, 23.73s/it]                                                         {'loss': 0.0145, 'grad_norm': 0.40320284972894876, 'learning_rate': 4.092393840410639e-07, 'completion_length': 385.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.8883929252624512, 'rewards/format_reward': 1.0, 'reward': 1.8883929252624512, 'reward_std': 0.012626906856894493, 'kl': 0.361572265625, 'epoch': 0.59}
+ 59%|█████▉    | 2532/4286 [16:45:51<11:33:34, 23.73s/it] 59%|█████▉    | 2533/4286 [16:46:16<11:40:06, 23.96s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.34099771055832245, 'learning_rate': 4.0900606626224913e-07, 'completion_length': 439.0714416503906, 'rewards/only_full_func_accuracy_reward': 0.6665179133415222, 'rewards/format_reward': 1.0, 'reward': 1.666517972946167, 'reward_std': 0.0494963638484478, 'kl': 0.0369873046875, 'epoch': 0.59}
+ 59%|█████▉    | 2533/4286 [16:46:16<11:40:06, 23.96s/it] 59%|█████▉    | 2534/4286 [16:46:40<11:39:27, 23.95s/it]                                                         {'loss': 0.0113, 'grad_norm': 0.6360439021561172, 'learning_rate': 4.087727484834344e-07, 'completion_length': 425.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.7611607313156128, 'rewards/format_reward': 1.0, 'reward': 1.7611607909202576, 'reward_std': 0.01986204832792282, 'kl': 0.281005859375, 'epoch': 0.59}
+ 59%|█████▉    | 2534/4286 [16:46:40<11:39:27, 23.95s/it] 59%|█████▉    | 2535/4286 [16:47:03<11:36:58, 23.88s/it]                                                         {'loss': 0.0383, 'grad_norm': 0.8541668151812684, 'learning_rate': 4.085394307046197e-07, 'completion_length': 359.9910888671875, 'rewards/only_full_func_accuracy_reward': 0.7276785969734192, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.7008929252624512, 'reward_std': 0.10777789633721113, 'kl': 0.958984375, 'epoch': 0.59}
+ 59%|█████▉    | 2535/4286 [16:47:03<11:36:58, 23.88s/it] 59%|█████▉    | 2536/4286 [16:47:27<11:33:16, 23.77s/it]                                                         {'loss': 0.0136, 'grad_norm': 0.517593536404019, 'learning_rate': 4.083061129258049e-07, 'completion_length': 394.7589416503906, 'rewards/only_full_func_accuracy_reward': 0.7648809850215912, 'rewards/format_reward': 1.0, 'reward': 1.7648810744285583, 'reward_std': 0.037880721502006054, 'kl': 0.339599609375, 'epoch': 0.59}
+ 59%|█████▉    | 2536/4286 [16:47:27<11:33:16, 23.77s/it] 59%|█████▉    | 2537/4286 [16:47:51<11:34:57, 23.84s/it]                                                         {'loss': 0.0017, 'grad_norm': 0.29848757446131896, 'learning_rate': 4.080727951469902e-07, 'completion_length': 413.45538330078125, 'rewards/only_full_func_accuracy_reward': 0.7209821939468384, 'rewards/format_reward': 1.0, 'reward': 1.7209822535514832, 'reward_std': 0.02720493357628584, 'kl': 0.0421142578125, 'epoch': 0.59}
+ 59%|█████▉    | 2537/4286 [16:47:51<11:34:57, 23.84s/it] 59%|█████▉    | 2538/4286 [16:48:13<11:23:02, 23.45s/it]                                                         {'loss': 0.0452, 'grad_norm': 1.1947206169794087, 'learning_rate': 4.078394773681754e-07, 'completion_length': 376.3928680419922, 'rewards/only_full_func_accuracy_reward': 0.6726190745830536, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6636905670166016, 'reward_std': 0.0940193459391594, 'kl': 1.12890625, 'epoch': 0.59}
+ 59%|█████▉    | 2538/4286 [16:48:13<11:23:02, 23.45s/it] 59%|█████▉    | 2539/4286 [16:48:39<11:39:28, 24.02s/it]                                                         {'loss': 0.0132, 'grad_norm': 0.7475977550323345, 'learning_rate': 4.076061595893607e-07, 'completion_length': 432.85716247558594, 'rewards/only_full_func_accuracy_reward': 0.7812501192092896, 'rewards/format_reward': 1.0, 'reward': 1.7812501788139343, 'reward_std': 0.017622221261262894, 'kl': 0.32958984375, 'epoch': 0.59}
+ 59%|█████▉    | 2539/4286 [16:48:39<11:39:28, 24.02s/it] 59%|█████▉    | 2540/4286 [16:49:02<11:27:45, 23.63s/it]                                                         {'loss': 0.0013, 'grad_norm': 0.5567741718457319, 'learning_rate': 4.0737284181054595e-07, 'completion_length': 384.5268096923828, 'rewards/only_full_func_accuracy_reward': 0.816964328289032, 'rewards/format_reward': 1.0, 'reward': 1.8169644474983215, 'reward_std': 0.012626906856894493, 'kl': 0.03277587890625, 'epoch': 0.59}
+ 59%|█████▉    | 2540/4286 [16:49:02<11:27:45, 23.63s/it] 59%|█████▉    | 2541/4286 [16:49:25<11:25:52, 23.58s/it]                                                         {'loss': 0.0018, 'grad_norm': 1.0897402181830256, 'learning_rate': 4.071395240317312e-07, 'completion_length': 410.6339416503906, 'rewards/only_full_func_accuracy_reward': 0.7617187798023224, 'rewards/format_reward': 1.0, 'reward': 1.7617188096046448, 'reward_std': 0.038101790472865105, 'kl': 0.046142578125, 'epoch': 0.59}
+ 59%|█████▉    | 2541/4286 [16:49:25<11:25:52, 23.58s/it] 59%|█████▉    | 2542/4286 [16:49:48<11:18:16, 23.34s/it]                                                         {'loss': 0.0039, 'grad_norm': 11.772006964061386, 'learning_rate': 4.0690620625291645e-07, 'completion_length': 379.0357360839844, 'rewards/only_full_func_accuracy_reward': 0.7846727073192596, 'rewards/format_reward': 1.0, 'reward': 1.784672737121582, 'reward_std': 0.06427201256155968, 'kl': 0.097412109375, 'epoch': 0.59}
+ 59%|█████▉    | 2542/4286 [16:49:48<11:18:16, 23.34s/it] 59%|█████▉    | 2543/4286 [16:50:11<11:19:31, 23.39s/it]                                                         {'loss': 0.0118, 'grad_norm': 2.3561664599909435, 'learning_rate': 4.066728884741017e-07, 'completion_length': 407.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.70014888048172, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6912203431129456, 'reward_std': 0.07903749402612448, 'kl': 0.29736328125, 'epoch': 0.59}
+ 59%|█████▉    | 2543/4286 [16:50:11<11:19:31, 23.39s/it] 59%|█████▉    | 2544/4286 [16:50:35<11:21:44, 23.48s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.1264483678228938, 'learning_rate': 4.0643957069528695e-07, 'completion_length': 396.5803680419922, 'rewards/only_full_func_accuracy_reward': 0.822916716337204, 'rewards/format_reward': 1.0, 'reward': 1.8229168057441711, 'reward_std': 0.008266251534223557, 'kl': 0.0379638671875, 'epoch': 0.59}
+ 59%|█████▉    | 2544/4286 [16:50:35<11:21:44, 23.48s/it] 59%|█████▉    | 2545/4286 [16:51:00<11:31:38, 23.84s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.5081911498154541, 'learning_rate': 4.062062529164722e-07, 'completion_length': 376.8839569091797, 'rewards/only_full_func_accuracy_reward': 0.7827381789684296, 'rewards/format_reward': 1.0, 'reward': 1.782738208770752, 'reward_std': 0.04490014165639877, 'kl': 0.0372314453125, 'epoch': 0.59}
+ 59%|█████▉    | 2545/4286 [16:51:00<11:31:38, 23.84s/it] 59%|█████▉    | 2546/4286 [16:51:22<11:18:11, 23.39s/it]                                                         {'loss': 0.027, 'grad_norm': 0.6281575940731728, 'learning_rate': 4.0597293513765745e-07, 'completion_length': 377.71429443359375, 'rewards/only_full_func_accuracy_reward': 0.7053572535514832, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6964287161827087, 'reward_std': 0.061529298312962055, 'kl': 0.67578125, 'epoch': 0.59}
+ 59%|█████▉    | 2546/4286 [16:51:22<11:18:11, 23.39s/it] 59%|█████▉    | 2547/4286 [16:51:48<11:37:41, 24.07s/it]                                                         {'loss': 0.0013, 'grad_norm': 5.471888999584365, 'learning_rate': 4.057396173588427e-07, 'completion_length': 489.92860412597656, 'rewards/only_full_func_accuracy_reward': 0.6562500298023224, 'rewards/format_reward': 1.0, 'reward': 1.6562501788139343, 'reward_std': 0.027553239837288857, 'kl': 0.0328369140625, 'epoch': 0.59}
+ 59%|█████▉    | 2547/4286 [16:51:48<11:37:41, 24.07s/it] 59%|█████▉    | 2548/4286 [16:52:12<11:41:24, 24.21s/it]                                                         {'loss': 0.012, 'grad_norm': 0.5650076312473683, 'learning_rate': 4.0550629958002794e-07, 'completion_length': 433.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.6956846117973328, 'rewards/format_reward': 1.0, 'reward': 1.6956846714019775, 'reward_std': 0.042762015014886856, 'kl': 0.3013916015625, 'epoch': 0.59}
+ 59%|█████▉    | 2548/4286 [16:52:12<11:41:24, 24.21s/it] 59%|█████▉    | 2549/4286 [16:52:37<11:47:59, 24.46s/it]                                                         {'loss': 0.0117, 'grad_norm': 0.6649188687487875, 'learning_rate': 4.052729818012132e-07, 'completion_length': 463.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.7269345819950104, 'rewards/format_reward': 1.0, 'reward': 1.7269346117973328, 'reward_std': 0.0657363124191761, 'kl': 0.2918701171875, 'epoch': 0.59}
+ 59%|█████▉    | 2549/4286 [16:52:37<11:47:59, 24.46s/it] 59%|█████▉    | 2550/4286 [16:53:02<11:52:15, 24.62s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.3677568433197336, 'learning_rate': 4.050396640223985e-07, 'completion_length': 411.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.7849703133106232, 'rewards/format_reward': 1.0, 'reward': 1.7849703431129456, 'reward_std': 0.031567263416945934, 'kl': 0.03857421875, 'epoch': 0.59}
+ 59%|█████▉    | 2550/4286 [16:53:02<11:52:15, 24.62s/it] 60%|█████▉    | 2551/4286 [16:53:27<11:50:54, 24.58s/it]                                                         {'loss': 0.0017, 'grad_norm': 0.7947813444546193, 'learning_rate': 4.048063462435837e-07, 'completion_length': 445.91966247558594, 'rewards/only_full_func_accuracy_reward': 0.631696492433548, 'rewards/format_reward': 1.0, 'reward': 1.6316965818405151, 'reward_std': 0.04955163970589638, 'kl': 0.0430908203125, 'epoch': 0.6}
+ 60%|█████▉    | 2551/4286 [16:53:27<11:50:54, 24.58s/it] 60%|█████▉    | 2552/4286 [16:53:49<11:33:28, 24.00s/it]                                                         {'loss': 0.016, 'grad_norm': 1.011894823861618, 'learning_rate': 4.04573028464769e-07, 'completion_length': 374.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.8122024238109589, 'rewards/format_reward': 1.0, 'reward': 1.8122024536132812, 'reward_std': 0.03139656176790595, 'kl': 0.39794921875, 'epoch': 0.6}
+ 60%|█████▉    | 2552/4286 [16:53:49<11:33:28, 24.00s/it] 60%|█████▉    | 2553/4286 [16:54:13<11:27:46, 23.81s/it]                                                         {'loss': 0.0105, 'grad_norm': 0.576972498614465, 'learning_rate': 4.043397106859542e-07, 'completion_length': 377.04466247558594, 'rewards/only_full_func_accuracy_reward': 0.7663690149784088, 'rewards/format_reward': 1.0, 'reward': 1.7663692235946655, 'reward_std': 0.041785381734371185, 'kl': 0.261962890625, 'epoch': 0.6}
+ 60%|█████▉    | 2553/4286 [16:54:13<11:27:46, 23.81s/it] 60%|█████▉    | 2554/4286 [16:54:38<11:39:06, 24.22s/it]                                                         {'loss': 0.0027, 'grad_norm': 0.5079598061221574, 'learning_rate': 4.041063929071395e-07, 'completion_length': 433.8393096923828, 'rewards/only_full_func_accuracy_reward': 0.7827380895614624, 'rewards/format_reward': 1.0, 'reward': 1.782738208770752, 'reward_std': 0.03306314069777727, 'kl': 0.06884765625, 'epoch': 0.6}
+ 60%|█████▉    | 2554/4286 [16:54:38<11:39:06, 24.22s/it] 60%|█████▉    | 2555/4286 [16:55:02<11:37:14, 24.17s/it]                                                         {'loss': 0.0131, 'grad_norm': 0.6610605817126194, 'learning_rate': 4.0387307512832476e-07, 'completion_length': 383.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.7782738506793976, 'rewards/format_reward': 1.0, 'reward': 1.7782739400863647, 'reward_std': 0.050354260951280594, 'kl': 0.32958984375, 'epoch': 0.6}
+ 60%|█████▉    | 2555/4286 [16:55:02<11:37:14, 24.17s/it] 60%|█████▉    | 2556/4286 [16:55:26<11:38:34, 24.23s/it]                                                         {'loss': 0.0016, 'grad_norm': 0.142101170741467, 'learning_rate': 4.0363975734951e-07, 'completion_length': 415.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.818452388048172, 'rewards/format_reward': 1.0, 'reward': 1.818452537059784, 'reward_std': 0.00841793604195118, 'kl': 0.039306640625, 'epoch': 0.6}
+ 60%|█████▉    | 2556/4286 [16:55:26<11:38:34, 24.23s/it] 60%|█████▉    | 2557/4286 [16:55:48<11:17:44, 23.52s/it]                                                         {'loss': 0.0106, 'grad_norm': 0.7860678995623075, 'learning_rate': 4.0340643957069526e-07, 'completion_length': 372.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.7005952596664429, 'rewards/format_reward': 1.0, 'reward': 1.7005953788757324, 'reward_std': 0.05781953688710928, 'kl': 0.265380859375, 'epoch': 0.6}
+ 60%|█████▉    | 2557/4286 [16:55:48<11:17:44, 23.52s/it] 60%|█████▉    | 2558/4286 [16:56:12<11:19:04, 23.58s/it]                                                         {'loss': 0.0197, 'grad_norm': 0.38239848274066224, 'learning_rate': 4.0317312179188054e-07, 'completion_length': 411.68751525878906, 'rewards/only_full_func_accuracy_reward': 0.7700892984867096, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7611607909202576, 'reward_std': 0.05261211283504963, 'kl': 0.490234375, 'epoch': 0.6}
+ 60%|█████▉    | 2558/4286 [16:56:12<11:19:04, 23.58s/it] 60%|█████▉    | 2559/4286 [16:56:35<11:14:46, 23.44s/it]                                                         {'loss': 0.0238, 'grad_norm': 0.8282557920733485, 'learning_rate': 4.0293980401306576e-07, 'completion_length': 344.15179443359375, 'rewards/only_full_func_accuracy_reward': 0.7998512387275696, 'rewards/format_reward': 1.0, 'reward': 1.7998513579368591, 'reward_std': 0.027358295395970345, 'kl': 0.592529296875, 'epoch': 0.6}
+ 60%|█████▉    | 2559/4286 [16:56:35<11:14:46, 23.44s/it] 60%|█████▉    | 2560/4286 [16:57:00<11:26:34, 23.87s/it]                                                         {'loss': 0.0019, 'grad_norm': 0.717316681966773, 'learning_rate': 4.0270648623425103e-07, 'completion_length': 418.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.5997023284435272, 'rewards/format_reward': 1.0, 'reward': 1.599702537059784, 'reward_std': 0.04572963435202837, 'kl': 0.04833984375, 'epoch': 0.6}
+ 60%|█████▉    | 2560/4286 [16:57:00<11:26:34, 23.87s/it] 60%|█████▉    | 2561/4286 [16:57:24<11:28:04, 23.93s/it]                                                         {'loss': 0.0113, 'grad_norm': 0.8625845780762668, 'learning_rate': 4.0247316845543626e-07, 'completion_length': 378.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.7529762387275696, 'rewards/format_reward': 1.0, 'reward': 1.7529762983322144, 'reward_std': 0.043433403596282005, 'kl': 0.2835693359375, 'epoch': 0.6}
+ 60%|█████▉    | 2561/4286 [16:57:24<11:28:04, 23.93s/it] 60%|█████▉    | 2562/4286 [16:57:49<11:41:27, 24.41s/it]                                                         {'loss': 0.0012, 'grad_norm': 0.38572704359556625, 'learning_rate': 4.0223985067662153e-07, 'completion_length': 433.5089416503906, 'rewards/only_full_func_accuracy_reward': 0.6197916865348816, 'rewards/format_reward': 1.0, 'reward': 1.6197918057441711, 'reward_std': 0.06495080888271332, 'kl': 0.03082275390625, 'epoch': 0.6}
+ 60%|█████▉    | 2562/4286 [16:57:49<11:41:27, 24.41s/it] 60%|█████▉    | 2563/4286 [16:58:14<11:40:36, 24.40s/it]                                                         {'loss': 0.0299, 'grad_norm': 0.677687296644142, 'learning_rate': 4.020065328978068e-07, 'completion_length': 399.26788330078125, 'rewards/only_full_func_accuracy_reward': 0.7991072237491608, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7901787757873535, 'reward_std': 0.09244563430547714, 'kl': 0.744140625, 'epoch': 0.6}
+ 60%|█████▉    | 2563/4286 [16:58:14<11:40:36, 24.40s/it] 60%|█████▉    | 2564/4286 [16:58:38<11:39:04, 24.36s/it]                                                         {'loss': 0.0723, 'grad_norm': 0.850067806314349, 'learning_rate': 4.0177321511899203e-07, 'completion_length': 372.8303680419922, 'rewards/only_full_func_accuracy_reward': 0.7782738506793976, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7604168057441711, 'reward_std': 0.16720908880233765, 'kl': 1.80078125, 'epoch': 0.6}
+ 60%|█████▉    | 2564/4286 [16:58:38<11:39:04, 24.36s/it] 60%|█████▉    | 2565/4286 [16:59:02<11:37:47, 24.33s/it]                                                         {'loss': 0.0483, 'grad_norm': 0.9884210996766947, 'learning_rate': 4.015398973401773e-07, 'completion_length': 425.0089569091797, 'rewards/only_full_func_accuracy_reward': 0.7782738506793976, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7604168057441711, 'reward_std': 0.10179350525140762, 'kl': 1.205078125, 'epoch': 0.6}
+ 60%|█████▉    | 2565/4286 [16:59:02<11:37:47, 24.33s/it] 60%|█████▉    | 2566/4286 [16:59:27<11:41:14, 24.46s/it]                                                         {'loss': 0.0419, 'grad_norm': 0.7277863815981216, 'learning_rate': 4.013065795613625e-07, 'completion_length': 455.4018096923828, 'rewards/only_full_func_accuracy_reward': 0.7667410969734192, 'rewards/format_reward': 1.0, 'reward': 1.766741156578064, 'reward_std': 0.048174915835261345, 'kl': 1.048828125, 'epoch': 0.6}
+ 60%|█████▉    | 2566/4286 [16:59:27<11:41:14, 24.46s/it] 60%|█████▉    | 2567/4286 [16:59:50<11:29:44, 24.07s/it]                                                         {'loss': 0.0169, 'grad_norm': 0.5053246254012077, 'learning_rate': 4.010732617825478e-07, 'completion_length': 358.5089416503906, 'rewards/only_full_func_accuracy_reward': 0.8042411208152771, 'rewards/format_reward': 1.0, 'reward': 1.804241120815277, 'reward_std': 0.039428144227713346, 'kl': 0.421875, 'epoch': 0.6}
+ 60%|█████▉    | 2567/4286 [16:59:50<11:29:44, 24.07s/it] 60%|█████▉    | 2568/4286 [17:00:13<11:20:03, 23.75s/it]                                                         {'loss': 0.0322, 'grad_norm': 0.538389168407292, 'learning_rate': 4.008399440037331e-07, 'completion_length': 375.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.7507440745830536, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7418155670166016, 'reward_std': 0.05846910737454891, 'kl': 0.80859375, 'epoch': 0.6}
+ 60%|█████▉    | 2568/4286 [17:00:13<11:20:03, 23.75s/it] 60%|█████▉    | 2569/4286 [17:00:38<11:31:36, 24.17s/it]                                                         {'loss': 0.0939, 'grad_norm': 0.9392642518540739, 'learning_rate': 4.006066262249183e-07, 'completion_length': 455.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.6748512089252472, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.6480655670166016, 'reward_std': 0.1563713699579239, 'kl': 2.3515625, 'epoch': 0.6}
+ 60%|█████▉    | 2569/4286 [17:00:38<11:31:36, 24.17s/it] 60%|█████▉    | 2570/4286 [17:01:01<11:21:06, 23.82s/it]                                                         {'loss': 0.0175, 'grad_norm': 0.5300365033844135, 'learning_rate': 4.0037330844610357e-07, 'completion_length': 405.7678680419922, 'rewards/only_full_func_accuracy_reward': 0.8196429014205933, 'rewards/format_reward': 1.0, 'reward': 1.819642961025238, 'reward_std': 0.04460093006491661, 'kl': 0.43896484375, 'epoch': 0.6}
+ 60%|█████▉    | 2570/4286 [17:01:01<11:21:06, 23.82s/it] 60%|█████▉    | 2571/4286 [17:01:25<11:14:37, 23.60s/it]                                                         {'loss': 0.0494, 'grad_norm': 2.0847104735138373, 'learning_rate': 4.001399906672888e-07, 'completion_length': 393.9910888671875, 'rewards/only_full_func_accuracy_reward': 0.7224702835083008, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7135417461395264, 'reward_std': 0.06696124561131, 'kl': 1.2314453125, 'epoch': 0.6}
+ 60%|█████▉    | 2571/4286 [17:01:25<11:14:37, 23.60s/it] 60%|██████    | 2572/4286 [17:01:48<11:16:44, 23.69s/it]                                                         {'loss': 0.1299, 'grad_norm': 1.8909827251975657, 'learning_rate': 3.9990667288847407e-07, 'completion_length': 404.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.6933035552501678, 'rewards/format_reward': 0.973214328289032, 'reward': 1.666517972946167, 'reward_std': 0.20964469760656357, 'kl': 3.25, 'epoch': 0.6}
+ 60%|██████    | 2572/4286 [17:01:48<11:16:44, 23.69s/it] 60%|██████    | 2573/4286 [17:02:12<11:11:20, 23.51s/it]                                                         {'loss': 0.2115, 'grad_norm': 3.9895784304831787, 'learning_rate': 3.9967335510965935e-07, 'completion_length': 384.8035888671875, 'rewards/only_full_func_accuracy_reward': 0.6677083671092987, 'rewards/format_reward': 0.9375000298023224, 'reward': 1.6052084565162659, 'reward_std': 0.35550445318222046, 'kl': 5.28125, 'epoch': 0.6}
+ 60%|██████    | 2573/4286 [17:02:12<11:11:20, 23.51s/it] 60%|██████    | 2574/4286 [17:02:35<11:08:17, 23.42s/it]                                                         {'loss': 0.1278, 'grad_norm': 0.9398310043839614, 'learning_rate': 3.9944003733084457e-07, 'completion_length': 410.2768096923828, 'rewards/only_full_func_accuracy_reward': 0.7723214626312256, 'rewards/format_reward': 0.9464285969734192, 'reward': 1.7187501192092896, 'reward_std': 0.2840834856033325, 'kl': 3.1953125, 'epoch': 0.6}
+ 60%|██████    | 2574/4286 [17:02:35<11:08:17, 23.42s/it] 60%|██████    | 2575/4286 [17:02:59<11:14:56, 23.67s/it]                                                         {'loss': 0.1474, 'grad_norm': 2.6577266138945315, 'learning_rate': 3.9920671955202984e-07, 'completion_length': 411.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.6312500238418579, 'rewards/format_reward': 0.9464286267757416, 'reward': 1.577678620815277, 'reward_std': 0.2610799968242645, 'kl': 3.6796875, 'epoch': 0.6}
+ 60%|██████    | 2575/4286 [17:02:59<11:14:56, 23.67s/it] 60%|██████    | 2576/4286 [17:03:23<11:14:31, 23.67s/it]                                                         {'loss': 0.1579, 'grad_norm': 3.6015980689553, 'learning_rate': 3.9897340177321507e-07, 'completion_length': 392.0535888671875, 'rewards/only_full_func_accuracy_reward': 0.5944940447807312, 'rewards/format_reward': 0.973214328289032, 'reward': 1.567708432674408, 'reward_std': 0.20341482013463974, 'kl': 3.953125, 'epoch': 0.6}
+ 60%|██████    | 2576/4286 [17:03:23<11:14:31, 23.67s/it] 60%|██████    | 2577/4286 [17:03:45<11:07:00, 23.42s/it]                                                         {'loss': 0.131, 'grad_norm': 0.7769333497297838, 'learning_rate': 3.9874008399440034e-07, 'completion_length': 384.83929443359375, 'rewards/only_full_func_accuracy_reward': 0.6899802088737488, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.6542660593986511, 'reward_std': 0.24950507283210754, 'kl': 3.27734375, 'epoch': 0.6}
+ 60%|██████    | 2577/4286 [17:03:45<11:07:00, 23.42s/it] 60%|██████    | 2578/4286 [17:04:10<11:13:15, 23.65s/it]                                                         {'loss': 0.0328, 'grad_norm': 0.6989697796039033, 'learning_rate': 3.985067662155856e-07, 'completion_length': 425.3214569091797, 'rewards/only_full_func_accuracy_reward': 0.8623512983322144, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.8444941639900208, 'reward_std': 0.1199556216597557, 'kl': 0.818359375, 'epoch': 0.6}
+ 60%|██████    | 2578/4286 [17:04:10<11:13:15, 23.65s/it] 60%|██████    | 2579/4286 [17:04:32<11:01:26, 23.25s/it]                                                         {'loss': 0.0581, 'grad_norm': 1.1886680935891365, 'learning_rate': 3.9827344843677084e-07, 'completion_length': 395.75001525878906, 'rewards/only_full_func_accuracy_reward': 0.742559552192688, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7336310744285583, 'reward_std': 0.13002130016684532, 'kl': 1.453125, 'epoch': 0.6}
+ 60%|██████    | 2579/4286 [17:04:32<11:01:26, 23.25s/it] 60%|██████    | 2580/4286 [17:04:55<10:59:49, 23.21s/it]                                                         {'loss': 0.1333, 'grad_norm': 1.5707207050503862, 'learning_rate': 3.980401306579561e-07, 'completion_length': 382.1607360839844, 'rewards/only_full_func_accuracy_reward': 0.668154776096344, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6502977013587952, 'reward_std': 0.20282602310180664, 'kl': 3.3359375, 'epoch': 0.6}
+ 60%|██████    | 2580/4286 [17:04:55<10:59:49, 23.21s/it] 60%|██████    | 2581/4286 [17:05:19<11:09:03, 23.54s/it]                                                         {'loss': 0.1039, 'grad_norm': 1.97635726993947, 'learning_rate': 3.978068128791414e-07, 'completion_length': 410.60716247558594, 'rewards/only_full_func_accuracy_reward': 0.7130456566810608, 'rewards/format_reward': 0.9464285969734192, 'reward': 1.6594743132591248, 'reward_std': 0.18495972454547882, 'kl': 2.59765625, 'epoch': 0.6}
+ 60%|██████    | 2581/4286 [17:05:19<11:09:03, 23.54s/it] 60%|██████    | 2582/4286 [17:05:43<11:09:35, 23.58s/it]                                                         {'loss': 0.0847, 'grad_norm': 1.9097143507368441, 'learning_rate': 3.975734951003266e-07, 'completion_length': 395.1250305175781, 'rewards/only_full_func_accuracy_reward': 0.6302083730697632, 'rewards/format_reward': 0.973214328289032, 'reward': 1.60342276096344, 'reward_std': 0.16594698280096054, 'kl': 2.12109375, 'epoch': 0.6}
+ 60%|██████    | 2582/4286 [17:05:43<11:09:35, 23.58s/it] 60%|██████    | 2583/4286 [17:06:06<11:01:19, 23.30s/it]                                                         {'loss': 0.0891, 'grad_norm': 1.286474548181252, 'learning_rate': 3.973401773215119e-07, 'completion_length': 370.68751525878906, 'rewards/only_full_func_accuracy_reward': 0.7157738506793976, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7068453431129456, 'reward_std': 0.16711539030075073, 'kl': 2.23046875, 'epoch': 0.6}
+ 60%|██████    | 2583/4286 [17:06:06<11:01:19, 23.30s/it] 60%|██████    | 2584/4286 [17:06:29<11:04:54, 23.44s/it]                                                         {'loss': 0.0307, 'grad_norm': 1.9773934225944994, 'learning_rate': 3.971068595426971e-07, 'completion_length': 410.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.6748512089252472, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.66592276096344, 'reward_std': 0.1303640678524971, 'kl': 0.771484375, 'epoch': 0.6}
+ 60%|██████    | 2584/4286 [17:06:29<11:04:54, 23.44s/it] 60%|██████    | 2585/4286 [17:06:53<11:04:46, 23.45s/it]                                                         {'loss': 0.0534, 'grad_norm': 0.7983828957386413, 'learning_rate': 3.968735417638824e-07, 'completion_length': 405.83038330078125, 'rewards/only_full_func_accuracy_reward': 0.7581845223903656, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.740327537059784, 'reward_std': 0.1247392576187849, 'kl': 1.3365478515625, 'epoch': 0.6}
+ 60%|██████    | 2585/4286 [17:06:53<11:04:46, 23.45s/it] 60%|██████    | 2586/4286 [17:07:17<11:06:43, 23.53s/it]                                                         {'loss': 0.0257, 'grad_norm': 0.50341016793962, 'learning_rate': 3.9664022398506766e-07, 'completion_length': 436.1428680419922, 'rewards/only_full_func_accuracy_reward': 0.6636904776096344, 'rewards/format_reward': 1.0, 'reward': 1.6636906266212463, 'reward_std': 0.05528504867106676, 'kl': 0.643310546875, 'epoch': 0.6}
+ 60%|██████    | 2586/4286 [17:07:17<11:06:43, 23.53s/it] 60%|██████    | 2587/4286 [17:07:41<11:11:35, 23.72s/it]                                                         {'loss': 0.0574, 'grad_norm': 2.440470646296923, 'learning_rate': 3.964069062062529e-07, 'completion_length': 455.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.5532738268375397, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.535416841506958, 'reward_std': 0.10357881337404251, 'kl': 1.4273681640625, 'epoch': 0.6}
+ 60%|██████    | 2587/4286 [17:07:41<11:11:35, 23.72s/it] 60%|██████    | 2588/4286 [17:08:02<10:52:51, 23.07s/it]                                                         {'loss': 0.023, 'grad_norm': 1.6251775015464967, 'learning_rate': 3.9617358842743816e-07, 'completion_length': 334.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.8072917461395264, 'rewards/format_reward': 1.0, 'reward': 1.8072918057441711, 'reward_std': 0.05798786226660013, 'kl': 0.57470703125, 'epoch': 0.6}
+ 60%|██████    | 2588/4286 [17:08:02<10:52:51, 23.07s/it] 60%|██████    | 2589/4286 [17:08:28<11:12:44, 23.79s/it]                                                         {'loss': 0.0018, 'grad_norm': 0.2900361971387314, 'learning_rate': 3.959402706486234e-07, 'completion_length': 423.9107360839844, 'rewards/only_full_func_accuracy_reward': 0.7284226715564728, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7194941639900208, 'reward_std': 0.09157798439264297, 'kl': 0.0450439453125, 'epoch': 0.6}
+ 60%|██████    | 2589/4286 [17:08:28<11:12:44, 23.79s/it] 60%|██████    | 2590/4286 [17:08:52<11:12:47, 23.80s/it]                                                         {'loss': 0.0255, 'grad_norm': 1.6342950667689626, 'learning_rate': 3.9570695286980865e-07, 'completion_length': 385.6428680419922, 'rewards/only_full_func_accuracy_reward': 0.5863095372915268, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5773810744285583, 'reward_std': 0.11299559473991394, 'kl': 0.636962890625, 'epoch': 0.6}
+ 60%|██████    | 2590/4286 [17:08:52<11:12:47, 23.80s/it] 60%|██████    | 2591/4286 [17:09:17<11:21:05, 24.11s/it]                                                         {'loss': 0.0252, 'grad_norm': 1.1106273012280488, 'learning_rate': 3.9547363509099393e-07, 'completion_length': 397.46429443359375, 'rewards/only_full_func_accuracy_reward': 0.6732143461704254, 'rewards/format_reward': 1.0, 'reward': 1.6732143759727478, 'reward_std': 0.05724197439849377, 'kl': 0.62890625, 'epoch': 0.6}
+ 60%|██████    | 2591/4286 [17:09:17<11:21:05, 24.11s/it] 60%|██████    | 2592/4286 [17:09:42<11:32:24, 24.52s/it]                                                         {'loss': 0.0229, 'grad_norm': 4.010214229546742, 'learning_rate': 3.9524031731217915e-07, 'completion_length': 441.12501525878906, 'rewards/only_full_func_accuracy_reward': 0.6891369521617889, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6802083849906921, 'reward_std': 0.07163313589990139, 'kl': 0.5703125, 'epoch': 0.6}
+ 60%|██████    | 2592/4286 [17:09:42<11:32:24, 24.52s/it] 60%|██████    | 2593/4286 [17:10:06<11:28:29, 24.40s/it]                                                         {'loss': 0.0019, 'grad_norm': 0.3697225247926954, 'learning_rate': 3.950069995333644e-07, 'completion_length': 406.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.6666667461395264, 'rewards/format_reward': 1.0, 'reward': 1.6666668057441711, 'reward_std': 0.011021665297448635, 'kl': 0.0482177734375, 'epoch': 0.6}
+ 60%|██████    | 2593/4286 [17:10:06<11:28:29, 24.40s/it] 61%|███���██    | 2594/4286 [17:10:29<11:17:04, 24.01s/it]                                                         {'loss': 0.0017, 'grad_norm': 0.4258443130268123, 'learning_rate': 3.9477368175454965e-07, 'completion_length': 400.5178680419922, 'rewards/only_full_func_accuracy_reward': 0.7642858028411865, 'rewards/format_reward': 1.0, 'reward': 1.7642858028411865, 'reward_std': 0.05257713422179222, 'kl': 0.04345703125, 'epoch': 0.61}
+ 61%|██████    | 2594/4286 [17:10:29<11:17:04, 24.01s/it] 61%|██████    | 2595/4286 [17:10:52<11:10:07, 23.78s/it]                                                         {'loss': 0.0432, 'grad_norm': 0.961104284637484, 'learning_rate': 3.945403639757349e-07, 'completion_length': 341.1339569091797, 'rewards/only_full_func_accuracy_reward': 0.7261904776096344, 'rewards/format_reward': 1.0, 'reward': 1.7261906862258911, 'reward_std': 0.06708490289747715, 'kl': 1.078125, 'epoch': 0.61}
+ 61%|██████    | 2595/4286 [17:10:52<11:10:07, 23.78s/it] 61%|██████    | 2596/4286 [17:11:17<11:15:07, 23.97s/it]                                                         {'loss': 0.0016, 'grad_norm': 1.1591293817804909, 'learning_rate': 3.943070461969202e-07, 'completion_length': 409.9285888671875, 'rewards/only_full_func_accuracy_reward': 0.7700892984867096, 'rewards/format_reward': 1.0, 'reward': 1.7700894474983215, 'reward_std': 0.04957471415400505, 'kl': 0.0396728515625, 'epoch': 0.61}
+ 61%|██████    | 2596/4286 [17:11:17<11:15:07, 23.97s/it] 61%|██████    | 2597/4286 [17:11:41<11:17:37, 24.07s/it]                                                         {'loss': 0.0248, 'grad_norm': 0.890385589377324, 'learning_rate': 3.940737284181054e-07, 'completion_length': 400.7857360839844, 'rewards/only_full_func_accuracy_reward': 0.7083333432674408, 'rewards/format_reward': 1.0, 'reward': 1.708333432674408, 'reward_std': 0.10414455085992813, 'kl': 0.615234375, 'epoch': 0.61}
+ 61%|██████    | 2597/4286 [17:11:41<11:17:37, 24.07s/it] 61%|██████    | 2598/4286 [17:12:04<11:06:35, 23.69s/it]                                                         {'loss': 0.0324, 'grad_norm': 0.6547300953170482, 'learning_rate': 3.938404106392907e-07, 'completion_length': 345.3839569091797, 'rewards/only_full_func_accuracy_reward': 0.7674107849597931, 'rewards/format_reward': 1.0, 'reward': 1.7674108743667603, 'reward_std': 0.048963604494929314, 'kl': 0.812255859375, 'epoch': 0.61}
+ 61%|██████    | 2598/4286 [17:12:04<11:06:35, 23.69s/it] 61%|██████    | 2599/4286 [17:12:28<11:04:38, 23.64s/it]                                                         {'loss': 0.0468, 'grad_norm': 0.7548499726730771, 'learning_rate': 3.936070928604759e-07, 'completion_length': 370.26788330078125, 'rewards/only_full_func_accuracy_reward': 0.74851194024086, 'rewards/format_reward': 1.0, 'reward': 1.7485120296478271, 'reward_std': 0.06961612775921822, 'kl': 1.169921875, 'epoch': 0.61}
+ 61%|██████    | 2599/4286 [17:12:28<11:04:38, 23.64s/it] 61%|██████    | 2600/4286 [17:12:53<11:17:48, 24.12s/it]                                                         {'loss': 0.0442, 'grad_norm': 1.6868960754902973, 'learning_rate': 3.933737750816612e-07, 'completion_length': 467.8393096923828, 'rewards/only_full_func_accuracy_reward': 0.6659225821495056, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6480655670166016, 'reward_std': 0.13388269022107124, 'kl': 1.107421875, 'epoch': 0.61}
+ 61%|██████    | 2600/4286 [17:12:53<11:17:48, 24.12s/it] 61%|██████    | 2601/4286 [17:14:26<21:01:08, 44.91s/it]                                                         {'loss': 0.0208, 'grad_norm': 3.953071236705385, 'learning_rate': 3.9314045730284647e-07, 'completion_length': 436.0357360839844, 'rewards/only_full_func_accuracy_reward': 0.6391369700431824, 'rewards/format_reward': 1.0, 'reward': 1.6391369700431824, 'reward_std': 0.07049942016601562, 'kl': 0.51953125, 'epoch': 0.61}
+ 61%|██████    | 2601/4286 [17:14:26<21:01:08, 44.91s/it] 61%|██████    | 2602/4286 [17:14:51<18:09:48, 38.83s/it]                                                         {'loss': 0.0225, 'grad_norm': 0.9587374480459498, 'learning_rate': 3.929071395240317e-07, 'completion_length': 421.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.6755952537059784, 'rewards/format_reward': 1.0, 'reward': 1.6755953431129456, 'reward_std': 0.08285307884216309, 'kl': 0.5621337890625, 'epoch': 0.61}
+ 61%|██████    | 2602/4286 [17:14:51<18:09:48, 38.83s/it] 61%|██████    | 2603/4286 [17:15:14<15:54:47, 34.04s/it]                                                         {'loss': 0.0123, 'grad_norm': 0.49269527958325365, 'learning_rate': 3.9267382174521697e-07, 'completion_length': 364.6607208251953, 'rewards/only_full_func_accuracy_reward': 0.7321429252624512, 'rewards/format_reward': 1.0, 'reward': 1.732142984867096, 'reward_std': 0.05546559114009142, 'kl': 0.3082275390625, 'epoch': 0.61}
+ 61%|██████    | 2603/4286 [17:15:14<15:54:47, 34.04s/it] 61%|██████    | 2604/4286 [17:15:36<14:18:37, 30.63s/it]                                                         {'loss': 0.0021, 'grad_norm': 0.22836869442499325, 'learning_rate': 3.9244050396640224e-07, 'completion_length': 347.83929443359375, 'rewards/only_full_func_accuracy_reward': 0.6473214626312256, 'rewards/format_reward': 1.0, 'reward': 1.6473215222358704, 'reward_std': 0.012626906856894493, 'kl': 0.052978515625, 'epoch': 0.61}
+ 61%|██████    | 2604/4286 [17:15:36<14:18:37, 30.63s/it] 61%|██████    | 2605/4286 [17:15:57<12:58:01, 27.77s/it]                                                         {'loss': 0.0079, 'grad_norm': 1.274431732576791, 'learning_rate': 3.9220718618758746e-07, 'completion_length': 340.6518096923828, 'rewards/only_full_func_accuracy_reward': 0.6659226417541504, 'rewards/format_reward': 1.0, 'reward': 1.66592276096344, 'reward_std': 0.056559983640909195, 'kl': 0.1976318359375, 'epoch': 0.61}
+ 61%|██████    | 2605/4286 [17:15:57<12:58:01, 27.77s/it] 61%|██████    | 2606/4286 [17:16:22<12:26:39, 26.67s/it]                                                         {'loss': 0.0083, 'grad_norm': 1.8545605871402113, 'learning_rate': 3.9197386840877274e-07, 'completion_length': 447.4464416503906, 'rewards/only_full_func_accuracy_reward': 0.666815459728241, 'rewards/format_reward': 1.0, 'reward': 1.6668155789375305, 'reward_std': 0.01641497970558703, 'kl': 0.2088623046875, 'epoch': 0.61}
+ 61%|██████    | 2606/4286 [17:16:22<12:26:39, 26.67s/it] 61%|██████    | 2607/4286 [17:16:46<12:08:10, 26.02s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.39129166173902175, 'learning_rate': 3.9174055062995796e-07, 'completion_length': 401.08929443359375, 'rewards/only_full_func_accuracy_reward': 0.6525297462940216, 'rewards/format_reward': 1.0, 'reward': 1.6525299549102783, 'reward_std': 0.04108351469039917, 'kl': 0.037841796875, 'epoch': 0.61}
+ 61%|██████    | 2607/4286 [17:16:46<12:08:10, 26.02s/it] 61%|██████    | 2608/4286 [17:17:10<11:48:41, 25.34s/it]                                                         {'loss': 0.0092, 'grad_norm': 0.6233156636229009, 'learning_rate': 3.9150723285114324e-07, 'completion_length': 419.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.767857164144516, 'rewards/format_reward': 1.0, 'reward': 1.767857313156128, 'reward_std': 0.04393305256962776, 'kl': 0.230224609375, 'epoch': 0.61}
+ 61%|██████    | 2608/4286 [17:17:10<11:48:41, 25.34s/it] 61%|██████    | 2609/4286 [17:17:32<11:25:05, 24.51s/it]                                                         {'loss': 0.0164, 'grad_norm': 2.3505787665940354, 'learning_rate': 3.912739150723285e-07, 'completion_length': 391.45538330078125, 'rewards/only_full_func_accuracy_reward': 0.7116071879863739, 'rewards/format_reward': 1.0, 'reward': 1.7116071581840515, 'reward_std': 0.05372311547398567, 'kl': 0.410400390625, 'epoch': 0.61}
+ 61%|██████    | 2609/4286 [17:17:32<11:25:05, 24.51s/it] 61%|██████    | 2610/4286 [17:17:55<11:10:50, 24.02s/it]                                                         {'loss': 0.0019, 'grad_norm': 0.2932493441671993, 'learning_rate': 3.9104059729351373e-07, 'completion_length': 383.00001525878906, 'rewards/only_full_func_accuracy_reward': 0.6364583671092987, 'rewards/format_reward': 1.0, 'reward': 1.6364584565162659, 'reward_std': 0.05631145089864731, 'kl': 0.0469970703125, 'epoch': 0.61}
+ 61%|██████    | 2610/4286 [17:17:55<11:10:50, 24.02s/it] 61%|██████    | 2611/4286 [17:18:19<11:06:40, 23.88s/it]                                                         {'loss': 0.0184, 'grad_norm': 0.5634871115342225, 'learning_rate': 3.90807279514699e-07, 'completion_length': 419.6607360839844, 'rewards/only_full_func_accuracy_reward': 0.6459822356700897, 'rewards/format_reward': 1.0, 'reward': 1.645982265472412, 'reward_std': 0.0650353841483593, 'kl': 0.460693359375, 'epoch': 0.61}
+ 61%|██████    | 2611/4286 [17:18:19<11:06:40, 23.88s/it] 61%|██████    | 2612/4286 [17:18:41<10:49:59, 23.30s/it]                                                         {'loss': 0.0019, 'grad_norm': 0.6908532553023845, 'learning_rate': 3.9057396173588423e-07, 'completion_length': 347.68751525878906, 'rewards/only_full_func_accuracy_reward': 0.8370536267757416, 'rewards/format_reward': 1.0, 'reward': 1.837053656578064, 'reward_std': 0.04173845052719116, 'kl': 0.0474853515625, 'epoch': 0.61}
+ 61%|██████    | 2612/4286 [17:18:41<10:49:59, 23.30s/it] 61%|██████    | 2613/4286 [17:19:05<10:54:06, 23.46s/it]                                                         {'loss': 0.0282, 'grad_norm': 289.1536824556437, 'learning_rate': 3.903406439570695e-07, 'completion_length': 408.15179443359375, 'rewards/only_full_func_accuracy_reward': 0.7098214626312256, 'rewards/format_reward': 1.0, 'reward': 1.7098215818405151, 'reward_std': 0.06016984581947327, 'kl': 0.705078125, 'epoch': 0.61}
+ 61%|██████    | 2613/4286 [17:19:05<10:54:06, 23.46s/it] 61%|██████    | 2614/4286 [17:19:28<10:53:50, 23.46s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.26163710104446075, 'learning_rate': 3.901073261782548e-07, 'completion_length': 403.4196472167969, 'rewards/only_full_func_accuracy_reward': 0.7447916865348816, 'rewards/format_reward': 1.0, 'reward': 1.7447918057441711, 'reward_std': 0.03143469989299774, 'kl': 0.037841796875, 'epoch': 0.61}
+ 61%|██████    | 2614/4286 [17:19:28<10:53:50, 23.46s/it] 61%|██████    | 2615/4286 [17:19:53<11:01:49, 23.76s/it]                                                         {'loss': 0.0019, 'grad_norm': 1.6743393860783502, 'learning_rate': 3.8987400839944e-07, 'completion_length': 403.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.694196492433548, 'rewards/format_reward': 1.0, 'reward': 1.6941965818405151, 'reward_std': 0.07927288673818111, 'kl': 0.048095703125, 'epoch': 0.61}
+ 61%|██████    | 2615/4286 [17:19:53<11:01:49, 23.76s/it] 61%|██████    | 2616/4286 [17:20:15<10:49:51, 23.35s/it]                                                         {'loss': 0.0014, 'grad_norm': 0.033302231616343374, 'learning_rate': 3.896406906206253e-07, 'completion_length': 387.5000305175781, 'rewards/only_full_func_accuracy_reward': 0.803571492433548, 'rewards/format_reward': 1.0, 'reward': 1.8035715818405151, 'reward_std': 0.0, 'kl': 0.03515625, 'epoch': 0.61}
+ 61%|██████    | 2616/4286 [17:20:15<10:49:51, 23.35s/it] 61%|██████    | 2617/4286 [17:20:38<10:47:57, 23.29s/it]                                                         {'loss': 0.0083, 'grad_norm': 1.4677989272426257, 'learning_rate': 3.894073728418105e-07, 'completion_length': 391.1339416503906, 'rewards/only_full_func_accuracy_reward': 0.7492559850215912, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7403274774551392, 'reward_std': 0.07511609327048063, 'kl': 0.20556640625, 'epoch': 0.61}
+ 61%|██████    | 2617/4286 [17:20:38<10:47:57, 23.29s/it] 61%|██████    | 2618/4286 [17:21:02<10:55:01, 23.56s/it]                                                         {'loss': 0.0055, 'grad_norm': 2.659791683108208, 'learning_rate': 3.891740550629958e-07, 'completion_length': 387.5089416503906, 'rewards/only_full_func_accuracy_reward': 0.7924107313156128, 'rewards/format_reward': 1.0, 'reward': 1.7924107909202576, 'reward_std': 0.038097052834928036, 'kl': 0.1376953125, 'epoch': 0.61}
+ 61%|██████    | 2618/4286 [17:21:02<10:55:01, 23.56s/it] 61%|██████    | 2619/4286 [17:21:24<10:42:17, 23.12s/it]                                                         {'loss': 0.0337, 'grad_norm': 0.6419003366544115, 'learning_rate': 3.8894073728418105e-07, 'completion_length': 373.3214569091797, 'rewards/only_full_func_accuracy_reward': 0.8028274178504944, 'rewards/format_reward': 1.0, 'reward': 1.8028274774551392, 'reward_std': 0.03705291822552681, 'kl': 0.8447265625, 'epoch': 0.61}
+ 61%|██████    | 2619/4286 [17:21:24<10:42:17, 23.12s/it] 61%|██████    | 2620/4286 [17:21:47<10:41:37, 23.11s/it]                                                         {'loss': 0.0133, 'grad_norm': 0.8540614455926894, 'learning_rate': 3.8870741950536627e-07, 'completion_length': 368.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.8087798058986664, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7998512983322144, 'reward_std': 0.07324830815196037, 'kl': 0.3333740234375, 'epoch': 0.61}
+ 61%|██████    | 2620/4286 [17:21:47<10:41:37, 23.11s/it] 61%|██████    | 2621/4286 [17:22:11<10:45:19, 23.26s/it]                                                         {'loss': 0.0216, 'grad_norm': 1.1932169355639743, 'learning_rate': 3.8847410172655155e-07, 'completion_length': 363.4643096923828, 'rewards/only_full_func_accuracy_reward': 0.770089328289032, 'rewards/format_reward': 1.0, 'reward': 1.7700893878936768, 'reward_std': 0.0063134534284472466, 'kl': 0.53955078125, 'epoch': 0.61}
+ 61%|██████    | 2621/4286 [17:22:11<10:45:19, 23.26s/it] 61%|██████    | 2622/4286 [17:22:34<10:43:12, 23.19s/it]                                                         {'loss': 0.0104, 'grad_norm': 1.0801483523314717, 'learning_rate': 3.8824078394773677e-07, 'completion_length': 365.5089416503906, 'rewards/only_full_func_accuracy_reward': 0.5898809432983398, 'rewards/format_reward': 1.0, 'reward': 1.5898811221122742, 'reward_std': 0.047935834154486656, 'kl': 0.2591552734375, 'epoch': 0.61}
+ 61%|██████    | 2622/4286 [17:22:34<10:43:12, 23.19s/it] 61%|██████    | 2623/4286 [17:22:59<10:57:03, 23.71s/it]                                                         {'loss': 0.0127, 'grad_norm': 1.4675965061838236, 'learning_rate': 3.8800746616892204e-07, 'completion_length': 434.0357208251953, 'rewards/only_full_func_accuracy_reward': 0.731398731470108, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7224704027175903, 'reward_std': 0.09981351718306541, 'kl': 0.3165283203125, 'epoch': 0.61}
+ 61%|██████    | 2623/4286 [17:22:59<10:57:03, 23.71s/it] 61%|██████    | 2624/4286 [17:23:21<10:44:25, 23.26s/it]                                                         {'loss': 0.0032, 'grad_norm': 1.669609754642442, 'learning_rate': 3.877741483901073e-07, 'completion_length': 360.77679443359375, 'rewards/only_full_func_accuracy_reward': 0.7648809850215912, 'rewards/format_reward': 1.0, 'reward': 1.7648810744285583, 'reward_std': 0.046146972104907036, 'kl': 0.078857421875, 'epoch': 0.61}
+ 61%|██████    | 2624/4286 [17:23:21<10:44:25, 23.26s/it] 61%|██████    | 2625/4286 [17:23:44<10:43:30, 23.25s/it]                                                         {'loss': 0.0113, 'grad_norm': 0.5019147341224867, 'learning_rate': 3.8754083061129254e-07, 'completion_length': 393.52679443359375, 'rewards/only_full_func_accuracy_reward': 0.7641368806362152, 'rewards/format_reward': 1.0, 'reward': 1.7641370296478271, 'reward_std': 0.02607782557606697, 'kl': 0.2816162109375, 'epoch': 0.61}
+ 61%|██████    | 2625/4286 [17:23:44<10:43:30, 23.25s/it] 61%|██████▏   | 2626/4286 [17:24:06<10:32:39, 22.87s/it]                                                         {'loss': 0.0445, 'grad_norm': 1.7203335073035073, 'learning_rate': 3.873075128324778e-07, 'completion_length': 322.6071472167969, 'rewards/only_full_func_accuracy_reward': 0.7392113506793976, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7213543057441711, 'reward_std': 0.11042937636375427, 'kl': 1.109375, 'epoch': 0.61}
+ 61%|██████▏   | 2626/4286 [17:24:06<10:32:39, 22.87s/it] 61%|██████▏   | 2627/4286 [17:24:28<10:19:11, 22.39s/it]                                                         {'loss': 0.0195, 'grad_norm': 1.9496855496503158, 'learning_rate': 3.870741950536631e-07, 'completion_length': 358.2410888671875, 'rewards/only_full_func_accuracy_reward': 0.7514881789684296, 'rewards/format_reward': 1.0, 'reward': 1.7514882683753967, 'reward_std': 0.02815126348286867, 'kl': 0.488037109375, 'epoch': 0.61}
+ 61%|██████▏   | 2627/4286 [17:24:28<10:19:11, 22.39s/it] 61%|██████▏   | 2628/4286 [17:24:51<10:27:09, 22.70s/it]                                                         {'loss': 0.0016, 'grad_norm': 0.567542465884339, 'learning_rate': 3.868408772748483e-07, 'completion_length': 399.7410888671875, 'rewards/only_full_func_accuracy_reward': 0.7529762387275696, 'rewards/format_reward': 1.0, 'reward': 1.7529762387275696, 'reward_std': 0.01232259999960661, 'kl': 0.041015625, 'epoch': 0.61}
+ 61%|██████▏   | 2628/4286 [17:24:51<10:27:09, 22.70s/it] 61%|██████▏   | 2629/4286 [17:25:15<10:36:02, 23.03s/it]                                                         {'loss': 0.0186, 'grad_norm': 0.9515073126981523, 'learning_rate': 3.866075594960336e-07, 'completion_length': 388.7410888671875, 'rewards/only_full_func_accuracy_reward': 0.6763392984867096, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6674108505249023, 'reward_std': 0.09741365723311901, 'kl': 0.466064453125, 'epoch': 0.61}
+ 61%|██████▏   | 2629/4286 [17:25:15<10:36:02, 23.03s/it] 61%|██████▏   | 2630/4286 [17:25:36<10:22:22, 22.55s/it]                                                         {'loss': 0.0285, 'grad_norm': 0.7977321585742438, 'learning_rate': 3.863742417172188e-07, 'completion_length': 346.4821472167969, 'rewards/only_full_func_accuracy_reward': 0.7767857313156128, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.767857313156128, 'reward_std': 0.08808404207229614, 'kl': 0.712890625, 'epoch': 0.61}
+ 61%|██████▏   | 2630/4286 [17:25:36<10:22:22, 22.55s/it] 61%|██████▏   | 2631/4286 [17:25:59<10:24:43, 22.65s/it]                                                         {'loss': 0.0093, 'grad_norm': 1.467076208884708, 'learning_rate': 3.861409239384041e-07, 'completion_length': 322.5982360839844, 'rewards/only_full_func_accuracy_reward': 0.877827376127243, 'rewards/format_reward': 1.0, 'reward': 1.877827525138855, 'reward_std': 0.05054282024502754, 'kl': 0.232666015625, 'epoch': 0.61}
+ 61%|██████▏   | 2631/4286 [17:25:59<10:24:43, 22.65s/it] 61%|██████▏   | 2632/4286 [17:26:23<10:35:38, 23.06s/it]                                                         {'loss': 0.0021, 'grad_norm': 0.5719107896982811, 'learning_rate': 3.8590760615958936e-07, 'completion_length': 422.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.8477679193019867, 'rewards/format_reward': 1.0, 'reward': 1.8477680683135986, 'reward_std': 0.016640394926071167, 'kl': 0.0513916015625, 'epoch': 0.61}
+ 61%|██████▏   | 2632/4286 [17:26:23<10:35:38, 23.06s/it] 61%|██████▏   | 2633/4286 [17:26:47<10:37:13, 23.13s/it]                                                         {'loss': 0.0016, 'grad_norm': 0.733336691196232, 'learning_rate': 3.856742883807746e-07, 'completion_length': 419.6607208251953, 'rewards/only_full_func_accuracy_reward': 0.7306548058986664, 'rewards/format_reward': 1.0, 'reward': 1.7306548357009888, 'reward_std': 0.03887920919805765, 'kl': 0.0404052734375, 'epoch': 0.61}
+ 61%|██████▏   | 2633/4286 [17:26:47<10:37:13, 23.13s/it] 61%|██████▏   | 2634/4286 [17:27:10<10:38:04, 23.17s/it]                                                         {'loss': 0.0229, 'grad_norm': 1.3527471407111251, 'learning_rate': 3.8544097060195986e-07, 'completion_length': 417.7857208251953, 'rewards/only_full_func_accuracy_reward': 0.6904762089252472, 'rewards/format_reward': 1.0, 'reward': 1.6904762983322144, 'reward_std': 0.07777888607233763, 'kl': 0.5704345703125, 'epoch': 0.61}
+ 61%|██████▏   | 2634/4286 [17:27:10<10:38:04, 23.17s/it] 61%|██████▏   | 2635/4286 [17:27:34<10:46:57, 23.51s/it]                                                         {'loss': 0.0014, 'grad_norm': 0.34137946565033256, 'learning_rate': 3.852076528231451e-07, 'completion_length': 434.5982360839844, 'rewards/only_full_func_accuracy_reward': 0.6160714328289032, 'rewards/format_reward': 1.0, 'reward': 1.6160715818405151, 'reward_std': 0.060112059116363525, 'kl': 0.0360107421875, 'epoch': 0.61}
+ 61%|██████▏   | 2635/4286 [17:27:34<10:46:57, 23.51s/it] 62%|██████▏   | 2636/4286 [17:27:57<10:44:07, 23.42s/it]                                                         {'loss': 0.0061, 'grad_norm': 0.5716347981861994, 'learning_rate': 3.8497433504433036e-07, 'completion_length': 393.2768096923828, 'rewards/only_full_func_accuracy_reward': 0.647321492433548, 'rewards/format_reward': 1.0, 'reward': 1.6473215818405151, 'reward_std': 0.06215520203113556, 'kl': 0.1529541015625, 'epoch': 0.62}
+ 62%|██████▏   | 2636/4286 [17:27:57<10:44:07, 23.42s/it] 62%|██████▏   | 2637/4286 [17:28:21<10:42:07, 23.36s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.4482455643516896, 'learning_rate': 3.8474101726551563e-07, 'completion_length': 403.7857360839844, 'rewards/only_full_func_accuracy_reward': 0.744791716337204, 'rewards/format_reward': 1.0, 'reward': 1.7447918057441711, 'reward_std': 0.02707538567483425, 'kl': 0.037841796875, 'epoch': 0.62}
+ 62%|██████▏   | 2637/4286 [17:28:21<10:42:07, 23.36s/it] 62%|██████▏   | 2638/4286 [17:28:44<10:44:04, 23.45s/it]                                                         {'loss': 0.0157, 'grad_norm': 0.43193751573024863, 'learning_rate': 3.8450769948670085e-07, 'completion_length': 410.1964569091797, 'rewards/only_full_func_accuracy_reward': 0.7519345581531525, 'rewards/format_reward': 1.0, 'reward': 1.7519346475601196, 'reward_std': 0.030544384382665157, 'kl': 0.394287109375, 'epoch': 0.62}
+ 62%|██████▏   | 2638/4286 [17:28:44<10:44:04, 23.45s/it] 62%|██████▏   | 2639/4286 [17:29:07<10:39:46, 23.31s/it]                                                         {'loss': 0.0091, 'grad_norm': 0.7815807044331691, 'learning_rate': 3.8427438170788613e-07, 'completion_length': 408.9732360839844, 'rewards/only_full_func_accuracy_reward': 0.7083333730697632, 'rewards/format_reward': 1.0, 'reward': 1.708333432674408, 'reward_std': 0.03217401076108217, 'kl': 0.227783203125, 'epoch': 0.62}
+ 62%|██████▏   | 2639/4286 [17:29:07<10:39:46, 23.31s/it] 62%|██████▏   | 2640/4286 [17:29:31<10:45:35, 23.53s/it]                                                         {'loss': 0.0016, 'grad_norm': 1.6204765092507822, 'learning_rate': 3.8404106392907135e-07, 'completion_length': 419.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.7440476715564728, 'rewards/format_reward': 1.0, 'reward': 1.7440477013587952, 'reward_std': 0.034297144040465355, 'kl': 0.04052734375, 'epoch': 0.62}
+ 62%|██████▏   | 2640/4286 [17:29:31<10:45:35, 23.53s/it] 62%|██████▏   | 2641/4286 [17:29:56<10:54:35, 23.88s/it]                                                         {'loss': 0.024, 'grad_norm': 1.844998704969391, 'learning_rate': 3.8380774615025663e-07, 'completion_length': 444.4107208251953, 'rewards/only_full_func_accuracy_reward': 0.45059525966644287, 'rewards/format_reward': 1.0, 'reward': 1.4505953192710876, 'reward_std': 0.04338361416012049, 'kl': 0.5966796875, 'epoch': 0.62}
+ 62%|██████▏   | 2641/4286 [17:29:56<10:54:35, 23.88s/it] 62%|██████▏   | 2642/4286 [17:30:20<10:55:11, 23.91s/it]                                                         {'loss': 0.0054, 'grad_norm': 1.5545423031919599, 'learning_rate': 3.835744283714419e-07, 'completion_length': 388.1964416503906, 'rewards/only_full_func_accuracy_reward': 0.8741071820259094, 'rewards/format_reward': 1.0, 'reward': 1.8741072416305542, 'reward_std': 0.03274719789624214, 'kl': 0.1346435546875, 'epoch': 0.62}
+ 62%|██████▏   | 2642/4286 [17:30:20<10:55:11, 23.91s/it] 62%|██████▏   | 2643/4286 [17:30:44<11:00:00, 24.10s/it]                                                         {'loss': 0.0014, 'grad_norm': 2.56978138943393, 'learning_rate': 3.833411105926271e-07, 'completion_length': 380.14288330078125, 'rewards/only_full_func_accuracy_reward': 0.7812500298023224, 'rewards/format_reward': 1.0, 'reward': 1.7812500596046448, 'reward_std': 0.056864336133003235, 'kl': 0.03564453125, 'epoch': 0.62}
+ 62%|██████▏   | 2643/4286 [17:30:44<11:00:00, 24.10s/it] 62%|██████▏   | 2644/4286 [17:31:06<10:42:21, 23.47s/it]                                                         {'loss': 0.0104, 'grad_norm': 0.5223348270481487, 'learning_rate': 3.831077928138124e-07, 'completion_length': 373.6339416503906, 'rewards/only_full_func_accuracy_reward': 0.77976194024086, 'rewards/format_reward': 1.0, 'reward': 1.779762089252472, 'reward_std': 0.022286567836999893, 'kl': 0.26171875, 'epoch': 0.62}
+ 62%|██████▏   | 2644/4286 [17:31:06<10:42:21, 23.47s/it] 62%|██████▏   | 2645/4286 [17:31:31<10:48:43, 23.72s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.7098202774545225, 'learning_rate': 3.828744750349976e-07, 'completion_length': 454.60716247558594, 'rewards/only_full_func_accuracy_reward': 0.5736607313156128, 'rewards/format_reward': 1.0, 'reward': 1.5736608505249023, 'reward_std': 0.06939405016601086, 'kl': 0.0379638671875, 'epoch': 0.62}
+ 62%|██████▏   | 2645/4286 [17:31:31<10:48:43, 23.72s/it] 62%|██████▏   | 2646/4286 [17:31:55<10:53:30, 23.91s/it]                                                         {'loss': 0.0427, 'grad_norm': 2.3240997674518313, 'learning_rate': 3.826411572561829e-07, 'completion_length': 360.1071472167969, 'rewards/only_full_func_accuracy_reward': 0.7046131491661072, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6867560744285583, 'reward_std': 0.12643436342477798, 'kl': 1.0665283203125, 'epoch': 0.62}
+ 62%|██████▏   | 2646/4286 [17:31:55<10:53:30, 23.91s/it] 62%|██████▏   | 2647/4286 [17:32:19<10:50:29, 23.81s/it]                                                         {'loss': 0.0097, 'grad_norm': 0.3164996786613223, 'learning_rate': 3.8240783947736817e-07, 'completion_length': 400.6250305175781, 'rewards/only_full_func_accuracy_reward': 0.7321428656578064, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7232143878936768, 'reward_std': 0.04659811593592167, 'kl': 0.242431640625, 'epoch': 0.62}
+ 62%|██████▏   | 2647/4286 [17:32:19<10:50:29, 23.81s/it] 62%|██████▏   | 2648/4286 [17:32:44<11:00:25, 24.19s/it]                                                         {'loss': 0.0128, 'grad_norm': 1.808671713149496, 'learning_rate': 3.821745216985534e-07, 'completion_length': 434.5893096923828, 'rewards/only_full_func_accuracy_reward': 0.7395834028720856, 'rewards/format_reward': 1.0, 'reward': 1.739583432674408, 'reward_std': 0.04569191299378872, 'kl': 0.32177734375, 'epoch': 0.62}
+ 62%|██████▏   | 2648/4286 [17:32:44<11:00:25, 24.19s/it] 62%|██████▏   | 2649/4286 [17:33:07<10:53:40, 23.96s/it]                                                         {'loss': 0.0098, 'grad_norm': 0.7107756899713025, 'learning_rate': 3.8194120391973867e-07, 'completion_length': 421.8125305175781, 'rewards/only_full_func_accuracy_reward': 0.7187500298023224, 'rewards/format_reward': 1.0, 'reward': 1.7187500596046448, 'reward_std': 0.05261015333235264, 'kl': 0.245849609375, 'epoch': 0.62}
+ 62%|██████▏   | 2649/4286 [17:33:07<10:53:40, 23.96s/it] 62%|██████▏   | 2650/4286 [17:33:30<10:46:16, 23.70s/it]                                                         {'loss': 0.0022, 'grad_norm': 4.499102318087902, 'learning_rate': 3.8170788614092394e-07, 'completion_length': 370.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.7857143580913544, 'rewards/format_reward': 1.0, 'reward': 1.7857144474983215, 'reward_std': 0.03024107962846756, 'kl': 0.0552978515625, 'epoch': 0.62}
+ 62%|██████▏   | 2650/4286 [17:33:30<10:46:16, 23.70s/it] 62%|██████▏   | 2651/4286 [17:33:53<10:34:19, 23.28s/it]                                                         {'loss': 0.0018, 'grad_norm': 0.4559395457126646, 'learning_rate': 3.8147456836210917e-07, 'completion_length': 331.1964416503906, 'rewards/only_full_func_accuracy_reward': 0.8206846117973328, 'rewards/format_reward': 1.0, 'reward': 1.8206846714019775, 'reward_std': 0.06931542232632637, 'kl': 0.04443359375, 'epoch': 0.62}
+ 62%|██████▏   | 2651/4286 [17:33:53<10:34:19, 23.28s/it] 62%|██████▏   | 2652/4286 [17:34:17<10:40:40, 23.53s/it]                                                         {'loss': 0.0096, 'grad_norm': 0.9097292895633711, 'learning_rate': 3.8124125058329444e-07, 'completion_length': 433.06251525878906, 'rewards/only_full_func_accuracy_reward': 0.6741071343421936, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6651787161827087, 'reward_std': 0.08878001198172569, 'kl': 0.2412109375, 'epoch': 0.62}
+ 62%|██████▏   | 2652/4286 [17:34:17<10:40:40, 23.53s/it] 62%|██████▏   | 2653/4286 [17:34:39<10:34:37, 23.32s/it]                                                         {'loss': 0.0094, 'grad_norm': 0.5482082574499292, 'learning_rate': 3.8100793280447966e-07, 'completion_length': 390.81251525878906, 'rewards/only_full_func_accuracy_reward': 0.7976190745830536, 'rewards/format_reward': 1.0, 'reward': 1.7976191639900208, 'reward_std': 0.06262760423123837, 'kl': 0.2349853515625, 'epoch': 0.62}
+ 62%|██████▏   | 2653/4286 [17:34:39<10:34:37, 23.32s/it] 62%|██████▏   | 2654/4286 [17:35:01<10:17:14, 22.69s/it]                                                         {'loss': 0.0061, 'grad_norm': 0.5952895916761499, 'learning_rate': 3.8077461502566494e-07, 'completion_length': 359.2232208251953, 'rewards/only_full_func_accuracy_reward': 0.7217262387275696, 'rewards/format_reward': 1.0, 'reward': 1.7217262983322144, 'reward_std': 0.018483899533748627, 'kl': 0.1534423828125, 'epoch': 0.62}
+ 62%|██████▏   | 2654/4286 [17:35:01<10:17:14, 22.69s/it] 62%|██████▏   | 2655/4286 [17:35:25<10:27:24, 23.08s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.20162125358311703, 'learning_rate': 3.805412972468502e-07, 'completion_length': 414.8839416503906, 'rewards/only_full_func_accuracy_reward': 0.8273809254169464, 'rewards/format_reward': 1.0, 'reward': 1.8273811340332031, 'reward_std': 0.02785754669457674, 'kl': 0.0364990234375, 'epoch': 0.62}
+ 62%|██████▏   | 2655/4286 [17:35:25<10:27:24, 23.08s/it] 62%|██████▏   | 2656/4286 [17:35:48<10:30:54, 23.22s/it]                                                         {'loss': 0.0139, 'grad_norm': 1.83977621088755, 'learning_rate': 3.8030797946803544e-07, 'completion_length': 386.5178680419922, 'rewards/only_full_func_accuracy_reward': 0.7022321820259094, 'rewards/format_reward': 1.0, 'reward': 1.7022322416305542, 'reward_std': 0.08387887105345726, 'kl': 0.3477783203125, 'epoch': 0.62}
+ 62%|██████▏   | 2656/4286 [17:35:48<10:30:54, 23.22s/it] 62%|██████▏   | 2657/4286 [17:36:12<10:35:13, 23.40s/it]                                                         {'loss': 0.0218, 'grad_norm': 0.4111968967242947, 'learning_rate': 3.800746616892207e-07, 'completion_length': 403.25001525878906, 'rewards/only_full_func_accuracy_reward': 0.7715774178504944, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7626489400863647, 'reward_std': 0.07193155214190483, 'kl': 0.546630859375, 'epoch': 0.62}
+ 62%|██████▏   | 2657/4286 [17:36:12<10:35:13, 23.40s/it] 62%|██████▏   | 2658/4286 [17:36:34<10:26:52, 23.10s/it]                                                         {'loss': 0.0594, 'grad_norm': 2.5458034067060713, 'learning_rate': 3.7984134391040593e-07, 'completion_length': 373.12501525878906, 'rewards/only_full_func_accuracy_reward': 0.6644345819950104, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6555060744285583, 'reward_std': 0.0826895316131413, 'kl': 1.48046875, 'epoch': 0.62}
+ 62%|██████▏   | 2658/4286 [17:36:34<10:26:52, 23.10s/it] 62%|██████▏   | 2659/4286 [17:37:00<10:48:05, 23.90s/it]                                                         {'loss': 0.0187, 'grad_norm': 1.1138104166284706, 'learning_rate': 3.796080261315912e-07, 'completion_length': 436.0714416503906, 'rewards/only_full_func_accuracy_reward': 0.7343750298023224, 'rewards/format_reward': 1.0, 'reward': 1.7343751192092896, 'reward_std': 0.04439694434404373, 'kl': 0.4658203125, 'epoch': 0.62}
+ 62%|██████▏   | 2659/4286 [17:37:00<10:48:05, 23.90s/it] 62%|██████▏   | 2660/4286 [17:37:23<10:40:20, 23.63s/it]                                                         {'loss': 0.0108, 'grad_norm': 0.9901201527010042, 'learning_rate': 3.793747083527765e-07, 'completion_length': 364.58929443359375, 'rewards/only_full_func_accuracy_reward': 0.6614583730697632, 'rewards/format_reward': 1.0, 'reward': 1.661458432674408, 'reward_std': 0.053739218041300774, 'kl': 0.270751953125, 'epoch': 0.62}
+ 62%|██████▏   | 2660/4286 [17:37:23<10:40:20, 23.63s/it] 62%|██████▏   | 2661/4286 [17:37:47<10:42:45, 23.73s/it]                                                         {'loss': 0.0014, 'grad_norm': 0.07102442817105449, 'learning_rate': 3.791413905739617e-07, 'completion_length': 430.3393096923828, 'rewards/only_full_func_accuracy_reward': 0.5758928656578064, 'rewards/format_reward': 1.0, 'reward': 1.5758929252624512, 'reward_std': 0.029804393649101257, 'kl': 0.0357666015625, 'epoch': 0.62}
+ 62%|██████▏   | 2661/4286 [17:37:47<10:42:45, 23.73s/it] 62%|██████▏   | 2662/4286 [17:38:12<10:49:48, 24.01s/it]                                                         {'loss': 0.018, 'grad_norm': 0.8848731216901263, 'learning_rate': 3.78908072795147e-07, 'completion_length': 419.79466247558594, 'rewards/only_full_func_accuracy_reward': 0.7404762208461761, 'rewards/format_reward': 1.0, 'reward': 1.7404762506484985, 'reward_std': 0.06966463848948479, 'kl': 0.449462890625, 'epoch': 0.62}
+ 62%|██████▏   | 2662/4286 [17:38:12<10:49:48, 24.01s/it] 62%|██████▏   | 2663/4286 [17:38:36<10:50:57, 24.06s/it]                                                         {'loss': 0.0408, 'grad_norm': 1.0023847411726816, 'learning_rate': 3.786747550163322e-07, 'completion_length': 405.75001525878906, 'rewards/only_full_func_accuracy_reward': 0.666666716337204, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.657738208770752, 'reward_std': 0.06283022463321686, 'kl': 1.021484375, 'epoch': 0.62}
+ 62%|██████▏   | 2663/4286 [17:38:36<10:50:57, 24.06s/it] 62%|██████▏   | 2664/4286 [17:39:01<11:00:25, 24.43s/it]                                                         {'loss': 0.0455, 'grad_norm': 1.6357740112451014, 'learning_rate': 3.784414372375175e-07, 'completion_length': 418.5089569091797, 'rewards/only_full_func_accuracy_reward': 0.6803571581840515, 'rewards/format_reward': 1.0, 'reward': 1.680357277393341, 'reward_std': 0.0508674755692482, 'kl': 1.134765625, 'epoch': 0.62}
+ 62%|██████▏   | 2664/4286 [17:39:01<11:00:25, 24.43s/it] 62%|██████▏   | 2665/4286 [17:39:26<11:04:36, 24.60s/it]                                                         {'loss': 0.0331, 'grad_norm': 1.1400224212786727, 'learning_rate': 3.7820811945870275e-07, 'completion_length': 388.8035888671875, 'rewards/only_full_func_accuracy_reward': 0.570684552192688, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5617560744285583, 'reward_std': 0.07238421216607094, 'kl': 0.82958984375, 'epoch': 0.62}
+ 62%|██████▏   | 2665/4286 [17:39:26<11:04:36, 24.60s/it] 62%|██████▏   | 2666/4286 [17:39:50<10:57:25, 24.35s/it]                                                         {'loss': 0.032, 'grad_norm': 2.8360732547785905, 'learning_rate': 3.77974801679888e-07, 'completion_length': 404.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.6912203133106232, 'rewards/format_reward': 1.0, 'reward': 1.6912203431129456, 'reward_std': 0.07865454442799091, 'kl': 0.79833984375, 'epoch': 0.62}
+ 62%|██████▏   | 2666/4286 [17:39:50<10:57:25, 24.35s/it] 62%|██████▏   | 2667/4286 [17:40:15<10:58:43, 24.41s/it]                                                         {'loss': 0.0266, 'grad_norm': 3.9522848498453915, 'learning_rate': 3.7774148390107325e-07, 'completion_length': 405.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.7529762089252472, 'rewards/format_reward': 1.0, 'reward': 1.7529762983322144, 'reward_std': 0.11031319573521614, 'kl': 0.6630859375, 'epoch': 0.62}
+ 62%|██████▏   | 2667/4286 [17:40:15<10:58:43, 24.41s/it] 62%|██████▏   | 2668/4286 [17:40:39<10:57:24, 24.38s/it]                                                         {'loss': 0.0596, 'grad_norm': 1.6257904291911178, 'learning_rate': 3.775081661222585e-07, 'completion_length': 404.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.7269346117973328, 'rewards/format_reward': 0.973214328289032, 'reward': 1.7001489400863647, 'reward_std': 0.17245659977197647, 'kl': 1.48828125, 'epoch': 0.62}
+ 62%|██████▏   | 2668/4286 [17:40:39<10:57:24, 24.38s/it] 62%|██████▏   | 2669/4286 [17:41:02<10:50:01, 24.12s/it]                                                         {'loss': 0.0365, 'grad_norm': 0.5474623167110202, 'learning_rate': 3.7727484834344375e-07, 'completion_length': 414.294677734375, 'rewards/only_full_func_accuracy_reward': 0.6086310148239136, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.599702537059784, 'reward_std': 0.11498666554689407, 'kl': 0.911865234375, 'epoch': 0.62}
+ 62%|██████▏   | 2669/4286 [17:41:02<10:50:01, 24.12s/it] 62%|██████▏   | 2670/4286 [17:41:27<10:52:34, 24.23s/it]                                                         {'loss': 0.0814, 'grad_norm': 1.511515520956501, 'learning_rate': 3.77041530564629e-07, 'completion_length': 396.8035888671875, 'rewards/only_full_func_accuracy_reward': 0.6458333134651184, 'rewards/format_reward': 1.0, 'reward': 1.6458334922790527, 'reward_std': 0.13659075647592545, 'kl': 2.0390625, 'epoch': 0.62}
+ 62%|██████▏   | 2670/4286 [17:41:27<10:52:34, 24.23s/it] 62%|██████▏   | 2671/4286 [17:41:52<10:56:17, 24.38s/it]                                                         {'loss': 0.0711, 'grad_norm': 1.439187378311664, 'learning_rate': 3.7680821278581425e-07, 'completion_length': 385.8303680419922, 'rewards/only_full_func_accuracy_reward': 0.7849702537059784, 'rewards/format_reward': 1.0, 'reward': 1.7849704027175903, 'reward_std': 0.08837923035025597, 'kl': 1.78125, 'epoch': 0.62}
+ 62%|██████▏   | 2671/4286 [17:41:52<10:56:17, 24.38s/it] 62%|██████▏   | 2672/4286 [17:42:14<10:40:55, 23.83s/it]                                                         {'loss': 0.0495, 'grad_norm': 1.3853809882575252, 'learning_rate': 3.765748950069995e-07, 'completion_length': 389.0714569091797, 'rewards/only_full_func_accuracy_reward': 0.7120535969734192, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7031251192092896, 'reward_std': 0.11196160316467285, 'kl': 1.236328125, 'epoch': 0.62}
+ 62%|██████▏   | 2672/4286 [17:42:14<10:40:55, 23.83s/it] 62%|██████▏   | 2673/4286 [17:42:38<10:42:20, 23.89s/it]                                                         {'loss': 0.0949, 'grad_norm': 1.479047119200555, 'learning_rate': 3.763415772281848e-07, 'completion_length': 432.6785888671875, 'rewards/only_full_func_accuracy_reward': 0.7663690745830536, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7485120296478271, 'reward_std': 0.1917746439576149, 'kl': 2.375, 'epoch': 0.62}
+ 62%|██████▏   | 2673/4286 [17:42:38<10:42:20, 23.89s/it] 62%|██████▏   | 2674/4286 [17:43:02<10:39:11, 23.79s/it]                                                         {'loss': 0.0909, 'grad_norm': 3.526697800573434, 'learning_rate': 3.7610825944937e-07, 'completion_length': 403.8393096923828, 'rewards/only_full_func_accuracy_reward': 0.5990259945392609, 'rewards/format_reward': 0.973214328289032, 'reward': 1.5722403526306152, 'reward_std': 0.16718457639217377, 'kl': 2.265625, 'epoch': 0.62}
+ 62%|██████▏   | 2674/4286 [17:43:02<10:39:11, 23.79s/it] 62%|██████▏   | 2675/4286 [17:43:26<10:38:06, 23.77s/it]                                                         {'loss': 0.1155, 'grad_norm': 1.8221179533036, 'learning_rate': 3.758749416705553e-07, 'completion_length': 400.5803680419922, 'rewards/only_full_func_accuracy_reward': 0.7139880955219269, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7050595879554749, 'reward_std': 0.19120173901319504, 'kl': 2.890625, 'epoch': 0.62}
+ 62%|██████▏   | 2675/4286 [17:43:26<10:38:06, 23.77s/it] 62%|██████▏   | 2676/4286 [17:43:51<10:50:52, 24.26s/it]                                                         {'loss': 0.0401, 'grad_norm': 0.9823441970598724, 'learning_rate': 3.756416238917405e-07, 'completion_length': 457.6607360839844, 'rewards/only_full_func_accuracy_reward': 0.8112148642539978, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8022863268852234, 'reward_std': 0.12852707132697105, 'kl': 1.0, 'epoch': 0.62}
+ 62%|██████▏   | 2676/4286 [17:43:51<10:50:52, 24.26s/it] 62%|██████▏   | 2677/4286 [17:44:14<10:42:59, 23.98s/it]                                                         {'loss': 0.0838, 'grad_norm': 1.741662434395036, 'learning_rate': 3.754083061129258e-07, 'completion_length': 366.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.6755952835083008, 'rewards/format_reward': 0.973214328289032, 'reward': 1.6488096117973328, 'reward_std': 0.13207126408815384, 'kl': 2.09765625, 'epoch': 0.62}
+ 62%|██████▏   | 2677/4286 [17:44:14<10:42:59, 23.98s/it] 62%|██████▏   | 2678/4286 [17:44:39<10:50:30, 24.27s/it]                                                         {'loss': 0.0972, 'grad_norm': 4.640407158195918, 'learning_rate': 3.7517498833411107e-07, 'completion_length': 430.85716247558594, 'rewards/only_full_func_accuracy_reward': 0.6483843624591827, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.630527377128601, 'reward_std': 0.13258493691682816, 'kl': 2.4375, 'epoch': 0.62}
+ 62%|██████▏   | 2678/4286 [17:44:39<10:50:30, 24.27s/it] 63%|██████▎   | 2679/4286 [17:45:03<10:49:53, 24.26s/it]                                                         {'loss': 0.057, 'grad_norm': 2.15532545892982, 'learning_rate': 3.749416705552963e-07, 'completion_length': 408.6160888671875, 'rewards/only_full_func_accuracy_reward': 0.601934552192688, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5930060744285583, 'reward_std': 0.11113218776881695, 'kl': 1.42578125, 'epoch': 0.63}
+ 63%|██████▎   | 2679/4286 [17:45:03<10:49:53, 24.26s/it] 63%|██████▎   | 2680/4286 [17:45:27<10:42:36, 24.01s/it]                                                         {'loss': 0.0328, 'grad_norm': 0.9035985388472603, 'learning_rate': 3.7470835277648156e-07, 'completion_length': 393.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.6867559552192688, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6778274774551392, 'reward_std': 0.06944798678159714, 'kl': 0.8203125, 'epoch': 0.63}
+ 63%|██████▎   | 2680/4286 [17:45:27<10:42:36, 24.01s/it] 63%|██████▎   | 2681/4286 [17:45:51<10:39:54, 23.92s/it]                                                         {'loss': 0.0786, 'grad_norm': 1.3094259730280253, 'learning_rate': 3.744750349976668e-07, 'completion_length': 412.65179443359375, 'rewards/only_full_func_accuracy_reward': 0.7700893580913544, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.752232313156128, 'reward_std': 0.16507811099290848, 'kl': 1.97265625, 'epoch': 0.63}
+ 63%|██████▎   | 2681/4286 [17:45:51<10:39:54, 23.92s/it] 63%|██████▎   | 2682/4286 [17:46:15<10:42:57, 24.05s/it]                                                         {'loss': 0.0212, 'grad_norm': 0.8011776651753144, 'learning_rate': 3.7424171721885206e-07, 'completion_length': 431.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.6093750298023224, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6004465818405151, 'reward_std': 0.11030347645282745, 'kl': 0.53125, 'epoch': 0.63}
+ 63%|██████▎   | 2682/4286 [17:46:15<10:42:57, 24.05s/it] 63%|██████▎   | 2683/4286 [17:46:38<10:38:22, 23.89s/it]                                                         {'loss': 0.0202, 'grad_norm': 0.5445180319247169, 'learning_rate': 3.7400839944003734e-07, 'completion_length': 360.3928680419922, 'rewards/only_full_func_accuracy_reward': 0.6875000596046448, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6785715222358704, 'reward_std': 0.09214132837951183, 'kl': 0.505126953125, 'epoch': 0.63}
+ 63%|██████▎   | 2683/4286 [17:46:38<10:38:22, 23.89s/it] 63%|██████▎   | 2684/4286 [17:47:02<10:35:17, 23.79s/it]                                                         {'loss': 0.0362, 'grad_norm': 1.5843262729923486, 'learning_rate': 3.7377508166122256e-07, 'completion_length': 386.4732360839844, 'rewards/only_full_func_accuracy_reward': 0.7113095819950104, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6934524774551392, 'reward_std': 0.10003723204135895, 'kl': 0.908935546875, 'epoch': 0.63}
+ 63%|██████▎   | 2684/4286 [17:47:02<10:35:17, 23.79s/it] 63%|██████▎   | 2685/4286 [17:47:25<10:30:56, 23.65s/it]                                                         {'loss': 0.0931, 'grad_norm': 4.661260031434616, 'learning_rate': 3.7354176388240783e-07, 'completion_length': 412.2232360839844, 'rewards/only_full_func_accuracy_reward': 0.6214286088943481, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6035714745521545, 'reward_std': 0.094280906021595, 'kl': 2.330078125, 'epoch': 0.63}
+ 63%|██████▎   | 2685/4286 [17:47:25<10:30:56, 23.65s/it] 63%|██████▎   | 2686/4286 [17:47:50<10:35:19, 23.82s/it]                                                         {'loss': 0.0447, 'grad_norm': 0.964768201925949, 'learning_rate': 3.7330844610359306e-07, 'completion_length': 378.54466247558594, 'rewards/only_full_func_accuracy_reward': 0.724702388048172, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7068453431129456, 'reward_std': 0.10815272480249405, 'kl': 1.11328125, 'epoch': 0.63}
+ 63%|██████▎   | 2686/4286 [17:47:50<10:35:19, 23.82s/it] 63%|██████▎   | 2687/4286 [17:48:14<10:36:03, 23.87s/it]                                                         {'loss': 0.0163, 'grad_norm': 0.483370722717706, 'learning_rate': 3.7307512832477833e-07, 'completion_length': 387.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.7461310029029846, 'rewards/format_reward': 1.0, 'reward': 1.7461310625076294, 'reward_std': 0.026055527850985527, 'kl': 0.40771484375, 'epoch': 0.63}
+ 63%|██████▎   | 2687/4286 [17:48:14<10:36:03, 23.87s/it] 63%|██████▎   | 2688/4286 [17:48:37<10:33:50, 23.80s/it]                                                         {'loss': 0.069, 'grad_norm': 1.3942953262845634, 'learning_rate': 3.728418105459636e-07, 'completion_length': 370.2500305175781, 'rewards/only_full_func_accuracy_reward': 0.7343750894069672, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7165180444717407, 'reward_std': 0.12717048078775406, 'kl': 1.72265625, 'epoch': 0.63}
+ 63%|██████▎   | 2688/4286 [17:48:37<10:33:50, 23.80s/it] 63%|██████▎   | 2689/4286 [17:49:02<10:38:50, 24.00s/it]                                                         {'loss': 0.0221, 'grad_norm': 0.3207313392575124, 'learning_rate': 3.7260849276714883e-07, 'completion_length': 401.6964569091797, 'rewards/only_full_func_accuracy_reward': 0.8489583730697632, 'rewards/format_reward': 1.0, 'reward': 1.848958432674408, 'reward_std': 0.023149329237639904, 'kl': 0.554931640625, 'epoch': 0.63}
+ 63%|██████▎   | 2689/4286 [17:49:02<10:38:50, 24.00s/it] 63%|██████▎   | 2690/4286 [17:49:26<10:42:30, 24.15s/it]                                                         {'loss': 0.003, 'grad_norm': 1.645903666328112, 'learning_rate': 3.723751749883341e-07, 'completion_length': 430.58929443359375, 'rewards/only_full_func_accuracy_reward': 0.7581845223903656, 'rewards/format_reward': 1.0, 'reward': 1.7581846117973328, 'reward_std': 0.030434045009315014, 'kl': 0.07568359375, 'epoch': 0.63}
+ 63%|██████▎   | 2690/4286 [17:49:26<10:42:30, 24.15s/it] 63%|██████▎   | 2691/4286 [17:49:51<10:50:31, 24.47s/it]                                                         {'loss': 0.0023, 'grad_norm': 0.3493088229113546, 'learning_rate': 3.721418572095193e-07, 'completion_length': 491.35716247558594, 'rewards/only_full_func_accuracy_reward': 0.6822916865348816, 'rewards/format_reward': 1.0, 'reward': 1.6822918057441711, 'reward_std': 0.05267628654837608, 'kl': 0.05712890625, 'epoch': 0.63}
+ 63%|██████▎   | 2691/4286 [17:49:51<10:50:31, 24.47s/it] 63%|██████▎   | 2692/4286 [17:50:15<10:46:17, 24.33s/it]                                                         {'loss': 0.0154, 'grad_norm': 0.2167974945131748, 'learning_rate': 3.719085394307046e-07, 'completion_length': 402.5535888671875, 'rewards/only_full_func_accuracy_reward': 0.7797619700431824, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7708334922790527, 'reward_std': 0.03751147538423538, 'kl': 0.38623046875, 'epoch': 0.63}
+ 63%|██████▎   | 2692/4286 [17:50:15<10:46:17, 24.33s/it] 63%|██████▎   | 2693/4286 [17:50:40<10:44:31, 24.28s/it]                                                         {'loss': 0.0421, 'grad_norm': 1.7645350971761375, 'learning_rate': 3.716752216518899e-07, 'completion_length': 412.8928680419922, 'rewards/only_full_func_accuracy_reward': 0.7996280789375305, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.781770944595337, 'reward_std': 0.10834754258394241, 'kl': 1.056640625, 'epoch': 0.63}
+ 63%|██████▎   | 2693/4286 [17:50:40<10:44:31, 24.28s/it] 63%|██████▎   | 2694/4286 [17:51:03<10:39:57, 24.12s/it]                                                         {'loss': 0.0204, 'grad_norm': 1.059895680905193, 'learning_rate': 3.714419038730751e-07, 'completion_length': 368.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.6688988506793976, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6599703431129456, 'reward_std': 0.05261211097240448, 'kl': 0.507568359375, 'epoch': 0.63}
+ 63%|██████▎   | 2694/4286 [17:51:03<10:39:57, 24.12s/it] 63%|██████▎   | 2695/4286 [17:51:27<10:39:37, 24.12s/it]                                                         {'loss': 0.0039, 'grad_norm': 0.7639996679509209, 'learning_rate': 3.7120858609426037e-07, 'completion_length': 440.48216247558594, 'rewards/only_full_func_accuracy_reward': 0.726934552192688, 'rewards/format_reward': 1.0, 'reward': 1.7269346117973328, 'reward_std': 0.02120819967240095, 'kl': 0.09619140625, 'epoch': 0.63}
+ 63%|██████▎   | 2695/4286 [17:51:27<10:39:37, 24.12s/it] 63%|██████▎   | 2696/4286 [17:51:51<10:31:16, 23.82s/it]                                                         {'loss': 0.0023, 'grad_norm': 0.12667532758997363, 'learning_rate': 3.709752683154456e-07, 'completion_length': 371.2589569091797, 'rewards/only_full_func_accuracy_reward': 0.7172619104385376, 'rewards/format_reward': 1.0, 'reward': 1.717262089252472, 'reward_std': 0.016532503068447113, 'kl': 0.0570068359375, 'epoch': 0.63}
+ 63%|██████▎   | 2696/4286 [17:51:51<10:31:16, 23.82s/it] 63%|██████▎   | 2697/4286 [17:52:14<10:29:49, 23.78s/it]                                                         {'loss': 0.0024, 'grad_norm': 0.3414677954770455, 'learning_rate': 3.7074195053663087e-07, 'completion_length': 380.1428680419922, 'rewards/only_full_func_accuracy_reward': 0.6674107313156128, 'rewards/format_reward': 1.0, 'reward': 1.6674109101295471, 'reward_std': 0.024797351099550724, 'kl': 0.0594482421875, 'epoch': 0.63}
+ 63%|██████▎   | 2697/4286 [17:52:14<10:29:49, 23.78s/it] 63%|██████▎   | 2698/4286 [17:52:40<10:46:35, 24.43s/it]                                                         {'loss': 0.002, 'grad_norm': 0.17921376161498973, 'learning_rate': 3.7050863275781615e-07, 'completion_length': 413.7589416503906, 'rewards/only_full_func_accuracy_reward': 0.7715773582458496, 'rewards/format_reward': 1.0, 'reward': 1.7715774774551392, 'reward_std': 0.017659890465438366, 'kl': 0.05078125, 'epoch': 0.63}
+ 63%|██████▎   | 2698/4286 [17:52:40<10:46:35, 24.43s/it] 63%|██████▎   | 2699/4286 [17:53:04<10:42:10, 24.28s/it]                                                         {'loss': 0.0017, 'grad_norm': 0.5681865809025486, 'learning_rate': 3.7027531497900137e-07, 'completion_length': 418.5714416503906, 'rewards/only_full_func_accuracy_reward': 0.5694940686225891, 'rewards/format_reward': 1.0, 'reward': 1.5694941282272339, 'reward_std': 0.03836621530354023, 'kl': 0.043701171875, 'epoch': 0.63}
+ 63%|██████▎   | 2699/4286 [17:53:04<10:42:10, 24.28s/it] 63%|██████▎   | 2700/4286 [17:53:28<10:36:32, 24.08s/it]                                                         {'loss': 0.0016, 'grad_norm': 0.6544859562519884, 'learning_rate': 3.7004199720018664e-07, 'completion_length': 428.2321472167969, 'rewards/only_full_func_accuracy_reward': 0.6930060088634491, 'rewards/format_reward': 1.0, 'reward': 1.6930060386657715, 'reward_std': 0.0378502793610096, 'kl': 0.041015625, 'epoch': 0.63}
+ 63%|██████▎   | 2700/4286 [17:53:28<10:36:32, 24.08s/it] 63%|██████▎   | 2701/4286 [17:55:06<20:21:32, 46.24s/it]                                                         {'loss': 0.0039, 'grad_norm': 0.4330999615838687, 'learning_rate': 3.698086794213719e-07, 'completion_length': 448.66966247558594, 'rewards/only_full_func_accuracy_reward': 0.621279776096344, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6123512983322144, 'reward_std': 0.05554060824215412, 'kl': 0.0966796875, 'epoch': 0.63}
+ 63%|██████▎   | 2701/4286 [17:55:06<20:21:32, 46.24s/it] 63%|██████▎   | 2702/4286 [17:55:29<17:22:09, 39.48s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.3942563848668481, 'learning_rate': 3.6957536164255714e-07, 'completion_length': 428.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.6964286267757416, 'rewards/format_reward': 1.0, 'reward': 1.6964287161827087, 'reward_std': 0.08001264557242393, 'kl': 0.03662109375, 'epoch': 0.63}
+ 63%|██████▎   | 2702/4286 [17:55:29<17:22:09, 39.48s/it] 63%|██████▎   | 2703/4286 [17:55:51<15:01:25, 34.17s/it]                                                         {'loss': 0.0101, 'grad_norm': 0.7346007743025617, 'learning_rate': 3.693420438637424e-07, 'completion_length': 377.5178680419922, 'rewards/only_full_func_accuracy_reward': 0.761904776096344, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7529762983322144, 'reward_std': 0.025253813713788986, 'kl': 0.25048828125, 'epoch': 0.63}
+ 63%|██████▎   | 2703/4286 [17:55:51<15:01:25, 34.17s/it] 63%|██████▎   | 2704/4286 [17:56:16<13:43:24, 31.23s/it]                                                         {'loss': 0.0019, 'grad_norm': 0.20788001516258903, 'learning_rate': 3.6910872608492764e-07, 'completion_length': 446.3214569091797, 'rewards/only_full_func_accuracy_reward': 0.7413690686225891, 'rewards/format_reward': 1.0, 'reward': 1.7413691282272339, 'reward_std': 0.0300795529037714, 'kl': 0.0472412109375, 'epoch': 0.63}
+ 63%|██████▎   | 2704/4286 [17:56:16<13:43:24, 31.23s/it] 63%|██████▎   | 2705/4286 [17:56:41<13:00:37, 29.62s/it]                                                         {'loss': 0.0016, 'grad_norm': 0.3559959113900063, 'learning_rate': 3.688754083061129e-07, 'completion_length': 433.91966247558594, 'rewards/only_full_func_accuracy_reward': 0.7774801254272461, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7685517072677612, 'reward_std': 0.0712859882041812, 'kl': 0.0386962890625, 'epoch': 0.63}
+ 63%|██████▎   | 2705/4286 [17:56:41<13:00:37, 29.62s/it] 63%|██████▎   | 2706/4286 [17:57:06<12:16:42, 27.98s/it]                                                         {'loss': 0.0116, 'grad_norm': 0.5026072196735178, 'learning_rate': 3.686420905272982e-07, 'completion_length': 434.4018096923828, 'rewards/only_full_func_accuracy_reward': 0.6994048058986664, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6904762983322144, 'reward_std': 0.046146972104907036, 'kl': 0.290283203125, 'epoch': 0.63}
+ 63%|██████▎   | 2706/4286 [17:57:06<12:16:42, 27.98s/it] 63%|██████▎   | 2707/4286 [17:57:31<11:54:59, 27.17s/it]                                                         {'loss': 0.017, 'grad_norm': 1.7973885662908429, 'learning_rate': 3.684087727484834e-07, 'completion_length': 444.6250305175781, 'rewards/only_full_func_accuracy_reward': 0.7254465222358704, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7165180444717407, 'reward_std': 0.09523173049092293, 'kl': 0.42333984375, 'epoch': 0.63}
+ 63%|██████▎   | 2707/4286 [17:57:31<11:54:59, 27.17s/it] 63%|██████▎   | 2708/4286 [17:57:53<11:16:59, 25.74s/it]                                                         {'loss': 0.002, 'grad_norm': 0.40528491803459227, 'learning_rate': 3.681754549696687e-07, 'completion_length': 340.6607208251953, 'rewards/only_full_func_accuracy_reward': 0.8139881789684296, 'rewards/format_reward': 1.0, 'reward': 1.813988208770752, 'reward_std': 0.013554859906435013, 'kl': 0.0498046875, 'epoch': 0.63}
+ 63%|██████▎   | 2708/4286 [17:57:53<11:16:59, 25.74s/it] 63%|██████▎   | 2709/4286 [17:58:17<11:01:39, 25.17s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.28999797302437336, 'learning_rate': 3.679421371908539e-07, 'completion_length': 440.60716247558594, 'rewards/only_full_func_accuracy_reward': 0.7358631789684296, 'rewards/format_reward': 1.0, 'reward': 1.735863208770752, 'reward_std': 0.036947811022400856, 'kl': 0.0367431640625, 'epoch': 0.63}
+ 63%|██████▎   | 2709/4286 [17:58:17<11:01:39, 25.17s/it] 63%|██████▎   | 2710/4286 [17:58:40<10:47:03, 24.63s/it]                                                         {'loss': 0.0017, 'grad_norm': 0.2147861560945325, 'learning_rate': 3.677088194120392e-07, 'completion_length': 382.9553680419922, 'rewards/only_full_func_accuracy_reward': 0.6860119700431824, 'rewards/format_reward': 1.0, 'reward': 1.6860120296478271, 'reward_std': 0.008266251534223557, 'kl': 0.0416259765625, 'epoch': 0.63}
+ 63%|██████▎   | 2710/4286 [17:58:40<10:47:03, 24.63s/it] 63%|██████▎   | 2711/4286 [17:59:05<10:42:38, 24.48s/it]                                                         {'loss': 0.0018, 'grad_norm': 0.12826883332906824, 'learning_rate': 3.6747550163322446e-07, 'completion_length': 412.85716247558594, 'rewards/only_full_func_accuracy_reward': 0.7574404776096344, 'rewards/format_reward': 1.0, 'reward': 1.7574406266212463, 'reward_std': 0.018483899533748627, 'kl': 0.0443115234375, 'epoch': 0.63}
+ 63%|██████▎   | 2711/4286 [17:59:05<10:42:38, 24.48s/it] 63%|██████▎   | 2712/4286 [17:59:29<10:38:02, 24.32s/it]                                                         {'loss': 0.0014, 'grad_norm': 0.4616998555714386, 'learning_rate': 3.672421838544097e-07, 'completion_length': 431.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.6813988387584686, 'rewards/format_reward': 1.0, 'reward': 1.6813989281654358, 'reward_std': 0.09728918969631195, 'kl': 0.0350341796875, 'epoch': 0.63}
+ 63%|██████▎   | 2712/4286 [17:59:29<10:38:02, 24.32s/it] 63%|██████▎   | 2713/4286 [17:59:51<10:27:04, 23.92s/it]                                                         {'loss': 0.0059, 'grad_norm': 2.0659599495461096, 'learning_rate': 3.6700886607559496e-07, 'completion_length': 385.52679443359375, 'rewards/only_full_func_accuracy_reward': 0.6562500596046448, 'rewards/format_reward': 1.0, 'reward': 1.6562501788139343, 'reward_std': 0.04184962250292301, 'kl': 0.1473388671875, 'epoch': 0.63}
+ 63%|██████▎   | 2713/4286 [17:59:51<10:27:04, 23.92s/it] 63%|██████▎   | 2714/4286 [18:00:16<10:34:24, 24.21s/it]                                                         {'loss': 0.03, 'grad_norm': 0.7963983444196712, 'learning_rate': 3.667755482967802e-07, 'completion_length': 459.9107360839844, 'rewards/only_full_func_accuracy_reward': 0.699404776096344, 'rewards/format_reward': 1.0, 'reward': 1.6994049549102783, 'reward_std': 0.09604785591363907, 'kl': 0.751953125, 'epoch': 0.63}
+ 63%|██████▎   | 2714/4286 [18:00:16<10:34:24, 24.21s/it] 63%|██████▎   | 2715/4286 [18:00:40<10:28:55, 24.02s/it]                                                         {'loss': 0.0066, 'grad_norm': 0.8895251427580747, 'learning_rate': 3.6654223051796545e-07, 'completion_length': 395.7857360839844, 'rewards/only_full_func_accuracy_reward': 0.7520604133605957, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7431319952011108, 'reward_std': 0.08307997137308121, 'kl': 0.1661376953125, 'epoch': 0.63}
+ 63%|██████▎   | 2715/4286 [18:00:40<10:28:55, 24.02s/it] 63%|██████▎   | 2716/4286 [18:01:04<10:29:51, 24.07s/it]                                                         {'loss': 0.0016, 'grad_norm': 1.6948410946551855, 'learning_rate': 3.6630891273915073e-07, 'completion_length': 424.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.7839285731315613, 'rewards/format_reward': 1.0, 'reward': 1.7839286923408508, 'reward_std': 0.03522132430225611, 'kl': 0.03955078125, 'epoch': 0.63}
+ 63%|██████▎   | 2716/4286 [18:01:04<10:29:51, 24.07s/it] 63%|██████▎   | 2717/4286 [18:01:27<10:21:39, 23.77s/it]                                                         {'loss': 0.0149, 'grad_norm': 0.2697942860296032, 'learning_rate': 3.6607559496033595e-07, 'completion_length': 376.68751525878906, 'rewards/only_full_func_accuracy_reward': 0.7455357611179352, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7366072535514832, 'reward_std': 0.050355940125882626, 'kl': 0.3717041015625, 'epoch': 0.63}
+ 63%|██████▎   | 2717/4286 [18:01:27<10:21:39, 23.77s/it] 63%|██████▎   | 2718/4286 [18:01:50<10:15:04, 23.54s/it]                                                         {'loss': 0.0135, 'grad_norm': 0.7398367983595072, 'learning_rate': 3.658422771815212e-07, 'completion_length': 383.7232360839844, 'rewards/only_full_func_accuracy_reward': 0.8035714328289032, 'rewards/format_reward': 1.0, 'reward': 1.8035715818405151, 'reward_std': 0.06222161278128624, 'kl': 0.34033203125, 'epoch': 0.63}
+ 63%|██████▎   | 2718/4286 [18:01:50<10:15:04, 23.54s/it] 63%|██████▎   | 2719/4286 [18:02:14<10:13:04, 23.47s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.47177247723954613, 'learning_rate': 3.6560895940270645e-07, 'completion_length': 423.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.6889881491661072, 'rewards/format_reward': 1.0, 'reward': 1.6889882683753967, 'reward_std': 0.04117676988244057, 'kl': 0.0369873046875, 'epoch': 0.63}
+ 63%|██████▎   | 2719/4286 [18:02:14<10:13:04, 23.47s/it] 63%|██████▎   | 2720/4286 [18:02:38<10:17:30, 23.66s/it]                                                         {'loss': 0.0185, 'grad_norm': 2.487306311694017, 'learning_rate': 3.653756416238917e-07, 'completion_length': 413.6607360839844, 'rewards/only_full_func_accuracy_reward': 0.6720238327980042, 'rewards/format_reward': 1.0, 'reward': 1.672023892402649, 'reward_std': 0.08305281773209572, 'kl': 0.46484375, 'epoch': 0.63}
+ 63%|██████▎   | 2720/4286 [18:02:38<10:17:30, 23.66s/it] 63%|██████▎   | 2721/4286 [18:03:02<10:25:20, 23.97s/it]                                                         {'loss': 0.0017, 'grad_norm': 0.48882207047873716, 'learning_rate': 3.65142323845077e-07, 'completion_length': 388.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.8114584386348724, 'rewards/format_reward': 1.0, 'reward': 1.81145840883255, 'reward_std': 0.011686771409586072, 'kl': 0.0421142578125, 'epoch': 0.63}
+ 63%|██████▎   | 2721/4286 [18:03:02<10:25:20, 23.97s/it] 64%|██████▎   | 2722/4286 [18:03:26<10:22:46, 23.89s/it]                                                         {'loss': 0.0156, 'grad_norm': 0.5983996341847858, 'learning_rate': 3.649090060662622e-07, 'completion_length': 412.7232360839844, 'rewards/only_full_func_accuracy_reward': 0.787053644657135, 'rewards/format_reward': 1.0, 'reward': 1.7870537042617798, 'reward_std': 0.06351969763636589, 'kl': 0.390625, 'epoch': 0.64}
+ 64%|██████▎   | 2722/4286 [18:03:26<10:22:46, 23.89s/it] 64%|██████▎   | 2723/4286 [18:03:49<10:12:48, 23.52s/it]                                                         {'loss': 0.0126, 'grad_norm': 1.0886804576801088, 'learning_rate': 3.646756882874475e-07, 'completion_length': 385.20538330078125, 'rewards/only_full_func_accuracy_reward': 0.791666716337204, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7827382683753967, 'reward_std': 0.08827944099903107, 'kl': 0.3154296875, 'epoch': 0.64}
+ 64%|██████▎   | 2723/4286 [18:03:49<10:12:48, 23.52s/it] 64%|██████▎   | 2724/4286 [18:04:14<10:23:29, 23.95s/it]                                                         {'loss': 0.0017, 'grad_norm': 0.2840564668690609, 'learning_rate': 3.6444237050863277e-07, 'completion_length': 395.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.6404762268066406, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6226191520690918, 'reward_std': 0.0577225461602211, 'kl': 0.0416259765625, 'epoch': 0.64}
+ 64%|██████▎   | 2724/4286 [18:04:14<10:23:29, 23.95s/it] 64%|██████▎   | 2725/4286 [18:04:38<10:27:15, 24.11s/it]                                                         {'loss': 0.0382, 'grad_norm': 0.45855128730662215, 'learning_rate': 3.64209052729818e-07, 'completion_length': 434.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.6822917461395264, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.673363208770752, 'reward_std': 0.08574847504496574, 'kl': 0.958984375, 'epoch': 0.64}
+ 64%|██████▎   | 2725/4286 [18:04:38<10:27:15, 24.11s/it] 64%|██████▎   | 2726/4286 [18:05:03<10:36:00, 24.46s/it]                                                         {'loss': 0.0026, 'grad_norm': 1.2621191115366823, 'learning_rate': 3.6397573495100327e-07, 'completion_length': 476.2143096923828, 'rewards/only_full_func_accuracy_reward': 0.7083334028720856, 'rewards/format_reward': 1.0, 'reward': 1.7083335518836975, 'reward_std': 0.0359259657561779, 'kl': 0.064697265625, 'epoch': 0.64}
+ 64%|██████▎   | 2726/4286 [18:05:03<10:36:00, 24.46s/it] 64%|██████▎   | 2727/4286 [18:05:28<10:38:24, 24.57s/it]                                                         {'loss': 0.0207, 'grad_norm': 0.6187350102642123, 'learning_rate': 3.637424171721885e-07, 'completion_length': 417.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.7187500596046448, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7098215818405151, 'reward_std': 0.0974166039377451, 'kl': 0.515380859375, 'epoch': 0.64}
+ 64%|██████▎   | 2727/4286 [18:05:28<10:38:24, 24.57s/it] 64%|██████▎   | 2728/4286 [18:05:52<10:34:42, 24.44s/it]                                                         {'loss': 0.0347, 'grad_norm': 1.4255061724890434, 'learning_rate': 3.6350909939337377e-07, 'completion_length': 409.48216247558594, 'rewards/only_full_func_accuracy_reward': 0.7020461857318878, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6841890811920166, 'reward_std': 0.12915581092238426, 'kl': 0.865234375, 'epoch': 0.64}
+ 64%|██████▎   | 2728/4286 [18:05:52<10:34:42, 24.44s/it] 64%|██████▎   | 2729/4286 [18:06:14<10:14:34, 23.68s/it]                                                         {'loss': 0.0442, 'grad_norm': 0.7980368745705172, 'learning_rate': 3.6327578161455904e-07, 'completion_length': 345.16966247558594, 'rewards/only_full_func_accuracy_reward': 0.8401786386966705, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.822321593761444, 'reward_std': 0.10022558271884918, 'kl': 1.10546875, 'epoch': 0.64}
+ 64%|██████▎   | 2729/4286 [18:06:14<10:14:34, 23.68s/it] 64%|██████▎   | 2730/4286 [18:06:39<10:20:01, 23.91s/it]                                                         {'loss': 0.0544, 'grad_norm': 0.5199606618480797, 'learning_rate': 3.6304246383574426e-07, 'completion_length': 428.2768096923828, 'rewards/only_full_func_accuracy_reward': 0.7187500894069672, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7098215818405151, 'reward_std': 0.12380794435739517, 'kl': 1.357421875, 'epoch': 0.64}
+ 64%|██████▎   | 2730/4286 [18:06:39<10:20:01, 23.91s/it] 64%|██████▎   | 2731/4286 [18:07:03<10:24:00, 24.08s/it]                                                         {'loss': 0.0863, 'grad_norm': 8.370755183205466, 'learning_rate': 3.6280914605692954e-07, 'completion_length': 376.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.7165178656578064, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.6897321939468384, 'reward_std': 0.14465012773871422, 'kl': 2.154296875, 'epoch': 0.64}
+ 64%|██████▎   | 2731/4286 [18:07:03<10:24:00, 24.08s/it] 64%|██████▎   | 2732/4286 [18:07:25<10:07:46, 23.47s/it]                                                         {'loss': 0.0708, 'grad_norm': 1.2328675955522892, 'learning_rate': 3.6257582827811476e-07, 'completion_length': 352.7232360839844, 'rewards/only_full_func_accuracy_reward': 0.7217262387275696, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7038691639900208, 'reward_std': 0.14294765703380108, 'kl': 1.76708984375, 'epoch': 0.64}
+ 64%|██████▎   | 2732/4286 [18:07:25<10:07:46, 23.47s/it] 64%|██████▍   | 2733/4286 [18:07:49<10:07:32, 23.47s/it]                                                         {'loss': 0.0716, 'grad_norm': 0.9422216226605233, 'learning_rate': 3.6234251049930004e-07, 'completion_length': 386.0089416503906, 'rewards/only_full_func_accuracy_reward': 0.649702399969101, 'rewards/format_reward': 0.973214328289032, 'reward': 1.6229168176651, 'reward_std': 0.1836347132921219, 'kl': 1.79296875, 'epoch': 0.64}
+ 64%|██████▍   | 2733/4286 [18:07:49<10:07:32, 23.47s/it] 64%|██████▍   | 2734/4286 [18:08:14<10:20:50, 24.00s/it]                                                         {'loss': 0.1361, 'grad_norm': 2.2259108052571537, 'learning_rate': 3.621091927204853e-07, 'completion_length': 446.9285888671875, 'rewards/only_full_func_accuracy_reward': 0.725297600030899, 'rewards/format_reward': 0.955357164144516, 'reward': 1.6806548237800598, 'reward_std': 0.2748742029070854, 'kl': 3.3984375, 'epoch': 0.64}
+ 64%|██████▍   | 2734/4286 [18:08:14<10:20:50, 24.00s/it] 64%|██████▍   | 2735/4286 [18:08:37<10:11:45, 23.67s/it]                                                         {'loss': 0.073, 'grad_norm': 1.1233468178053159, 'learning_rate': 3.6187587494167053e-07, 'completion_length': 390.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.7998512387275696, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.7641369700431824, 'reward_std': 0.17458582669496536, 'kl': 1.82421875, 'epoch': 0.64}
+ 64%|██████▍   | 2735/4286 [18:08:37<10:11:45, 23.67s/it] 64%|██████▍   | 2736/4286 [18:09:00<10:08:14, 23.55s/it]                                                         {'loss': 0.1208, 'grad_norm': 2.4993305204523626, 'learning_rate': 3.616425571628558e-07, 'completion_length': 404.0625305175781, 'rewards/only_full_func_accuracy_reward': 0.7319941222667694, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.696279764175415, 'reward_std': 0.22596783190965652, 'kl': 3.01953125, 'epoch': 0.64}
+ 64%|██████▍   | 2736/4286 [18:09:00<10:08:14, 23.55s/it] 64%|██████▍   | 2737/4286 [18:09:22<9:56:14, 23.10s/it]                                                         {'loss': 0.0688, 'grad_norm': 1.2815412894336702, 'learning_rate': 3.6140923938404103e-07, 'completion_length': 391.23216247558594, 'rewards/only_full_func_accuracy_reward': 0.680059552192688, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6622024774551392, 'reward_std': 0.15054465644061565, 'kl': 1.716552734375, 'epoch': 0.64}
+ 64%|██████▍   | 2737/4286 [18:09:22<9:56:14, 23.10s/it] 64%|██████▍   | 2738/4286 [18:09:45<9:50:36, 22.89s/it]                                                        {'loss': 0.0359, 'grad_norm': 1.2163232179476762, 'learning_rate': 3.611759216052263e-07, 'completion_length': 372.2589416503906, 'rewards/only_full_func_accuracy_reward': 0.65476194024086, 'rewards/format_reward': 1.0, 'reward': 1.6547619700431824, 'reward_std': 0.053436120972037315, 'kl': 0.892333984375, 'epoch': 0.64}
+ 64%|██████▍   | 2738/4286 [18:09:45<9:50:36, 22.89s/it] 64%|██████▍   | 2739/4286 [18:10:09<10:01:09, 23.32s/it]                                                         {'loss': 0.0941, 'grad_norm': 2.0555305570283426, 'learning_rate': 3.609426038264116e-07, 'completion_length': 383.7768096923828, 'rewards/only_full_func_accuracy_reward': 0.5625000149011612, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.5446429252624512, 'reward_std': 0.14903978258371353, 'kl': 2.345703125, 'epoch': 0.64}
+ 64%|██████▍   | 2739/4286 [18:10:09<10:01:09, 23.32s/it] 64%|██████▍   | 2740/4286 [18:10:33<10:05:04, 23.48s/it]                                                         {'loss': 0.0314, 'grad_norm': 0.5662848390779064, 'learning_rate': 3.607092860475968e-07, 'completion_length': 415.14288330078125, 'rewards/only_full_func_accuracy_reward': 0.7083334028720856, 'rewards/format_reward': 1.0, 'reward': 1.708333432674408, 'reward_std': 0.06516680493950844, 'kl': 0.785400390625, 'epoch': 0.64}
+ 64%|██████▍   | 2740/4286 [18:10:33<10:05:04, 23.48s/it] 64%|██████▍   | 2741/4286 [18:10:54<9:49:07, 22.88s/it]                                                         {'loss': 0.0336, 'grad_norm': 4.189769591825506, 'learning_rate': 3.604759682687821e-07, 'completion_length': 345.83929443359375, 'rewards/only_full_func_accuracy_reward': 0.6495536267757416, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6406251192092896, 'reward_std': 0.06500966846942902, 'kl': 0.83642578125, 'epoch': 0.64}
+ 64%|██████▍   | 2741/4286 [18:10:54<9:49:07, 22.88s/it] 64%|██████▍   | 2742/4286 [18:11:18<9:54:39, 23.11s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.3047006514026468, 'learning_rate': 3.602426504899673e-07, 'completion_length': 436.40179443359375, 'rewards/only_full_func_accuracy_reward': 0.7202380895614624, 'rewards/format_reward': 1.0, 'reward': 1.7202381491661072, 'reward_std': 0.06160088907927275, 'kl': 0.03759765625, 'epoch': 0.64}
+ 64%|██████▍   | 2742/4286 [18:11:18<9:54:39, 23.11s/it] 64%|██████▍   | 2743/4286 [18:11:41<9:56:45, 23.21s/it]                                                        {'loss': 0.014, 'grad_norm': 0.3853767278111773, 'learning_rate': 3.600093327111526e-07, 'completion_length': 414.6518096923828, 'rewards/only_full_func_accuracy_reward': 0.6785714626312256, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.669642984867096, 'reward_std': 0.0316171795129776, 'kl': 0.3507080078125, 'epoch': 0.64}
+ 64%|██████▍   | 2743/4286 [18:11:41<9:56:45, 23.21s/it] 64%|██████▍   | 2744/4286 [18:12:05<10:01:18, 23.40s/it]                                                         {'loss': 0.0188, 'grad_norm': 0.5611535091002392, 'learning_rate': 3.5977601493233785e-07, 'completion_length': 396.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.7068453133106232, 'rewards/format_reward': 1.0, 'reward': 1.7068453431129456, 'reward_std': 0.060647789388895035, 'kl': 0.4708251953125, 'epoch': 0.64}
+ 64%|██████▍   | 2744/4286 [18:12:05<10:01:18, 23.40s/it] 64%|██████▍   | 2745/4286 [18:12:28<9:57:00, 23.24s/it]                                                         {'loss': 0.0015, 'grad_norm': 1.2146506408358255, 'learning_rate': 3.5954269715352307e-07, 'completion_length': 384.7678680419922, 'rewards/only_full_func_accuracy_reward': 0.7142857611179352, 'rewards/format_reward': 1.0, 'reward': 1.7142858505249023, 'reward_std': 0.037053074687719345, 'kl': 0.0369873046875, 'epoch': 0.64}
+ 64%|██████▍   | 2745/4286 [18:12:28<9:57:00, 23.24s/it] 64%|██████▍   | 2746/4286 [18:12:50<9:48:34, 22.93s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.03439689421973069, 'learning_rate': 3.5930937937470835e-07, 'completion_length': 343.6696472167969, 'rewards/only_full_func_accuracy_reward': 0.7380952835083008, 'rewards/format_reward': 1.0, 'reward': 1.7380953431129456, 'reward_std': 0.0, 'kl': 0.0433349609375, 'epoch': 0.64}
+ 64%|██████▍   | 2746/4286 [18:12:50<9:48:34, 22.93s/it] 64%|██████▍   | 2747/4286 [18:13:11<9:31:29, 22.28s/it]                                                        {'loss': 0.0208, 'grad_norm': 1.0614767535522127, 'learning_rate': 3.590760615958936e-07, 'completion_length': 362.9643096923828, 'rewards/only_full_func_accuracy_reward': 0.8400298357009888, 'rewards/format_reward': 1.0, 'reward': 1.8400298953056335, 'reward_std': 0.07497541978955269, 'kl': 0.51953125, 'epoch': 0.64}
+ 64%|██████▍   | 2747/4286 [18:13:11<9:31:29, 22.28s/it] 64%|██████▍   | 2748/4286 [18:13:33<9:27:50, 22.15s/it]                                                        {'loss': 0.0249, 'grad_norm': 0.6609609604970145, 'learning_rate': 3.5884274381707884e-07, 'completion_length': 348.7589569091797, 'rewards/only_full_func_accuracy_reward': 0.705357164144516, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6875000596046448, 'reward_std': 0.05688666179776192, 'kl': 0.623291015625, 'epoch': 0.64}
+ 64%|██████▍   | 2748/4286 [18:13:33<9:27:50, 22.15s/it] 64%|██████▍   | 2749/4286 [18:13:58<9:47:03, 22.92s/it]                                                        {'loss': 0.0105, 'grad_norm': 0.5250528959288033, 'learning_rate': 3.586094260382641e-07, 'completion_length': 416.65179443359375, 'rewards/only_full_func_accuracy_reward': 0.784226268529892, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7752977013587952, 'reward_std': 0.0689915306866169, 'kl': 0.2615966796875, 'epoch': 0.64}
+ 64%|██████▍   | 2749/4286 [18:13:58<9:47:03, 22.92s/it] 64%|██████▍   | 2750/4286 [18:14:20<9:45:27, 22.87s/it]                                                        {'loss': 0.018, 'grad_norm': 1.2911124967455845, 'learning_rate': 3.5837610825944934e-07, 'completion_length': 375.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.6889881193637848, 'rewards/format_reward': 1.0, 'reward': 1.688988208770752, 'reward_std': 0.07966703735291958, 'kl': 0.4486083984375, 'epoch': 0.64}
+ 64%|██████▍   | 2750/4286 [18:14:20<9:45:27, 22.87s/it] 64%|██████▍   | 2751/4286 [18:14:43<9:41:20, 22.72s/it]                                                        {'loss': 0.0244, 'grad_norm': 6.191365118040118, 'learning_rate': 3.581427904806346e-07, 'completion_length': 352.4464416503906, 'rewards/only_full_func_accuracy_reward': 0.6889881193637848, 'rewards/format_reward': 1.0, 'reward': 1.688988208770752, 'reward_std': 0.04128511715680361, 'kl': 0.6097412109375, 'epoch': 0.64}
+ 64%|██████▍   | 2751/4286 [18:14:43<9:41:20, 22.72s/it] 64%|██████▍   | 2752/4286 [18:15:04<9:32:13, 22.38s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.6569003488783196, 'learning_rate': 3.579094727018199e-07, 'completion_length': 344.1428680419922, 'rewards/only_full_func_accuracy_reward': 0.8005952835083008, 'rewards/format_reward': 1.0, 'reward': 1.8005953431129456, 'reward_std': 0.03501640260219574, 'kl': 0.0443115234375, 'epoch': 0.64}
+ 64%|██████▍   | 2752/4286 [18:15:04<9:32:13, 22.38s/it] 64%|██████▍   | 2753/4286 [18:15:27<9:32:50, 22.42s/it]                                                        {'loss': 0.0087, 'grad_norm': 0.5206210538406691, 'learning_rate': 3.576761549230051e-07, 'completion_length': 348.0178680419922, 'rewards/only_full_func_accuracy_reward': 0.8035714626312256, 'rewards/format_reward': 1.0, 'reward': 1.8035715222358704, 'reward_std': 0.013498731888830662, 'kl': 0.2176513671875, 'epoch': 0.64}
+ 64%|██████▍   | 2753/4286 [18:15:27<9:32:50, 22.42s/it] 64%|██████▍   | 2754/4286 [18:15:51<9:47:14, 23.00s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.8745857933166138, 'learning_rate': 3.574428371441904e-07, 'completion_length': 407.1339416503906, 'rewards/only_full_func_accuracy_reward': 0.66889888048172, 'rewards/format_reward': 1.0, 'reward': 1.6688989400863647, 'reward_std': 0.04078586585819721, 'kl': 0.0433349609375, 'epoch': 0.64}
+ 64%|██████▍   | 2754/4286 [18:15:51<9:47:14, 23.00s/it] 64%|██████▍   | 2755/4286 [18:16:14<9:48:02, 23.05s/it]                                                        {'loss': 0.0076, 'grad_norm': 5.551344977616881, 'learning_rate': 3.572095193653756e-07, 'completion_length': 388.9018096923828, 'rewards/only_full_func_accuracy_reward': 0.634523868560791, 'rewards/format_reward': 1.0, 'reward': 1.6345239281654358, 'reward_std': 0.06896032765507698, 'kl': 0.1904296875, 'epoch': 0.64}
+ 64%|██████▍   | 2755/4286 [18:16:14<9:48:02, 23.05s/it] 64%|██████▍   | 2756/4286 [18:16:39<9:57:23, 23.43s/it]                                                        {'loss': 0.0159, 'grad_norm': 0.6447023755900684, 'learning_rate': 3.569762015865609e-07, 'completion_length': 390.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.7574405074119568, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7485120296478271, 'reward_std': 0.0688053946942091, 'kl': 0.3970947265625, 'epoch': 0.64}
+ 64%|██████▍   | 2756/4286 [18:16:39<9:57:23, 23.43s/it] 64%|██████▍   | 2757/4286 [18:17:02<9:56:07, 23.39s/it]                                                        {'loss': 0.0065, 'grad_norm': 0.6745250343367796, 'learning_rate': 3.5674288380774616e-07, 'completion_length': 405.33038330078125, 'rewards/only_full_func_accuracy_reward': 0.7968750894069672, 'rewards/format_reward': 1.0, 'reward': 1.7968751788139343, 'reward_std': 0.05288908630609512, 'kl': 0.16162109375, 'epoch': 0.64}
+ 64%|██████▍   | 2757/4286 [18:17:02<9:56:07, 23.39s/it] 64%|██████▍   | 2758/4286 [18:17:26<10:01:17, 23.61s/it]                                                         {'loss': 0.0181, 'grad_norm': 0.3756779868211341, 'learning_rate': 3.565095660289314e-07, 'completion_length': 435.25001525878906, 'rewards/only_full_func_accuracy_reward': 0.6107143312692642, 'rewards/format_reward': 1.0, 'reward': 1.6107144355773926, 'reward_std': 0.05584089457988739, 'kl': 0.45361328125, 'epoch': 0.64}
+ 64%|██████▍   | 2758/4286 [18:17:26<10:01:17, 23.61s/it] 64%|██████▍   | 2759/4286 [18:17:50<10:06:52, 23.85s/it]                                                         {'loss': 0.0098, 'grad_norm': 0.6970558071188039, 'learning_rate': 3.5627624825011666e-07, 'completion_length': 414.7857360839844, 'rewards/only_full_func_accuracy_reward': 0.5569196939468384, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.547991156578064, 'reward_std': 0.07538105547428131, 'kl': 0.2449951171875, 'epoch': 0.64}
+ 64%|██████▍   | 2759/4286 [18:17:50<10:06:52, 23.85s/it] 64%|██████▍   | 2760/4286 [18:18:14<10:01:54, 23.67s/it]                                                         {'loss': 0.0015, 'grad_norm': 0.40611413736888274, 'learning_rate': 3.560429304713019e-07, 'completion_length': 394.14288330078125, 'rewards/only_full_func_accuracy_reward': 0.7172618806362152, 'rewards/format_reward': 1.0, 'reward': 1.717262089252472, 'reward_std': 0.04712238907814026, 'kl': 0.037353515625, 'epoch': 0.64}
+ 64%|██████▍   | 2760/4286 [18:18:14<10:01:54, 23.67s/it] 64%|██████▍   | 2761/4286 [18:18:38<10:07:28, 23.90s/it]                                                         {'loss': 0.0012, 'grad_norm': 0.3804607116706456, 'learning_rate': 3.5580961269248716e-07, 'completion_length': 466.04466247558594, 'rewards/only_full_func_accuracy_reward': 0.6934524178504944, 'rewards/format_reward': 1.0, 'reward': 1.6934524774551392, 'reward_std': 0.03479885868728161, 'kl': 0.03118896484375, 'epoch': 0.64}
+ 64%|██████▍   | 2761/4286 [18:18:38<10:07:28, 23.90s/it] 64%|██████▍   | 2762/4286 [18:19:00<9:52:49, 23.34s/it]                                                         {'loss': 0.0347, 'grad_norm': 0.6056352165251013, 'learning_rate': 3.5557629491367243e-07, 'completion_length': 353.04466247558594, 'rewards/only_full_func_accuracy_reward': 0.7526786029338837, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7437500953674316, 'reward_std': 0.08870791457593441, 'kl': 0.865234375, 'epoch': 0.64}
+ 64%|██████▍   | 2762/4286 [18:19:00<9:52:49, 23.34s/it] 64%|██████▍   | 2763/4286 [18:19:23<9:52:16, 23.33s/it]                                                        {'loss': 0.0121, 'grad_norm': 0.8509295661373236, 'learning_rate': 3.5534297713485765e-07, 'completion_length': 390.8035888671875, 'rewards/only_full_func_accuracy_reward': 0.813244104385376, 'rewards/format_reward': 1.0, 'reward': 1.8132441639900208, 'reward_std': 0.0344957634806633, 'kl': 0.3035888671875, 'epoch': 0.64}
+ 64%|██████▍   | 2763/4286 [18:19:23<9:52:16, 23.33s/it] 64%|██████▍   | 2764/4286 [18:19:46<9:47:32, 23.16s/it]                                                        {'loss': 0.0202, 'grad_norm': 1.124448341108304, 'learning_rate': 3.5510965935604293e-07, 'completion_length': 382.31251525878906, 'rewards/only_full_func_accuracy_reward': 0.6607142984867096, 'rewards/format_reward': 1.0, 'reward': 1.6607143878936768, 'reward_std': 0.07124816812574863, 'kl': 0.5059814453125, 'epoch': 0.64}
+ 64%|██████▍   | 2764/4286 [18:19:46<9:47:32, 23.16s/it] 65%|██████▍   | 2765/4286 [18:20:09<9:40:43, 22.91s/it]                                                        {'loss': 0.013, 'grad_norm': 0.42387490603088973, 'learning_rate': 3.5487634157722815e-07, 'completion_length': 370.43751525878906, 'rewards/only_full_func_accuracy_reward': 0.7961309552192688, 'rewards/format_reward': 1.0, 'reward': 1.7961310744285583, 'reward_std': 0.03206651471555233, 'kl': 0.324462890625, 'epoch': 0.65}
+ 65%|██████▍   | 2765/4286 [18:20:09<9:40:43, 22.91s/it] 65%|██████▍   | 2766/4286 [18:20:30<9:31:15, 22.55s/it]                                                        {'loss': 0.0244, 'grad_norm': 1.4612496332196399, 'learning_rate': 3.5464302379841343e-07, 'completion_length': 338.91966247558594, 'rewards/only_full_func_accuracy_reward': 0.7834821939468384, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.774553656578064, 'reward_std': 0.032978788018226624, 'kl': 0.6087646484375, 'epoch': 0.65}
+ 65%|██████▍   | 2766/4286 [18:20:30<9:31:15, 22.55s/it] 65%|██████▍   | 2767/4286 [18:20:55<9:44:13, 23.08s/it]                                                        {'loss': 0.0161, 'grad_norm': 0.4362642114561191, 'learning_rate': 3.544097060195987e-07, 'completion_length': 437.5357360839844, 'rewards/only_full_func_accuracy_reward': 0.7202381491661072, 'rewards/format_reward': 1.0, 'reward': 1.7202382683753967, 'reward_std': 0.043433403596282005, 'kl': 0.4036865234375, 'epoch': 0.65}
+ 65%|██████▍   | 2767/4286 [18:20:55<9:44:13, 23.08s/it] 65%|██████▍   | 2768/4286 [18:21:18<9:47:31, 23.22s/it]                                                        {'loss': 0.0288, 'grad_norm': 1.9908947241966413, 'learning_rate': 3.541763882407839e-07, 'completion_length': 403.16966247558594, 'rewards/only_full_func_accuracy_reward': 0.7674108147621155, 'rewards/format_reward': 1.0, 'reward': 1.7674108743667603, 'reward_std': 0.02618543803691864, 'kl': 0.7181396484375, 'epoch': 0.65}
+ 65%|██████▍   | 2768/4286 [18:21:18<9:47:31, 23.22s/it] 65%|██████▍   | 2769/4286 [18:21:41<9:41:26, 23.00s/it]                                                        {'loss': 0.0156, 'grad_norm': 0.38505100526920566, 'learning_rate': 3.539430704619692e-07, 'completion_length': 375.1607360839844, 'rewards/only_full_func_accuracy_reward': 0.6116072237491608, 'rewards/format_reward': 1.0, 'reward': 1.6116072535514832, 'reward_std': 0.04373771324753761, 'kl': 0.3892822265625, 'epoch': 0.65}
+ 65%|██████▍   | 2769/4286 [18:21:41<9:41:26, 23.00s/it] 65%|██████▍   | 2770/4286 [18:22:04<9:41:29, 23.01s/it]                                                        {'loss': 0.0491, 'grad_norm': 2.9770663789141456, 'learning_rate': 3.537097526831545e-07, 'completion_length': 388.1339416503906, 'rewards/only_full_func_accuracy_reward': 0.6639881134033203, 'rewards/format_reward': 1.0, 'reward': 1.663988173007965, 'reward_std': 0.028907437343150377, 'kl': 1.228515625, 'epoch': 0.65}
+ 65%|██████▍   | 2770/4286 [18:22:04<9:41:29, 23.01s/it] 65%|██████▍   | 2771/4286 [18:22:27<9:40:21, 22.98s/it]                                                        {'loss': 0.0182, 'grad_norm': 0.8494232656953603, 'learning_rate': 3.534764349043397e-07, 'completion_length': 374.8839416503906, 'rewards/only_full_func_accuracy_reward': 0.8132440745830536, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8043156266212463, 'reward_std': 0.05718402937054634, 'kl': 0.4541015625, 'epoch': 0.65}
+ 65%|██████▍   | 2771/4286 [18:22:27<9:40:21, 22.98s/it] 65%|██████▍   | 2772/4286 [18:22:50<9:40:16, 23.00s/it]                                                        {'loss': 0.0024, 'grad_norm': 0.6314765094899324, 'learning_rate': 3.5324311712552497e-07, 'completion_length': 413.4732360839844, 'rewards/only_full_func_accuracy_reward': 0.7470238208770752, 'rewards/format_reward': 1.0, 'reward': 1.7470239400863647, 'reward_std': 0.05982302315533161, 'kl': 0.060302734375, 'epoch': 0.65}
+ 65%|██████▍   | 2772/4286 [18:22:50<9:40:16, 23.00s/it] 65%|██████▍   | 2773/4286 [18:23:14<9:52:16, 23.49s/it]                                                        {'loss': 0.0345, 'grad_norm': 1.8019861604003378, 'learning_rate': 3.530097993467102e-07, 'completion_length': 426.1339416503906, 'rewards/only_full_func_accuracy_reward': 0.48020830750465393, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.471279799938202, 'reward_std': 0.11280538141727448, 'kl': 0.861328125, 'epoch': 0.65}
+ 65%|██████▍   | 2773/4286 [18:23:14<9:52:16, 23.49s/it] 65%|██████▍   | 2774/4286 [18:23:38<9:53:22, 23.55s/it]                                                        {'loss': 0.0386, 'grad_norm': 1.3320923706993648, 'learning_rate': 3.5277648156789547e-07, 'completion_length': 408.21429443359375, 'rewards/only_full_func_accuracy_reward': 0.7708333730697632, 'rewards/format_reward': 1.0, 'reward': 1.770833432674408, 'reward_std': 0.053436124697327614, 'kl': 0.966796875, 'epoch': 0.65}
+ 65%|██████▍   | 2774/4286 [18:23:38<9:53:22, 23.55s/it] 65%|██████▍   | 2775/4286 [18:24:01<9:50:26, 23.45s/it]                                                        {'loss': 0.0014, 'grad_norm': 1.549818572830233, 'learning_rate': 3.5254316378908074e-07, 'completion_length': 374.54466247558594, 'rewards/only_full_func_accuracy_reward': 0.80952388048172, 'rewards/format_reward': 1.0, 'reward': 1.8095239400863647, 'reward_std': 0.05977236479520798, 'kl': 0.0361328125, 'epoch': 0.65}
+ 65%|██████▍   | 2775/4286 [18:24:01<9:50:26, 23.45s/it] 65%|██████▍   | 2776/4286 [18:24:24<9:45:36, 23.27s/it]                                                        {'loss': 0.0359, 'grad_norm': 1.3791151741585028, 'learning_rate': 3.5230984601026597e-07, 'completion_length': 380.81251525878906, 'rewards/only_full_func_accuracy_reward': 0.4694940596818924, 'rewards/format_reward': 1.0, 'reward': 1.4694942235946655, 'reward_std': 0.08570589125156403, 'kl': 0.8984375, 'epoch': 0.65}
+ 65%|██████▍   | 2776/4286 [18:24:24<9:45:36, 23.27s/it] 65%|██████▍   | 2777/4286 [18:24:48<9:51:21, 23.51s/it]                                                        {'loss': 0.0507, 'grad_norm': 1.7834493941217975, 'learning_rate': 3.5207652823145124e-07, 'completion_length': 415.7053680419922, 'rewards/only_full_func_accuracy_reward': 0.6629464626312256, 'rewards/format_reward': 1.0, 'reward': 1.6629465818405151, 'reward_std': 0.047362503595650196, 'kl': 1.267578125, 'epoch': 0.65}
+ 65%|██████▍   | 2777/4286 [18:24:48<9:51:21, 23.51s/it] 65%|██████▍   | 2778/4286 [18:25:12<9:56:09, 23.72s/it]                                                        {'loss': 0.0512, 'grad_norm': 0.738377454331103, 'learning_rate': 3.5184321045263646e-07, 'completion_length': 400.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.771364837884903, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7624362707138062, 'reward_std': 0.0967593565583229, 'kl': 1.279296875, 'epoch': 0.65}
+ 65%|██████▍   | 2778/4286 [18:25:12<9:56:09, 23.72s/it] 65%|██████▍   | 2779/4286 [18:25:34<9:40:17, 23.10s/it]                                                        {'loss': 0.0117, 'grad_norm': 1.8692919251021627, 'learning_rate': 3.5160989267382174e-07, 'completion_length': 338.90179443359375, 'rewards/only_full_func_accuracy_reward': 0.7465774118900299, 'rewards/format_reward': 1.0, 'reward': 1.7465774416923523, 'reward_std': 0.03909146739169955, 'kl': 0.29248046875, 'epoch': 0.65}
+ 65%|██████▍   | 2779/4286 [18:25:34<9:40:17, 23.10s/it] 65%|██████▍   | 2780/4286 [18:25:55<9:25:41, 22.54s/it]                                                        {'loss': 0.0382, 'grad_norm': 0.4533543012818391, 'learning_rate': 3.51376574895007e-07, 'completion_length': 310.0714416503906, 'rewards/only_full_func_accuracy_reward': 0.6949405372142792, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6860119700431824, 'reward_std': 0.07553349062800407, 'kl': 0.951171875, 'epoch': 0.65}
+ 65%|██████▍   | 2780/4286 [18:25:55<9:25:41, 22.54s/it] 65%|██████▍   | 2781/4286 [18:26:18<9:26:51, 22.60s/it]                                                        {'loss': 0.018, 'grad_norm': 0.6085472842234785, 'learning_rate': 3.5114325711619224e-07, 'completion_length': 393.5893096923828, 'rewards/only_full_func_accuracy_reward': 0.789434552192688, 'rewards/format_reward': 1.0, 'reward': 1.7894346714019775, 'reward_std': 0.0559115968644619, 'kl': 0.4505615234375, 'epoch': 0.65}
+ 65%|██████▍   | 2781/4286 [18:26:18<9:26:51, 22.60s/it] 65%|██████▍   | 2782/4286 [18:26:41<9:29:53, 22.74s/it]                                                        {'loss': 0.0371, 'grad_norm': 1.2383796246425423, 'learning_rate': 3.509099393373775e-07, 'completion_length': 382.9107360839844, 'rewards/only_full_func_accuracy_reward': 0.7358631193637848, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7180060744285583, 'reward_std': 0.12220983766019344, 'kl': 0.927001953125, 'epoch': 0.65}
+ 65%|██████▍   | 2782/4286 [18:26:41<9:29:53, 22.74s/it] 65%|██████▍   | 2783/4286 [18:27:04<9:28:12, 22.68s/it]                                                        {'loss': 0.0139, 'grad_norm': 0.8306899128413141, 'learning_rate': 3.5067662155856273e-07, 'completion_length': 377.5089416503906, 'rewards/only_full_func_accuracy_reward': 0.7202381491661072, 'rewards/format_reward': 1.0, 'reward': 1.720238208770752, 'reward_std': 0.07886074483394623, 'kl': 0.3472900390625, 'epoch': 0.65}
+ 65%|██████▍   | 2783/4286 [18:27:04<9:28:12, 22.68s/it] 65%|██████▍   | 2784/4286 [18:27:28<9:40:34, 23.19s/it]                                                        {'loss': 0.0102, 'grad_norm': 0.8106609789288045, 'learning_rate': 3.50443303779748e-07, 'completion_length': 407.46429443359375, 'rewards/only_full_func_accuracy_reward': 0.7760416865348816, 'rewards/format_reward': 1.0, 'reward': 1.7760418057441711, 'reward_std': 0.023019037675112486, 'kl': 0.2557373046875, 'epoch': 0.65}
+ 65%|██████▍   | 2784/4286 [18:27:28<9:40:34, 23.19s/it] 65%|██████▍   | 2785/4286 [18:27:52<9:49:57, 23.58s/it]                                                        {'loss': 0.0024, 'grad_norm': 0.20932757930398163, 'learning_rate': 3.502099860009333e-07, 'completion_length': 397.3928680419922, 'rewards/only_full_func_accuracy_reward': 0.864583432674408, 'rewards/format_reward': 1.0, 'reward': 1.8645834922790527, 'reward_std': 0.012626906856894493, 'kl': 0.06005859375, 'epoch': 0.65}
+ 65%|██████▍   | 2785/4286 [18:27:52<9:49:57, 23.58s/it] 65%|██████▌   | 2786/4286 [18:28:15<9:39:04, 23.16s/it]                                                        {'loss': 0.0435, 'grad_norm': 1.1970203719498385, 'learning_rate': 3.499766682221185e-07, 'completion_length': 347.8393096923828, 'rewards/only_full_func_accuracy_reward': 0.6116071790456772, 'rewards/format_reward': 1.0, 'reward': 1.6116072535514832, 'reward_std': 0.08610245957970619, 'kl': 1.08984375, 'epoch': 0.65}
+ 65%|██████▌   | 2786/4286 [18:28:15<9:39:04, 23.16s/it] 65%|██████▌   | 2787/4286 [18:28:38<9:39:55, 23.21s/it]                                                        {'loss': 0.0398, 'grad_norm': 0.7019928822140887, 'learning_rate': 3.497433504433038e-07, 'completion_length': 390.1428680419922, 'rewards/only_full_func_accuracy_reward': 0.7162203192710876, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7072917819023132, 'reward_std': 0.08752637356519699, 'kl': 0.9921875, 'epoch': 0.65}
+ 65%|██████▌   | 2787/4286 [18:28:38<9:39:55, 23.21s/it] 65%|██████▌   | 2788/4286 [18:29:02<9:44:19, 23.40s/it]                                                        {'loss': 0.0736, 'grad_norm': 1.9336657921884972, 'learning_rate': 3.49510032664489e-07, 'completion_length': 418.66966247558594, 'rewards/only_full_func_accuracy_reward': 0.7071428894996643, 'rewards/format_reward': 1.0, 'reward': 1.7071428894996643, 'reward_std': 0.10238230973482132, 'kl': 1.84716796875, 'epoch': 0.65}
+ 65%|██████▌   | 2788/4286 [18:29:02<9:44:19, 23.40s/it] 65%|██████▌   | 2789/4286 [18:29:23<9:26:04, 22.69s/it]                                                        {'loss': 0.0348, 'grad_norm': 0.6652257819847437, 'learning_rate': 3.492767148856743e-07, 'completion_length': 335.3035888671875, 'rewards/only_full_func_accuracy_reward': 0.6443452835083008, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6354168057441711, 'reward_std': 0.09826256707310677, 'kl': 0.869140625, 'epoch': 0.65}
+ 65%|██████▌   | 2789/4286 [18:29:23<9:26:04, 22.69s/it] 65%|██████▌   | 2790/4286 [18:29:47<9:38:03, 23.18s/it]                                                        {'loss': 0.0571, 'grad_norm': 0.950004990030364, 'learning_rate': 3.4904339710685955e-07, 'completion_length': 452.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.5438988357782364, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.5260417461395264, 'reward_std': 0.09672017581760883, 'kl': 1.427734375, 'epoch': 0.65}
+ 65%|██████▌   | 2790/4286 [18:29:47<9:38:03, 23.18s/it] 65%|██████▌   | 2791/4286 [18:30:10<9:35:48, 23.11s/it]                                                        {'loss': 0.0245, 'grad_norm': 1.10889552302723, 'learning_rate': 3.488100793280448e-07, 'completion_length': 356.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.6904762387275696, 'rewards/format_reward': 1.0, 'reward': 1.6904763579368591, 'reward_std': 0.09572141245007515, 'kl': 0.61572265625, 'epoch': 0.65}
+ 65%|██████▌   | 2791/4286 [18:30:10<9:35:48, 23.11s/it] 65%|██████▌   | 2792/4286 [18:30:31<9:16:53, 22.36s/it]                                                        {'loss': 0.0026, 'grad_norm': 0.8425492835153939, 'learning_rate': 3.4857676154923005e-07, 'completion_length': 333.2678680419922, 'rewards/only_full_func_accuracy_reward': 0.7767857611179352, 'rewards/format_reward': 1.0, 'reward': 1.7767859101295471, 'reward_std': 0.036747497506439686, 'kl': 0.065185546875, 'epoch': 0.65}
+ 65%|██████▌   | 2792/4286 [18:30:31<9:16:53, 22.36s/it] 65%|██████▌   | 2793/4286 [18:30:53<9:18:28, 22.44s/it]                                                        {'loss': 0.015, 'grad_norm': 0.6077620107345385, 'learning_rate': 3.4834344377041533e-07, 'completion_length': 384.64288330078125, 'rewards/only_full_func_accuracy_reward': 0.71726194024086, 'rewards/format_reward': 1.0, 'reward': 1.7172619700431824, 'reward_std': 0.07966703549027443, 'kl': 0.37744140625, 'epoch': 0.65}
+ 65%|██████▌   | 2793/4286 [18:30:53<9:18:28, 22.44s/it] 65%|██████▌   | 2794/4286 [18:31:13<9:01:16, 21.77s/it]                                                        {'loss': 0.0121, 'grad_norm': 1.097369194462674, 'learning_rate': 3.4811012599160055e-07, 'completion_length': 334.33038330078125, 'rewards/only_full_func_accuracy_reward': 0.7299107313156128, 'rewards/format_reward': 1.0, 'reward': 1.7299109101295471, 'reward_std': 0.03547286242246628, 'kl': 0.3045654296875, 'epoch': 0.65}
+ 65%|██████▌   | 2794/4286 [18:31:13<9:01:16, 21.77s/it] 65%|██████▌   | 2795/4286 [18:31:35<8:57:11, 21.62s/it]                                                        {'loss': 0.036, 'grad_norm': 1.2241197417137786, 'learning_rate': 3.478768082127858e-07, 'completion_length': 309.0625, 'rewards/only_full_func_accuracy_reward': 0.858631044626236, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8497024774551392, 'reward_std': 0.07380668818950653, 'kl': 0.8984375, 'epoch': 0.65}
+ 65%|██████▌   | 2795/4286 [18:31:35<8:57:11, 21.62s/it] 65%|██████▌   | 2796/4286 [18:31:58<9:08:22, 22.08s/it]                                                        {'loss': 0.0226, 'grad_norm': 3.732850962205235, 'learning_rate': 3.4764349043397105e-07, 'completion_length': 398.89288330078125, 'rewards/only_full_func_accuracy_reward': 0.5461309850215912, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5372024774551392, 'reward_std': 0.08547333255410194, 'kl': 0.5665283203125, 'epoch': 0.65}
+ 65%|██████▌   | 2796/4286 [18:31:58<9:08:22, 22.08s/it] 65%|██████▌   | 2797/4286 [18:32:22<9:22:12, 22.65s/it]                                                        {'loss': 0.0145, 'grad_norm': 1.6591372550498176, 'learning_rate': 3.474101726551563e-07, 'completion_length': 405.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.705357164144516, 'rewards/format_reward': 1.0, 'reward': 1.7053571939468384, 'reward_std': 0.04890239238739014, 'kl': 0.36083984375, 'epoch': 0.65}
+ 65%|██████▌   | 2797/4286 [18:32:22<9:22:12, 22.65s/it] 65%|██████▌   | 2798/4286 [18:32:46<9:33:18, 23.12s/it]                                                        {'loss': 0.0155, 'grad_norm': 0.4381623114837555, 'learning_rate': 3.471768548763416e-07, 'completion_length': 421.8839416503906, 'rewards/only_full_func_accuracy_reward': 0.675000011920929, 'rewards/format_reward': 1.0, 'reward': 1.6750000715255737, 'reward_std': 0.061709786765277386, 'kl': 0.3865966796875, 'epoch': 0.65}
+ 65%|██████▌   | 2798/4286 [18:32:46<9:33:18, 23.12s/it] 65%|██████▌   | 2799/4286 [18:33:07<9:19:01, 22.56s/it]                                                        {'loss': 0.0052, 'grad_norm': 0.5937380238545888, 'learning_rate': 3.469435370975268e-07, 'completion_length': 362.0268096923828, 'rewards/only_full_func_accuracy_reward': 0.7217262387275696, 'rewards/format_reward': 1.0, 'reward': 1.7217262983322144, 'reward_std': 0.050406090915203094, 'kl': 0.129638671875, 'epoch': 0.65}
+ 65%|██████▌   | 2799/4286 [18:33:07<9:19:01, 22.56s/it] 65%|██████▌   | 2800/4286 [18:33:29<9:11:47, 22.28s/it]                                                        {'loss': 0.0206, 'grad_norm': 1.3292333628786825, 'learning_rate': 3.467102193187121e-07, 'completion_length': 367.6607360839844, 'rewards/only_full_func_accuracy_reward': 0.8779762387275696, 'rewards/format_reward': 1.0, 'reward': 1.8779762983322144, 'reward_std': 0.0660630315542221, 'kl': 0.516357421875, 'epoch': 0.65}
+ 65%|██████▌   | 2800/4286 [18:33:29<9:11:47, 22.28s/it] 65%|██████▌   | 2801/4286 [18:34:59<17:35:21, 42.64s/it]                                                         {'loss': 0.0342, 'grad_norm': 1.4748192342746942, 'learning_rate': 3.464769015398973e-07, 'completion_length': 400.8660888671875, 'rewards/only_full_func_accuracy_reward': 0.7083333730697632, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6994048357009888, 'reward_std': 0.04845305625349283, 'kl': 0.857177734375, 'epoch': 0.65}
+ 65%|██████▌   | 2801/4286 [18:34:59<17:35:21, 42.64s/it] 65%|██████▌   | 2802/4286 [18:35:21<15:03:55, 36.55s/it]                                                         {'loss': 0.0022, 'grad_norm': 0.677782995549322, 'learning_rate': 3.462435837610826e-07, 'completion_length': 324.3482208251953, 'rewards/only_full_func_accuracy_reward': 0.8342262506484985, 'rewards/format_reward': 1.0, 'reward': 1.8342262506484985, 'reward_std': 0.0427034473977983, 'kl': 0.05517578125, 'epoch': 0.65}
+ 65%|██████▌   | 2802/4286 [18:35:21<15:03:55, 36.55s/it] 65%|██████▌   | 2803/4286 [18:35:44<13:22:42, 32.48s/it]                                                         {'loss': 0.0346, 'grad_norm': 1.4440187297220817, 'learning_rate': 3.4601026598226787e-07, 'completion_length': 335.60716247558594, 'rewards/only_full_func_accuracy_reward': 0.6733631491661072, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6644346117973328, 'reward_std': 0.10108850710093975, 'kl': 0.865234375, 'epoch': 0.65}
+ 65%|██████▌   | 2803/4286 [18:35:44<13:22:42, 32.48s/it] 65%|██████▌   | 2804/4286 [18:36:07<12:08:16, 29.49s/it]                                                         {'loss': 0.0111, 'grad_norm': 1.0208507985250843, 'learning_rate': 3.457769482034531e-07, 'completion_length': 388.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.6681548058986664, 'rewards/format_reward': 1.0, 'reward': 1.6681548357009888, 'reward_std': 0.05728817172348499, 'kl': 0.2769775390625, 'epoch': 0.65}
+ 65%|██████▌   | 2804/4286 [18:36:07<12:08:16, 29.49s/it] 65%|██████▌   | 2805/4286 [18:36:30<11:22:49, 27.66s/it]                                                         {'loss': 0.0128, 'grad_norm': 0.774474537061103, 'learning_rate': 3.4554363042463836e-07, 'completion_length': 358.4464569091797, 'rewards/only_full_func_accuracy_reward': 0.6540178656578064, 'rewards/format_reward': 1.0, 'reward': 1.6540179252624512, 'reward_std': 0.06365424208343029, 'kl': 0.3212890625, 'epoch': 0.65}
+ 65%|██████▌   | 2805/4286 [18:36:30<11:22:49, 27.66s/it] 65%|██████▌   | 2806/4286 [18:36:54<10:49:10, 26.32s/it]                                                         {'loss': 0.0016, 'grad_norm': 0.41129969510162623, 'learning_rate': 3.453103126458236e-07, 'completion_length': 404.0268096923828, 'rewards/only_full_func_accuracy_reward': 0.6190476715564728, 'rewards/format_reward': 1.0, 'reward': 1.61904776096344, 'reward_std': 0.03597211092710495, 'kl': 0.039306640625, 'epoch': 0.65}
+ 65%|██████▌   | 2806/4286 [18:36:54<10:49:10, 26.32s/it] 65%|██████▌   | 2807/4286 [18:37:16<10:18:15, 25.08s/it]                                                         {'loss': 0.0158, 'grad_norm': 0.365670037689021, 'learning_rate': 3.4507699486700886e-07, 'completion_length': 371.35716247558594, 'rewards/only_full_func_accuracy_reward': 0.6473214626312256, 'rewards/format_reward': 1.0, 'reward': 1.6473215222358704, 'reward_std': 0.05801451299339533, 'kl': 0.3975830078125, 'epoch': 0.65}
+ 65%|██████▌   | 2807/4286 [18:37:16<10:18:15, 25.08s/it] 66%|██████▌   | 2808/4286 [18:37:39<10:01:32, 24.42s/it]                                                         {'loss': 0.0019, 'grad_norm': 0.24642544205297423, 'learning_rate': 3.4484367708819414e-07, 'completion_length': 399.6785888671875, 'rewards/only_full_func_accuracy_reward': 0.7299107909202576, 'rewards/format_reward': 1.0, 'reward': 1.7299108505249023, 'reward_std': 0.03366979584097862, 'kl': 0.0465087890625, 'epoch': 0.66}
+ 66%|██████▌   | 2808/4286 [18:37:39<10:01:32, 24.42s/it] 66%|██████▌   | 2809/4286 [18:38:02<9:57:02, 24.25s/it]                                                         {'loss': 0.033, 'grad_norm': 0.9272083702939198, 'learning_rate': 3.4461035930937936e-07, 'completion_length': 401.4643096923828, 'rewards/only_full_func_accuracy_reward': 0.7336309552192688, 'rewards/format_reward': 1.0, 'reward': 1.7336310744285583, 'reward_std': 0.022888215258717537, 'kl': 0.822265625, 'epoch': 0.66}
+ 66%|██████▌   | 2809/4286 [18:38:02<9:57:02, 24.25s/it] 66%|██████▌   | 2810/4286 [18:38:24<9:38:12, 23.50s/it]                                                        {'loss': 0.0602, 'grad_norm': 1.9766939600600144, 'learning_rate': 3.4437704153056463e-07, 'completion_length': 366.04466247558594, 'rewards/only_full_func_accuracy_reward': 0.7261905372142792, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.708333432674408, 'reward_std': 0.13919543847441673, 'kl': 1.5, 'epoch': 0.66}
+ 66%|██████▌   | 2810/4286 [18:38:24<9:38:12, 23.50s/it] 66%|██████▌   | 2811/4286 [18:38:47<9:35:23, 23.41s/it]                                                        {'loss': 0.0228, 'grad_norm': 0.5917958779949563, 'learning_rate': 3.4414372375174986e-07, 'completion_length': 366.3303680419922, 'rewards/only_full_func_accuracy_reward': 0.6674107313156128, 'rewards/format_reward': 1.0, 'reward': 1.6674107909202576, 'reward_std': 0.048923506401479244, 'kl': 0.570556640625, 'epoch': 0.66}
+ 66%|██████▌   | 2811/4286 [18:38:47<9:35:23, 23.41s/it] 66%|██████▌   | 2812/4286 [18:39:10<9:28:02, 23.12s/it]                                                        {'loss': 0.0145, 'grad_norm': 0.921613316109727, 'learning_rate': 3.4391040597293513e-07, 'completion_length': 380.35716247558594, 'rewards/only_full_func_accuracy_reward': 0.668154776096344, 'rewards/format_reward': 1.0, 'reward': 1.6681548357009888, 'reward_std': 0.06520135328173637, 'kl': 0.36083984375, 'epoch': 0.66}
+ 66%|██████▌   | 2812/4286 [18:39:10<9:28:02, 23.12s/it] 66%|██████▌   | 2813/4286 [18:39:34<9:32:34, 23.32s/it]                                                        {'loss': 0.0263, 'grad_norm': 2.3933439547383633, 'learning_rate': 3.436770881941204e-07, 'completion_length': 381.40179443359375, 'rewards/only_full_func_accuracy_reward': 0.6296131610870361, 'rewards/format_reward': 1.0, 'reward': 1.629613220691681, 'reward_std': 0.08835267834365368, 'kl': 0.6590576171875, 'epoch': 0.66}
+ 66%|██████▌   | 2813/4286 [18:39:34<9:32:34, 23.32s/it] 66%|██████▌   | 2814/4286 [18:39:54<9:09:26, 22.40s/it]                                                        {'loss': 0.0238, 'grad_norm': 1.0181767597380493, 'learning_rate': 3.4344377041530563e-07, 'completion_length': 346.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.82663694024086, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8177084922790527, 'reward_std': 0.07599051296710968, 'kl': 0.593994140625, 'epoch': 0.66}
+ 66%|██████▌   | 2814/4286 [18:39:54<9:09:26, 22.40s/it] 66%|██████▌   | 2815/4286 [18:40:19<9:25:20, 23.06s/it]                                                        {'loss': 0.0485, 'grad_norm': 1.0484807962336329, 'learning_rate': 3.432104526364909e-07, 'completion_length': 419.0357360839844, 'rewards/only_full_func_accuracy_reward': 0.6943452656269073, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.676488220691681, 'reward_std': 0.16622356325387955, 'kl': 1.2109375, 'epoch': 0.66}
+ 66%|██████▌   | 2815/4286 [18:40:19<9:25:20, 23.06s/it] 66%|██████▌   | 2816/4286 [18:40:41<9:19:45, 22.85s/it]                                                        {'loss': 0.0334, 'grad_norm': 0.5511552556987644, 'learning_rate': 3.429771348576762e-07, 'completion_length': 377.0535888671875, 'rewards/only_full_func_accuracy_reward': 0.7547619342803955, 'rewards/format_reward': 1.0, 'reward': 1.754762053489685, 'reward_std': 0.033065006136894226, 'kl': 0.8353271484375, 'epoch': 0.66}
+ 66%|██████▌   | 2816/4286 [18:40:41<9:19:45, 22.85s/it] 66%|██████▌   | 2817/4286 [18:41:03<9:11:17, 22.52s/it]                                                        {'loss': 0.026, 'grad_norm': 0.9503131957260622, 'learning_rate': 3.427438170788614e-07, 'completion_length': 281.2410888671875, 'rewards/only_full_func_accuracy_reward': 0.7239583432674408, 'rewards/format_reward': 1.0, 'reward': 1.7239584922790527, 'reward_std': 0.042588936164975166, 'kl': 0.65185546875, 'epoch': 0.66}
+ 66%|██████▌   | 2817/4286 [18:41:03<9:11:17, 22.52s/it] 66%|██████▌   | 2818/4286 [18:41:28<9:28:28, 23.23s/it]                                                        {'loss': 0.0023, 'grad_norm': 0.4040234026147011, 'learning_rate': 3.425104993000467e-07, 'completion_length': 451.16966247558594, 'rewards/only_full_func_accuracy_reward': 0.66889888048172, 'rewards/format_reward': 1.0, 'reward': 1.6688989400863647, 'reward_std': 0.04497348237782717, 'kl': 0.0567626953125, 'epoch': 0.66}
+ 66%|██████▌   | 2818/4286 [18:41:28<9:28:28, 23.23s/it] 66%|██████▌   | 2819/4286 [18:41:51<9:32:25, 23.41s/it]                                                        {'loss': 0.0793, 'grad_norm': 2.531078002509512, 'learning_rate': 3.422771815212319e-07, 'completion_length': 410.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.5677083432674408, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.5498512983322144, 'reward_std': 0.08898519584909081, 'kl': 1.984375, 'epoch': 0.66}
+ 66%|██████▌   | 2819/4286 [18:41:51<9:32:25, 23.41s/it] 66%|██████▌   | 2820/4286 [18:42:17<9:46:08, 23.99s/it]                                                        {'loss': 0.0434, 'grad_norm': 0.6291190120429556, 'learning_rate': 3.4204386374241717e-07, 'completion_length': 438.25001525878906, 'rewards/only_full_func_accuracy_reward': 0.7162202298641205, 'rewards/format_reward': 1.0, 'reward': 1.7162203192710876, 'reward_std': 0.11082423850893974, 'kl': 1.087890625, 'epoch': 0.66}
+ 66%|██████▌   | 2820/4286 [18:42:17<9:46:08, 23.99s/it] 66%|██████▌   | 2821/4286 [18:42:41<9:46:49, 24.03s/it]                                                        {'loss': 0.0388, 'grad_norm': 2.231069993652352, 'learning_rate': 3.4181054596360245e-07, 'completion_length': 400.8482208251953, 'rewards/only_full_func_accuracy_reward': 0.6153274178504944, 'rewards/format_reward': 1.0, 'reward': 1.6153274774551392, 'reward_std': 0.07852621749043465, 'kl': 0.96484375, 'epoch': 0.66}
+ 66%|██████▌   | 2821/4286 [18:42:41<9:46:49, 24.03s/it] 66%|██████▌   | 2822/4286 [18:43:02<9:22:22, 23.05s/it]                                                        {'loss': 0.0142, 'grad_norm': 0.5615379627906046, 'learning_rate': 3.4157722818478767e-07, 'completion_length': 317.48216247558594, 'rewards/only_full_func_accuracy_reward': 0.8563988208770752, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8474703431129456, 'reward_std': 0.11240493319928646, 'kl': 0.357666015625, 'epoch': 0.66}
+ 66%|██████▌   | 2822/4286 [18:43:02<9:22:22, 23.05s/it] 66%|██████▌   | 2823/4286 [18:43:23<9:13:54, 22.72s/it]                                                        {'loss': 0.0439, 'grad_norm': 0.9504985400238486, 'learning_rate': 3.4134391040597295e-07, 'completion_length': 374.2143096923828, 'rewards/only_full_func_accuracy_reward': 0.6264881044626236, 'rewards/format_reward': 1.0, 'reward': 1.6264882683753967, 'reward_std': 0.056970808655023575, 'kl': 1.099609375, 'epoch': 0.66}
+ 66%|██████▌   | 2823/4286 [18:43:24<9:13:54, 22.72s/it] 66%|██████▌   | 2824/4286 [18:43:45<9:04:59, 22.37s/it]                                                        {'loss': 0.0121, 'grad_norm': 0.654102295801562, 'learning_rate': 3.4111059262715817e-07, 'completion_length': 357.39288330078125, 'rewards/only_full_func_accuracy_reward': 0.8526786267757416, 'rewards/format_reward': 1.0, 'reward': 1.8526787161827087, 'reward_std': 0.052020421251654625, 'kl': 0.30224609375, 'epoch': 0.66}
+ 66%|██████▌   | 2824/4286 [18:43:45<9:04:59, 22.37s/it] 66%|██████▌   | 2825/4286 [18:44:09<9:14:44, 22.78s/it]                                                        {'loss': 0.0755, 'grad_norm': 1.6256705731419796, 'learning_rate': 3.4087727484834344e-07, 'completion_length': 372.6696472167969, 'rewards/only_full_func_accuracy_reward': 0.5668155252933502, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.548958420753479, 'reward_std': 0.10107382386922836, 'kl': 1.88671875, 'epoch': 0.66}
+ 66%|██████▌   | 2825/4286 [18:44:09<9:14:44, 22.78s/it] 66%|██████▌   | 2826/4286 [18:44:29<8:54:05, 21.95s/it]                                                        {'loss': 0.0162, 'grad_norm': 0.5107821550895804, 'learning_rate': 3.406439570695287e-07, 'completion_length': 306.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.8608631193637848, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8519346117973328, 'reward_std': 0.059749580919742584, 'kl': 0.4058837890625, 'epoch': 0.66}
+ 66%|██████▌   | 2826/4286 [18:44:29<8:54:05, 21.95s/it] 66%|██████▌   | 2827/4286 [18:44:51<8:52:49, 21.91s/it]                                                        {'loss': 0.0405, 'grad_norm': 1.1230473849114213, 'learning_rate': 3.4041063929071394e-07, 'completion_length': 367.9285888671875, 'rewards/only_full_func_accuracy_reward': 0.8050595819950104, 'rewards/format_reward': 1.0, 'reward': 1.8050596117973328, 'reward_std': 0.06313052400946617, 'kl': 1.012939453125, 'epoch': 0.66}
+ 66%|██████▌   | 2827/4286 [18:44:51<8:52:49, 21.91s/it] 66%|██████▌   | 2828/4286 [18:45:15<9:08:32, 22.57s/it]                                                        {'loss': 0.0278, 'grad_norm': 2.1088199920784163, 'learning_rate': 3.401773215118992e-07, 'completion_length': 381.7232360839844, 'rewards/only_full_func_accuracy_reward': 0.6785714626312256, 'rewards/format_reward': 1.0, 'reward': 1.6785714626312256, 'reward_std': 0.09671374410390854, 'kl': 0.697265625, 'epoch': 0.66}
+ 66%|██████▌   | 2828/4286 [18:45:15<9:08:32, 22.57s/it] 66%|██████▌   | 2829/4286 [18:45:37<9:06:22, 22.50s/it]                                                        {'loss': 0.0449, 'grad_norm': 1.1678503495002062, 'learning_rate': 3.3994400373308444e-07, 'completion_length': 365.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.6562500298023224, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6473214626312256, 'reward_std': 0.06786386668682098, 'kl': 1.123046875, 'epoch': 0.66}
+ 66%|██████▌   | 2829/4286 [18:45:37<9:06:22, 22.50s/it] 66%|██████▌   | 2830/4286 [18:45:59<9:04:06, 22.42s/it]                                                        {'loss': 0.0512, 'grad_norm': 0.44677541330375237, 'learning_rate': 3.397106859542697e-07, 'completion_length': 368.7143096923828, 'rewards/only_full_func_accuracy_reward': 0.7068452835083008, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6979168057441711, 'reward_std': 0.08348414674401283, 'kl': 1.27734375, 'epoch': 0.66}
+ 66%|██████▌   | 2830/4286 [18:45:59<9:04:06, 22.42s/it] 66%|██████▌   | 2831/4286 [18:46:22<9:02:02, 22.35s/it]                                                        {'loss': 0.0446, 'grad_norm': 2.0996818664147967, 'learning_rate': 3.39477368175455e-07, 'completion_length': 354.5714416503906, 'rewards/only_full_func_accuracy_reward': 0.7001487910747528, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6912203431129456, 'reward_std': 0.09838614985346794, 'kl': 1.12109375, 'epoch': 0.66}
+ 66%|██████▌   | 2831/4286 [18:46:22<9:02:02, 22.35s/it] 66%|██████▌   | 2832/4286 [18:46:46<9:18:33, 23.05s/it]                                                        {'loss': 0.0276, 'grad_norm': 1.994580268392909, 'learning_rate': 3.392440503966402e-07, 'completion_length': 439.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.7470238506793976, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7380953431129456, 'reward_std': 0.0945496466010809, 'kl': 0.689453125, 'epoch': 0.66}
+ 66%|██████▌   | 2832/4286 [18:46:46<9:18:33, 23.05s/it] 66%|██████▌   | 2833/4286 [18:47:09<9:18:04, 23.05s/it]                                                        {'loss': 0.0044, 'grad_norm': 151.09342780075522, 'learning_rate': 3.390107326178255e-07, 'completion_length': 344.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.7938988208770752, 'rewards/format_reward': 1.0, 'reward': 1.7938989400863647, 'reward_std': 0.027053993195295334, 'kl': 0.1103515625, 'epoch': 0.66}
+ 66%|██████▌   | 2833/4286 [18:47:09<9:18:04, 23.05s/it] 66%|██████▌   | 2834/4286 [18:47:32<9:18:24, 23.07s/it]                                                        {'loss': 0.0213, 'grad_norm': 0.8696584176122444, 'learning_rate': 3.387774148390107e-07, 'completion_length': 398.5893096923828, 'rewards/only_full_func_accuracy_reward': 0.791666716337204, 'rewards/format_reward': 1.0, 'reward': 1.7916668057441711, 'reward_std': 0.08015667274594307, 'kl': 0.53125, 'epoch': 0.66}
+ 66%|██████▌   | 2834/4286 [18:47:32<9:18:24, 23.07s/it] 66%|██████▌   | 2835/4286 [18:47:57<9:26:25, 23.42s/it]                                                        {'loss': 0.0146, 'grad_norm': 0.8954343854381189, 'learning_rate': 3.38544097060196e-07, 'completion_length': 393.9732360839844, 'rewards/only_full_func_accuracy_reward': 0.6004464775323868, 'rewards/format_reward': 1.0, 'reward': 1.6004464626312256, 'reward_std': 0.046179402619600296, 'kl': 0.366943359375, 'epoch': 0.66}
+ 66%|██████▌   | 2835/4286 [18:47:57<9:26:25, 23.42s/it] 66%|██████▌   | 2836/4286 [18:48:20<9:23:59, 23.34s/it]                                                        {'loss': 0.0159, 'grad_norm': 0.4024408396315078, 'learning_rate': 3.3831077928138126e-07, 'completion_length': 406.39288330078125, 'rewards/only_full_func_accuracy_reward': 0.68601194024086, 'rewards/format_reward': 1.0, 'reward': 1.6860119700431824, 'reward_std': 0.05080708675086498, 'kl': 0.395751953125, 'epoch': 0.66}
+ 66%|██████▌   | 2836/4286 [18:48:20<9:23:59, 23.34s/it] 66%|██████▌   | 2837/4286 [18:48:42<9:15:29, 23.00s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.49316251005167755, 'learning_rate': 3.380774615025665e-07, 'completion_length': 392.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.718154788017273, 'rewards/format_reward': 1.0, 'reward': 1.7181548476219177, 'reward_std': 0.028585426742210984, 'kl': 0.0391845703125, 'epoch': 0.66}
+ 66%|██████▌   | 2837/4286 [18:48:42<9:15:29, 23.00s/it] 66%|██████▌   | 2838/4286 [18:49:06<9:26:16, 23.46s/it]                                                        {'loss': 0.0288, 'grad_norm': 0.6017971224396138, 'learning_rate': 3.3784414372375176e-07, 'completion_length': 415.45538330078125, 'rewards/only_full_func_accuracy_reward': 0.7259779274463654, 'rewards/format_reward': 1.0, 'reward': 1.7259779572486877, 'reward_std': 0.03427303582429886, 'kl': 0.72119140625, 'epoch': 0.66}
+ 66%|██████▌   | 2838/4286 [18:49:07<9:26:16, 23.46s/it] 66%|██████▌   | 2839/4286 [18:49:32<9:38:15, 23.98s/it]                                                        {'loss': 0.0429, 'grad_norm': 1.0545351405555528, 'learning_rate': 3.3761082594493703e-07, 'completion_length': 389.0535888671875, 'rewards/only_full_func_accuracy_reward': 0.6842758655548096, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6753472685813904, 'reward_std': 0.11814397946000099, 'kl': 1.076171875, 'epoch': 0.66}
+ 66%|██████▌   | 2839/4286 [18:49:32<9:38:15, 23.98s/it] 66%|██████▋   | 2840/4286 [18:49:54<9:26:35, 23.51s/it]                                                        {'loss': 0.0117, 'grad_norm': 0.7045995278434459, 'learning_rate': 3.3737750816612225e-07, 'completion_length': 380.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.71726194024086, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.708333432674408, 'reward_std': 0.08341166377067566, 'kl': 0.2921142578125, 'epoch': 0.66}
+ 66%|██████▋   | 2840/4286 [18:49:54<9:26:35, 23.51s/it] 66%|██████▋   | 2841/4286 [18:50:17<9:19:15, 23.22s/it]                                                        {'loss': 0.008, 'grad_norm': 0.85657881491891, 'learning_rate': 3.3714419038730753e-07, 'completion_length': 357.31251525878906, 'rewards/only_full_func_accuracy_reward': 0.7500000298023224, 'rewards/format_reward': 1.0, 'reward': 1.7500001192092896, 'reward_std': 0.022043336182832718, 'kl': 0.1995849609375, 'epoch': 0.66}
+ 66%|██████▋   | 2841/4286 [18:50:17<9:19:15, 23.22s/it] 66%|██████▋   | 2842/4286 [18:50:41<9:27:39, 23.59s/it]                                                        {'loss': 0.0337, 'grad_norm': 0.5870677947019572, 'learning_rate': 3.3691087260849275e-07, 'completion_length': 441.8393096923828, 'rewards/only_full_func_accuracy_reward': 0.7782738208770752, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7693454027175903, 'reward_std': 0.09743621945381165, 'kl': 0.839599609375, 'epoch': 0.66}
+ 66%|██████▋   | 2842/4286 [18:50:41<9:27:39, 23.59s/it] 66%|██████▋   | 2843/4286 [18:51:03<9:18:46, 23.23s/it]                                                        {'loss': 0.0134, 'grad_norm': 0.32291411252047003, 'learning_rate': 3.36677554829678e-07, 'completion_length': 364.66966247558594, 'rewards/only_full_func_accuracy_reward': 0.7782738506793976, 'rewards/format_reward': 1.0, 'reward': 1.7782739400863647, 'reward_std': 0.035584245808422565, 'kl': 0.3350830078125, 'epoch': 0.66}
+ 66%|██████▋   | 2843/4286 [18:51:03<9:18:46, 23.23s/it] 66%|██████▋   | 2844/4286 [18:51:27<9:17:53, 23.21s/it]                                                        {'loss': 0.0031, 'grad_norm': 0.3695991775715313, 'learning_rate': 3.364442370508633e-07, 'completion_length': 381.90179443359375, 'rewards/only_full_func_accuracy_reward': 0.8831845819950104, 'rewards/format_reward': 1.0, 'reward': 1.8831846117973328, 'reward_std': 0.01750820316374302, 'kl': 0.0780029296875, 'epoch': 0.66}
+ 66%|██████▋   | 2844/4286 [18:51:27<9:17:53, 23.21s/it] 66%|██████▋   | 2845/4286 [18:51:50<9:18:36, 23.26s/it]                                                        {'loss': 0.0365, 'grad_norm': 1.2283310479939435, 'learning_rate': 3.362109192720485e-07, 'completion_length': 388.4107360839844, 'rewards/only_full_func_accuracy_reward': 0.6339286267757416, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6250001192092896, 'reward_std': 0.10101029649376869, 'kl': 0.91015625, 'epoch': 0.66}
+ 66%|██████▋   | 2845/4286 [18:51:50<9:18:36, 23.26s/it] 66%|██████▋   | 2846/4286 [18:52:13<9:19:03, 23.29s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.2952664629052534, 'learning_rate': 3.359776014932338e-07, 'completion_length': 387.79466247558594, 'rewards/only_full_func_accuracy_reward': 0.690476268529892, 'rewards/format_reward': 1.0, 'reward': 1.6904763579368591, 'reward_std': 0.02204333944246173, 'kl': 0.041259765625, 'epoch': 0.66}
+ 66%|██████▋   | 2846/4286 [18:52:13<9:19:03, 23.29s/it] 66%|██████▋   | 2847/4286 [18:52:37<9:19:49, 23.34s/it]                                                        {'loss': 0.0375, 'grad_norm': 0.578493544423995, 'learning_rate': 3.35744283714419e-07, 'completion_length': 416.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.6889881491661072, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6800596117973328, 'reward_std': 0.07194881699979305, 'kl': 0.939453125, 'epoch': 0.66}
+ 66%|██████▋   | 2847/4286 [18:52:37<9:19:49, 23.34s/it] 66%|██████▋   | 2848/4286 [18:53:01<9:24:44, 23.56s/it]                                                        {'loss': 0.0014, 'grad_norm': 0.13419341607306523, 'learning_rate': 3.355109659356043e-07, 'completion_length': 428.1607360839844, 'rewards/only_full_func_accuracy_reward': 0.5967261791229248, 'rewards/format_reward': 1.0, 'reward': 1.5967262983322144, 'reward_std': 0.008266251534223557, 'kl': 0.03564453125, 'epoch': 0.66}
+ 66%|██████▋   | 2848/4286 [18:53:01<9:24:44, 23.56s/it] 66%|██████▋   | 2849/4286 [18:53:21<9:00:13, 22.56s/it]                                                        {'loss': 0.0022, 'grad_norm': 1.0145304975490077, 'learning_rate': 3.3527764815678957e-07, 'completion_length': 350.39288330078125, 'rewards/only_full_func_accuracy_reward': 0.6485119163990021, 'rewards/format_reward': 1.0, 'reward': 1.6485119462013245, 'reward_std': 0.031810179352760315, 'kl': 0.054931640625, 'epoch': 0.66}
+ 66%|██████▋   | 2849/4286 [18:53:21<9:00:13, 22.56s/it] 66%|██████▋   | 2850/4286 [18:53:45<9:12:18, 23.08s/it]                                                        {'loss': 0.0253, 'grad_norm': 16.084751924781866, 'learning_rate': 3.350443303779748e-07, 'completion_length': 365.5982360839844, 'rewards/only_full_func_accuracy_reward': 0.6220238208770752, 'rewards/format_reward': 1.0, 'reward': 1.62202388048172, 'reward_std': 0.04188520647585392, 'kl': 0.6337890625, 'epoch': 0.66}
+ 66%|██████▋   | 2850/4286 [18:53:45<9:12:18, 23.08s/it] 67%|██████▋   | 2851/4286 [18:54:09<9:14:43, 23.19s/it]                                                        {'loss': 0.0168, 'grad_norm': 1.731726154134603, 'learning_rate': 3.3481101259916007e-07, 'completion_length': 391.6607360839844, 'rewards/only_full_func_accuracy_reward': 0.6949405074119568, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6860119700431824, 'reward_std': 0.05922502093017101, 'kl': 0.419921875, 'epoch': 0.67}
+ 67%|██████▋   | 2851/4286 [18:54:09<9:14:43, 23.19s/it] 67%|██████▋   | 2852/4286 [18:54:32<9:12:32, 23.12s/it]                                                        {'loss': 0.0122, 'grad_norm': 14.343970015373399, 'learning_rate': 3.345776948203453e-07, 'completion_length': 333.2232208251953, 'rewards/only_full_func_accuracy_reward': 0.7336310148239136, 'rewards/format_reward': 1.0, 'reward': 1.7336310744285583, 'reward_std': 0.05945288948714733, 'kl': 0.30517578125, 'epoch': 0.67}
+ 67%|██████▋   | 2852/4286 [18:54:32<9:12:32, 23.12s/it] 67%|██████▋   | 2853/4286 [18:54:53<8:56:54, 22.48s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.9011360607260237, 'learning_rate': 3.3434437704153057e-07, 'completion_length': 342.1339416503906, 'rewards/only_full_func_accuracy_reward': 0.8177083134651184, 'rewards/format_reward': 1.0, 'reward': 1.817708432674408, 'reward_std': 0.044085267931222916, 'kl': 0.0430908203125, 'epoch': 0.67}
+ 67%|██████▋   | 2853/4286 [18:54:53<8:56:54, 22.48s/it] 67%|██████▋   | 2854/4286 [18:55:14<8:48:20, 22.14s/it]                                                        {'loss': 0.0021, 'grad_norm': 0.1599449566762838, 'learning_rate': 3.3411105926271584e-07, 'completion_length': 308.8660888671875, 'rewards/only_full_func_accuracy_reward': 0.8779762387275696, 'rewards/format_reward': 1.0, 'reward': 1.8779762983322144, 'reward_std': 0.025253813713788986, 'kl': 0.0516357421875, 'epoch': 0.67}
+ 67%|██████▋   | 2854/4286 [18:55:14<8:48:20, 22.14s/it] 67%|██████▋   | 2855/4286 [18:55:34<8:31:05, 21.43s/it]                                                        {'loss': 0.0382, 'grad_norm': 0.5487612312410196, 'learning_rate': 3.3387774148390106e-07, 'completion_length': 323.9107360839844, 'rewards/only_full_func_accuracy_reward': 0.868303656578064, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8593751192092896, 'reward_std': 0.08471182733774185, 'kl': 0.95703125, 'epoch': 0.67}
+ 67%|██████▋   | 2855/4286 [18:55:34<8:31:05, 21.43s/it] 67%|██████▋   | 2856/4286 [18:55:55<8:27:38, 21.30s/it]                                                        {'loss': 0.0132, 'grad_norm': 0.4315769113792544, 'learning_rate': 3.3364442370508634e-07, 'completion_length': 350.1428680419922, 'rewards/only_full_func_accuracy_reward': 0.6875000596046448, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6785715818405151, 'reward_std': 0.0879102274775505, 'kl': 0.3310546875, 'epoch': 0.67}
+ 67%|██████▋   | 2856/4286 [18:55:55<8:27:38, 21.30s/it] 67%|██████▋   | 2857/4286 [18:56:19<8:47:48, 22.16s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.3050144743996782, 'learning_rate': 3.3341110592627156e-07, 'completion_length': 387.1696472167969, 'rewards/only_full_func_accuracy_reward': 0.711309552192688, 'rewards/format_reward': 1.0, 'reward': 1.7113096714019775, 'reward_std': 0.012322601862251759, 'kl': 0.037841796875, 'epoch': 0.67}
+ 67%|██████▋   | 2857/4286 [18:56:19<8:47:48, 22.16s/it] 67%|██████▋   | 2858/4286 [18:56:42<8:49:14, 22.24s/it]                                                        {'loss': 0.0296, 'grad_norm': 0.924760392454064, 'learning_rate': 3.3317778814745684e-07, 'completion_length': 375.0357360839844, 'rewards/only_full_func_accuracy_reward': 0.7125000059604645, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7035714983940125, 'reward_std': 0.09008682519197464, 'kl': 0.7386474609375, 'epoch': 0.67}
+ 67%|██████▋   | 2858/4286 [18:56:42<8:49:14, 22.24s/it] 67%|██████▋   | 2859/4286 [18:57:05<8:54:53, 22.49s/it]                                                        {'loss': 0.0156, 'grad_norm': 0.6458014335653208, 'learning_rate': 3.329444703686421e-07, 'completion_length': 403.85716247558594, 'rewards/only_full_func_accuracy_reward': 0.6413690745830536, 'rewards/format_reward': 1.0, 'reward': 1.6413691639900208, 'reward_std': 0.09088090434670448, 'kl': 0.3902587890625, 'epoch': 0.67}
+ 67%|██████▋   | 2859/4286 [18:57:05<8:54:53, 22.49s/it] 67%|██████▋   | 2860/4286 [18:57:27<8:50:24, 22.32s/it]                                                        {'loss': 0.0223, 'grad_norm': 79.4055624838425, 'learning_rate': 3.3271115258982733e-07, 'completion_length': 373.5714416503906, 'rewards/only_full_func_accuracy_reward': 0.758928656578064, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7500001192092896, 'reward_std': 0.07400451973080635, 'kl': 0.5576171875, 'epoch': 0.67}
+ 67%|██████▋   | 2860/4286 [18:57:27<8:50:24, 22.32s/it] 67%|██████▋   | 2861/4286 [18:57:50<8:56:26, 22.59s/it]                                                        {'loss': 0.0014, 'grad_norm': 0.7645060574094523, 'learning_rate': 3.324778348110126e-07, 'completion_length': 383.39288330078125, 'rewards/only_full_func_accuracy_reward': 0.682291716337204, 'rewards/format_reward': 1.0, 'reward': 1.6822918057441711, 'reward_std': 0.06851311400532722, 'kl': 0.0361328125, 'epoch': 0.67}
+ 67%|██████▋   | 2861/4286 [18:57:50<8:56:26, 22.59s/it] 67%|██████▋   | 2862/4286 [18:58:12<8:56:13, 22.59s/it]                                                        {'loss': 0.0313, 'grad_norm': 1.6411679663093486, 'learning_rate': 3.322445170321979e-07, 'completion_length': 385.6607208251953, 'rewards/only_full_func_accuracy_reward': 0.7098214626312256, 'rewards/format_reward': 1.0, 'reward': 1.7098215818405151, 'reward_std': 0.08024264127016068, 'kl': 0.7806396484375, 'epoch': 0.67}
+ 67%|██████▋   | 2862/4286 [18:58:12<8:56:13, 22.59s/it] 67%|██████▋   | 2863/4286 [18:58:34<8:51:21, 22.40s/it]                                                        {'loss': 0.0147, 'grad_norm': 1.0838577337018982, 'learning_rate': 3.320111992533831e-07, 'completion_length': 356.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.716369092464447, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7074405550956726, 'reward_std': 0.09940423257648945, 'kl': 0.37060546875, 'epoch': 0.67}
+ 67%|██████▋   | 2863/4286 [18:58:34<8:51:21, 22.40s/it] 67%|██████▋   | 2864/4286 [18:58:57<8:55:39, 22.60s/it]                                                        {'loss': 0.0075, 'grad_norm': 0.8465937015896047, 'learning_rate': 3.317778814745684e-07, 'completion_length': 395.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.6458333432674408, 'rewards/format_reward': 1.0, 'reward': 1.6458333730697632, 'reward_std': 0.054303331300616264, 'kl': 0.1884765625, 'epoch': 0.67}
+ 67%|██████▋   | 2864/4286 [18:58:57<8:55:39, 22.60s/it] 67%|██████▋   | 2865/4286 [18:59:20<8:55:41, 22.62s/it]                                                        {'loss': 0.0702, 'grad_norm': 3.2840460738706625, 'learning_rate': 3.315445636957536e-07, 'completion_length': 387.9018096923828, 'rewards/only_full_func_accuracy_reward': 0.7175099551677704, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7085814476013184, 'reward_std': 0.1228659637272358, 'kl': 1.7578125, 'epoch': 0.67}
+ 67%|██████▋   | 2865/4286 [18:59:20<8:55:41, 22.62s/it] 67%|██████▋   | 2866/4286 [18:59:41<8:44:54, 22.18s/it]                                                        {'loss': 0.0416, 'grad_norm': 2.7981909056796046, 'learning_rate': 3.313112459169389e-07, 'completion_length': 344.01788330078125, 'rewards/only_full_func_accuracy_reward': 0.7053571939468384, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6875001192092896, 'reward_std': 0.11638666409999132, 'kl': 1.037353515625, 'epoch': 0.67}
+ 67%|██████▋   | 2866/4286 [18:59:41<8:44:54, 22.18s/it] 67%|██████▋   | 2867/4286 [19:00:04<8:49:39, 22.40s/it]                                                        {'loss': 0.0592, 'grad_norm': 1.2722145086604673, 'learning_rate': 3.3107792813812415e-07, 'completion_length': 394.0714416503906, 'rewards/only_full_func_accuracy_reward': 0.7144982814788818, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7055698037147522, 'reward_std': 0.12196523183956742, 'kl': 1.4781494140625, 'epoch': 0.67}
+ 67%|██████▋   | 2867/4286 [19:00:04<8:49:39, 22.40s/it] 67%|██████▋   | 2868/4286 [19:00:27<8:55:00, 22.64s/it]                                                        {'loss': 0.067, 'grad_norm': 1.7474302410701688, 'learning_rate': 3.308446103593094e-07, 'completion_length': 389.5625305175781, 'rewards/only_full_func_accuracy_reward': 0.8571429550647736, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.8392859101295471, 'reward_std': 0.07276646047830582, 'kl': 1.67236328125, 'epoch': 0.67}
+ 67%|██████▋   | 2868/4286 [19:00:27<8:55:00, 22.64s/it] 67%|██████▋   | 2869/4286 [19:00:51<9:02:46, 22.98s/it]                                                        {'loss': 0.024, 'grad_norm': 1.079606284101998, 'learning_rate': 3.3061129258049465e-07, 'completion_length': 412.0000305175781, 'rewards/only_full_func_accuracy_reward': 0.6569940745830536, 'rewards/format_reward': 1.0, 'reward': 1.6569941639900208, 'reward_std': 0.08474031835794449, 'kl': 0.5992431640625, 'epoch': 0.67}
+ 67%|██████▋   | 2869/4286 [19:00:51<9:02:46, 22.98s/it] 67%|██████▋   | 2870/4286 [19:01:12<8:49:13, 22.42s/it]                                                        {'loss': 0.0154, 'grad_norm': 1.9280720049522435, 'learning_rate': 3.3037797480167987e-07, 'completion_length': 320.12501525878906, 'rewards/only_full_func_accuracy_reward': 0.7901786267757416, 'rewards/format_reward': 1.0, 'reward': 1.7901787757873535, 'reward_std': 0.045995282009243965, 'kl': 0.384765625, 'epoch': 0.67}
+ 67%|██████▋   | 2870/4286 [19:01:12<8:49:13, 22.42s/it] 67%|██████▋   | 2871/4286 [19:01:35<8:48:26, 22.41s/it]                                                        {'loss': 0.0102, 'grad_norm': 1.130915015913444, 'learning_rate': 3.3014465702286515e-07, 'completion_length': 389.8214416503906, 'rewards/only_full_func_accuracy_reward': 0.6220238208770752, 'rewards/format_reward': 1.0, 'reward': 1.6220239400863647, 'reward_std': 0.042913420125842094, 'kl': 0.2548828125, 'epoch': 0.67}
+ 67%|██████▋   | 2871/4286 [19:01:35<8:48:26, 22.41s/it] 67%|██████▋   | 2872/4286 [19:01:56<8:44:14, 22.24s/it]                                                        {'loss': 0.025, 'grad_norm': 0.8588079424005342, 'learning_rate': 3.299113392440504e-07, 'completion_length': 355.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.8229166567325592, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8139882683753967, 'reward_std': 0.040501045528799295, 'kl': 0.625, 'epoch': 0.67}
+ 67%|██████▋   | 2872/4286 [19:01:56<8:44:14, 22.24s/it] 67%|██████▋   | 2873/4286 [19:02:21<8:57:06, 22.81s/it]                                                        {'loss': 0.0233, 'grad_norm': 0.9198528569859065, 'learning_rate': 3.2967802146523564e-07, 'completion_length': 359.23216247558594, 'rewards/only_full_func_accuracy_reward': 0.737351268529892, 'rewards/format_reward': 1.0, 'reward': 1.7373512983322144, 'reward_std': 0.07864275202155113, 'kl': 0.5830078125, 'epoch': 0.67}
+ 67%|██████▋   | 2873/4286 [19:02:21<8:57:06, 22.81s/it] 67%|██████▋   | 2874/4286 [19:02:44<9:03:19, 23.09s/it]                                                        {'loss': 0.013, 'grad_norm': 1.1576764480926094, 'learning_rate': 3.294447036864209e-07, 'completion_length': 392.8839416503906, 'rewards/only_full_func_accuracy_reward': 0.8154762089252472, 'rewards/format_reward': 1.0, 'reward': 1.8154762983322144, 'reward_std': 0.05050762556493282, 'kl': 0.32373046875, 'epoch': 0.67}
+ 67%|██████▋   | 2874/4286 [19:02:44<9:03:19, 23.09s/it] 67%|██████▋   | 2875/4286 [19:03:06<8:56:05, 22.80s/it]                                                        {'loss': 0.0089, 'grad_norm': 0.8710619862412025, 'learning_rate': 3.2921138590760614e-07, 'completion_length': 346.1696472167969, 'rewards/only_full_func_accuracy_reward': 0.7745535969734192, 'rewards/format_reward': 1.0, 'reward': 1.7745537757873535, 'reward_std': 0.056667715311050415, 'kl': 0.2215576171875, 'epoch': 0.67}
+ 67%|██████▋   | 2875/4286 [19:03:06<8:56:05, 22.80s/it] 67%|██████▋   | 2876/4286 [19:03:29<8:53:59, 22.72s/it]                                                        {'loss': 0.0096, 'grad_norm': 0.812783316563033, 'learning_rate': 3.289780681287914e-07, 'completion_length': 367.6339416503906, 'rewards/only_full_func_accuracy_reward': 0.7711310386657715, 'rewards/format_reward': 1.0, 'reward': 1.7711310386657715, 'reward_std': 0.031465945299714804, 'kl': 0.2388916015625, 'epoch': 0.67}
+ 67%|██████▋   | 2876/4286 [19:03:29<8:53:59, 22.72s/it] 67%|██████▋   | 2877/4286 [19:03:51<8:50:30, 22.59s/it]                                                        {'loss': 0.0209, 'grad_norm': 0.7249945473721944, 'learning_rate': 3.287447503499767e-07, 'completion_length': 398.2678680419922, 'rewards/only_full_func_accuracy_reward': 0.71577388048172, 'rewards/format_reward': 1.0, 'reward': 1.7157739400863647, 'reward_std': 0.045995285734534264, 'kl': 0.5224609375, 'epoch': 0.67}
+ 67%|██████▋   | 2877/4286 [19:03:51<8:50:30, 22.59s/it] 67%|██████▋   | 2878/4286 [19:04:13<8:41:39, 22.23s/it]                                                        {'loss': 0.0196, 'grad_norm': 1.3941014953702502, 'learning_rate': 3.285114325711619e-07, 'completion_length': 335.48216247558594, 'rewards/only_full_func_accuracy_reward': 0.6097642481327057, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6008357405662537, 'reward_std': 0.0923205241560936, 'kl': 0.4892578125, 'epoch': 0.67}
+ 67%|██████▋   | 2878/4286 [19:04:13<8:41:39, 22.23s/it] 67%|██████▋   | 2879/4286 [19:04:34<8:38:16, 22.10s/it]                                                        {'loss': 0.0208, 'grad_norm': 0.5717007682883006, 'learning_rate': 3.282781147923472e-07, 'completion_length': 348.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.6705357432365417, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.661607265472412, 'reward_std': 0.08480139402672648, 'kl': 0.5211181640625, 'epoch': 0.67}
+ 67%|██████▋   | 2879/4286 [19:04:34<8:38:16, 22.10s/it] 67%|██████▋   | 2880/4286 [19:04:56<8:36:51, 22.06s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.4979330032404195, 'learning_rate': 3.280447970135324e-07, 'completion_length': 380.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.8355655372142792, 'rewards/format_reward': 1.0, 'reward': 1.8355656266212463, 'reward_std': 0.03342285752296448, 'kl': 0.042236328125, 'epoch': 0.67}
+ 67%|██████▋   | 2880/4286 [19:04:56<8:36:51, 22.06s/it] 67%|██████▋   | 2881/4286 [19:05:20<8:45:10, 22.43s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.6732764148599001, 'learning_rate': 3.278114792347177e-07, 'completion_length': 337.27679443359375, 'rewards/only_full_func_accuracy_reward': 0.790178656578064, 'rewards/format_reward': 1.0, 'reward': 1.7901787161827087, 'reward_std': 0.03751720115542412, 'kl': 0.0416259765625, 'epoch': 0.67}
+ 67%|██████▋   | 2881/4286 [19:05:20<8:45:10, 22.43s/it] 67%|██████▋   | 2882/4286 [19:05:42<8:46:53, 22.52s/it]                                                        {'loss': 0.0121, 'grad_norm': 0.8749772456342035, 'learning_rate': 3.2757816145590296e-07, 'completion_length': 355.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.8089286088943481, 'rewards/format_reward': 1.0, 'reward': 1.8089287281036377, 'reward_std': 0.038080417551100254, 'kl': 0.3037109375, 'epoch': 0.67}
+ 67%|██████▋   | 2882/4286 [19:05:42<8:46:53, 22.52s/it] 67%|██████▋   | 2883/4286 [19:06:05<8:46:26, 22.51s/it]                                                        {'loss': 0.0117, 'grad_norm': 0.7532976332099478, 'learning_rate': 3.273448436770882e-07, 'completion_length': 389.2410888671875, 'rewards/only_full_func_accuracy_reward': 0.702381044626236, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.693452537059784, 'reward_std': 0.0675431452691555, 'kl': 0.293212890625, 'epoch': 0.67}
+ 67%|██████▋   | 2883/4286 [19:06:05<8:46:26, 22.51s/it] 67%|██████▋   | 2884/4286 [19:06:26<8:37:20, 22.14s/it]                                                        {'loss': 0.0014, 'grad_norm': 0.29588218576564745, 'learning_rate': 3.2711152589827346e-07, 'completion_length': 353.1607360839844, 'rewards/only_full_func_accuracy_reward': 0.5592261850833893, 'rewards/format_reward': 1.0, 'reward': 1.5592263340950012, 'reward_std': 0.03533989563584328, 'kl': 0.0343017578125, 'epoch': 0.67}
+ 67%|██████▋   | 2884/4286 [19:06:26<8:37:20, 22.14s/it] 67%|██████▋   | 2885/4286 [19:06:47<8:25:16, 21.64s/it]                                                        {'loss': 0.0402, 'grad_norm': 0.5687176683499541, 'learning_rate': 3.2687820811945873e-07, 'completion_length': 339.00001525878906, 'rewards/only_full_func_accuracy_reward': 0.6110119223594666, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.5931548476219177, 'reward_std': 0.09208211302757263, 'kl': 1.0091552734375, 'epoch': 0.67}
+ 67%|██████▋   | 2885/4286 [19:06:47<8:25:16, 21.64s/it] 67%|██████▋   | 2886/4286 [19:07:09<8:29:54, 21.85s/it]                                                        {'loss': 0.0013, 'grad_norm': 0.4041428585327051, 'learning_rate': 3.2664489034064396e-07, 'completion_length': 369.06251525878906, 'rewards/only_full_func_accuracy_reward': 0.7894345223903656, 'rewards/format_reward': 1.0, 'reward': 1.7894346117973328, 'reward_std': 0.029213886708021164, 'kl': 0.03369140625, 'epoch': 0.67}
+ 67%|██████▋   | 2886/4286 [19:07:09<8:29:54, 21.85s/it] 67%|██████▋   | 2887/4286 [19:07:32<8:35:56, 22.13s/it]                                                        {'loss': 0.0209, 'grad_norm': 2.3928240422912768, 'learning_rate': 3.2641157256182923e-07, 'completion_length': 369.0178680419922, 'rewards/only_full_func_accuracy_reward': 0.6919642984867096, 'rewards/format_reward': 1.0, 'reward': 1.6919643878936768, 'reward_std': 0.02770585287362337, 'kl': 0.521484375, 'epoch': 0.67}
+ 67%|██████▋   | 2887/4286 [19:07:32<8:35:56, 22.13s/it] 67%|██████▋   | 2888/4286 [19:07:54<8:33:36, 22.04s/it]                                                        {'loss': 0.0254, 'grad_norm': 2.5592061726505544, 'learning_rate': 3.2617825478301445e-07, 'completion_length': 367.5893096923828, 'rewards/only_full_func_accuracy_reward': 0.9002977013587952, 'rewards/format_reward': 1.0, 'reward': 1.9002977013587952, 'reward_std': 0.05978519935160875, 'kl': 0.634765625, 'epoch': 0.67}
+ 67%|██████▋   | 2888/4286 [19:07:54<8:33:36, 22.04s/it] 67%|██████▋   | 2889/4286 [19:08:14<8:25:06, 21.69s/it]                                                        {'loss': 0.0061, 'grad_norm': 1.003655825718135, 'learning_rate': 3.2594493700419973e-07, 'completion_length': 322.92857360839844, 'rewards/only_full_func_accuracy_reward': 0.6294643431901932, 'rewards/format_reward': 1.0, 'reward': 1.6294644474983215, 'reward_std': 0.04742576368153095, 'kl': 0.15185546875, 'epoch': 0.67}
+ 67%|██████▋   | 2889/4286 [19:08:14<8:25:06, 21.69s/it] 67%|██████▋   | 2890/4286 [19:08:37<8:30:14, 21.93s/it]                                                        {'loss': 0.0014, 'grad_norm': 0.27310953667445803, 'learning_rate': 3.25711619225385e-07, 'completion_length': 382.2589416503906, 'rewards/only_full_func_accuracy_reward': 0.7462798357009888, 'rewards/format_reward': 1.0, 'reward': 1.7462798953056335, 'reward_std': 0.050573207437992096, 'kl': 0.0347900390625, 'epoch': 0.67}
+ 67%|██████▋   | 2890/4286 [19:08:37<8:30:14, 21.93s/it] 67%|██████▋   | 2891/4286 [19:08:58<8:22:54, 21.63s/it]                                                        {'loss': 0.0606, 'grad_norm': 0.7713029038972296, 'learning_rate': 3.2547830144657023e-07, 'completion_length': 336.8839416503906, 'rewards/only_full_func_accuracy_reward': 0.7523810267448425, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7345239520072937, 'reward_std': 0.1468605436384678, 'kl': 1.517578125, 'epoch': 0.67}
+ 67%|██████▋   | 2891/4286 [19:08:58<8:22:54, 21.63s/it] 67%|██████▋   | 2892/4286 [19:09:22<8:36:33, 22.23s/it]                                                        {'loss': 0.0273, 'grad_norm': 1.0624664240317196, 'learning_rate': 3.252449836677555e-07, 'completion_length': 416.0268096923828, 'rewards/only_full_func_accuracy_reward': 0.5691964328289032, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.560267984867096, 'reward_std': 0.09634982794523239, 'kl': 0.6826171875, 'epoch': 0.67}
+ 67%|██████▋   | 2892/4286 [19:09:22<8:36:33, 22.23s/it] 67%|██████▋   | 2893/4286 [19:09:45<8:47:11, 22.71s/it]                                                        {'loss': 0.0014, 'grad_norm': 0.9561326230134071, 'learning_rate': 3.250116658889407e-07, 'completion_length': 425.16966247558594, 'rewards/only_full_func_accuracy_reward': 0.7909227013587952, 'rewards/format_reward': 1.0, 'reward': 1.79092276096344, 'reward_std': 0.07476565428078175, 'kl': 0.0355224609375, 'epoch': 0.67}
+ 67%|██████▋   | 2893/4286 [19:09:45<8:47:11, 22.71s/it] 68%|██████▊   | 2894/4286 [19:10:07<8:41:27, 22.48s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.33985705683031914, 'learning_rate': 3.24778348110126e-07, 'completion_length': 347.71429443359375, 'rewards/only_full_func_accuracy_reward': 0.6659226417541504, 'rewards/format_reward': 1.0, 'reward': 1.6659227013587952, 'reward_std': 0.02098915074020624, 'kl': 0.044921875, 'epoch': 0.68}
+ 68%|██████▊   | 2894/4286 [19:10:07<8:41:27, 22.48s/it] 68%|██████▊   | 2895/4286 [19:10:29<8:35:54, 22.25s/it]                                                        {'loss': 0.0189, 'grad_norm': 2.120709602585891, 'learning_rate': 3.245450303313113e-07, 'completion_length': 348.16966247558594, 'rewards/only_full_func_accuracy_reward': 0.7968750298023224, 'rewards/format_reward': 1.0, 'reward': 1.7968750596046448, 'reward_std': 0.07109600678086281, 'kl': 0.472900390625, 'epoch': 0.68}
+ 68%|██████▊   | 2895/4286 [19:10:29<8:35:54, 22.25s/it] 68%|██████▊   | 2896/4286 [19:10:52<8:39:39, 22.43s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.07473601452108924, 'learning_rate': 3.243117125524965e-07, 'completion_length': 390.9732360839844, 'rewards/only_full_func_accuracy_reward': 0.7083333730697632, 'rewards/format_reward': 1.0, 'reward': 1.708333432674408, 'reward_std': 0.0, 'kl': 0.0389404296875, 'epoch': 0.68}
+ 68%|██████▊   | 2896/4286 [19:10:52<8:39:39, 22.43s/it] 68%|██████▊   | 2897/4286 [19:11:13<8:33:07, 22.16s/it]                                                        {'loss': 0.0564, 'grad_norm': 1.4189453019669909, 'learning_rate': 3.2407839477368177e-07, 'completion_length': 327.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.6822916567325592, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6644346117973328, 'reward_std': 0.09800064843147993, 'kl': 1.404296875, 'epoch': 0.68}
+ 68%|██████▊   | 2897/4286 [19:11:13<8:33:07, 22.16s/it] 68%|██████▊   | 2898/4286 [19:11:37<8:43:35, 22.63s/it]                                                        {'loss': 0.0097, 'grad_norm': 0.44320985981855787, 'learning_rate': 3.23845076994867e-07, 'completion_length': 374.0714569091797, 'rewards/only_full_func_accuracy_reward': 0.625, 'rewards/format_reward': 1.0, 'reward': 1.6250001192092896, 'reward_std': 0.03592596389353275, 'kl': 0.2425537109375, 'epoch': 0.68}
+ 68%|██████▊   | 2898/4286 [19:11:37<8:43:35, 22.63s/it] 68%|██████▊   | 2899/4286 [19:11:58<8:32:21, 22.16s/it]                                                        {'loss': 0.053, 'grad_norm': 3.356885571734824, 'learning_rate': 3.2361175921605227e-07, 'completion_length': 346.7143096923828, 'rewards/only_full_func_accuracy_reward': 0.723214328289032, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7053572535514832, 'reward_std': 0.08029982447624207, 'kl': 1.330078125, 'epoch': 0.68}
+ 68%|██████▊   | 2899/4286 [19:11:58<8:32:21, 22.16s/it] 68%|██████▊   | 2900/4286 [19:12:23<8:49:38, 22.93s/it]                                                        {'loss': 0.1246, 'grad_norm': 2.44569990170124, 'learning_rate': 3.2337844143723754e-07, 'completion_length': 415.5714569091797, 'rewards/only_full_func_accuracy_reward': 0.668006032705307, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.6322917938232422, 'reward_std': 0.23737551271915436, 'kl': 3.109375, 'epoch': 0.68}
+ 68%|██████▊   | 2900/4286 [19:12:23<8:49:38, 22.93s/it] 68%|██████▊   | 2901/4286 [19:13:59<17:14:58, 44.84s/it]                                                         {'loss': 0.0916, 'grad_norm': 1.2381887556195064, 'learning_rate': 3.2314512365842277e-07, 'completion_length': 390.96429443359375, 'rewards/only_full_func_accuracy_reward': 0.7204861342906952, 'rewards/format_reward': 0.955357164144516, 'reward': 1.675843358039856, 'reward_std': 0.21481133997440338, 'kl': 2.285888671875, 'epoch': 0.68}
+ 68%|██████▊   | 2901/4286 [19:13:59<17:14:58, 44.84s/it] 68%|██████▊   | 2902/4286 [19:14:23<14:47:39, 38.48s/it]                                                         {'loss': 0.0312, 'grad_norm': 1.003678603197329, 'learning_rate': 3.2291180587960804e-07, 'completion_length': 368.7500305175781, 'rewards/only_full_func_accuracy_reward': 0.8074405491352081, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.789583444595337, 'reward_std': 0.13548270612955093, 'kl': 0.78125, 'epoch': 0.68}
+ 68%|██████▊   | 2902/4286 [19:14:23<14:47:39, 38.48s/it] 68%|██████▊   | 2903/4286 [19:14:46<13:04:18, 34.03s/it]                                                         {'loss': 0.12, 'grad_norm': 1.4585064980574742, 'learning_rate': 3.2267848810079326e-07, 'completion_length': 393.8214416503906, 'rewards/only_full_func_accuracy_reward': 0.5580357611179352, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.5312501788139343, 'reward_std': 0.17178678140044212, 'kl': 3.0, 'epoch': 0.68}
+ 68%|██████▊   | 2903/4286 [19:14:46<13:04:18, 34.03s/it] 68%|██████▊   | 2904/4286 [19:15:09<11:43:47, 30.56s/it]                                                         {'loss': 0.1078, 'grad_norm': 3.2097321896535735, 'learning_rate': 3.2244517032197854e-07, 'completion_length': 374.2410888671875, 'rewards/only_full_func_accuracy_reward': 0.5571428835391998, 'rewards/format_reward': 0.9553571939468384, 'reward': 1.5125001668930054, 'reward_std': 0.23489320278167725, 'kl': 2.6953125, 'epoch': 0.68}
+ 68%|██████▊   | 2904/4286 [19:15:09<11:43:47, 30.56s/it] 68%|██████▊   | 2905/4286 [19:15:31<10:48:13, 28.16s/it]                                                         {'loss': 0.1452, 'grad_norm': 5.471908859878914, 'learning_rate': 3.222118525431638e-07, 'completion_length': 358.0178680419922, 'rewards/only_full_func_accuracy_reward': 0.6520833671092987, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.6163691878318787, 'reward_std': 0.16797280265018344, 'kl': 3.62890625, 'epoch': 0.68}
+ 68%|██████▊   | 2905/4286 [19:15:31<10:48:13, 28.16s/it] 68%|██████▊   | 2906/4286 [19:15:52<9:59:43, 26.08s/it]                                                         {'loss': 0.078, 'grad_norm': 0.9174579737469116, 'learning_rate': 3.2197853476434904e-07, 'completion_length': 374.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.6096726059913635, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6007441282272339, 'reward_std': 0.14313604682683945, 'kl': 1.9453125, 'epoch': 0.68}
+ 68%|██████▊   | 2906/4286 [19:15:52<9:59:43, 26.08s/it] 68%|██████▊   | 2907/4286 [19:16:17<9:49:14, 25.64s/it]                                                        {'loss': 0.094, 'grad_norm': 2.0821756943633014, 'learning_rate': 3.217452169855343e-07, 'completion_length': 392.2232360839844, 'rewards/only_full_func_accuracy_reward': 0.6741071343421936, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6562501192092896, 'reward_std': 0.20653075724840164, 'kl': 2.3515625, 'epoch': 0.68}
+ 68%|██████▊   | 2907/4286 [19:16:17<9:49:14, 25.64s/it] 68%|██████▊   | 2908/4286 [19:16:39<9:25:19, 24.62s/it]                                                        {'loss': 0.0818, 'grad_norm': 0.7967967834036136, 'learning_rate': 3.215118992067196e-07, 'completion_length': 369.21429443359375, 'rewards/only_full_func_accuracy_reward': 0.6264881193637848, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6175596117973328, 'reward_std': 0.15418599545955658, 'kl': 2.04296875, 'epoch': 0.68}
+ 68%|██████▊   | 2908/4286 [19:16:39<9:25:19, 24.62s/it] 68%|██████▊   | 2909/4286 [19:17:01<9:08:16, 23.89s/it]                                                        {'loss': 0.1133, 'grad_norm': 1.635747445588692, 'learning_rate': 3.212785814279048e-07, 'completion_length': 343.2410888671875, 'rewards/only_full_func_accuracy_reward': 0.7254464030265808, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7165180444717407, 'reward_std': 0.14478885009884834, 'kl': 2.830078125, 'epoch': 0.68}
+ 68%|██████▊   | 2909/4286 [19:17:01<9:08:16, 23.89s/it] 68%|██████▊   | 2910/4286 [19:17:24<8:56:11, 23.38s/it]                                                        {'loss': 0.1194, 'grad_norm': 3.7638466780711894, 'learning_rate': 3.210452636490901e-07, 'completion_length': 337.77679443359375, 'rewards/only_full_func_accuracy_reward': 0.6473214626312256, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6294643878936768, 'reward_std': 0.16459915786981583, 'kl': 2.984375, 'epoch': 0.68}
+ 68%|██████▊   | 2910/4286 [19:17:24<8:56:11, 23.38s/it] 68%|██████▊   | 2911/4286 [19:17:47<8:55:38, 23.37s/it]                                                        {'loss': 0.1177, 'grad_norm': 0.8323844718177786, 'learning_rate': 3.208119458702753e-07, 'completion_length': 401.5982360839844, 'rewards/only_full_func_accuracy_reward': 0.65625, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6383929252624512, 'reward_std': 0.18914427608251572, 'kl': 2.9375, 'epoch': 0.68}
+ 68%|██████▊   | 2911/4286 [19:17:47<8:55:38, 23.37s/it] 68%|██████▊   | 2912/4286 [19:18:10<8:55:08, 23.37s/it]                                                        {'loss': 0.1092, 'grad_norm': 0.8384945173147919, 'learning_rate': 3.205786280914606e-07, 'completion_length': 349.2678680419922, 'rewards/only_full_func_accuracy_reward': 0.750744104385376, 'rewards/format_reward': 0.973214328289032, 'reward': 1.7239584922790527, 'reward_std': 0.22252532094717026, 'kl': 2.7265625, 'epoch': 0.68}
+ 68%|██████▊   | 2912/4286 [19:18:10<8:55:08, 23.37s/it] 68%|██████▊   | 2913/4286 [19:18:34<8:58:52, 23.55s/it]                                                        {'loss': 0.0753, 'grad_norm': 1.2260865181753613, 'learning_rate': 3.2034531031264586e-07, 'completion_length': 371.43751525878906, 'rewards/only_full_func_accuracy_reward': 0.6019345819950104, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.5840774774551392, 'reward_std': 0.10281740128993988, 'kl': 1.87890625, 'epoch': 0.68}
+ 68%|██████▊   | 2913/4286 [19:18:34<8:58:52, 23.55s/it] 68%|██████▊   | 2914/4286 [19:18:58<9:02:19, 23.72s/it]                                                        {'loss': 0.0627, 'grad_norm': 1.7473806471733726, 'learning_rate': 3.201119925338311e-07, 'completion_length': 410.7768096923828, 'rewards/only_full_func_accuracy_reward': 0.7619048058986664, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.74404776096344, 'reward_std': 0.1645277701318264, 'kl': 1.5703125, 'epoch': 0.68}
+ 68%|██████▊   | 2914/4286 [19:18:58<9:02:19, 23.72s/it] 68%|██████▊   | 2915/4286 [19:19:23<9:04:55, 23.85s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.037545400586887524, 'learning_rate': 3.1987867475501635e-07, 'completion_length': 375.8214569091797, 'rewards/only_full_func_accuracy_reward': 0.755952388048172, 'rewards/format_reward': 1.0, 'reward': 1.7559524774551392, 'reward_std': 0.0, 'kl': 0.041015625, 'epoch': 0.68}
+ 68%|██████▊   | 2915/4286 [19:19:23<9:04:55, 23.85s/it] 68%|██████▊   | 2916/4286 [19:19:47<9:11:41, 24.16s/it]                                                        {'loss': 0.043, 'grad_norm': 2.329754324436131, 'learning_rate': 3.196453569762016e-07, 'completion_length': 411.3035888671875, 'rewards/only_full_func_accuracy_reward': 0.6815476417541504, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.672619104385376, 'reward_std': 0.16302669793367386, 'kl': 1.076171875, 'epoch': 0.68}
+ 68%|██████▊   | 2916/4286 [19:19:47<9:11:41, 24.16s/it] 68%|██████▊   | 2917/4286 [19:20:13<9:18:28, 24.48s/it]                                                        {'loss': 0.0089, 'grad_norm': 0.6446241851240159, 'learning_rate': 3.1941203919738685e-07, 'completion_length': 417.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.7626488506793976, 'rewards/format_reward': 1.0, 'reward': 1.7626489400863647, 'reward_std': 0.1037026010453701, 'kl': 0.22265625, 'epoch': 0.68}
+ 68%|██████▊   | 2917/4286 [19:20:13<9:18:28, 24.48s/it] 68%|██████▊   | 2918/4286 [19:20:37<9:17:26, 24.45s/it]                                                        {'loss': 0.013, 'grad_norm': 0.3620288921060191, 'learning_rate': 3.1917872141857213e-07, 'completion_length': 411.77679443359375, 'rewards/only_full_func_accuracy_reward': 0.799107164144516, 'rewards/format_reward': 1.0, 'reward': 1.7991072535514832, 'reward_std': 0.050949059426784515, 'kl': 0.326904296875, 'epoch': 0.68}
+ 68%|██████▊   | 2918/4286 [19:20:37<9:17:26, 24.45s/it] 68%|██████▊   | 2919/4286 [19:21:01<9:15:44, 24.39s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.7382059331998814, 'learning_rate': 3.1894540363975735e-07, 'completion_length': 385.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.85788694024086, 'rewards/format_reward': 1.0, 'reward': 1.8578870296478271, 'reward_std': 0.02607782930135727, 'kl': 0.041259765625, 'epoch': 0.68}
+ 68%|██████▊   | 2919/4286 [19:21:01<9:15:44, 24.39s/it] 68%|██████▊   | 2920/4286 [19:21:26<9:13:51, 24.33s/it]                                                        {'loss': 0.0173, 'grad_norm': 0.36412915079590036, 'learning_rate': 3.187120858609426e-07, 'completion_length': 408.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.6979166865348816, 'rewards/format_reward': 1.0, 'reward': 1.6979168057441711, 'reward_std': 0.03078604582697153, 'kl': 0.4305419921875, 'epoch': 0.68}
+ 68%|██████▊   | 2920/4286 [19:21:26<9:13:51, 24.33s/it] 68%|██████▊   | 2921/4286 [19:21:49<9:08:43, 24.12s/it]                                                        {'loss': 0.0148, 'grad_norm': 0.5128587883131412, 'learning_rate': 3.1847876808212785e-07, 'completion_length': 384.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.6636904776096344, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6547620296478271, 'reward_std': 0.07425602525472641, 'kl': 0.371337890625, 'epoch': 0.68}
+ 68%|██████▊   | 2921/4286 [19:21:49<9:08:43, 24.12s/it] 68%|██████▊   | 2922/4286 [19:22:13<9:08:06, 24.11s/it]                                                        {'loss': 0.0131, 'grad_norm': 0.7056787728015009, 'learning_rate': 3.182454503033131e-07, 'completion_length': 387.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.5223214626312256, 'rewards/format_reward': 1.0, 'reward': 1.5223215818405151, 'reward_std': 0.0337715744972229, 'kl': 0.32763671875, 'epoch': 0.68}
+ 68%|██████▊   | 2922/4286 [19:22:13<9:08:06, 24.11s/it] 68%|██████▊   | 2923/4286 [19:22:37<9:07:33, 24.10s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.3692527163210149, 'learning_rate': 3.180121325244984e-07, 'completion_length': 395.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.8043155074119568, 'rewards/format_reward': 1.0, 'reward': 1.8043155670166016, 'reward_std': 0.02724025584757328, 'kl': 0.040283203125, 'epoch': 0.68}
+ 68%|██████▊   | 2923/4286 [19:22:37<9:07:33, 24.10s/it] 68%|██████▊   | 2924/4286 [19:23:01<9:04:10, 23.97s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.41504277820333313, 'learning_rate': 3.177788147456836e-07, 'completion_length': 399.8035888671875, 'rewards/only_full_func_accuracy_reward': 0.796131044626236, 'rewards/format_reward': 1.0, 'reward': 1.7961310744285583, 'reward_std': 0.01043184008449316, 'kl': 0.0455322265625, 'epoch': 0.68}
+ 68%|██████▊   | 2924/4286 [19:23:01<9:04:10, 23.97s/it] 68%|██████▊   | 2925/4286 [19:23:25<9:04:27, 24.00s/it]                                                        {'loss': 0.0306, 'grad_norm': 1.8091218455784248, 'learning_rate': 3.175454969668689e-07, 'completion_length': 414.35716247558594, 'rewards/only_full_func_accuracy_reward': 0.7040178775787354, 'rewards/format_reward': 1.0, 'reward': 1.7040178775787354, 'reward_std': 0.08497999422252178, 'kl': 0.7666015625, 'epoch': 0.68}
+ 68%|██████▊   | 2925/4286 [19:23:25<9:04:27, 24.00s/it] 68%|██████▊   | 2926/4286 [19:23:49<9:00:17, 23.84s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.33074424572693156, 'learning_rate': 3.173121791880541e-07, 'completion_length': 392.52679443359375, 'rewards/only_full_func_accuracy_reward': 0.7654762268066406, 'rewards/format_reward': 1.0, 'reward': 1.7654762864112854, 'reward_std': 0.028256006771698594, 'kl': 0.042724609375, 'epoch': 0.68}
+ 68%|██████▊   | 2926/4286 [19:23:49<9:00:17, 23.84s/it] 68%|██████▊   | 2927/4286 [19:24:12<8:58:52, 23.79s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.17505392700689038, 'learning_rate': 3.170788614092394e-07, 'completion_length': 403.6964416503906, 'rewards/only_full_func_accuracy_reward': 0.6770833432674408, 'rewards/format_reward': 1.0, 'reward': 1.677083432674408, 'reward_std': 0.012626906856894493, 'kl': 0.044189453125, 'epoch': 0.68}
+ 68%|██████▊   | 2927/4286 [19:24:12<8:58:52, 23.79s/it] 68%|██████▊   | 2928/4286 [19:24:35<8:49:59, 23.42s/it]                                                        {'loss': 0.0237, 'grad_norm': 1.1765667308604901, 'learning_rate': 3.1684554363042467e-07, 'completion_length': 358.21429443359375, 'rewards/only_full_func_accuracy_reward': 0.6860119104385376, 'rewards/format_reward': 1.0, 'reward': 1.6860120296478271, 'reward_std': 0.05441322177648544, 'kl': 0.595703125, 'epoch': 0.68}
+ 68%|██████▊   | 2928/4286 [19:24:35<8:49:59, 23.42s/it] 68%|██████▊   | 2929/4286 [19:24:58<8:45:51, 23.25s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.5415485836342124, 'learning_rate': 3.166122258516099e-07, 'completion_length': 395.6428680419922, 'rewards/only_full_func_accuracy_reward': 0.7895833849906921, 'rewards/format_reward': 1.0, 'reward': 1.789583444595337, 'reward_std': 0.02634703554213047, 'kl': 0.045654296875, 'epoch': 0.68}
+ 68%|██████▊   | 2929/4286 [19:24:58<8:45:51, 23.25s/it] 68%|██████▊   | 2930/4286 [19:25:22<8:50:20, 23.47s/it]                                                        {'loss': 0.02, 'grad_norm': 1.3046764715568147, 'learning_rate': 3.1637890807279516e-07, 'completion_length': 428.49110412597656, 'rewards/only_full_func_accuracy_reward': 0.6183035969734192, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6093750596046448, 'reward_std': 0.051179954782128334, 'kl': 0.5009765625, 'epoch': 0.68}
+ 68%|██████▊   | 2930/4286 [19:25:22<8:50:20, 23.47s/it] 68%|██████▊   | 2931/4286 [19:25:46<8:57:44, 23.81s/it]                                                        {'loss': 0.0521, 'grad_norm': 3.3459875311271134, 'learning_rate': 3.1614559029398044e-07, 'completion_length': 416.39288330078125, 'rewards/only_full_func_accuracy_reward': 0.7051091492176056, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6872521042823792, 'reward_std': 0.11114189215004444, 'kl': 1.30322265625, 'epoch': 0.68}
+ 68%|██████▊   | 2931/4286 [19:25:46<8:57:44, 23.81s/it] 68%|██████▊   | 2932/4286 [19:26:11<9:06:06, 24.20s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.20707120393910572, 'learning_rate': 3.1591227251516566e-07, 'completion_length': 425.9464569091797, 'rewards/only_full_func_accuracy_reward': 0.816964328289032, 'rewards/format_reward': 1.0, 'reward': 1.8169643878936768, 'reward_std': 0.025353634729981422, 'kl': 0.0406494140625, 'epoch': 0.68}
+ 68%|██████▊   | 2932/4286 [19:26:11<9:06:06, 24.20s/it] 68%|██████▊   | 2933/4286 [19:26:36<9:10:17, 24.40s/it]                                                        {'loss': 0.0103, 'grad_norm': 0.8313165944642155, 'learning_rate': 3.1567895473635094e-07, 'completion_length': 398.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.597470223903656, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5885417461395264, 'reward_std': 0.04291369952261448, 'kl': 0.2578125, 'epoch': 0.68}
+ 68%|██████▊   | 2933/4286 [19:26:36<9:10:17, 24.40s/it] 68%|██████▊   | 2934/4286 [19:27:00<9:07:27, 24.30s/it]                                                        {'loss': 0.0121, 'grad_norm': 0.712018398703415, 'learning_rate': 3.1544563695753616e-07, 'completion_length': 381.68751525878906, 'rewards/only_full_func_accuracy_reward': 0.619047611951828, 'rewards/format_reward': 1.0, 'reward': 1.61904776096344, 'reward_std': 0.01272672601044178, 'kl': 0.300537109375, 'epoch': 0.68}
+ 68%|██████▊   | 2934/4286 [19:27:00<9:07:27, 24.30s/it] 68%|██████▊   | 2935/4286 [19:27:26<9:16:15, 24.70s/it]                                                        {'loss': 0.0045, 'grad_norm': 0.867984677699948, 'learning_rate': 3.1521231917872143e-07, 'completion_length': 401.50001525878906, 'rewards/only_full_func_accuracy_reward': 0.7552083730697632, 'rewards/format_reward': 1.0, 'reward': 1.755208432674408, 'reward_std': 0.040284084156155586, 'kl': 0.113037109375, 'epoch': 0.68}
+ 68%|██████▊   | 2935/4286 [19:27:26<9:16:15, 24.70s/it] 69%|██████▊   | 2936/4286 [19:27:49<9:06:40, 24.30s/it]                                                        {'loss': 0.0158, 'grad_norm': 0.42917377607545437, 'learning_rate': 3.149790013999067e-07, 'completion_length': 409.51788330078125, 'rewards/only_full_func_accuracy_reward': 0.7485119700431824, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.739583432674408, 'reward_std': 0.05764509364962578, 'kl': 0.39404296875, 'epoch': 0.69}
+ 69%|██████▊   | 2936/4286 [19:27:49<9:06:40, 24.30s/it] 69%|██████▊   | 2937/4286 [19:28:14<9:09:50, 24.46s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.2541282688157809, 'learning_rate': 3.1474568362109193e-07, 'completion_length': 426.5535888671875, 'rewards/only_full_func_accuracy_reward': 0.6741071939468384, 'rewards/format_reward': 1.0, 'reward': 1.674107313156128, 'reward_std': 0.05154890567064285, 'kl': 0.0440673828125, 'epoch': 0.69}
+ 69%|██████▊   | 2937/4286 [19:28:14<9:09:50, 24.46s/it] 69%|██████▊   | 2938/4286 [19:28:38<9:05:11, 24.27s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.8823399829490878, 'learning_rate': 3.145123658422772e-07, 'completion_length': 370.0089416503906, 'rewards/only_full_func_accuracy_reward': 0.7455357611179352, 'rewards/format_reward': 1.0, 'reward': 1.7455357909202576, 'reward_std': 0.06808141246438026, 'kl': 0.0435791015625, 'epoch': 0.69}
+ 69%|██████▊   | 2938/4286 [19:28:38<9:05:11, 24.27s/it] 69%|██████▊   | 2939/4286 [19:29:02<9:03:33, 24.21s/it]                                                        {'loss': 0.0438, 'grad_norm': 0.71688656940964, 'learning_rate': 3.1427904806346243e-07, 'completion_length': 418.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.5587798207998276, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5498513579368591, 'reward_std': 0.07985901553183794, 'kl': 1.1016845703125, 'epoch': 0.69}
+ 69%|██████▊   | 2939/4286 [19:29:02<9:03:33, 24.21s/it] 69%|██████▊   | 2940/4286 [19:29:25<8:52:17, 23.73s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.29754495915284357, 'learning_rate': 3.140457302846477e-07, 'completion_length': 363.5714416503906, 'rewards/only_full_func_accuracy_reward': 0.7641369700431824, 'rewards/format_reward': 1.0, 'reward': 1.7641369700431824, 'reward_std': 0.011444107629358768, 'kl': 0.0433349609375, 'epoch': 0.69}
+ 69%|██████▊   | 2940/4286 [19:29:25<8:52:17, 23.73s/it] 69%|██████▊   | 2941/4286 [19:29:48<8:51:47, 23.72s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.44129950591525874, 'learning_rate': 3.13812412505833e-07, 'completion_length': 394.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.808779776096344, 'rewards/format_reward': 1.0, 'reward': 1.8087798953056335, 'reward_std': 0.009241949766874313, 'kl': 0.037109375, 'epoch': 0.69}
+ 69%|██████▊   | 2941/4286 [19:29:48<8:51:47, 23.72s/it] 69%|██████▊   | 2942/4286 [19:30:12<8:51:39, 23.73s/it]                                                        {'loss': 0.0024, 'grad_norm': 0.3613170578950951, 'learning_rate': 3.135790947270182e-07, 'completion_length': 423.4018096923828, 'rewards/only_full_func_accuracy_reward': 0.7299107313156128, 'rewards/format_reward': 1.0, 'reward': 1.7299108505249023, 'reward_std': 0.014752786606550217, 'kl': 0.0609130859375, 'epoch': 0.69}
+ 69%|██████▊   | 2942/4286 [19:30:12<8:51:39, 23.73s/it] 69%|██████▊   | 2943/4286 [19:30:38<9:08:13, 24.49s/it]                                                        {'loss': 0.0184, 'grad_norm': 0.28149891146535244, 'learning_rate': 3.133457769482035e-07, 'completion_length': 489.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.8762897253036499, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8673611879348755, 'reward_std': 0.047436561435461044, 'kl': 0.4610595703125, 'epoch': 0.69}
+ 69%|██████▊   | 2943/4286 [19:30:38<9:08:13, 24.49s/it] 69%|██████▊   | 2944/4286 [19:31:02<9:03:03, 24.28s/it]                                                        {'loss': 0.0014, 'grad_norm': 0.49990262761547744, 'learning_rate': 3.131124591693887e-07, 'completion_length': 433.7857208251953, 'rewards/only_full_func_accuracy_reward': 0.5453869253396988, 'rewards/format_reward': 1.0, 'reward': 1.5453869700431824, 'reward_std': 0.0609757574275136, 'kl': 0.0347900390625, 'epoch': 0.69}
+ 69%|██████▊   | 2944/4286 [19:31:02<9:03:03, 24.28s/it] 69%|██████▊   | 2945/4286 [19:31:25<8:54:21, 23.91s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.3271327666571431, 'learning_rate': 3.1287914139057397e-07, 'completion_length': 374.5089416503906, 'rewards/only_full_func_accuracy_reward': 0.6941964626312256, 'rewards/format_reward': 1.0, 'reward': 1.6941964626312256, 'reward_std': 0.02540354337543249, 'kl': 0.0379638671875, 'epoch': 0.69}
+ 69%|██████▊   | 2945/4286 [19:31:25<8:54:21, 23.91s/it] 69%|██████▊   | 2946/4286 [19:31:50<8:58:49, 24.13s/it]                                                        {'loss': 0.0402, 'grad_norm': 2.67593253749815, 'learning_rate': 3.1264582361175925e-07, 'completion_length': 392.6964416503906, 'rewards/only_full_func_accuracy_reward': 0.730654776096344, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7127978205680847, 'reward_std': 0.15157707035541534, 'kl': 1.00390625, 'epoch': 0.69}
+ 69%|██████▊   | 2946/4286 [19:31:50<8:58:49, 24.13s/it] 69%|██████▉   | 2947/4286 [19:32:15<9:05:21, 24.44s/it]                                                        {'loss': 0.0021, 'grad_norm': 0.5358268182051165, 'learning_rate': 3.124125058329444e-07, 'completion_length': 420.25001525878906, 'rewards/only_full_func_accuracy_reward': 0.7633928954601288, 'rewards/format_reward': 1.0, 'reward': 1.7633929252624512, 'reward_std': 0.05486026965081692, 'kl': 0.0523681640625, 'epoch': 0.69}
+ 69%|██████▉   | 2947/4286 [19:32:15<9:05:21, 24.44s/it] 69%|██████▉   | 2948/4286 [19:32:38<8:53:58, 23.95s/it]                                                        {'loss': 0.0273, 'grad_norm': 0.4642923933077437, 'learning_rate': 3.121791880541297e-07, 'completion_length': 386.48216247558594, 'rewards/only_full_func_accuracy_reward': 0.7808036804199219, 'rewards/format_reward': 1.0, 'reward': 1.7808036804199219, 'reward_std': 0.07665773387998343, 'kl': 0.682373046875, 'epoch': 0.69}
+ 69%|██████▉   | 2948/4286 [19:32:38<8:53:58, 23.95s/it] 69%|██████▉   | 2949/4286 [19:33:00<8:44:56, 23.56s/it]                                                        {'loss': 0.0268, 'grad_norm': 0.7624635987537094, 'learning_rate': 3.119458702753149e-07, 'completion_length': 361.76788330078125, 'rewards/only_full_func_accuracy_reward': 0.7886905074119568, 'rewards/format_reward': 1.0, 'reward': 1.7886905670166016, 'reward_std': 0.06030731089413166, 'kl': 0.66796875, 'epoch': 0.69}
+ 69%|██████▉   | 2949/4286 [19:33:00<8:44:56, 23.56s/it] 69%|██████▉   | 2950/4286 [19:33:24<8:46:44, 23.66s/it]                                                        {'loss': 0.0306, 'grad_norm': 1.2573631381456154, 'learning_rate': 3.117125524965002e-07, 'completion_length': 391.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.6572917103767395, 'rewards/format_reward': 1.0, 'reward': 1.6572917699813843, 'reward_std': 0.04320988617837429, 'kl': 0.7666015625, 'epoch': 0.69}
+ 69%|██████▉   | 2950/4286 [19:33:24<8:46:44, 23.66s/it] 69%|██████▉   | 2951/4286 [19:33:50<8:57:25, 24.15s/it]                                                        {'loss': 0.0202, 'grad_norm': 0.9343529220363819, 'learning_rate': 3.1147923471768547e-07, 'completion_length': 415.8928680419922, 'rewards/only_full_func_accuracy_reward': 0.5558035969734192, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5468750596046448, 'reward_std': 0.06369925290346146, 'kl': 0.50830078125, 'epoch': 0.69}
+ 69%|██████▉   | 2951/4286 [19:33:50<8:57:25, 24.15s/it] 69%|██████▉   | 2952/4286 [19:34:14<8:58:56, 24.24s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.1413852682002005, 'learning_rate': 3.112459169388707e-07, 'completion_length': 424.5982360839844, 'rewards/only_full_func_accuracy_reward': 0.8139881491661072, 'rewards/format_reward': 1.0, 'reward': 1.813988208770752, 'reward_std': 0.029159409925341606, 'kl': 0.0389404296875, 'epoch': 0.69}
+ 69%|██████▉   | 2952/4286 [19:34:14<8:58:56, 24.24s/it] 69%|██████▉   | 2953/4286 [19:34:38<8:56:03, 24.13s/it]                                                        {'loss': 0.0291, 'grad_norm': 1.84744161474886, 'learning_rate': 3.1101259916005596e-07, 'completion_length': 371.00001525878906, 'rewards/only_full_func_accuracy_reward': 0.6927083432674408, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6837798357009888, 'reward_std': 0.12809976190328598, 'kl': 0.728515625, 'epoch': 0.69}
+ 69%|██████▉   | 2953/4286 [19:34:38<8:56:03, 24.13s/it] 69%|██████▉   | 2954/4286 [19:35:01<8:48:15, 23.80s/it]                                                        {'loss': 0.012, 'grad_norm': 0.6835512143994049, 'learning_rate': 3.107792813812412e-07, 'completion_length': 378.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.7995536625385284, 'rewards/format_reward': 1.0, 'reward': 1.7995536923408508, 'reward_std': 0.020345479249954224, 'kl': 0.30126953125, 'epoch': 0.69}
+ 69%|██████▉   | 2954/4286 [19:35:01<8:48:15, 23.80s/it] 69%|██████▉   | 2955/4286 [19:35:25<8:50:19, 23.91s/it]                                                        {'loss': 0.0216, 'grad_norm': 1.5124860726216156, 'learning_rate': 3.1054596360242646e-07, 'completion_length': 446.61610412597656, 'rewards/only_full_func_accuracy_reward': 0.605654776096344, 'rewards/format_reward': 1.0, 'reward': 1.6056548953056335, 'reward_std': 0.041785386856645346, 'kl': 0.541015625, 'epoch': 0.69}
+ 69%|██████▉   | 2955/4286 [19:35:25<8:50:19, 23.91s/it] 69%|██████▉   | 2956/4286 [19:35:49<8:48:51, 23.86s/it]                                                        {'loss': 0.0302, 'grad_norm': 1.575623115562143, 'learning_rate': 3.1031264582361174e-07, 'completion_length': 390.0357208251953, 'rewards/only_full_func_accuracy_reward': 0.7678572237491608, 'rewards/format_reward': 1.0, 'reward': 1.7678572535514832, 'reward_std': 0.07320049777626991, 'kl': 0.75390625, 'epoch': 0.69}
+ 69%|██████▉   | 2956/4286 [19:35:49<8:48:51, 23.86s/it] 69%|██████▉   | 2957/4286 [19:36:14<8:57:16, 24.26s/it]                                                        {'loss': 0.0173, 'grad_norm': 0.5087705157514253, 'learning_rate': 3.1007932804479696e-07, 'completion_length': 406.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.7395833432674408, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7306548953056335, 'reward_std': 0.08080906607210636, 'kl': 0.4312744140625, 'epoch': 0.69}
+ 69%|██████▉   | 2957/4286 [19:36:14<8:57:16, 24.26s/it] 69%|██████▉   | 2958/4286 [19:36:37<8:51:30, 24.01s/it]                                                        {'loss': 0.0019, 'grad_norm': 0.47824207762912885, 'learning_rate': 3.0984601026598223e-07, 'completion_length': 399.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.7261905372142792, 'rewards/format_reward': 1.0, 'reward': 1.7261906266212463, 'reward_std': 0.033671753481030464, 'kl': 0.0469970703125, 'epoch': 0.69}
+ 69%|██████▉   | 2958/4286 [19:36:37<8:51:30, 24.01s/it] 69%|██████▉   | 2959/4286 [19:37:01<8:45:53, 23.78s/it]                                                        {'loss': 0.0028, 'grad_norm': 0.41221222596844637, 'learning_rate': 3.096126924871675e-07, 'completion_length': 401.7589416503906, 'rewards/only_full_func_accuracy_reward': 0.6629464030265808, 'rewards/format_reward': 1.0, 'reward': 1.6629465818405151, 'reward_std': 0.022401195019483566, 'kl': 0.0704345703125, 'epoch': 0.69}
+ 69%|██████▉   | 2959/4286 [19:37:01<8:45:53, 23.78s/it] 69%|██████▉   | 2960/4286 [19:37:26<8:56:15, 24.27s/it]                                                        {'loss': 0.0144, 'grad_norm': 1.1559781084850649, 'learning_rate': 3.0937937470835273e-07, 'completion_length': 442.3839569091797, 'rewards/only_full_func_accuracy_reward': 0.7222718596458435, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.70441472530365, 'reward_std': 0.11029621958732605, 'kl': 0.3604736328125, 'epoch': 0.69}
+ 69%|██████▉   | 2960/4286 [19:37:26<8:56:15, 24.27s/it] 69%|██████▉   | 2961/4286 [19:37:48<8:39:14, 23.51s/it]                                                        {'loss': 0.0114, 'grad_norm': 0.6075417206839285, 'learning_rate': 3.09146056929538e-07, 'completion_length': 346.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.73288694024086, 'rewards/format_reward': 1.0, 'reward': 1.732887089252472, 'reward_std': 0.0477733239531517, 'kl': 0.2841796875, 'epoch': 0.69}
+ 69%|██████▉   | 2961/4286 [19:37:48<8:39:14, 23.51s/it] 69%|██████▉   | 2962/4286 [19:38:13<8:49:36, 24.00s/it]                                                        {'loss': 0.0266, 'grad_norm': 21.52284379865018, 'learning_rate': 3.0891273915072323e-07, 'completion_length': 425.1339416503906, 'rewards/only_full_func_accuracy_reward': 0.6175595819950104, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6086310744285583, 'reward_std': 0.083226403221488, 'kl': 0.6669921875, 'epoch': 0.69}
+ 69%|██████▉   | 2962/4286 [19:38:13<8:49:36, 24.00s/it] 69%|██████▉   | 2963/4286 [19:38:38<8:55:09, 24.27s/it]                                                        {'loss': 0.0128, 'grad_norm': 1.0411011581015326, 'learning_rate': 3.086794213719085e-07, 'completion_length': 441.6160888671875, 'rewards/only_full_func_accuracy_reward': 0.793154776096344, 'rewards/format_reward': 1.0, 'reward': 1.7931548953056335, 'reward_std': 0.05035593919456005, 'kl': 0.3189697265625, 'epoch': 0.69}
+ 69%|██████▉   | 2963/4286 [19:38:38<8:55:09, 24.27s/it] 69%|██████▉   | 2964/4286 [19:39:03<9:01:25, 24.57s/it]                                                        {'loss': 0.0314, 'grad_norm': 0.5945644373517739, 'learning_rate': 3.084461035930938e-07, 'completion_length': 413.7768096923828, 'rewards/only_full_func_accuracy_reward': 0.7410714626312256, 'rewards/format_reward': 1.0, 'reward': 1.7410715222358704, 'reward_std': 0.053436122834682465, 'kl': 0.78515625, 'epoch': 0.69}
+ 69%|██████▉   | 2964/4286 [19:39:03<9:01:25, 24.57s/it] 69%|██████▉   | 2965/4286 [19:39:27<8:56:42, 24.38s/it]                                                        {'loss': 0.0318, 'grad_norm': 2.0920766698055124, 'learning_rate': 3.08212785814279e-07, 'completion_length': 397.04466247558594, 'rewards/only_full_func_accuracy_reward': 0.6770833432674408, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6681548357009888, 'reward_std': 0.04193800687789917, 'kl': 0.794921875, 'epoch': 0.69}
+ 69%|██████▉   | 2965/4286 [19:39:27<8:56:42, 24.38s/it] 69%|██████▉   | 2966/4286 [19:39:52<9:01:24, 24.61s/it]                                                        {'loss': 0.014, 'grad_norm': 2.1470554401189106, 'learning_rate': 3.079794680354643e-07, 'completion_length': 447.4375305175781, 'rewards/only_full_func_accuracy_reward': 0.7596460580825806, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7507175207138062, 'reward_std': 0.1100221537053585, 'kl': 0.352783203125, 'epoch': 0.69}
+ 69%|██████▉   | 2966/4286 [19:39:52<9:01:24, 24.61s/it] 69%|██████▉   | 2967/4286 [19:40:17<9:04:22, 24.76s/it]                                                        {'loss': 0.0089, 'grad_norm': 1.3647163388664518, 'learning_rate': 3.077461502566495e-07, 'completion_length': 427.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.8415179252624512, 'rewards/format_reward': 1.0, 'reward': 1.841517984867096, 'reward_std': 0.03520280867815018, 'kl': 0.222412109375, 'epoch': 0.69}
+ 69%|██████▉   | 2967/4286 [19:40:17<9:04:22, 24.76s/it] 69%|██████▉   | 2968/4286 [19:40:41<8:57:54, 24.49s/it]                                                        {'loss': 0.0249, 'grad_norm': 0.9580397896006669, 'learning_rate': 3.0751283247783477e-07, 'completion_length': 428.9910888671875, 'rewards/only_full_func_accuracy_reward': 0.7455357611179352, 'rewards/format_reward': 1.0, 'reward': 1.7455357909202576, 'reward_std': 0.0707700327038765, 'kl': 0.622314453125, 'epoch': 0.69}
+ 69%|██████▉   | 2968/4286 [19:40:41<8:57:54, 24.49s/it] 69%|██████▉   | 2969/4286 [19:41:05<8:52:00, 24.24s/it]                                                        {'loss': 0.015, 'grad_norm': 1.0848685310063904, 'learning_rate': 3.0727951469902005e-07, 'completion_length': 352.70538330078125, 'rewards/only_full_func_accuracy_reward': 0.7872024178504944, 'rewards/format_reward': 1.0, 'reward': 1.787202537059784, 'reward_std': 0.06319317407906055, 'kl': 0.372802734375, 'epoch': 0.69}
+ 69%|██████▉   | 2969/4286 [19:41:05<8:52:00, 24.24s/it] 69%|██████▉   | 2970/4286 [19:41:27<8:40:05, 23.71s/it]                                                        {'loss': 0.0276, 'grad_norm': 0.4670998512491421, 'learning_rate': 3.0704619692020527e-07, 'completion_length': 372.6428680419922, 'rewards/only_full_func_accuracy_reward': 0.8377976417541504, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8288691639900208, 'reward_std': 0.06848794966936111, 'kl': 0.6883544921875, 'epoch': 0.69}
+ 69%|██████▉   | 2970/4286 [19:41:27<8:40:05, 23.71s/it] 69%|██████▉   | 2971/4286 [19:41:51<8:37:02, 23.59s/it]                                                        {'loss': 0.0814, 'grad_norm': 1.0345497981163172, 'learning_rate': 3.0681287914139054e-07, 'completion_length': 417.01788330078125, 'rewards/only_full_func_accuracy_reward': 0.6953869760036469, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.659672737121582, 'reward_std': 0.21394196897745132, 'kl': 2.03515625, 'epoch': 0.69}
+ 69%|██████▉   | 2971/4286 [19:41:51<8:37:02, 23.59s/it] 69%|██████▉   | 2972/4286 [19:42:14<8:37:33, 23.63s/it]                                                        {'loss': 0.042, 'grad_norm': 3.1669415616776178, 'learning_rate': 3.0657956136257577e-07, 'completion_length': 354.4464416503906, 'rewards/only_full_func_accuracy_reward': 0.6447173058986664, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6268602013587952, 'reward_std': 0.1041633989661932, 'kl': 1.048828125, 'epoch': 0.69}
+ 69%|██████▉   | 2972/4286 [19:42:14<8:37:33, 23.63s/it] 69%|██████▉   | 2973/4286 [19:42:36<8:25:02, 23.08s/it]                                                        {'loss': 0.0097, 'grad_norm': 2.4743556561644517, 'learning_rate': 3.0634624358376104e-07, 'completion_length': 324.4464416503906, 'rewards/only_full_func_accuracy_reward': 0.7566964626312256, 'rewards/format_reward': 1.0, 'reward': 1.7566965222358704, 'reward_std': 0.05351559817790985, 'kl': 0.24267578125, 'epoch': 0.69}
+ 69%|██████▉   | 2973/4286 [19:42:36<8:25:02, 23.08s/it] 69%|██████▉   | 2974/4286 [19:42:59<8:24:36, 23.08s/it]                                                        {'loss': 0.0298, 'grad_norm': 0.7672514592426714, 'learning_rate': 3.061129258049463e-07, 'completion_length': 413.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.729166716337204, 'rewards/format_reward': 1.0, 'reward': 1.7291667461395264, 'reward_std': 0.025253813713788986, 'kl': 0.744384765625, 'epoch': 0.69}
+ 69%|██████▉   | 2974/4286 [19:42:59<8:24:36, 23.08s/it] 69%|██████▉   | 2975/4286 [19:43:24<8:34:29, 23.55s/it]                                                        {'loss': 0.0243, 'grad_norm': 1.7464486681909757, 'learning_rate': 3.0587960802613154e-07, 'completion_length': 370.70538330078125, 'rewards/only_full_func_accuracy_reward': 0.7284226417541504, 'rewards/format_reward': 1.0, 'reward': 1.72842276096344, 'reward_std': 0.08805130794644356, 'kl': 0.6048583984375, 'epoch': 0.69}
+ 69%|██████▉   | 2975/4286 [19:43:24<8:34:29, 23.55s/it] 69%|██████▉   | 2976/4286 [19:43:48<8:40:49, 23.85s/it]                                                        {'loss': 0.0299, 'grad_norm': 1.4273464185892528, 'learning_rate': 3.056462902473168e-07, 'completion_length': 379.06251525878906, 'rewards/only_full_func_accuracy_reward': 0.7654124796390533, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7475553750991821, 'reward_std': 0.07944118604063988, 'kl': 0.748046875, 'epoch': 0.69}
+ 69%|██████▉   | 2976/4286 [19:43:48<8:40:49, 23.85s/it] 69%|██████▉   | 2977/4286 [19:44:12<8:36:04, 23.65s/it]                                                        {'loss': 0.0142, 'grad_norm': 1.9231280519365272, 'learning_rate': 3.0541297246850204e-07, 'completion_length': 378.2410888671875, 'rewards/only_full_func_accuracy_reward': 0.7016370296478271, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.692708432674408, 'reward_std': 0.08307789452373981, 'kl': 0.35546875, 'epoch': 0.69}
+ 69%|██████▉   | 2977/4286 [19:44:12<8:36:04, 23.65s/it] 69%|██████▉   | 2978/4286 [19:44:37<8:47:34, 24.20s/it]                                                        {'loss': 0.0237, 'grad_norm': 2.4043850315191424, 'learning_rate': 3.051796546896873e-07, 'completion_length': 442.8660888671875, 'rewards/only_full_func_accuracy_reward': 0.6175595819950104, 'rewards/format_reward': 1.0, 'reward': 1.6175596714019775, 'reward_std': 0.09199055843055248, 'kl': 0.5946044921875, 'epoch': 0.69}
+ 69%|██████▉   | 2978/4286 [19:44:37<8:47:34, 24.20s/it] 70%|██████▉   | 2979/4286 [19:45:02<8:50:25, 24.35s/it]                                                        {'loss': 0.0313, 'grad_norm': 2.5861777546595572, 'learning_rate': 3.049463369108726e-07, 'completion_length': 427.4464416503906, 'rewards/only_full_func_accuracy_reward': 0.7373512983322144, 'rewards/format_reward': 1.0, 'reward': 1.7373512983322144, 'reward_std': 0.05944620445370674, 'kl': 0.78125, 'epoch': 0.7}
+ 70%|██████▉   | 2979/4286 [19:45:02<8:50:25, 24.35s/it] 70%|██████▉   | 2980/4286 [19:45:24<8:38:47, 23.83s/it]                                                        {'loss': 0.0519, 'grad_norm': 3.4655449077432485, 'learning_rate': 3.047130191320578e-07, 'completion_length': 408.06251525878906, 'rewards/only_full_func_accuracy_reward': 0.6927083432674408, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.6659227013587952, 'reward_std': 0.058337127789855, 'kl': 1.299560546875, 'epoch': 0.7}
+ 70%|██████▉   | 2980/4286 [19:45:24<8:38:47, 23.83s/it] 70%|██████▉   | 2981/4286 [19:45:49<8:44:29, 24.11s/it]                                                        {'loss': 0.012, 'grad_norm': 1.706785490957624, 'learning_rate': 3.044797013532431e-07, 'completion_length': 419.2768096923828, 'rewards/only_full_func_accuracy_reward': 0.6502976715564728, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6413692235946655, 'reward_std': 0.06693695299327374, 'kl': 0.299560546875, 'epoch': 0.7}
+ 70%|██████▉   | 2981/4286 [19:45:49<8:44:29, 24.11s/it] 70%|██████▉   | 2982/4286 [19:46:11<8:29:53, 23.46s/it]                                                        {'loss': 0.0318, 'grad_norm': 2.3941708318030375, 'learning_rate': 3.0424638357442836e-07, 'completion_length': 339.0893096923828, 'rewards/only_full_func_accuracy_reward': 0.689732164144516, 'rewards/format_reward': 1.0, 'reward': 1.6897322535514832, 'reward_std': 0.04988639056682587, 'kl': 0.799560546875, 'epoch': 0.7}
+ 70%|██████▉   | 2982/4286 [19:46:11<8:29:53, 23.46s/it] 70%|██████▉   | 2983/4286 [19:46:34<8:28:22, 23.41s/it]                                                        {'loss': 0.1377, 'grad_norm': 8.555185946731203, 'learning_rate': 3.040130657956136e-07, 'completion_length': 401.4464416503906, 'rewards/only_full_func_accuracy_reward': 0.5635629445314407, 'rewards/format_reward': 0.9464285969734192, 'reward': 1.5099915862083435, 'reward_std': 0.22034164518117905, 'kl': 3.4375, 'epoch': 0.7}
+ 70%|██████▉   | 2983/4286 [19:46:34<8:28:22, 23.41s/it] 70%|██████▉   | 2984/4286 [19:46:59<8:35:08, 23.74s/it]                                                        {'loss': 0.1323, 'grad_norm': 6.692078812106839, 'learning_rate': 3.0377974801679886e-07, 'completion_length': 403.4018096923828, 'rewards/only_full_func_accuracy_reward': 0.6560728847980499, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.629287302494049, 'reward_std': 0.19378741458058357, 'kl': 3.3046875, 'epoch': 0.7}
+ 70%|██████▉   | 2984/4286 [19:46:59<8:35:08, 23.74s/it] 70%|██████▉   | 2985/4286 [19:47:23<8:34:22, 23.72s/it]                                                        {'loss': 0.0836, 'grad_norm': 1.8350172392505546, 'learning_rate': 3.035464302379841e-07, 'completion_length': 399.6071472167969, 'rewards/only_full_func_accuracy_reward': 0.6855867803096771, 'rewards/format_reward': 0.973214328289032, 'reward': 1.6588010787963867, 'reward_std': 0.1955522894859314, 'kl': 2.08984375, 'epoch': 0.7}
+ 70%|██████▉   | 2985/4286 [19:47:23<8:34:22, 23.72s/it] 70%|██████▉   | 2986/4286 [19:47:44<8:17:18, 22.95s/it]                                                        {'loss': 0.0914, 'grad_norm': 4.691424742422922, 'learning_rate': 3.0331311245916935e-07, 'completion_length': 335.7053680419922, 'rewards/only_full_func_accuracy_reward': 0.7215774953365326, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7037203907966614, 'reward_std': 0.18686340004205704, 'kl': 2.2890625, 'epoch': 0.7}
+ 70%|██████▉   | 2986/4286 [19:47:44<8:17:18, 22.95s/it] 70%|██████▉   | 2987/4286 [19:48:07<8:21:54, 23.18s/it]                                                        {'loss': 0.0506, 'grad_norm': 3.249778241842577, 'learning_rate': 3.0307979468035463e-07, 'completion_length': 371.12501525878906, 'rewards/only_full_func_accuracy_reward': 0.7211309969425201, 'rewards/format_reward': 1.0, 'reward': 1.7211310863494873, 'reward_std': 0.09238215535879135, 'kl': 1.263671875, 'epoch': 0.7}
+ 70%|██████▉   | 2987/4286 [19:48:07<8:21:54, 23.18s/it] 70%|██████▉   | 2988/4286 [19:48:30<8:18:05, 23.02s/it]                                                        {'loss': 0.025, 'grad_norm': 3.641625020378285, 'learning_rate': 3.0284647690153985e-07, 'completion_length': 391.7232208251953, 'rewards/only_full_func_accuracy_reward': 0.6863308250904083, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6774022579193115, 'reward_std': 0.07871351204812527, 'kl': 0.625, 'epoch': 0.7}
+ 70%|██████▉   | 2988/4286 [19:48:30<8:18:05, 23.02s/it] 70%|██████▉   | 2989/4286 [19:48:54<8:25:54, 23.40s/it]                                                        {'loss': 0.0099, 'grad_norm': 5.19452780968505, 'learning_rate': 3.0261315912272513e-07, 'completion_length': 391.33929443359375, 'rewards/only_full_func_accuracy_reward': 0.7224702835083008, 'rewards/format_reward': 1.0, 'reward': 1.7224703431129456, 'reward_std': 0.09252328053116798, 'kl': 0.24658203125, 'epoch': 0.7}
+ 70%|██████▉   | 2989/4286 [19:48:54<8:25:54, 23.40s/it] 70%|██████▉   | 2990/4286 [19:49:18<8:27:14, 23.48s/it]                                                        {'loss': 0.0491, 'grad_norm': 1.968806128834766, 'learning_rate': 3.0237984134391035e-07, 'completion_length': 366.3928680419922, 'rewards/only_full_func_accuracy_reward': 0.6919642686843872, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6830359101295471, 'reward_std': 0.08824585005640984, 'kl': 1.22216796875, 'epoch': 0.7}
+ 70%|██████▉   | 2990/4286 [19:49:18<8:27:14, 23.48s/it] 70%|██████▉   | 2991/4286 [19:49:42<8:26:17, 23.46s/it]                                                        {'loss': 0.0196, 'grad_norm': 2.310769534625386, 'learning_rate': 3.021465235650956e-07, 'completion_length': 383.70538330078125, 'rewards/only_full_func_accuracy_reward': 0.6406250596046448, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6316965222358704, 'reward_std': 0.15237132459878922, 'kl': 0.48779296875, 'epoch': 0.7}
+ 70%|██████▉   | 2991/4286 [19:49:42<8:26:17, 23.46s/it] 70%|██████▉   | 2992/4286 [19:50:05<8:24:31, 23.39s/it]                                                        {'loss': 0.0549, 'grad_norm': 1.6086538801533456, 'learning_rate': 3.019132057862809e-07, 'completion_length': 367.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.6550595462322235, 'rewards/format_reward': 1.0, 'reward': 1.6550596356391907, 'reward_std': 0.09337221086025238, 'kl': 1.375, 'epoch': 0.7}
+ 70%|██████▉   | 2992/4286 [19:50:05<8:24:31, 23.39s/it] 70%|██████▉   | 2993/4286 [19:50:30<8:35:14, 23.91s/it]                                                        {'loss': 0.0338, 'grad_norm': 0.5232435225528309, 'learning_rate': 3.016798880074661e-07, 'completion_length': 432.91966247558594, 'rewards/only_full_func_accuracy_reward': 0.8258929252624512, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8169644474983215, 'reward_std': 0.07997041754424572, 'kl': 0.84375, 'epoch': 0.7}
+ 70%|██████▉   | 2993/4286 [19:50:30<8:35:14, 23.91s/it] 70%|██████▉   | 2994/4286 [19:50:52<8:25:57, 23.50s/it]                                                        {'loss': 0.029, 'grad_norm': 0.6810991212493327, 'learning_rate': 3.014465702286514e-07, 'completion_length': 364.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.8232142925262451, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.814285933971405, 'reward_std': 0.0707106813788414, 'kl': 0.724365234375, 'epoch': 0.7}
+ 70%|██████▉   | 2994/4286 [19:50:52<8:25:57, 23.50s/it] 70%|██████▉   | 2995/4286 [19:51:16<8:25:08, 23.48s/it]                                                        {'loss': 0.0846, 'grad_norm': 3.7260169241543575, 'learning_rate': 3.012132524498366e-07, 'completion_length': 368.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.7583334445953369, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.722619116306305, 'reward_std': 0.19864636659622192, 'kl': 2.11328125, 'epoch': 0.7}
+ 70%|██████▉   | 2995/4286 [19:51:16<8:25:08, 23.48s/it] 70%|██████▉   | 2996/4286 [19:51:39<8:20:51, 23.30s/it]                                                        {'loss': 0.0286, 'grad_norm': 2.0777895304826046, 'learning_rate': 3.009799346710219e-07, 'completion_length': 375.2857360839844, 'rewards/only_full_func_accuracy_reward': 0.7343750596046448, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.716517984867096, 'reward_std': 0.08824518509209156, 'kl': 0.712890625, 'epoch': 0.7}
+ 70%|██████▉   | 2996/4286 [19:51:39<8:20:51, 23.30s/it] 70%|██████▉   | 2997/4286 [19:52:03<8:28:39, 23.68s/it]                                                        {'loss': 0.0516, 'grad_norm': 5.820573592520388, 'learning_rate': 3.0074661689220717e-07, 'completion_length': 415.8928680419922, 'rewards/only_full_func_accuracy_reward': 0.7739583253860474, 'rewards/format_reward': 0.973214328289032, 'reward': 1.7471727132797241, 'reward_std': 0.16644027829170227, 'kl': 1.29296875, 'epoch': 0.7}
+ 70%|██████▉   | 2997/4286 [19:52:03<8:28:39, 23.68s/it] 70%|██████▉   | 2998/4286 [19:52:28<8:31:52, 23.85s/it]                                                        {'loss': 0.058, 'grad_norm': 2.3011904633143794, 'learning_rate': 3.005132991133924e-07, 'completion_length': 426.7589416503906, 'rewards/only_full_func_accuracy_reward': 0.629464328289032, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6116071939468384, 'reward_std': 0.12564365565776825, 'kl': 1.44921875, 'epoch': 0.7}
+ 70%|██████▉   | 2998/4286 [19:52:28<8:31:52, 23.85s/it] 70%|██████▉   | 2999/4286 [19:52:51<8:26:28, 23.61s/it]                                                        {'loss': 0.0698, 'grad_norm': 2.8963134709785088, 'learning_rate': 3.0027998133457767e-07, 'completion_length': 387.0178680419922, 'rewards/only_full_func_accuracy_reward': 0.732514888048172, 'rewards/format_reward': 0.9553571939468384, 'reward': 1.6878721714019775, 'reward_std': 0.15816183760762215, 'kl': 1.740234375, 'epoch': 0.7}
+ 70%|██████▉   | 2999/4286 [19:52:51<8:26:28, 23.61s/it] 70%|██████▉   | 3000/4286 [19:53:14<8:27:19, 23.67s/it]                                                        {'loss': 0.0798, 'grad_norm': 5.189123963770611, 'learning_rate': 3.000466635557629e-07, 'completion_length': 384.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.7031250894069672, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6941965222358704, 'reward_std': 0.040985383093357086, 'kl': 1.99609375, 'epoch': 0.7}
+ 70%|██████▉   | 3000/4286 [19:53:14<8:27:19, 23.67s/it] 70%|███████   | 3001/4286 [19:54:36<14:38:07, 41.00s/it]                                                         {'loss': 0.0155, 'grad_norm': 0.453085263167673, 'learning_rate': 2.9981334577694816e-07, 'completion_length': 372.1607360839844, 'rewards/only_full_func_accuracy_reward': 0.7462798058986664, 'rewards/format_reward': 1.0, 'reward': 1.7462798357009888, 'reward_std': 0.05636340752243996, 'kl': 0.3880615234375, 'epoch': 0.7}
+ 70%|███████   | 3001/4286 [19:54:36<14:38:07, 41.00s/it] 70%|███████   | 3002/4286 [19:54:58<12:37:36, 35.40s/it]                                                         {'loss': 0.0518, 'grad_norm': 1.3366429817142496, 'learning_rate': 2.9958002799813344e-07, 'completion_length': 383.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.7291666567325592, 'rewards/format_reward': 1.0, 'reward': 1.7291668057441711, 'reward_std': 0.09199057146906853, 'kl': 1.29296875, 'epoch': 0.7}
+ 70%|███████   | 3002/4286 [19:54:58<12:37:36, 35.40s/it] 70%|███████   | 3003/4286 [19:55:21<11:16:54, 31.66s/it]                                                         {'loss': 0.0438, 'grad_norm': 2.6900094270428, 'learning_rate': 2.9934671021931866e-07, 'completion_length': 340.8839416503906, 'rewards/only_full_func_accuracy_reward': 0.7482143640518188, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.73035728931427, 'reward_std': 0.15745314210653305, 'kl': 1.095703125, 'epoch': 0.7}
+ 70%|███████   | 3003/4286 [19:55:21<11:16:54, 31.66s/it] 70%|███████   | 3004/4286 [19:55:44<10:22:31, 29.14s/it]                                                         {'loss': 0.0191, 'grad_norm': 1.0944863416481785, 'learning_rate': 2.9911339244050394e-07, 'completion_length': 394.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.822916716337204, 'rewards/format_reward': 1.0, 'reward': 1.8229168057441711, 'reward_std': 0.06593790743499994, 'kl': 0.4794921875, 'epoch': 0.7}
+ 70%|███████   | 3004/4286 [19:55:44<10:22:31, 29.14s/it] 70%|███████   | 3005/4286 [19:56:10<10:01:05, 28.15s/it]                                                         {'loss': 0.063, 'grad_norm': 6.886981503750713, 'learning_rate': 2.988800746616892e-07, 'completion_length': 456.4643096923828, 'rewards/only_full_func_accuracy_reward': 0.673759937286377, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.6380457282066345, 'reward_std': 0.15461526811122894, 'kl': 1.576171875, 'epoch': 0.7}
+ 70%|███████   | 3005/4286 [19:56:10<10:01:05, 28.15s/it] 70%|███████   | 3006/4286 [19:56:33<9:29:21, 26.69s/it]                                                         {'loss': 0.0434, 'grad_norm': 2.262062442390909, 'learning_rate': 2.9864675688287443e-07, 'completion_length': 376.50001525878906, 'rewards/only_full_func_accuracy_reward': 0.7663691341876984, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7574405670166016, 'reward_std': 0.04080921411514282, 'kl': 1.08203125, 'epoch': 0.7}
+ 70%|███████   | 3006/4286 [19:56:33<9:29:21, 26.69s/it] 70%|███████   | 3007/4286 [19:56:56<9:00:31, 25.36s/it]                                                        {'loss': 0.0242, 'grad_norm': 0.7509147570784198, 'learning_rate': 2.984134391040597e-07, 'completion_length': 376.7410888671875, 'rewards/only_full_func_accuracy_reward': 0.7596726417541504, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7507441639900208, 'reward_std': 0.06251462921500206, 'kl': 0.60546875, 'epoch': 0.7}
+ 70%|███████   | 3007/4286 [19:56:56<9:00:31, 25.36s/it] 70%|███████   | 3008/4286 [19:57:18<8:40:04, 24.42s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.19087445027584873, 'learning_rate': 2.9818012132524493e-07, 'completion_length': 351.35716247558594, 'rewards/only_full_func_accuracy_reward': 0.7931548058986664, 'rewards/format_reward': 1.0, 'reward': 1.7931548953056335, 'reward_std': 0.029159411787986755, 'kl': 0.0364990234375, 'epoch': 0.7}
+ 70%|███████   | 3008/4286 [19:57:18<8:40:04, 24.42s/it] 70%|███████   | 3009/4286 [19:57:42<8:36:19, 24.26s/it]                                                        {'loss': 0.0018, 'grad_norm': 1.1684658818794935, 'learning_rate': 2.979468035464302e-07, 'completion_length': 411.43751525878906, 'rewards/only_full_func_accuracy_reward': 0.6778274178504944, 'rewards/format_reward': 1.0, 'reward': 1.6778274774551392, 'reward_std': 0.09442580863833427, 'kl': 0.0439453125, 'epoch': 0.7}
+ 70%|███████   | 3009/4286 [19:57:42<8:36:19, 24.26s/it] 70%|███████   | 3010/4286 [19:58:04<8:25:06, 23.75s/it]                                                        {'loss': 0.0737, 'grad_norm': 1.4750838615461757, 'learning_rate': 2.977134857676155e-07, 'completion_length': 382.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.798070877790451, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.7623566389083862, 'reward_std': 0.17136415094137192, 'kl': 1.84375, 'epoch': 0.7}
+ 70%|███████   | 3010/4286 [19:58:04<8:25:06, 23.75s/it] 70%|███████   | 3011/4286 [19:58:29<8:31:35, 24.07s/it]                                                        {'loss': 0.0226, 'grad_norm': 3.031643060446132, 'learning_rate': 2.974801679888007e-07, 'completion_length': 424.60716247558594, 'rewards/only_full_func_accuracy_reward': 0.7738096415996552, 'rewards/format_reward': 1.0, 'reward': 1.7738096117973328, 'reward_std': 0.03451810963451862, 'kl': 0.564453125, 'epoch': 0.7}
+ 70%|███████   | 3011/4286 [19:58:29<8:31:35, 24.07s/it] 70%|███████   | 3012/4286 [19:58:51<8:14:04, 23.27s/it]                                                        {'loss': 0.023, 'grad_norm': 0.6678531904503499, 'learning_rate': 2.97246850209986e-07, 'completion_length': 316.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.760416716337204, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7514882683753967, 'reward_std': 0.13018565997481346, 'kl': 0.574462890625, 'epoch': 0.7}
+ 70%|███████   | 3012/4286 [19:58:51<8:14:04, 23.27s/it] 70%|███████   | 3013/4286 [19:59:15<8:18:20, 23.49s/it]                                                        {'loss': 0.0253, 'grad_norm': 0.8315072150675137, 'learning_rate': 2.970135324311712e-07, 'completion_length': 369.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.7306548357009888, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7217261791229248, 'reward_std': 0.07086428627371788, 'kl': 0.63037109375, 'epoch': 0.7}
+ 70%|███████   | 3013/4286 [19:59:15<8:18:20, 23.49s/it] 70%|███████   | 3014/4286 [19:59:39<8:24:58, 23.82s/it]                                                        {'loss': 0.0533, 'grad_norm': 1.773819773522847, 'learning_rate': 2.967802146523565e-07, 'completion_length': 400.1250305175781, 'rewards/only_full_func_accuracy_reward': 0.6510416865348816, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.642113208770752, 'reward_std': 0.12386027723550797, 'kl': 1.33203125, 'epoch': 0.7}
+ 70%|███████   | 3014/4286 [19:59:39<8:24:58, 23.82s/it] 70%|███████   | 3015/4286 [20:00:03<8:24:07, 23.80s/it]                                                        {'loss': 0.0723, 'grad_norm': 0.861477940549788, 'learning_rate': 2.9654689687354175e-07, 'completion_length': 378.0000305175781, 'rewards/only_full_func_accuracy_reward': 0.6822917461395264, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6733632683753967, 'reward_std': 0.14403381198644638, 'kl': 1.810546875, 'epoch': 0.7}
+ 70%|███████   | 3015/4286 [20:00:03<8:24:07, 23.80s/it] 70%|███████   | 3016/4286 [20:00:26<8:18:33, 23.55s/it]                                                        {'loss': 0.0691, 'grad_norm': 4.261797086408904, 'learning_rate': 2.96313579094727e-07, 'completion_length': 345.5803680419922, 'rewards/only_full_func_accuracy_reward': 0.7628348469734192, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7449777722358704, 'reward_std': 0.08694547787308693, 'kl': 1.7265625, 'epoch': 0.7}
+ 70%|███████   | 3016/4286 [20:00:26<8:18:33, 23.55s/it] 70%|███████   | 3017/4286 [20:00:51<8:27:45, 24.01s/it]                                                        {'loss': 0.0201, 'grad_norm': 0.9413539833671323, 'learning_rate': 2.9608026131591225e-07, 'completion_length': 407.6428680419922, 'rewards/only_full_func_accuracy_reward': 0.6822916567325592, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6644346117973328, 'reward_std': 0.10014824569225311, 'kl': 0.501953125, 'epoch': 0.7}
+ 70%|███████   | 3017/4286 [20:00:51<8:27:45, 24.01s/it] 70%|███████   | 3018/4286 [20:01:14<8:20:57, 23.71s/it]                                                        {'loss': 0.0729, 'grad_norm': 17.642625141262027, 'learning_rate': 2.9584694353709747e-07, 'completion_length': 403.8393096923828, 'rewards/only_full_func_accuracy_reward': 0.5505953133106232, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5416668057441711, 'reward_std': 0.10997188836336136, 'kl': 1.818359375, 'epoch': 0.7}
+ 70%|███████   | 3018/4286 [20:01:14<8:20:57, 23.71s/it] 70%|███████   | 3019/4286 [20:01:38<8:25:36, 23.94s/it]                                                        {'loss': 0.0589, 'grad_norm': 1.400964868960885, 'learning_rate': 2.9561362575828275e-07, 'completion_length': 435.91966247558594, 'rewards/only_full_func_accuracy_reward': 0.6927083432674408, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.6569942235946655, 'reward_std': 0.18057478964328766, 'kl': 1.47265625, 'epoch': 0.7}
+ 70%|███████   | 3019/4286 [20:01:38<8:25:36, 23.94s/it] 70%|███████   | 3020/4286 [20:02:00<8:12:16, 23.33s/it]                                                        {'loss': 0.0445, 'grad_norm': 2.3490977666398853, 'learning_rate': 2.95380307979468e-07, 'completion_length': 361.0357208251953, 'rewards/only_full_func_accuracy_reward': 0.651041716337204, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.642113208770752, 'reward_std': 0.10803216882050037, 'kl': 1.1123046875, 'epoch': 0.7}
+ 70%|███████   | 3020/4286 [20:02:00<8:12:16, 23.33s/it] 70%|███████   | 3021/4286 [20:02:24<8:16:23, 23.54s/it]                                                        {'loss': 0.0184, 'grad_norm': 1.3043321792247125, 'learning_rate': 2.9514699020065324e-07, 'completion_length': 397.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.5729166567325592, 'rewards/format_reward': 1.0, 'reward': 1.5729168057441711, 'reward_std': 0.023648573085665703, 'kl': 0.4595947265625, 'epoch': 0.7}
+ 70%|███████   | 3021/4286 [20:02:24<8:16:23, 23.54s/it] 71%|███████   | 3022/4286 [20:02:48<8:17:15, 23.60s/it]                                                        {'loss': 0.1016, 'grad_norm': 1.476450835736058, 'learning_rate': 2.949136724218385e-07, 'completion_length': 398.8482360839844, 'rewards/only_full_func_accuracy_reward': 0.7175595760345459, 'rewards/format_reward': 1.0, 'reward': 1.717559576034546, 'reward_std': 0.10662120208144188, 'kl': 2.5390625, 'epoch': 0.71}
+ 71%|███████   | 3022/4286 [20:02:48<8:17:15, 23.60s/it] 71%|███████   | 3023/4286 [20:03:10<8:07:15, 23.15s/it]                                                        {'loss': 0.011, 'grad_norm': 0.6167766006931162, 'learning_rate': 2.9468035464302374e-07, 'completion_length': 358.83929443359375, 'rewards/only_full_func_accuracy_reward': 0.8043155372142792, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7953870296478271, 'reward_std': 0.04111231304705143, 'kl': 0.278076171875, 'epoch': 0.71}
+ 71%|███████   | 3023/4286 [20:03:10<8:07:15, 23.15s/it] 71%|███████   | 3024/4286 [20:03:34<8:07:42, 23.19s/it]                                                        {'loss': 0.0863, 'grad_norm': 1.5315979487557458, 'learning_rate': 2.94447036864209e-07, 'completion_length': 381.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.5534970909357071, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5445685386657715, 'reward_std': 0.15667855739593506, 'kl': 2.16015625, 'epoch': 0.71}
+ 71%|███████   | 3024/4286 [20:03:34<8:07:42, 23.19s/it] 71%|███████   | 3025/4286 [20:03:58<8:14:12, 23.51s/it]                                                        {'loss': 0.0812, 'grad_norm': 2.5716724118270973, 'learning_rate': 2.942137190853943e-07, 'completion_length': 395.75001525878906, 'rewards/only_full_func_accuracy_reward': 0.6778274476528168, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6688989400863647, 'reward_std': 0.12863602489233017, 'kl': 2.02734375, 'epoch': 0.71}
+ 71%|███████   | 3025/4286 [20:03:58<8:14:12, 23.51s/it] 71%|███████   | 3026/4286 [20:04:21<8:13:28, 23.50s/it]                                                        {'loss': 0.0795, 'grad_norm': 2.74977882661393, 'learning_rate': 2.939804013065795e-07, 'completion_length': 378.2143096923828, 'rewards/only_full_func_accuracy_reward': 0.6860119700431824, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6681548357009888, 'reward_std': 0.13670003414154053, 'kl': 1.984375, 'epoch': 0.71}
+ 71%|███████   | 3026/4286 [20:04:21<8:13:28, 23.50s/it] 71%|███████   | 3027/4286 [20:04:43<8:01:49, 22.96s/it]                                                        {'loss': 0.0624, 'grad_norm': 3.4450721659396173, 'learning_rate': 2.937470835277648e-07, 'completion_length': 373.96429443359375, 'rewards/only_full_func_accuracy_reward': 0.6446429342031479, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6267858147621155, 'reward_std': 0.09921490773558617, 'kl': 1.5625, 'epoch': 0.71}
+ 71%|███████   | 3027/4286 [20:04:43<8:01:49, 22.96s/it] 71%|███████   | 3028/4286 [20:05:06<7:58:48, 22.84s/it]                                                        {'loss': 0.081, 'grad_norm': 4.361322367922014, 'learning_rate': 2.9351376574895e-07, 'completion_length': 343.33929443359375, 'rewards/only_full_func_accuracy_reward': 0.7135416865348816, 'rewards/format_reward': 0.973214328289032, 'reward': 1.6867560744285583, 'reward_std': 0.1876038759946823, 'kl': 2.03125, 'epoch': 0.71}
+ 71%|███████   | 3028/4286 [20:05:06<7:58:48, 22.84s/it] 71%|███████   | 3029/4286 [20:05:29<8:04:46, 23.14s/it]                                                        {'loss': 0.1596, 'grad_norm': 3.8586169170396016, 'learning_rate': 2.932804479701353e-07, 'completion_length': 384.0268096923828, 'rewards/only_full_func_accuracy_reward': 0.6515873372554779, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6426588892936707, 'reward_std': 0.1378251276910305, 'kl': 3.98828125, 'epoch': 0.71}
+ 71%|███████   | 3029/4286 [20:05:29<8:04:46, 23.14s/it] 71%|███████   | 3030/4286 [20:05:52<8:01:54, 23.02s/it]                                                        {'loss': 0.0718, 'grad_norm': 1.3244318735349787, 'learning_rate': 2.9304713019132056e-07, 'completion_length': 331.6428680419922, 'rewards/only_full_func_accuracy_reward': 0.8147321939468384, 'rewards/format_reward': 1.0, 'reward': 1.814732313156128, 'reward_std': 0.14544302225112915, 'kl': 1.80078125, 'epoch': 0.71}
+ 71%|███████   | 3030/4286 [20:05:52<8:01:54, 23.02s/it] 71%|███████   | 3031/4286 [20:06:16<8:09:22, 23.40s/it]                                                        {'loss': 0.0331, 'grad_norm': 1.7288988186665823, 'learning_rate': 2.928138124125058e-07, 'completion_length': 427.8482360839844, 'rewards/only_full_func_accuracy_reward': 0.7142857611179352, 'rewards/format_reward': 1.0, 'reward': 1.7142858505249023, 'reward_std': 0.10098131559789181, 'kl': 0.828125, 'epoch': 0.71}
+ 71%|███████   | 3031/4286 [20:06:16<8:09:22, 23.40s/it] 71%|███████   | 3032/4286 [20:06:40<8:11:32, 23.52s/it]                                                        {'loss': 0.1207, 'grad_norm': 1.874157230504063, 'learning_rate': 2.9258049463369106e-07, 'completion_length': 423.4732360839844, 'rewards/only_full_func_accuracy_reward': 0.6711310148239136, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6622024774551392, 'reward_std': 0.1550147384405136, 'kl': 3.0078125, 'epoch': 0.71}
+ 71%|███████   | 3032/4286 [20:06:40<8:11:32, 23.52s/it] 71%|███████   | 3033/4286 [20:07:03<8:04:46, 23.21s/it]                                                        {'loss': 0.1244, 'grad_norm': 4.465116776030784, 'learning_rate': 2.9234717685487633e-07, 'completion_length': 376.68751525878906, 'rewards/only_full_func_accuracy_reward': 0.6793155670166016, 'rewards/format_reward': 0.973214328289032, 'reward': 1.6525299549102783, 'reward_std': 0.1965138465166092, 'kl': 3.109375, 'epoch': 0.71}
+ 71%|███████   | 3033/4286 [20:07:03<8:04:46, 23.21s/it] 71%|███████   | 3034/4286 [20:07:25<8:00:29, 23.03s/it]                                                        {'loss': 0.089, 'grad_norm': 2.511467069079398, 'learning_rate': 2.9211385907606156e-07, 'completion_length': 372.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.5178571790456772, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5089287161827087, 'reward_std': 0.1980300024151802, 'kl': 2.2265625, 'epoch': 0.71}
+ 71%|███████   | 3034/4286 [20:07:25<8:00:29, 23.03s/it] 71%|███████   | 3035/4286 [20:07:49<8:02:13, 23.13s/it]                                                        {'loss': 0.0929, 'grad_norm': 1.526679298757452, 'learning_rate': 2.9188054129724683e-07, 'completion_length': 381.2053680419922, 'rewards/only_full_func_accuracy_reward': 0.6346726715564728, 'rewards/format_reward': 0.973214328289032, 'reward': 1.6078869700431824, 'reward_std': 0.17677459120750427, 'kl': 2.328125, 'epoch': 0.71}
+ 71%|███████   | 3035/4286 [20:07:49<8:02:13, 23.13s/it] 71%|███████   | 3036/4286 [20:08:11<7:56:12, 22.86s/it]                                                        {'loss': 0.0136, 'grad_norm': 0.6653916609564129, 'learning_rate': 2.9164722351843205e-07, 'completion_length': 370.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.81101194024086, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8020835518836975, 'reward_std': 0.05862125940620899, 'kl': 0.3367919921875, 'epoch': 0.71}
+ 71%|███████   | 3036/4286 [20:08:11<7:56:12, 22.86s/it] 71%|███████   | 3037/4286 [20:08:33<7:52:51, 22.72s/it]                                                        {'loss': 0.1101, 'grad_norm': 1.113038427814515, 'learning_rate': 2.9141390573961733e-07, 'completion_length': 340.58929443359375, 'rewards/only_full_func_accuracy_reward': 0.7375000417232513, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7285714745521545, 'reward_std': 0.12430113181471825, 'kl': 2.75, 'epoch': 0.71}
+ 71%|███████   | 3037/4286 [20:08:33<7:52:51, 22.72s/it] 71%|███████   | 3038/4286 [20:08:55<7:48:07, 22.51s/it]                                                        {'loss': 0.0974, 'grad_norm': 1.9647347053505178, 'learning_rate': 2.911805879608026e-07, 'completion_length': 345.7410888671875, 'rewards/only_full_func_accuracy_reward': 0.6242559850215912, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.615327537059784, 'reward_std': 0.18044410645961761, 'kl': 2.43359375, 'epoch': 0.71}
+ 71%|███████   | 3038/4286 [20:08:55<7:48:07, 22.51s/it] 71%|███████   | 3039/4286 [20:09:18<7:51:19, 22.68s/it]                                                        {'loss': 0.0558, 'grad_norm': 0.6170634947221704, 'learning_rate': 2.909472701819878e-07, 'completion_length': 393.3839416503906, 'rewards/only_full_func_accuracy_reward': 0.820684552192688, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.802827537059784, 'reward_std': 0.12737850099802017, 'kl': 1.39453125, 'epoch': 0.71}
+ 71%|███████   | 3039/4286 [20:09:18<7:51:19, 22.68s/it] 71%|███████   | 3040/4286 [20:09:42<7:59:34, 23.09s/it]                                                        {'loss': 0.0886, 'grad_norm': 0.9037345550275724, 'learning_rate': 2.907139524031731e-07, 'completion_length': 386.9464416503906, 'rewards/only_full_func_accuracy_reward': 0.6688989102840424, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6599704027175903, 'reward_std': 0.16457082517445087, 'kl': 2.21875, 'epoch': 0.71}
+ 71%|███████   | 3040/4286 [20:09:42<7:59:34, 23.09s/it] 71%|███████   | 3041/4286 [20:10:07<8:09:21, 23.58s/it]                                                        {'loss': 0.0425, 'grad_norm': 0.6888559071444849, 'learning_rate': 2.904806346243583e-07, 'completion_length': 447.8482360839844, 'rewards/only_full_func_accuracy_reward': 0.5825892686843872, 'rewards/format_reward': 1.0, 'reward': 1.5825893878936768, 'reward_std': 0.07220686040818691, 'kl': 1.0634765625, 'epoch': 0.71}
+ 71%|███████   | 3041/4286 [20:10:07<8:09:21, 23.58s/it] 71%|███████   | 3042/4286 [20:10:30<8:01:40, 23.23s/it]                                                        {'loss': 0.0019, 'grad_norm': 0.578958907266723, 'learning_rate': 2.902473168455436e-07, 'completion_length': 389.40179443359375, 'rewards/only_full_func_accuracy_reward': 0.6852679252624512, 'rewards/format_reward': 1.0, 'reward': 1.685267984867096, 'reward_std': 0.0630474854260683, 'kl': 0.046875, 'epoch': 0.71}
+ 71%|███████   | 3042/4286 [20:10:30<8:01:40, 23.23s/it] 71%|███████   | 3043/4286 [20:10:53<8:03:08, 23.32s/it]                                                        {'loss': 0.0036, 'grad_norm': 0.6747568926528341, 'learning_rate': 2.900139990667289e-07, 'completion_length': 409.6339416503906, 'rewards/only_full_func_accuracy_reward': 0.6465773582458496, 'rewards/format_reward': 1.0, 'reward': 1.646577537059784, 'reward_std': 0.028485408052802086, 'kl': 0.088623046875, 'epoch': 0.71}
+ 71%|███████   | 3043/4286 [20:10:53<8:03:08, 23.32s/it] 71%|███████   | 3044/4286 [20:11:17<8:03:41, 23.37s/it]                                                        {'loss': 0.0232, 'grad_norm': 3.582466754952788, 'learning_rate': 2.897806812879141e-07, 'completion_length': 412.61610412597656, 'rewards/only_full_func_accuracy_reward': 0.6361607313156128, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6272321939468384, 'reward_std': 0.10183927044272423, 'kl': 0.578125, 'epoch': 0.71}
+ 71%|███████   | 3044/4286 [20:11:17<8:03:41, 23.37s/it] 71%|███████   | 3045/4286 [20:11:40<8:03:30, 23.38s/it]                                                        {'loss': 0.012, 'grad_norm': 0.25813813533634605, 'learning_rate': 2.8954736350909937e-07, 'completion_length': 433.70538330078125, 'rewards/only_full_func_accuracy_reward': 0.7500000298023224, 'rewards/format_reward': 1.0, 'reward': 1.7500001192092896, 'reward_std': 0.024950437247753143, 'kl': 0.298828125, 'epoch': 0.71}
+ 71%|███████   | 3045/4286 [20:11:40<8:03:30, 23.38s/it] 71%|███████   | 3046/4286 [20:12:04<8:09:18, 23.68s/it]                                                        {'loss': 0.0115, 'grad_norm': 0.9932719951407527, 'learning_rate': 2.893140457302846e-07, 'completion_length': 384.96429443359375, 'rewards/only_full_func_accuracy_reward': 0.7589286267757416, 'rewards/format_reward': 1.0, 'reward': 1.758928656578064, 'reward_std': 0.03111080825328827, 'kl': 0.2874755859375, 'epoch': 0.71}
+ 71%|███████   | 3046/4286 [20:12:04<8:09:18, 23.68s/it] 71%|███████   | 3047/4286 [20:12:26<7:58:18, 23.16s/it]                                                        {'loss': 0.01, 'grad_norm': 0.40100312720287706, 'learning_rate': 2.8908072795146987e-07, 'completion_length': 353.17857360839844, 'rewards/only_full_func_accuracy_reward': 0.6119047403335571, 'rewards/format_reward': 1.0, 'reward': 1.6119049191474915, 'reward_std': 0.05296122282743454, 'kl': 0.2503662109375, 'epoch': 0.71}
+ 71%|███████   | 3047/4286 [20:12:26<7:58:18, 23.16s/it] 71%|███████   | 3048/4286 [20:12:48<7:50:32, 22.80s/it]                                                        {'loss': 0.0637, 'grad_norm': 1.2105891308488719, 'learning_rate': 2.8884741017265514e-07, 'completion_length': 314.6160888671875, 'rewards/only_full_func_accuracy_reward': 0.6845238506793976, 'rewards/format_reward': 1.0, 'reward': 1.6845239400863647, 'reward_std': 0.07124332152307034, 'kl': 1.58984375, 'epoch': 0.71}
+ 71%|███████   | 3048/4286 [20:12:48<7:50:32, 22.80s/it] 71%|███████   | 3049/4286 [20:13:12<7:57:59, 23.19s/it]                                                        {'loss': 0.0125, 'grad_norm': 1.1331612334577628, 'learning_rate': 2.8861409239384037e-07, 'completion_length': 412.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.8437500298023224, 'rewards/format_reward': 1.0, 'reward': 1.8437500596046448, 'reward_std': 0.07173153758049011, 'kl': 0.3111572265625, 'epoch': 0.71}
+ 71%|███████   | 3049/4286 [20:13:12<7:57:59, 23.19s/it] 71%|███████   | 3050/4286 [20:13:36<7:57:28, 23.18s/it]                                                        {'loss': 0.0115, 'grad_norm': 0.30447149914905486, 'learning_rate': 2.8838077461502564e-07, 'completion_length': 370.4464416503906, 'rewards/only_full_func_accuracy_reward': 0.7538691163063049, 'rewards/format_reward': 1.0, 'reward': 1.7538691759109497, 'reward_std': 0.02669426240026951, 'kl': 0.28759765625, 'epoch': 0.71}
+ 71%|███████   | 3050/4286 [20:13:36<7:57:28, 23.18s/it] 71%|███████   | 3051/4286 [20:13:59<7:57:23, 23.19s/it]                                                        {'loss': 0.0165, 'grad_norm': 1.138662608616651, 'learning_rate': 2.8814745683621086e-07, 'completion_length': 414.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.7607142329216003, 'rewards/format_reward': 1.0, 'reward': 1.7607144713401794, 'reward_std': 0.059991760179400444, 'kl': 0.4130859375, 'epoch': 0.71}
+ 71%|███████   | 3051/4286 [20:13:59<7:57:23, 23.19s/it] 71%|███████   | 3052/4286 [20:14:21<7:53:59, 23.05s/it]                                                        {'loss': 0.0457, 'grad_norm': 0.8914724550895404, 'learning_rate': 2.8791413905739614e-07, 'completion_length': 382.7410888671875, 'rewards/only_full_func_accuracy_reward': 0.7172619998455048, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7083335518836975, 'reward_std': 0.11234346590936184, 'kl': 1.14453125, 'epoch': 0.71}
+ 71%|███████   | 3052/4286 [20:14:21<7:53:59, 23.05s/it] 71%|███████   | 3053/4286 [20:14:47<8:07:32, 23.72s/it]                                                        {'loss': 0.0189, 'grad_norm': 0.5277856531762626, 'learning_rate': 2.876808212785814e-07, 'completion_length': 418.5714569091797, 'rewards/only_full_func_accuracy_reward': 0.5947917103767395, 'rewards/format_reward': 1.0, 'reward': 1.5947917103767395, 'reward_std': 0.048939247615635395, 'kl': 0.4697265625, 'epoch': 0.71}
+ 71%|███████   | 3053/4286 [20:14:47<8:07:32, 23.72s/it] 71%|███████▏  | 3054/4286 [20:15:08<7:53:35, 23.06s/it]                                                        {'loss': 0.002, 'grad_norm': 0.4294554720212421, 'learning_rate': 2.8744750349976664e-07, 'completion_length': 348.75001525878906, 'rewards/only_full_func_accuracy_reward': 0.5971726477146149, 'rewards/format_reward': 1.0, 'reward': 1.5971726775169373, 'reward_std': 0.0542577113956213, 'kl': 0.0498046875, 'epoch': 0.71}
+ 71%|███████▏  | 3054/4286 [20:15:08<7:53:35, 23.06s/it] 71%|███████▏  | 3055/4286 [20:15:33<8:01:59, 23.49s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.29418870492700205, 'learning_rate': 2.872141857209519e-07, 'completion_length': 403.5535888671875, 'rewards/only_full_func_accuracy_reward': 0.71577388048172, 'rewards/format_reward': 1.0, 'reward': 1.7157739400863647, 'reward_std': 0.012626906856894493, 'kl': 0.0394287109375, 'epoch': 0.71}
+ 71%|███████▏  | 3055/4286 [20:15:33<8:01:59, 23.49s/it] 71%|███████▏  | 3056/4286 [20:15:56<7:58:00, 23.32s/it]                                                        {'loss': 0.0181, 'grad_norm': 0.5016915195954917, 'learning_rate': 2.869808679421372e-07, 'completion_length': 371.2232360839844, 'rewards/only_full_func_accuracy_reward': 0.6808036267757416, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6718750596046448, 'reward_std': 0.07883967086672783, 'kl': 0.452392578125, 'epoch': 0.71}
+ 71%|███████▏  | 3056/4286 [20:15:56<7:58:00, 23.32s/it] 71%|███████▏  | 3057/4286 [20:16:20<8:03:00, 23.58s/it]                                                        {'loss': 0.0657, 'grad_norm': 6.769484675889455, 'learning_rate': 2.867475501633224e-07, 'completion_length': 396.3035888671875, 'rewards/only_full_func_accuracy_reward': 0.537202388048172, 'rewards/format_reward': 1.0, 'reward': 1.537202537059784, 'reward_std': 0.130874365568161, 'kl': 1.640625, 'epoch': 0.71}
+ 71%|███████▏  | 3057/4286 [20:16:20<8:03:00, 23.58s/it] 71%|███████▏  | 3058/4286 [20:16:43<8:02:37, 23.58s/it]                                                        {'loss': 0.0135, 'grad_norm': 0.6659439387153466, 'learning_rate': 2.865142323845077e-07, 'completion_length': 378.4196472167969, 'rewards/only_full_func_accuracy_reward': 0.7864584028720856, 'rewards/format_reward': 1.0, 'reward': 1.786458432674408, 'reward_std': 0.03156726714223623, 'kl': 0.33837890625, 'epoch': 0.71}
+ 71%|███████▏  | 3058/4286 [20:16:43<8:02:37, 23.58s/it] 71%|███████▏  | 3059/4286 [20:17:05<7:49:05, 22.94s/it]                                                        {'loss': 0.0278, 'grad_norm': 1.7270580384514362, 'learning_rate': 2.862809146056929e-07, 'completion_length': 326.04466247558594, 'rewards/only_full_func_accuracy_reward': 0.7110118865966797, 'rewards/format_reward': 1.0, 'reward': 1.7110120058059692, 'reward_std': 0.08332763239741325, 'kl': 0.693603515625, 'epoch': 0.71}
+ 71%|███████▏  | 3059/4286 [20:17:05<7:49:05, 22.94s/it] 71%|███████▏  | 3060/4286 [20:17:27<7:45:38, 22.79s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.2335798696927838, 'learning_rate': 2.860475968268782e-07, 'completion_length': 390.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.7514881789684296, 'rewards/format_reward': 1.0, 'reward': 1.751488208770752, 'reward_std': 0.023648573085665703, 'kl': 0.0399169921875, 'epoch': 0.71}
+ 71%|███████▏  | 3060/4286 [20:17:27<7:45:38, 22.79s/it] 71%|███████▏  | 3061/4286 [20:17:50<7:45:36, 22.81s/it]                                                        {'loss': 0.0435, 'grad_norm': 0.8180515701971669, 'learning_rate': 2.8581427904806346e-07, 'completion_length': 377.8214416503906, 'rewards/only_full_func_accuracy_reward': 0.68601194024086, 'rewards/format_reward': 1.0, 'reward': 1.6860120296478271, 'reward_std': 0.08222462236881256, 'kl': 1.0888671875, 'epoch': 0.71}
+ 71%|███████▏  | 3061/4286 [20:17:50<7:45:36, 22.81s/it] 71%|███████▏  | 3062/4286 [20:18:13<7:43:31, 22.72s/it]                                                        {'loss': 0.0174, 'grad_norm': 2.1618770693677742, 'learning_rate': 2.855809612692487e-07, 'completion_length': 377.3035888671875, 'rewards/only_full_func_accuracy_reward': 0.678571492433548, 'rewards/format_reward': 1.0, 'reward': 1.6785715818405151, 'reward_std': 0.06753742322325706, 'kl': 0.435791015625, 'epoch': 0.71}
+ 71%|███████▏  | 3062/4286 [20:18:13<7:43:31, 22.72s/it] 71%|███████▏  | 3063/4286 [20:18:36<7:46:34, 22.89s/it]                                                        {'loss': 0.0648, 'grad_norm': 1.4782620454542157, 'learning_rate': 2.8534764349043395e-07, 'completion_length': 387.3928680419922, 'rewards/only_full_func_accuracy_reward': 0.5235119163990021, 'rewards/format_reward': 1.0, 'reward': 1.5235119462013245, 'reward_std': 0.11315474659204483, 'kl': 1.626220703125, 'epoch': 0.71}
+ 71%|███████▏  | 3063/4286 [20:18:36<7:46:34, 22.89s/it] 71%|███████▏  | 3064/4286 [20:19:00<7:54:29, 23.30s/it]                                                        {'loss': 0.0448, 'grad_norm': 3.2872508623331123, 'learning_rate': 2.851143257116192e-07, 'completion_length': 410.26788330078125, 'rewards/only_full_func_accuracy_reward': 0.6525297462940216, 'rewards/format_reward': 1.0, 'reward': 1.6525298357009888, 'reward_std': 0.02407101448625326, 'kl': 1.1220703125, 'epoch': 0.71}
+ 71%|███████▏  | 3064/4286 [20:19:00<7:54:29, 23.30s/it] 72%|███████▏  | 3065/4286 [20:19:24<7:55:02, 23.34s/it]                                                        {'loss': 0.0324, 'grad_norm': 0.7860818328192859, 'learning_rate': 2.8488100793280445e-07, 'completion_length': 364.65179443359375, 'rewards/only_full_func_accuracy_reward': 0.8988095819950104, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.8720239400863647, 'reward_std': 0.06543753296136856, 'kl': 0.813232421875, 'epoch': 0.72}
+ 72%|███████▏  | 3065/4286 [20:19:24<7:55:02, 23.34s/it] 72%|███████▏  | 3066/4286 [20:19:48<8:00:13, 23.62s/it]                                                        {'loss': 0.0372, 'grad_norm': 1.6832420166544964, 'learning_rate': 2.846476901539897e-07, 'completion_length': 431.7857360839844, 'rewards/only_full_func_accuracy_reward': 0.660714328289032, 'rewards/format_reward': 1.0, 'reward': 1.6607144474983215, 'reward_std': 0.1067983228713274, 'kl': 0.9306640625, 'epoch': 0.72}
+ 72%|███████▏  | 3066/4286 [20:19:48<8:00:13, 23.62s/it] 72%|███████▏  | 3067/4286 [20:20:12<8:01:11, 23.68s/it]                                                        {'loss': 0.0262, 'grad_norm': 1.0243928536813585, 'learning_rate': 2.8441437237517495e-07, 'completion_length': 406.5089416503906, 'rewards/only_full_func_accuracy_reward': 0.7075893580913544, 'rewards/format_reward': 1.0, 'reward': 1.7075894474983215, 'reward_std': 0.08397849649190903, 'kl': 0.654296875, 'epoch': 0.72}
+ 72%|███████▏  | 3067/4286 [20:20:12<8:01:11, 23.68s/it] 72%|███████▏  | 3068/4286 [20:20:38<8:15:25, 24.41s/it]                                                        {'loss': 0.0591, 'grad_norm': 1.9811252350257107, 'learning_rate': 2.841810545963602e-07, 'completion_length': 456.89288330078125, 'rewards/only_full_func_accuracy_reward': 0.6751302778720856, 'rewards/format_reward': 0.973214328289032, 'reward': 1.64834463596344, 'reward_std': 0.1450590379536152, 'kl': 1.482421875, 'epoch': 0.72}
+ 72%|███████▏  | 3068/4286 [20:20:38<8:15:25, 24.41s/it] 72%|███████▏  | 3069/4286 [20:21:01<8:04:50, 23.90s/it]                                                        {'loss': 0.011, 'grad_norm': 0.8973388777175402, 'learning_rate': 2.8394773681754545e-07, 'completion_length': 375.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.761904776096344, 'rewards/format_reward': 1.0, 'reward': 1.7619049549102783, 'reward_std': 0.04469341691583395, 'kl': 0.276123046875, 'epoch': 0.72}
+ 72%|███████▏  | 3069/4286 [20:21:01<8:04:50, 23.90s/it] 72%|███████▏  | 3070/4286 [20:21:23<7:58:05, 23.59s/it]                                                        {'loss': 0.0126, 'grad_norm': 0.8589934176644823, 'learning_rate': 2.837144190387307e-07, 'completion_length': 374.5714416503906, 'rewards/only_full_func_accuracy_reward': 0.8132440447807312, 'rewards/format_reward': 1.0, 'reward': 1.8132441639900208, 'reward_std': 0.04809976741671562, 'kl': 0.31494140625, 'epoch': 0.72}
+ 72%|███████▏  | 3070/4286 [20:21:23<7:58:05, 23.59s/it] 72%|███████▏  | 3071/4286 [20:21:46<7:53:24, 23.38s/it]                                                        {'loss': 0.0129, 'grad_norm': 0.5009282139756769, 'learning_rate': 2.83481101259916e-07, 'completion_length': 385.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.7671131193637848, 'rewards/format_reward': 1.0, 'reward': 1.767113208770752, 'reward_std': 0.04268874879926443, 'kl': 0.3232421875, 'epoch': 0.72}
+ 72%|███████▏  | 3071/4286 [20:21:46<7:53:24, 23.38s/it] 72%|███████▏  | 3072/4286 [20:22:10<7:55:31, 23.50s/it]                                                        {'loss': 0.0229, 'grad_norm': 1.2683974353824172, 'learning_rate': 2.832477834811012e-07, 'completion_length': 386.0535888671875, 'rewards/only_full_func_accuracy_reward': 0.5788690894842148, 'rewards/format_reward': 1.0, 'reward': 1.578869104385376, 'reward_std': 0.032066511921584606, 'kl': 0.57421875, 'epoch': 0.72}
+ 72%|███████▏  | 3072/4286 [20:22:10<7:55:31, 23.50s/it] 72%|███████▏  | 3073/4286 [20:22:33<7:50:55, 23.29s/it]                                                        {'loss': 0.0717, 'grad_norm': 2.5099935103461792, 'learning_rate': 2.830144657022865e-07, 'completion_length': 350.35716247558594, 'rewards/only_full_func_accuracy_reward': 0.5915178954601288, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5825894474983215, 'reward_std': 0.12525533139705658, 'kl': 1.78515625, 'epoch': 0.72}
+ 72%|███████▏  | 3073/4286 [20:22:33<7:50:55, 23.29s/it] 72%|███████▏  | 3074/4286 [20:22:57<7:55:32, 23.54s/it]                                                        {'loss': 0.0306, 'grad_norm': 1.3882200165609302, 'learning_rate': 2.827811479234717e-07, 'completion_length': 420.5803680419922, 'rewards/only_full_func_accuracy_reward': 0.6845238208770752, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6666667461395264, 'reward_std': 0.10101525112986565, 'kl': 0.765625, 'epoch': 0.72}
+ 72%|███████▏  | 3074/4286 [20:22:57<7:55:32, 23.54s/it] 72%|███████▏  | 3075/4286 [20:23:22<8:04:28, 24.00s/it]                                                        {'loss': 0.0139, 'grad_norm': 7.843526207432085, 'learning_rate': 2.82547830144657e-07, 'completion_length': 462.35716247558594, 'rewards/only_full_func_accuracy_reward': 0.8062500357627869, 'rewards/format_reward': 1.0, 'reward': 1.8062500953674316, 'reward_std': 0.05264785513281822, 'kl': 0.34912109375, 'epoch': 0.72}
+ 72%|███████▏  | 3075/4286 [20:23:22<8:04:28, 24.00s/it] 72%|███████▏  | 3076/4286 [20:23:45<7:55:08, 23.56s/it]                                                        {'loss': 0.0252, 'grad_norm': 1.0192949994480367, 'learning_rate': 2.8231451236584227e-07, 'completion_length': 327.9018096923828, 'rewards/only_full_func_accuracy_reward': 0.7105655074119568, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7016370296478271, 'reward_std': 0.06636612676084042, 'kl': 0.630859375, 'epoch': 0.72}
+ 72%|███████▏  | 3076/4286 [20:23:45<7:55:08, 23.56s/it] 72%|███████▏  | 3077/4286 [20:24:08<7:53:56, 23.52s/it]                                                        {'loss': 0.0281, 'grad_norm': 2.0245770225106816, 'learning_rate': 2.820811945870275e-07, 'completion_length': 392.3303680419922, 'rewards/only_full_func_accuracy_reward': 0.8348215520381927, 'rewards/format_reward': 1.0, 'reward': 1.8348215222358704, 'reward_std': 0.0641320925205946, 'kl': 0.7041015625, 'epoch': 0.72}
+ 72%|███████▏  | 3077/4286 [20:24:08<7:53:56, 23.52s/it] 72%|███████▏  | 3078/4286 [20:24:31<7:49:01, 23.30s/it]                                                        {'loss': 0.0157, 'grad_norm': 0.3077770124798916, 'learning_rate': 2.8184787680821276e-07, 'completion_length': 359.39288330078125, 'rewards/only_full_func_accuracy_reward': 0.6770833432674408, 'rewards/format_reward': 1.0, 'reward': 1.677083432674408, 'reward_std': 0.01668419223278761, 'kl': 0.3935546875, 'epoch': 0.72}
+ 72%|███████▏  | 3078/4286 [20:24:31<7:49:01, 23.30s/it] 72%|███████▏  | 3079/4286 [20:24:52<7:36:57, 22.72s/it]                                                        {'loss': 0.0026, 'grad_norm': 0.43829658588462483, 'learning_rate': 2.8161455902939804e-07, 'completion_length': 345.8393096923828, 'rewards/only_full_func_accuracy_reward': 0.7596727609634399, 'rewards/format_reward': 1.0, 'reward': 1.75967276096344, 'reward_std': 0.03141390159726143, 'kl': 0.065185546875, 'epoch': 0.72}
+ 72%|███████▏  | 3079/4286 [20:24:52<7:36:57, 22.72s/it] 72%|███████▏  | 3080/4286 [20:25:16<7:42:58, 23.03s/it]                                                        {'loss': 0.0396, 'grad_norm': 0.577422842425814, 'learning_rate': 2.8138124125058326e-07, 'completion_length': 437.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.6773313879966736, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.668402910232544, 'reward_std': 0.07734496146440506, 'kl': 0.990234375, 'epoch': 0.72}
+ 72%|███████▏  | 3080/4286 [20:25:16<7:42:58, 23.03s/it] 72%|███████▏  | 3081/4286 [20:25:38<7:37:03, 22.76s/it]                                                        {'loss': 0.0282, 'grad_norm': 2.763768489214272, 'learning_rate': 2.8114792347176854e-07, 'completion_length': 371.0982360839844, 'rewards/only_full_func_accuracy_reward': 0.8358631134033203, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8269346356391907, 'reward_std': 0.09257953986525536, 'kl': 0.703125, 'epoch': 0.72}
+ 72%|███████▏  | 3081/4286 [20:25:38<7:37:03, 22.76s/it] 72%|███████▏  | 3082/4286 [20:26:03<7:51:10, 23.48s/it]                                                        {'loss': 0.0139, 'grad_norm': 0.6826452504637904, 'learning_rate': 2.8091460569295376e-07, 'completion_length': 453.66966247558594, 'rewards/only_full_func_accuracy_reward': 0.7968750596046448, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7879465818405151, 'reward_std': 0.06068380456417799, 'kl': 0.34619140625, 'epoch': 0.72}
+ 72%|███████▏  | 3082/4286 [20:26:03<7:51:10, 23.48s/it] 72%|███████▏  | 3083/4286 [20:26:26<7:46:13, 23.25s/it]                                                        {'loss': 0.0266, 'grad_norm': 0.583690085456969, 'learning_rate': 2.8068128791413903e-07, 'completion_length': 398.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.6588541865348816, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.649925708770752, 'reward_std': 0.06038198620080948, 'kl': 0.6640625, 'epoch': 0.72}
+ 72%|███████▏  | 3083/4286 [20:26:26<7:46:13, 23.25s/it] 72%|███████▏  | 3084/4286 [20:26:49<7:42:34, 23.09s/it]                                                        {'loss': 0.0016, 'grad_norm': 1.2040003562434145, 'learning_rate': 2.804479701353243e-07, 'completion_length': 394.5893096923828, 'rewards/only_full_func_accuracy_reward': 0.8632440567016602, 'rewards/format_reward': 1.0, 'reward': 1.863244116306305, 'reward_std': 0.016414979472756386, 'kl': 0.038818359375, 'epoch': 0.72}
+ 72%|███████▏  | 3084/4286 [20:26:49<7:42:34, 23.09s/it] 72%|███████▏  | 3085/4286 [20:27:11<7:37:11, 22.84s/it]                                                        {'loss': 0.0307, 'grad_norm': 0.8248342913061509, 'learning_rate': 2.8021465235650953e-07, 'completion_length': 340.75001525878906, 'rewards/only_full_func_accuracy_reward': 0.8668155372142792, 'rewards/format_reward': 1.0, 'reward': 1.8668156266212463, 'reward_std': 0.05261211469769478, 'kl': 0.767578125, 'epoch': 0.72}
+ 72%|███████▏  | 3085/4286 [20:27:11<7:37:11, 22.84s/it] 72%|███████▏  | 3086/4286 [20:27:33<7:29:46, 22.49s/it]                                                        {'loss': 0.0228, 'grad_norm': 4.485878642585892, 'learning_rate': 2.799813345776948e-07, 'completion_length': 352.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.8355655372142792, 'rewards/format_reward': 1.0, 'reward': 1.8355655670166016, 'reward_std': 0.039833519607782364, 'kl': 0.572265625, 'epoch': 0.72}
+ 72%|███████▏  | 3086/4286 [20:27:33<7:29:46, 22.49s/it] 72%|███████▏  | 3087/4286 [20:27:57<7:40:24, 23.04s/it]                                                        {'loss': 0.051, 'grad_norm': 3.2035774855738555, 'learning_rate': 2.7974801679888003e-07, 'completion_length': 413.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.6885417401790619, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6796132326126099, 'reward_std': 0.11737454310059547, 'kl': 1.279296875, 'epoch': 0.72}
+ 72%|███████▏  | 3087/4286 [20:27:57<7:40:24, 23.04s/it] 72%|███████▏  | 3088/4286 [20:28:21<7:44:02, 23.24s/it]                                                        {'loss': 0.042, 'grad_norm': 1.1197639474801087, 'learning_rate': 2.795146990200653e-07, 'completion_length': 417.60716247558594, 'rewards/only_full_func_accuracy_reward': 0.6659226417541504, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6480655670166016, 'reward_std': 0.11882214993238449, 'kl': 1.05078125, 'epoch': 0.72}
+ 72%|███████▏  | 3088/4286 [20:28:21<7:44:02, 23.24s/it] 72%|███████▏  | 3089/4286 [20:28:44<7:46:53, 23.40s/it]                                                        {'loss': 0.0019, 'grad_norm': 0.15435644377971572, 'learning_rate': 2.792813812412506e-07, 'completion_length': 425.9107360839844, 'rewards/only_full_func_accuracy_reward': 0.7261904776096344, 'rewards/format_reward': 1.0, 'reward': 1.7261906862258911, 'reward_std': 0.0, 'kl': 0.0467529296875, 'epoch': 0.72}
+ 72%|███████▏  | 3089/4286 [20:28:44<7:46:53, 23.40s/it] 72%|███████▏  | 3090/4286 [20:29:09<7:50:50, 23.62s/it]                                                        {'loss': 0.0532, 'grad_norm': 4.756742427964087, 'learning_rate': 2.790480634624358e-07, 'completion_length': 400.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.7306548058986664, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7217262983322144, 'reward_std': 0.10507509112358093, 'kl': 1.328125, 'epoch': 0.72}
+ 72%|███████▏  | 3090/4286 [20:29:09<7:50:50, 23.62s/it] 72%|███████▏  | 3091/4286 [20:29:33<7:53:31, 23.78s/it]                                                        {'loss': 0.0904, 'grad_norm': 1.4800120356756048, 'learning_rate': 2.788147456836211e-07, 'completion_length': 405.31251525878906, 'rewards/only_full_func_accuracy_reward': 0.7887581288814545, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.7530439496040344, 'reward_std': 0.24283523112535477, 'kl': 2.26171875, 'epoch': 0.72}
+ 72%|███████▏  | 3091/4286 [20:29:33<7:53:31, 23.78s/it] 72%|███████▏  | 3092/4286 [20:29:57<7:57:09, 23.98s/it]                                                        {'loss': 0.0573, 'grad_norm': 23.18483357833665, 'learning_rate': 2.785814279048063e-07, 'completion_length': 398.60716247558594, 'rewards/only_full_func_accuracy_reward': 0.6145833730697632, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6056548953056335, 'reward_std': 0.1225573979318142, 'kl': 1.4296875, 'epoch': 0.72}
+ 72%|███████▏  | 3092/4286 [20:29:57<7:57:09, 23.98s/it] 72%|███████▏  | 3093/4286 [20:30:20<7:50:43, 23.67s/it]                                                        {'loss': 0.0601, 'grad_norm': 1.9181640393514559, 'learning_rate': 2.7834811012599157e-07, 'completion_length': 401.0268096923828, 'rewards/only_full_func_accuracy_reward': 0.7482993304729462, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.730442225933075, 'reward_std': 0.1655345605686307, 'kl': 1.501953125, 'epoch': 0.72}
+ 72%|███████▏  | 3093/4286 [20:30:20<7:50:43, 23.67s/it] 72%|███████▏  | 3094/4286 [20:30:44<7:50:58, 23.71s/it]                                                        {'loss': 0.0928, 'grad_norm': 5.8605534114956, 'learning_rate': 2.7811479234717685e-07, 'completion_length': 394.3750305175781, 'rewards/only_full_func_accuracy_reward': 0.6845238208770752, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6755953431129456, 'reward_std': 0.14776801317930222, 'kl': 2.3203125, 'epoch': 0.72}
+ 72%|███████▏  | 3094/4286 [20:30:44<7:50:58, 23.71s/it] 72%|███████▏  | 3095/4286 [20:31:08<7:54:13, 23.89s/it]                                                        {'loss': 0.0704, 'grad_norm': 1.195973002434969, 'learning_rate': 2.7788147456836207e-07, 'completion_length': 411.0714569091797, 'rewards/only_full_func_accuracy_reward': 0.7008928656578064, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6830358505249023, 'reward_std': 0.14030573517084122, 'kl': 1.76171875, 'epoch': 0.72}
+ 72%|███████▏  | 3095/4286 [20:31:08<7:54:13, 23.89s/it] 72%|███████▏  | 3096/4286 [20:31:31<7:47:15, 23.56s/it]                                                        {'loss': 0.0476, 'grad_norm': 5.214528649860719, 'learning_rate': 2.7764815678954734e-07, 'completion_length': 357.6428680419922, 'rewards/only_full_func_accuracy_reward': 0.7345238029956818, 'rewards/format_reward': 1.0, 'reward': 1.7345238327980042, 'reward_std': 0.0827600508928299, 'kl': 1.1953125, 'epoch': 0.72}
+ 72%|███████▏  | 3096/4286 [20:31:31<7:47:15, 23.56s/it] 72%|███████▏  | 3097/4286 [20:31:55<7:49:00, 23.67s/it]                                                        {'loss': 0.1123, 'grad_norm': 2.2012206746452163, 'learning_rate': 2.7741483901073257e-07, 'completion_length': 380.8928680419922, 'rewards/only_full_func_accuracy_reward': 0.7242063283920288, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7063493132591248, 'reward_std': 0.18427888676524162, 'kl': 2.80859375, 'epoch': 0.72}
+ 72%|███████▏  | 3097/4286 [20:31:55<7:49:00, 23.67s/it] 72%|███████▏  | 3098/4286 [20:32:18<7:47:08, 23.59s/it]                                                        {'loss': 0.0872, 'grad_norm': 3.926018200917034, 'learning_rate': 2.7718152123191784e-07, 'completion_length': 386.3839416503906, 'rewards/only_full_func_accuracy_reward': 0.7998512387275696, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.79092276096344, 'reward_std': 0.1689126044511795, 'kl': 2.1796875, 'epoch': 0.72}
+ 72%|███████▏  | 3098/4286 [20:32:18<7:47:08, 23.59s/it] 72%|███████▏  | 3099/4286 [20:32:41<7:43:30, 23.43s/it]                                                        {'loss': 0.0993, 'grad_norm': 2.9941050726311267, 'learning_rate': 2.769482034531031e-07, 'completion_length': 386.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.805059552192688, 'rewards/format_reward': 1.0, 'reward': 1.8050596117973328, 'reward_std': 0.09416589140892029, 'kl': 2.4765625, 'epoch': 0.72}
+ 72%|███████▏  | 3099/4286 [20:32:41<7:43:30, 23.43s/it] 72%|███████▏  | 3100/4286 [20:33:07<7:53:37, 23.96s/it]                                                        {'loss': 0.1564, 'grad_norm': 5.506323453631034, 'learning_rate': 2.7671488567428834e-07, 'completion_length': 395.2410888671875, 'rewards/only_full_func_accuracy_reward': 0.6731647551059723, 'rewards/format_reward': 0.9375000298023224, 'reward': 1.6106647849082947, 'reward_std': 0.22910881787538528, 'kl': 3.90625, 'epoch': 0.72}
+ 72%|███████▏  | 3100/4286 [20:33:07<7:53:37, 23.96s/it] 72%|███████▏  | 3101/4286 [20:35:32<19:54:23, 60.48s/it]                                                         {'loss': 0.0619, 'grad_norm': 2.5885770010708398, 'learning_rate': 2.764815678954736e-07, 'completion_length': 429.5178680419922, 'rewards/only_full_func_accuracy_reward': 0.6101190447807312, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6011905670166016, 'reward_std': 0.1257200986146927, 'kl': 1.546875, 'epoch': 0.72}
+ 72%|███████▏  | 3101/4286 [20:35:32<19:54:23, 60.48s/it] 72%|███████▏  | 3102/4286 [20:35:56<16:17:56, 49.56s/it]                                                         {'loss': 0.0531, 'grad_norm': 1.8572058423546778, 'learning_rate': 2.762482501166589e-07, 'completion_length': 395.21429443359375, 'rewards/only_full_func_accuracy_reward': 0.5642857253551483, 'rewards/format_reward': 0.973214328289032, 'reward': 1.537500023841858, 'reward_std': 0.10022735968232155, 'kl': 1.32421875, 'epoch': 0.72}
+ 72%|███████▏  | 3102/4286 [20:35:56<16:17:56, 49.56s/it] 72%|███████▏  | 3103/4286 [20:36:18<13:34:11, 41.29s/it]                                                         {'loss': 0.0082, 'grad_norm': 0.793201632368901, 'learning_rate': 2.760149323378441e-07, 'completion_length': 345.7143096923828, 'rewards/only_full_func_accuracy_reward': 0.5974703133106232, 'rewards/format_reward': 1.0, 'reward': 1.5974703431129456, 'reward_std': 0.057187143713235855, 'kl': 0.204833984375, 'epoch': 0.72}
+ 72%|███████▏  | 3103/4286 [20:36:18<13:34:11, 41.29s/it] 72%|███████▏  | 3104/4286 [20:36:42<11:49:40, 36.02s/it]                                                         {'loss': 0.0628, 'grad_norm': 2.4898622961090267, 'learning_rate': 2.757816145590294e-07, 'completion_length': 416.1518096923828, 'rewards/only_full_func_accuracy_reward': 0.6942956447601318, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.6675100326538086, 'reward_std': 0.18999222666025162, 'kl': 1.57421875, 'epoch': 0.72}
+ 72%|███████▏  | 3104/4286 [20:36:42<11:49:40, 36.02s/it] 72%|███████▏  | 3105/4286 [20:37:08<10:49:35, 33.00s/it]                                                         {'loss': 0.0152, 'grad_norm': 2.6045900605033743, 'learning_rate': 2.755482967802146e-07, 'completion_length': 448.2232360839844, 'rewards/only_full_func_accuracy_reward': 0.649702399969101, 'rewards/format_reward': 1.0, 'reward': 1.649702548980713, 'reward_std': 0.048180725425481796, 'kl': 0.3818359375, 'epoch': 0.72}
+ 72%|███████▏  | 3105/4286 [20:37:08<10:49:35, 33.00s/it] 72%|███████▏  | 3106/4286 [20:37:33<9:59:57, 30.51s/it]                                                         {'loss': 0.0612, 'grad_norm': 2.398716669057391, 'learning_rate': 2.753149790013999e-07, 'completion_length': 391.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.805059552192688, 'rewards/format_reward': 1.0, 'reward': 1.8050596714019775, 'reward_std': 0.03714730963110924, 'kl': 1.52734375, 'epoch': 0.72}
+ 72%|███████▏  | 3106/4286 [20:37:33<9:59:57, 30.51s/it] 72%|███████▏  | 3107/4286 [20:37:58<9:28:52, 28.95s/it]                                                        {'loss': 0.0117, 'grad_norm': 0.814254648638534, 'learning_rate': 2.7508166122258516e-07, 'completion_length': 459.54466247558594, 'rewards/only_full_func_accuracy_reward': 0.6555059552192688, 'rewards/format_reward': 1.0, 'reward': 1.6555060744285583, 'reward_std': 0.018636051565408707, 'kl': 0.2921142578125, 'epoch': 0.72}
+ 72%|███████▏  | 3107/4286 [20:37:58<9:28:52, 28.95s/it] 73%|███████▎  | 3108/4286 [20:38:22<8:56:17, 27.32s/it]                                                        {'loss': 0.3747, 'grad_norm': 9464.142089794108, 'learning_rate': 2.748483434437704e-07, 'completion_length': 381.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.6773809790611267, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6684525609016418, 'reward_std': 0.08757542073726654, 'kl': 9.39794921875, 'epoch': 0.73}
+ 73%|███████▎  | 3108/4286 [20:38:22<8:56:17, 27.32s/it] 73%|███████▎  | 3109/4286 [20:38:47<8:46:32, 26.84s/it]                                                        {'loss': 0.0248, 'grad_norm': 0.45787765734525987, 'learning_rate': 2.7461502566495566e-07, 'completion_length': 444.16966247558594, 'rewards/only_full_func_accuracy_reward': 0.7221115231513977, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.6953259706497192, 'reward_std': 0.12367648631334305, 'kl': 0.620361328125, 'epoch': 0.73}
+ 73%|███████▎  | 3109/4286 [20:38:47<8:46:32, 26.84s/it] 73%|███████▎  | 3110/4286 [20:39:11<8:27:57, 25.92s/it]                                                        {'loss': 0.074, 'grad_norm': 2.5337114479578373, 'learning_rate': 2.743817078861409e-07, 'completion_length': 342.0535888671875, 'rewards/only_full_func_accuracy_reward': 0.7579985857009888, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.731212854385376, 'reward_std': 0.17200331017374992, 'kl': 1.8515625, 'epoch': 0.73}
+ 73%|███████▎  | 3110/4286 [20:39:11<8:27:57, 25.92s/it] 73%|███████▎  | 3111/4286 [20:39:35<8:13:47, 25.21s/it]                                                        {'loss': 0.0895, 'grad_norm': 2.6096307183117102, 'learning_rate': 2.7414839010732615e-07, 'completion_length': 407.04466247558594, 'rewards/only_full_func_accuracy_reward': 0.6294642984867096, 'rewards/format_reward': 0.973214328289032, 'reward': 1.6026785969734192, 'reward_std': 0.17777688056230545, 'kl': 2.234375, 'epoch': 0.73}
+ 73%|███████▎  | 3111/4286 [20:39:35<8:13:47, 25.21s/it] 73%|███████▎  | 3112/4286 [20:39:58<8:01:20, 24.60s/it]                                                        {'loss': 0.0325, 'grad_norm': 1.0133120454825268, 'learning_rate': 2.7391507232851143e-07, 'completion_length': 387.6428680419922, 'rewards/only_full_func_accuracy_reward': 0.7916666567325592, 'rewards/format_reward': 1.0, 'reward': 1.7916668057441711, 'reward_std': 0.05846956931054592, 'kl': 0.80859375, 'epoch': 0.73}
+ 73%|███████▎  | 3112/4286 [20:39:58<8:01:20, 24.60s/it] 73%|███████▎  | 3113/4286 [20:40:22<7:56:18, 24.36s/it]                                                        {'loss': 0.0241, 'grad_norm': 1.5259875492395771, 'learning_rate': 2.7368175454969665e-07, 'completion_length': 423.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.6696428954601288, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6607143878936768, 'reward_std': 0.1017833799123764, 'kl': 0.599853515625, 'epoch': 0.73}
+ 73%|███████▎  | 3113/4286 [20:40:22<7:56:18, 24.36s/it] 73%|███████▎  | 3114/4286 [20:40:44<7:42:55, 23.70s/it]                                                        {'loss': 0.0237, 'grad_norm': 0.5078110719593105, 'learning_rate': 2.7344843677088193e-07, 'completion_length': 362.2232360839844, 'rewards/only_full_func_accuracy_reward': 0.6897321939468384, 'rewards/format_reward': 1.0, 'reward': 1.6897322535514832, 'reward_std': 0.03156726714223623, 'kl': 0.593505859375, 'epoch': 0.73}
+ 73%|███████▎  | 3114/4286 [20:40:44<7:42:55, 23.70s/it] 73%|███████▎  | 3115/4286 [20:41:07<7:40:28, 23.59s/it]                                                        {'loss': 0.0418, 'grad_norm': 1.9388338236400977, 'learning_rate': 2.7321511899206715e-07, 'completion_length': 376.1339416503906, 'rewards/only_full_func_accuracy_reward': 0.6473214328289032, 'rewards/format_reward': 1.0, 'reward': 1.6473215818405151, 'reward_std': 0.0822272039949894, 'kl': 1.048828125, 'epoch': 0.73}
+ 73%|███████▎  | 3115/4286 [20:41:07<7:40:28, 23.59s/it] 73%|███████▎  | 3116/4286 [20:41:32<7:45:29, 23.87s/it]                                                        {'loss': 0.0242, 'grad_norm': 0.8870612404335342, 'learning_rate': 2.729818012132524e-07, 'completion_length': 428.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.6566964685916901, 'rewards/format_reward': 1.0, 'reward': 1.6566965579986572, 'reward_std': 0.06898248009383678, 'kl': 0.6102294921875, 'epoch': 0.73}
+ 73%|███████▎  | 3116/4286 [20:41:32<7:45:29, 23.87s/it] 73%|███████▎  | 3117/4286 [20:41:55<7:40:13, 23.62s/it]                                                        {'loss': 0.016, 'grad_norm': 0.6241472829765974, 'learning_rate': 2.727484834344377e-07, 'completion_length': 408.1428680419922, 'rewards/only_full_func_accuracy_reward': 0.7589286267757416, 'rewards/format_reward': 1.0, 'reward': 1.7589287161827087, 'reward_std': 0.02089315839111805, 'kl': 0.396240234375, 'epoch': 0.73}
+ 73%|███████▎  | 3117/4286 [20:41:55<7:40:13, 23.62s/it] 73%|███████▎  | 3118/4286 [20:42:18<7:40:18, 23.65s/it]                                                        {'loss': 0.0198, 'grad_norm': 2.1661396285394985, 'learning_rate': 2.725151656556229e-07, 'completion_length': 375.5893096923828, 'rewards/only_full_func_accuracy_reward': 0.7581846117973328, 'rewards/format_reward': 1.0, 'reward': 1.7581846714019775, 'reward_std': 0.03903221990913153, 'kl': 0.4951171875, 'epoch': 0.73}
+ 73%|███████▎  | 3118/4286 [20:42:18<7:40:18, 23.65s/it] 73%|███████▎  | 3119/4286 [20:42:41<7:35:46, 23.43s/it]                                                        {'loss': 0.0159, 'grad_norm': 1.2562962604601753, 'learning_rate': 2.722818478768082e-07, 'completion_length': 401.6518096923828, 'rewards/only_full_func_accuracy_reward': 0.7172619104385376, 'rewards/format_reward': 1.0, 'reward': 1.7172620296478271, 'reward_std': 0.049999773502349854, 'kl': 0.398193359375, 'epoch': 0.73}
+ 73%|███████▎  | 3119/4286 [20:42:41<7:35:46, 23.43s/it] 73%|███████▎  | 3120/4286 [20:43:05<7:37:40, 23.55s/it]                                                        {'loss': 0.0014, 'grad_norm': 0.5300793347686229, 'learning_rate': 2.720485300979934e-07, 'completion_length': 407.0268096923828, 'rewards/only_full_func_accuracy_reward': 0.6992560029029846, 'rewards/format_reward': 1.0, 'reward': 1.6992560625076294, 'reward_std': 0.029058635234832764, 'kl': 0.034912109375, 'epoch': 0.73}
+ 73%|███████▎  | 3120/4286 [20:43:05<7:37:40, 23.55s/it] 73%|███████▎  | 3121/4286 [20:43:27<7:27:44, 23.06s/it]                                                        {'loss': 0.0141, 'grad_norm': 8.494945239072681, 'learning_rate': 2.718152123191787e-07, 'completion_length': 345.4464416503906, 'rewards/only_full_func_accuracy_reward': 0.567708358168602, 'rewards/format_reward': 1.0, 'reward': 1.567708432674408, 'reward_std': 0.0409589447081089, 'kl': 0.3505859375, 'epoch': 0.73}
+ 73%|███████▎  | 3121/4286 [20:43:27<7:27:44, 23.06s/it] 73%|███████▎  | 3122/4286 [20:43:50<7:25:17, 22.95s/it]                                                        {'loss': 0.0055, 'grad_norm': 1.3377568779429911, 'learning_rate': 2.7158189454036397e-07, 'completion_length': 367.1964416503906, 'rewards/only_full_func_accuracy_reward': 0.6190476417541504, 'rewards/format_reward': 1.0, 'reward': 1.6190477013587952, 'reward_std': 0.06222161650657654, 'kl': 0.1370849609375, 'epoch': 0.73}
+ 73%|███████▎  | 3122/4286 [20:43:50<7:25:17, 22.95s/it] 73%|███████▎  | 3123/4286 [20:44:12<7:18:47, 22.64s/it]                                                        {'loss': 0.0137, 'grad_norm': 0.5494641214038634, 'learning_rate': 2.713485767615492e-07, 'completion_length': 351.6160888671875, 'rewards/only_full_func_accuracy_reward': 0.727678656578064, 'rewards/format_reward': 1.0, 'reward': 1.727678656578064, 'reward_std': 0.04306511580944061, 'kl': 0.343994140625, 'epoch': 0.73}
+ 73%|███████▎  | 3123/4286 [20:44:12<7:18:47, 22.64s/it] 73%|███████▎  | 3124/4286 [20:44:34<7:18:32, 22.64s/it]                                                        {'loss': 0.002, 'grad_norm': 0.9263278346990229, 'learning_rate': 2.7111525898273447e-07, 'completion_length': 367.8571472167969, 'rewards/only_full_func_accuracy_reward': 0.601934552192688, 'rewards/format_reward': 1.0, 'reward': 1.6019346714019775, 'reward_std': 0.03535132855176926, 'kl': 0.05029296875, 'epoch': 0.73}
+ 73%|███████▎  | 3124/4286 [20:44:34<7:18:32, 22.64s/it] 73%|███████▎  | 3125/4286 [20:44:57<7:15:39, 22.52s/it]                                                        {'loss': 0.0213, 'grad_norm': 12.188111242738588, 'learning_rate': 2.7088194120391974e-07, 'completion_length': 365.7768096923828, 'rewards/only_full_func_accuracy_reward': 0.7589286267757416, 'rewards/format_reward': 1.0, 'reward': 1.758928656578064, 'reward_std': 0.07267757877707481, 'kl': 0.53125, 'epoch': 0.73}
+ 73%|███████▎  | 3125/4286 [20:44:57<7:15:39, 22.52s/it] 73%|███████▎  | 3126/4286 [20:45:20<7:23:21, 22.93s/it]                                                        {'loss': 0.0062, 'grad_norm': 1.9261486058456148, 'learning_rate': 2.7064862342510496e-07, 'completion_length': 423.92860412597656, 'rewards/only_full_func_accuracy_reward': 0.7648809552192688, 'rewards/format_reward': 1.0, 'reward': 1.7648810744285583, 'reward_std': 0.037980539724230766, 'kl': 0.154052734375, 'epoch': 0.73}
+ 73%|███████▎  | 3126/4286 [20:45:20<7:23:21, 22.93s/it] 73%|███████▎  | 3127/4286 [20:45:43<7:20:19, 22.79s/it]                                                        {'loss': 0.0046, 'grad_norm': 0.8344123006964274, 'learning_rate': 2.7041530564629024e-07, 'completion_length': 362.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.7559523582458496, 'rewards/format_reward': 1.0, 'reward': 1.7559524774551392, 'reward_std': 0.0, 'kl': 0.1151123046875, 'epoch': 0.73}
+ 73%|███████▎  | 3127/4286 [20:45:43<7:20:19, 22.79s/it] 73%|███████▎  | 3128/4286 [20:46:09<7:37:50, 23.72s/it]                                                        {'loss': 0.0116, 'grad_norm': 0.7229735781146116, 'learning_rate': 2.7018198786747546e-07, 'completion_length': 438.66966247558594, 'rewards/only_full_func_accuracy_reward': 0.7930059731006622, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.784077525138855, 'reward_std': 0.07176888175308704, 'kl': 0.2890625, 'epoch': 0.73}
+ 73%|███████▎  | 3128/4286 [20:46:09<7:37:50, 23.72s/it] 73%|███████▎  | 3129/4286 [20:46:33<7:40:49, 23.90s/it]                                                        {'loss': 0.0115, 'grad_norm': 0.8325820828253743, 'learning_rate': 2.6994867008866074e-07, 'completion_length': 411.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.708482176065445, 'rewards/format_reward': 1.0, 'reward': 1.7084822058677673, 'reward_std': 0.051213838160037994, 'kl': 0.2879638671875, 'epoch': 0.73}
+ 73%|███████▎  | 3129/4286 [20:46:33<7:40:49, 23.90s/it] 73%|███████▎  | 3130/4286 [20:46:57<7:40:43, 23.91s/it]                                                        {'loss': 0.0114, 'grad_norm': 1.2309656993703362, 'learning_rate': 2.69715352309846e-07, 'completion_length': 382.0893096923828, 'rewards/only_full_func_accuracy_reward': 0.8102678954601288, 'rewards/format_reward': 1.0, 'reward': 1.8102679252624512, 'reward_std': 0.08366601169109344, 'kl': 0.2857666015625, 'epoch': 0.73}
+ 73%|███████▎  | 3130/4286 [20:46:57<7:40:43, 23.91s/it] 73%|███████▎  | 3131/4286 [20:47:20<7:35:38, 23.67s/it]                                                        {'loss': 0.0302, 'grad_norm': 2.876320907787018, 'learning_rate': 2.6948203453103123e-07, 'completion_length': 383.66966247558594, 'rewards/only_full_func_accuracy_reward': 0.6867560148239136, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6778274774551392, 'reward_std': 0.12653597071766853, 'kl': 0.75390625, 'epoch': 0.73}
+ 73%|███████▎  | 3131/4286 [20:47:20<7:35:38, 23.67s/it] 73%|███████▎  | 3132/4286 [20:47:42<7:21:44, 22.97s/it]                                                        {'loss': 0.0099, 'grad_norm': 0.9981772894312217, 'learning_rate': 2.692487167522165e-07, 'completion_length': 372.5803680419922, 'rewards/only_full_func_accuracy_reward': 0.6250000298023224, 'rewards/format_reward': 1.0, 'reward': 1.6250001192092896, 'reward_std': 0.06095472536981106, 'kl': 0.2459716796875, 'epoch': 0.73}
+ 73%|███████▎  | 3132/4286 [20:47:42<7:21:44, 22.97s/it] 73%|███████▎  | 3133/4286 [20:48:05<7:22:32, 23.03s/it]                                                        {'loss': 0.026, 'grad_norm': 2.0070532008960016, 'learning_rate': 2.6901539897340173e-07, 'completion_length': 389.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.6502976417541504, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6413691639900208, 'reward_std': 0.06294295564293861, 'kl': 0.64990234375, 'epoch': 0.73}
+ 73%|███████▎  | 3133/4286 [20:48:05<7:22:32, 23.03s/it] 73%|███████▎  | 3134/4286 [20:48:28<7:26:36, 23.26s/it]                                                        {'loss': 0.0325, 'grad_norm': 1.175677987429352, 'learning_rate': 2.68782081194587e-07, 'completion_length': 360.67857360839844, 'rewards/only_full_func_accuracy_reward': 0.704017847776413, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6950893998146057, 'reward_std': 0.06702242442406714, 'kl': 0.814453125, 'epoch': 0.73}
+ 73%|███████▎  | 3134/4286 [20:48:28<7:26:36, 23.26s/it] 73%|███████▎  | 3135/4286 [20:48:53<7:34:02, 23.67s/it]                                                        {'loss': 0.0282, 'grad_norm': 2.3151336763333314, 'learning_rate': 2.685487634157723e-07, 'completion_length': 409.5268096923828, 'rewards/only_full_func_accuracy_reward': 0.6458333432674408, 'rewards/format_reward': 1.0, 'reward': 1.645833432674408, 'reward_std': 0.01555540319532156, 'kl': 0.7044677734375, 'epoch': 0.73}
+ 73%|███████▎  | 3135/4286 [20:48:53<7:34:02, 23.67s/it] 73%|███████▎  | 3136/4286 [20:49:17<7:36:35, 23.82s/it]                                                        {'loss': 0.0095, 'grad_norm': 1.6104256459514306, 'learning_rate': 2.683154456369575e-07, 'completion_length': 419.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.720982164144516, 'rewards/format_reward': 1.0, 'reward': 1.7209822535514832, 'reward_std': 0.059236323460936546, 'kl': 0.2379150390625, 'epoch': 0.73}
+ 73%|███████▎  | 3136/4286 [20:49:17<7:36:35, 23.82s/it] 73%|███████▎  | 3137/4286 [20:49:40<7:31:35, 23.58s/it]                                                        {'loss': 0.0215, 'grad_norm': 1.019762386285237, 'learning_rate': 2.680821278581428e-07, 'completion_length': 384.2053680419922, 'rewards/only_full_func_accuracy_reward': 0.8065476417541504, 'rewards/format_reward': 1.0, 'reward': 1.8065477013587952, 'reward_std': 0.08226430043578148, 'kl': 0.537109375, 'epoch': 0.73}
+ 73%|███████▎  | 3137/4286 [20:49:40<7:31:35, 23.58s/it] 73%|███████▎  | 3138/4286 [20:50:04<7:32:21, 23.64s/it]                                                        {'loss': 0.0131, 'grad_norm': 0.6193617053412491, 'learning_rate': 2.67848810079328e-07, 'completion_length': 434.6339416503906, 'rewards/only_full_func_accuracy_reward': 0.8005952835083008, 'rewards/format_reward': 1.0, 'reward': 1.8005953431129456, 'reward_std': 0.03111080639064312, 'kl': 0.330322265625, 'epoch': 0.73}
+ 73%|███████▎  | 3138/4286 [20:50:04<7:32:21, 23.64s/it] 73%|███████▎  | 3139/4286 [20:50:29<7:37:25, 23.93s/it]                                                        {'loss': 0.0559, 'grad_norm': 1.9463962980067726, 'learning_rate': 2.676154923005133e-07, 'completion_length': 439.23216247558594, 'rewards/only_full_func_accuracy_reward': 0.6953870058059692, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6775299310684204, 'reward_std': 0.09758832259103656, 'kl': 1.392578125, 'epoch': 0.73}
+ 73%|███████▎  | 3139/4286 [20:50:29<7:37:25, 23.93s/it] 73%|███████▎  | 3140/4286 [20:50:53<7:38:42, 24.02s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.5298842897594451, 'learning_rate': 2.6738217452169855e-07, 'completion_length': 381.7410888671875, 'rewards/only_full_func_accuracy_reward': 0.8139881491661072, 'rewards/format_reward': 1.0, 'reward': 1.8139882683753967, 'reward_std': 0.047923050820827484, 'kl': 0.04150390625, 'epoch': 0.73}
+ 73%|███████▎  | 3140/4286 [20:50:53<7:38:42, 24.02s/it] 73%|███████▎  | 3141/4286 [20:51:16<7:31:05, 23.64s/it]                                                        {'loss': 0.0338, 'grad_norm': 1.8615030695684256, 'learning_rate': 2.671488567428838e-07, 'completion_length': 391.5535888671875, 'rewards/only_full_func_accuracy_reward': 0.5610119700431824, 'rewards/format_reward': 1.0, 'reward': 1.5610119700431824, 'reward_std': 0.039883431512862444, 'kl': 0.846923828125, 'epoch': 0.73}
+ 73%|███████▎  | 3141/4286 [20:51:16<7:31:05, 23.64s/it] 73%|███████▎  | 3142/4286 [20:51:39<7:29:28, 23.57s/it]                                                        {'loss': 0.0253, 'grad_norm': 1.5966666135660146, 'learning_rate': 2.6691553896406905e-07, 'completion_length': 379.76788330078125, 'rewards/only_full_func_accuracy_reward': 0.7388392984867096, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7299107909202576, 'reward_std': 0.08741096779704094, 'kl': 0.6328125, 'epoch': 0.73}
+ 73%|███████▎  | 3142/4286 [20:51:39<7:29:28, 23.57s/it] 73%|███████▎  | 3143/4286 [20:52:02<7:27:28, 23.49s/it]                                                        {'loss': 0.0236, 'grad_norm': 0.8925274814532328, 'learning_rate': 2.6668222118525427e-07, 'completion_length': 362.5535888671875, 'rewards/only_full_func_accuracy_reward': 0.7485118806362152, 'rewards/format_reward': 1.0, 'reward': 1.748512089252472, 'reward_std': 0.04871416371315718, 'kl': 0.587890625, 'epoch': 0.73}
+ 73%|███████▎  | 3143/4286 [20:52:02<7:27:28, 23.49s/it] 73%|███████▎  | 3144/4286 [20:52:26<7:29:49, 23.63s/it]                                                        {'loss': 0.0367, 'grad_norm': 0.6716558684596229, 'learning_rate': 2.6644890340643955e-07, 'completion_length': 407.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.691964328289032, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6830358505249023, 'reward_std': 0.03788072057068348, 'kl': 0.91796875, 'epoch': 0.73}
+ 73%|███████▎  | 3144/4286 [20:52:26<7:29:49, 23.63s/it] 73%|███████▎  | 3145/4286 [20:52:49<7:22:35, 23.27s/it]                                                        {'loss': 0.0013, 'grad_norm': 0.31119599469523357, 'learning_rate': 2.662155856276248e-07, 'completion_length': 389.8839416503906, 'rewards/only_full_func_accuracy_reward': 0.819196492433548, 'rewards/format_reward': 1.0, 'reward': 1.8191965818405151, 'reward_std': 0.024797352962195873, 'kl': 0.03228759765625, 'epoch': 0.73}
+ 73%|███████▎  | 3145/4286 [20:52:49<7:22:35, 23.27s/it] 73%|███████▎  | 3146/4286 [20:53:12<7:22:47, 23.30s/it]                                                        {'loss': 0.0165, 'grad_norm': 1.206704782010634, 'learning_rate': 2.6598226784881004e-07, 'completion_length': 405.08929443359375, 'rewards/only_full_func_accuracy_reward': 0.7316964566707611, 'rewards/format_reward': 1.0, 'reward': 1.731696605682373, 'reward_std': 0.07149028778076172, 'kl': 0.41064453125, 'epoch': 0.73}
+ 73%|███████▎  | 3146/4286 [20:53:12<7:22:47, 23.30s/it] 73%|███████▎  | 3147/4286 [20:53:35<7:21:29, 23.26s/it]                                                        {'loss': 0.0178, 'grad_norm': 0.7796393818297789, 'learning_rate': 2.657489500699953e-07, 'completion_length': 398.1428680419922, 'rewards/only_full_func_accuracy_reward': 0.6324405372142792, 'rewards/format_reward': 1.0, 'reward': 1.6324405670166016, 'reward_std': 0.04569191485643387, 'kl': 0.443359375, 'epoch': 0.73}
+ 73%|███████▎  | 3147/4286 [20:53:35<7:21:29, 23.26s/it] 73%|███████▎  | 3148/4286 [20:53:58<7:18:10, 23.10s/it]                                                        {'loss': 0.0179, 'grad_norm': 1.0092806328734167, 'learning_rate': 2.655156322911806e-07, 'completion_length': 380.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.8058036267757416, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7968751192092896, 'reward_std': 0.08050267398357391, 'kl': 0.44677734375, 'epoch': 0.73}
+ 73%|███████▎  | 3148/4286 [20:53:58<7:18:10, 23.10s/it] 73%|███████▎  | 3149/4286 [20:54:22<7:20:32, 23.25s/it]                                                        {'loss': 0.0125, 'grad_norm': 1.4248276323268716, 'learning_rate': 2.652823145123658e-07, 'completion_length': 414.9910888671875, 'rewards/only_full_func_accuracy_reward': 0.6986607611179352, 'rewards/format_reward': 1.0, 'reward': 1.6986608505249023, 'reward_std': 0.01733511872589588, 'kl': 0.3125, 'epoch': 0.73}
+ 73%|███████▎  | 3149/4286 [20:54:22<7:20:32, 23.25s/it] 73%|███████▎  | 3150/4286 [20:54:45<7:23:28, 23.42s/it]                                                        {'loss': 0.0076, 'grad_norm': 0.36496379765973835, 'learning_rate': 2.650489967335511e-07, 'completion_length': 401.5803680419922, 'rewards/only_full_func_accuracy_reward': 0.8105654716491699, 'rewards/format_reward': 1.0, 'reward': 1.8105655908584595, 'reward_std': 0.04131453298032284, 'kl': 0.1903076171875, 'epoch': 0.73}
+ 73%|███████▎  | 3150/4286 [20:54:45<7:23:28, 23.42s/it] 74%|███████▎  | 3151/4286 [20:55:08<7:19:43, 23.25s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.5299518032094397, 'learning_rate': 2.648156789547363e-07, 'completion_length': 351.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.7105655372142792, 'rewards/format_reward': 1.0, 'reward': 1.7105655670166016, 'reward_std': 0.025774452835321426, 'kl': 0.0460205078125, 'epoch': 0.74}
+ 74%|███████▎  | 3151/4286 [20:55:08<7:19:43, 23.25s/it] 74%|███████▎  | 3152/4286 [20:55:32<7:21:34, 23.36s/it]                                                        {'loss': 0.0088, 'grad_norm': 0.6290614699586289, 'learning_rate': 2.645823611759216e-07, 'completion_length': 420.6785888671875, 'rewards/only_full_func_accuracy_reward': 0.6622024178504944, 'rewards/format_reward': 1.0, 'reward': 1.6622024774551392, 'reward_std': 0.026901833713054657, 'kl': 0.22119140625, 'epoch': 0.74}
+ 74%|███████▎  | 3152/4286 [20:55:32<7:21:34, 23.36s/it] 74%|███████▎  | 3153/4286 [20:55:56<7:23:01, 23.46s/it]                                                        {'loss': 0.022, 'grad_norm': 0.9995017051825383, 'learning_rate': 2.6434904339710686e-07, 'completion_length': 370.6964569091797, 'rewards/only_full_func_accuracy_reward': 0.7120535671710968, 'rewards/format_reward': 1.0, 'reward': 1.7120537161827087, 'reward_std': 0.10071462951600552, 'kl': 0.55126953125, 'epoch': 0.74}
+ 74%|███████▎  | 3153/4286 [20:55:56<7:23:01, 23.46s/it] 74%|███████▎  | 3154/4286 [20:56:17<7:09:54, 22.79s/it]                                                        {'loss': 0.0266, 'grad_norm': 0.9777349943846299, 'learning_rate': 2.641157256182921e-07, 'completion_length': 335.5535888671875, 'rewards/only_full_func_accuracy_reward': 0.7336310148239136, 'rewards/format_reward': 1.0, 'reward': 1.7336310744285583, 'reward_std': 0.012626906856894493, 'kl': 0.6640625, 'epoch': 0.74}
+ 74%|███████▎  | 3154/4286 [20:56:17<7:09:54, 22.79s/it] 74%|███████▎  | 3155/4286 [20:56:41<7:15:18, 23.09s/it]                                                        {'loss': 0.0019, 'grad_norm': 0.6090109504707963, 'learning_rate': 2.6388240783947736e-07, 'completion_length': 378.5268096923828, 'rewards/only_full_func_accuracy_reward': 0.8229167461395264, 'rewards/format_reward': 1.0, 'reward': 1.8229168057441711, 'reward_std': 0.026577068492770195, 'kl': 0.046630859375, 'epoch': 0.74}
+ 74%|███████▎  | 3155/4286 [20:56:41<7:15:18, 23.09s/it] 74%|███████▎  | 3156/4286 [20:57:04<7:13:44, 23.03s/it]                                                        {'loss': 0.002, 'grad_norm': 2.2983551921592142, 'learning_rate': 2.636490900606626e-07, 'completion_length': 380.20538330078125, 'rewards/only_full_func_accuracy_reward': 0.7602679431438446, 'rewards/format_reward': 1.0, 'reward': 1.7602679133415222, 'reward_std': 0.029883677139878273, 'kl': 0.0511474609375, 'epoch': 0.74}
+ 74%|███████▎  | 3156/4286 [20:57:04<7:13:44, 23.03s/it] 74%|███████▎  | 3157/4286 [20:57:28<7:20:55, 23.43s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.4019669380182616, 'learning_rate': 2.6341577228184786e-07, 'completion_length': 399.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.7559524476528168, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7470239400863647, 'reward_std': 0.05490652099251747, 'kl': 0.0457763671875, 'epoch': 0.74}
+ 74%|███████▎  | 3157/4286 [20:57:28<7:20:55, 23.43s/it] 74%|███████▎  | 3158/4286 [20:57:50<7:11:54, 22.97s/it]                                                        {'loss': 0.0073, 'grad_norm': 1.9642107966306905, 'learning_rate': 2.6318245450303313e-07, 'completion_length': 373.7589416503906, 'rewards/only_full_func_accuracy_reward': 0.67038694024086, 'rewards/format_reward': 1.0, 'reward': 1.6703870296478271, 'reward_std': 0.027358300983905792, 'kl': 0.1815185546875, 'epoch': 0.74}
+ 74%|███████▎  | 3158/4286 [20:57:50<7:11:54, 22.97s/it] 74%|███████▎  | 3159/4286 [20:58:13<7:10:04, 22.90s/it]                                                        {'loss': 0.0258, 'grad_norm': 0.9130747912430272, 'learning_rate': 2.6294913672421836e-07, 'completion_length': 369.9285888671875, 'rewards/only_full_func_accuracy_reward': 0.6496212184429169, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6406927704811096, 'reward_std': 0.10232167690992355, 'kl': 0.64453125, 'epoch': 0.74}
+ 74%|███████▎  | 3159/4286 [20:58:13<7:10:04, 22.90s/it] 74%|███████▎  | 3160/4286 [20:58:34<7:04:26, 22.62s/it]                                                        {'loss': 0.0019, 'grad_norm': 0.23467208810629916, 'learning_rate': 2.6271581894540363e-07, 'completion_length': 362.2321472167969, 'rewards/only_full_func_accuracy_reward': 0.7217262089252472, 'rewards/format_reward': 1.0, 'reward': 1.7217262983322144, 'reward_std': 0.008266251534223557, 'kl': 0.04833984375, 'epoch': 0.74}
+ 74%|███████▎  | 3160/4286 [20:58:34<7:04:26, 22.62s/it] 74%|███████▍  | 3161/4286 [20:58:58<7:09:50, 22.92s/it]                                                        {'loss': 0.0021, 'grad_norm': 1.3296132554463873, 'learning_rate': 2.6248250116658885e-07, 'completion_length': 391.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.7492559552192688, 'rewards/format_reward': 1.0, 'reward': 1.7492560744285583, 'reward_std': 0.02429782971739769, 'kl': 0.051513671875, 'epoch': 0.74}
+ 74%|███████▍  | 3161/4286 [20:58:58<7:09:50, 22.92s/it] 74%|███████▍  | 3162/4286 [20:59:20<7:01:31, 22.50s/it]                                                        {'loss': 0.0124, 'grad_norm': 0.6400610974677682, 'learning_rate': 2.6224918338777413e-07, 'completion_length': 337.16966247558594, 'rewards/only_full_func_accuracy_reward': 0.71726194024086, 'rewards/format_reward': 1.0, 'reward': 1.7172620296478271, 'reward_std': 0.012322601862251759, 'kl': 0.31005859375, 'epoch': 0.74}
+ 74%|███████▍  | 3162/4286 [20:59:20<7:01:31, 22.50s/it] 74%|██████��▍  | 3163/4286 [20:59:44<7:09:53, 22.97s/it]                                                        {'loss': 0.008, 'grad_norm': 0.46697727771527425, 'learning_rate': 2.620158656089594e-07, 'completion_length': 411.9018096923828, 'rewards/only_full_func_accuracy_reward': 0.5745535790920258, 'rewards/format_reward': 1.0, 'reward': 1.5745537281036377, 'reward_std': 0.011364216916263103, 'kl': 0.198974609375, 'epoch': 0.74}
+ 74%|███████▍  | 3163/4286 [20:59:44<7:09:53, 22.97s/it] 74%|███████▍  | 3164/4286 [21:00:05<7:01:56, 22.56s/it]                                                        {'loss': 0.0099, 'grad_norm': 1.0409995598320545, 'learning_rate': 2.617825478301446e-07, 'completion_length': 341.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.7647322416305542, 'rewards/format_reward': 1.0, 'reward': 1.7647322416305542, 'reward_std': 0.08116822689771652, 'kl': 0.246337890625, 'epoch': 0.74}
+ 74%|███████▍  | 3164/4286 [21:00:05<7:01:56, 22.56s/it] 74%|███████▍  | 3165/4286 [21:00:29<7:06:03, 22.80s/it]                                                        {'loss': 0.0022, 'grad_norm': 0.19697895874943921, 'learning_rate': 2.615492300513299e-07, 'completion_length': 399.7678680419922, 'rewards/only_full_func_accuracy_reward': 0.8363095819950104, 'rewards/format_reward': 1.0, 'reward': 1.8363096117973328, 'reward_std': 0.009545044973492622, 'kl': 0.05389404296875, 'epoch': 0.74}
+ 74%|███████▍  | 3165/4286 [21:00:29<7:06:03, 22.80s/it] 74%|███████▍  | 3166/4286 [21:00:51<7:02:09, 22.62s/it]                                                        {'loss': 0.0146, 'grad_norm': 0.6502639699304796, 'learning_rate': 2.613159122725151e-07, 'completion_length': 352.0178680419922, 'rewards/only_full_func_accuracy_reward': 0.6572917103767395, 'rewards/format_reward': 1.0, 'reward': 1.657291829586029, 'reward_std': 0.046572260558605194, 'kl': 0.36572265625, 'epoch': 0.74}
+ 74%|███████▍  | 3166/4286 [21:00:51<7:02:09, 22.62s/it] 74%|███████▍  | 3167/4286 [21:01:13<7:01:48, 22.62s/it]                                                        {'loss': 0.0113, 'grad_norm': 1.4164075973005423, 'learning_rate': 2.610825944937004e-07, 'completion_length': 375.9464569091797, 'rewards/only_full_func_accuracy_reward': 0.7395833730697632, 'rewards/format_reward': 1.0, 'reward': 1.7395834922790527, 'reward_std': 0.012626906856894493, 'kl': 0.28271484375, 'epoch': 0.74}
+ 74%|███████▍  | 3167/4286 [21:01:13<7:01:48, 22.62s/it] 74%|███████▍  | 3168/4286 [21:01:34<6:47:47, 21.89s/it]                                                        {'loss': 0.0251, 'grad_norm': 2.096831063908629, 'learning_rate': 2.6084927671488567e-07, 'completion_length': 333.20538330078125, 'rewards/only_full_func_accuracy_reward': 0.8065476715564728, 'rewards/format_reward': 1.0, 'reward': 1.80654776096344, 'reward_std': 0.09044083952903748, 'kl': 0.6279296875, 'epoch': 0.74}
+ 74%|███████▍  | 3168/4286 [21:01:34<6:47:47, 21.89s/it] 74%|███████▍  | 3169/4286 [21:01:57<6:54:43, 22.28s/it]                                                        {'loss': 0.0075, 'grad_norm': 0.8287878770241026, 'learning_rate': 2.606159589360709e-07, 'completion_length': 398.12501525878906, 'rewards/only_full_func_accuracy_reward': 0.7239583134651184, 'rewards/format_reward': 1.0, 'reward': 1.723958432674408, 'reward_std': 0.09026755951344967, 'kl': 0.187255859375, 'epoch': 0.74}
+ 74%|███████▍  | 3169/4286 [21:01:57<6:54:43, 22.28s/it] 74%|███████▍  | 3170/4286 [21:02:20<7:01:14, 22.65s/it]                                                        {'loss': 0.0021, 'grad_norm': 1.228723690055981, 'learning_rate': 2.6038264115725617e-07, 'completion_length': 399.39288330078125, 'rewards/only_full_func_accuracy_reward': 0.8580357730388641, 'rewards/format_reward': 1.0, 'reward': 1.8580358624458313, 'reward_std': 0.031208030879497528, 'kl': 0.0518798828125, 'epoch': 0.74}
+ 74%|███████▍  | 3170/4286 [21:02:20<7:01:14, 22.65s/it] 74%|███████▍  | 3171/4286 [21:02:44<7:05:24, 22.89s/it]                                                        {'loss': 0.0108, 'grad_norm': 0.8511657471925719, 'learning_rate': 2.6014932337844145e-07, 'completion_length': 411.1964569091797, 'rewards/only_full_func_accuracy_reward': 0.6264881193637848, 'rewards/format_reward': 1.0, 'reward': 1.626488208770752, 'reward_std': 0.022557642310857773, 'kl': 0.2705078125, 'epoch': 0.74}
+ 74%|███████▍  | 3171/4286 [21:02:44<7:05:24, 22.89s/it] 74%|███████▍  | 3172/4286 [21:03:07<7:03:55, 22.83s/it]                                                        {'loss': 0.009, 'grad_norm': 0.7762496214206994, 'learning_rate': 2.5991600559962667e-07, 'completion_length': 371.2232360839844, 'rewards/only_full_func_accuracy_reward': 0.7447917461395264, 'rewards/format_reward': 1.0, 'reward': 1.7447918057441711, 'reward_std': 0.04018484428524971, 'kl': 0.22607421875, 'epoch': 0.74}
+ 74%|███████▍  | 3172/4286 [21:03:07<7:03:55, 22.83s/it] 74%|███████▍  | 3173/4286 [21:03:27<6:51:53, 22.20s/it]                                                        {'loss': 0.0266, 'grad_norm': 0.803399834669833, 'learning_rate': 2.5968268782081194e-07, 'completion_length': 346.96429443359375, 'rewards/only_full_func_accuracy_reward': 0.619047611951828, 'rewards/format_reward': 1.0, 'reward': 1.61904776096344, 'reward_std': 0.03367175534367561, 'kl': 0.6676025390625, 'epoch': 0.74}
+ 74%|███████▍  | 3173/4286 [21:03:27<6:51:53, 22.20s/it] 74%|███████▍  | 3174/4286 [21:03:51<6:58:12, 22.57s/it]                                                        {'loss': 0.0014, 'grad_norm': 0.24109082146705904, 'learning_rate': 2.5944937004199717e-07, 'completion_length': 420.45538330078125, 'rewards/only_full_func_accuracy_reward': 0.6971726715564728, 'rewards/format_reward': 1.0, 'reward': 1.6971728205680847, 'reward_std': 0.02575306035578251, 'kl': 0.034912109375, 'epoch': 0.74}
+ 74%|███████▍  | 3174/4286 [21:03:51<6:58:12, 22.57s/it] 74%|███████▍  | 3175/4286 [21:04:14<7:02:17, 22.81s/it]                                                        {'loss': 0.0019, 'grad_norm': 0.9831688512079891, 'learning_rate': 2.5921605226318244e-07, 'completion_length': 375.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.7255952954292297, 'rewards/format_reward': 1.0, 'reward': 1.7255953550338745, 'reward_std': 0.034437199123203754, 'kl': 0.04833984375, 'epoch': 0.74}
+ 74%|███████▍  | 3175/4286 [21:04:14<7:02:17, 22.81s/it] 74%|███████▍  | 3176/4286 [21:04:37<7:02:36, 22.84s/it]                                                        {'loss': 0.0052, 'grad_norm': 1.8065493210699077, 'learning_rate': 2.589827344843677e-07, 'completion_length': 395.9910888671875, 'rewards/only_full_func_accuracy_reward': 0.8110119104385376, 'rewards/format_reward': 1.0, 'reward': 1.811012089252472, 'reward_std': 0.05342616746202111, 'kl': 0.129638671875, 'epoch': 0.74}
+ 74%|███████▍  | 3176/4286 [21:04:37<7:02:36, 22.84s/it] 74%|███████▍  | 3177/4286 [21:05:00<7:02:46, 22.87s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.3918948202548207, 'learning_rate': 2.5874941670555294e-07, 'completion_length': 402.6964416503906, 'rewards/only_full_func_accuracy_reward': 0.7566964626312256, 'rewards/format_reward': 1.0, 'reward': 1.7566964626312256, 'reward_std': 0.014579704962670803, 'kl': 0.03955078125, 'epoch': 0.74}
+ 74%|███████▍  | 3177/4286 [21:05:00<7:02:46, 22.87s/it] 74%|███████▍  | 3178/4286 [21:05:22<6:58:41, 22.67s/it]                                                        {'loss': 0.0065, 'grad_norm': 1.1283184030783324, 'learning_rate': 2.585160989267382e-07, 'completion_length': 365.7232360839844, 'rewards/only_full_func_accuracy_reward': 0.6852678954601288, 'rewards/format_reward': 1.0, 'reward': 1.685267984867096, 'reward_std': 0.04153356608003378, 'kl': 0.1624755859375, 'epoch': 0.74}
+ 74%|███████▍  | 3178/4286 [21:05:22<6:58:41, 22.67s/it] 74%|███████▍  | 3179/4286 [21:05:46<7:05:57, 23.09s/it]                                                        {'loss': 0.0014, 'grad_norm': 1.630472011386659, 'learning_rate': 2.5828278114792344e-07, 'completion_length': 403.58038330078125, 'rewards/only_full_func_accuracy_reward': 0.831101268529892, 'rewards/format_reward': 1.0, 'reward': 1.8311012983322144, 'reward_std': 0.036578597500920296, 'kl': 0.03619384765625, 'epoch': 0.74}
+ 74%|███████▍  | 3179/4286 [21:05:46<7:05:57, 23.09s/it] 74%|███████▍  | 3180/4286 [21:06:09<7:06:00, 23.11s/it]                                                        {'loss': 0.0079, 'grad_norm': 0.8973643733797944, 'learning_rate': 2.580494633691087e-07, 'completion_length': 387.12501525878906, 'rewards/only_full_func_accuracy_reward': 0.7492560148239136, 'rewards/format_reward': 1.0, 'reward': 1.7492560744285583, 'reward_std': 0.04270883463323116, 'kl': 0.197021484375, 'epoch': 0.74}
+ 74%|███████▍  | 3180/4286 [21:06:09<7:06:00, 23.11s/it] 74%|███████▍  | 3181/4286 [21:06:32<7:04:19, 23.04s/it]                                                        {'loss': 0.0279, 'grad_norm': 1.6255904326318522, 'learning_rate': 2.57816145590294e-07, 'completion_length': 380.31251525878906, 'rewards/only_full_func_accuracy_reward': 0.742559552192688, 'rewards/format_reward': 1.0, 'reward': 1.7425596117973328, 'reward_std': 0.03352966532111168, 'kl': 0.70166015625, 'epoch': 0.74}
+ 74%|███████▍  | 3181/4286 [21:06:32<7:04:19, 23.04s/it] 74%|███████▍  | 3182/4286 [21:06:55<7:00:06, 22.83s/it]                                                        {'loss': 0.0362, 'grad_norm': 3.8155476471221985, 'learning_rate': 2.575828278114792e-07, 'completion_length': 370.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.7855654954910278, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7677084803581238, 'reward_std': 0.12855882197618484, 'kl': 0.904296875, 'epoch': 0.74}
+ 74%|███████▍  | 3182/4286 [21:06:55<7:00:06, 22.83s/it] 74%|███████▍  | 3183/4286 [21:07:18<7:01:36, 22.93s/it]                                                        {'loss': 0.0227, 'grad_norm': 1.1034500422554103, 'learning_rate': 2.573495100326645e-07, 'completion_length': 354.4196472167969, 'rewards/only_full_func_accuracy_reward': 0.763888955116272, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7549604177474976, 'reward_std': 0.10680081695318222, 'kl': 0.5662841796875, 'epoch': 0.74}
+ 74%|███████▍  | 3183/4286 [21:07:18<7:01:36, 22.93s/it] 74%|███████▍  | 3184/4286 [21:07:41<7:03:29, 23.06s/it]                                                        {'loss': 0.0286, 'grad_norm': 0.7650169058214569, 'learning_rate': 2.571161922538497e-07, 'completion_length': 404.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.7214782238006592, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7125496864318848, 'reward_std': 0.06343084573745728, 'kl': 0.712158203125, 'epoch': 0.74}
+ 74%|███████▍  | 3184/4286 [21:07:41<7:03:29, 23.06s/it] 74%|███████▍  | 3185/4286 [21:08:04<7:00:30, 22.92s/it]                                                        {'loss': 0.0309, 'grad_norm': 1.9513951009798616, 'learning_rate': 2.56882874475035e-07, 'completion_length': 384.6160888671875, 'rewards/only_full_func_accuracy_reward': 0.723214328289032, 'rewards/format_reward': 1.0, 'reward': 1.7232143878936768, 'reward_std': 0.10253146663308144, 'kl': 0.7734375, 'epoch': 0.74}
+ 74%|███████▍  | 3185/4286 [21:08:04<7:00:30, 22.92s/it] 74%|███████▍  | 3186/4286 [21:08:26<6:58:09, 22.81s/it]                                                        {'loss': 0.0037, 'grad_norm': 0.4654709555866897, 'learning_rate': 2.5664955669622026e-07, 'completion_length': 379.48216247558594, 'rewards/only_full_func_accuracy_reward': 0.6517857611179352, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6428571939468384, 'reward_std': 0.053958166390657425, 'kl': 0.0936279296875, 'epoch': 0.74}
+ 74%|███████▍  | 3186/4286 [21:08:26<6:58:09, 22.81s/it] 74%|███████▍  | 3187/4286 [21:08:49<6:58:42, 22.86s/it]                                                        {'loss': 0.0504, 'grad_norm': 1.1097860604903718, 'learning_rate': 2.564162389174055e-07, 'completion_length': 372.6160888671875, 'rewards/only_full_func_accuracy_reward': 0.7979911267757416, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7890626788139343, 'reward_std': 0.07318426296114922, 'kl': 1.259765625, 'epoch': 0.74}
+ 74%|███████▍  | 3187/4286 [21:08:49<6:58:42, 22.86s/it] 74%|███████▍  | 3188/4286 [21:09:12<6:59:25, 22.92s/it]                                                        {'loss': 0.0309, 'grad_norm': 5.339738716004788, 'learning_rate': 2.5618292113859075e-07, 'completion_length': 386.6964416503906, 'rewards/only_full_func_accuracy_reward': 0.7552083730697632, 'rewards/format_reward': 1.0, 'reward': 1.755208432674408, 'reward_std': 0.06299586966633797, 'kl': 0.7705078125, 'epoch': 0.74}
+ 74%|███████▍  | 3188/4286 [21:09:12<6:59:25, 22.92s/it] 74%|███████▍  | 3189/4286 [21:09:35<6:58:48, 22.91s/it]                                                        {'loss': 0.045, 'grad_norm': 2.387693114923089, 'learning_rate': 2.55949603359776e-07, 'completion_length': 398.0893096923828, 'rewards/only_full_func_accuracy_reward': 0.6614583879709244, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6436013579368591, 'reward_std': 0.12853772938251495, 'kl': 1.126953125, 'epoch': 0.74}
+ 74%|███████▍  | 3189/4286 [21:09:35<6:58:48, 22.91s/it] 74%|███████▍  | 3190/4286 [21:10:00<7:08:58, 23.48s/it]                                                        {'loss': 0.0721, 'grad_norm': 8.670962745419958, 'learning_rate': 2.5571628558096125e-07, 'completion_length': 441.9732360839844, 'rewards/only_full_func_accuracy_reward': 0.611607164144516, 'rewards/format_reward': 1.0, 'reward': 1.6116071939468384, 'reward_std': 0.09793339297175407, 'kl': 1.80859375, 'epoch': 0.74}
+ 74%|███████▍  | 3190/4286 [21:10:00<7:08:58, 23.48s/it] 74%|███████▍  | 3191/4286 [21:10:24<7:12:30, 23.70s/it]                                                        {'loss': 0.0415, 'grad_norm': 1.4770506488420294, 'learning_rate': 2.554829678021465e-07, 'completion_length': 400.7321472167969, 'rewards/only_full_func_accuracy_reward': 0.7559524476528168, 'rewards/format_reward': 1.0, 'reward': 1.7559524774551392, 'reward_std': 0.06711649149656296, 'kl': 1.037109375, 'epoch': 0.74}
+ 74%|███████▍  | 3191/4286 [21:10:24<7:12:30, 23.70s/it] 74%|███████▍  | 3192/4286 [21:10:46<7:01:37, 23.12s/it]                                                        {'loss': 0.0245, 'grad_norm': 3.3240295155383492, 'learning_rate': 2.5524965002333175e-07, 'completion_length': 355.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.6994048357009888, 'rewards/format_reward': 1.0, 'reward': 1.6994048953056335, 'reward_std': 0.09127112850546837, 'kl': 0.6134033203125, 'epoch': 0.74}
+ 74%|███████▍  | 3192/4286 [21:10:46<7:01:37, 23.12s/it] 74%|███████▍  | 3193/4286 [21:11:10<7:07:06, 23.45s/it]                                                        {'loss': 0.0293, 'grad_norm': 0.7021833594468374, 'learning_rate': 2.55016332244517e-07, 'completion_length': 400.8214569091797, 'rewards/only_full_func_accuracy_reward': 0.725446492433548, 'rewards/format_reward': 1.0, 'reward': 1.7254465818405151, 'reward_std': 0.05660291202366352, 'kl': 0.7342529296875, 'epoch': 0.74}
+ 74%|███████▍  | 3193/4286 [21:11:10<7:07:06, 23.45s/it] 75%|███████▍  | 3194/4286 [21:11:34<7:09:19, 23.59s/it]                                                        {'loss': 0.0024, 'grad_norm': 0.8946189326499463, 'learning_rate': 2.547830144657023e-07, 'completion_length': 422.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.6860119104385376, 'rewards/format_reward': 1.0, 'reward': 1.6860120296478271, 'reward_std': 0.06975282728672028, 'kl': 0.059814453125, 'epoch': 0.75}
+ 75%|███████▍  | 3194/4286 [21:11:34<7:09:19, 23.59s/it] 75%|███████▍  | 3195/4286 [21:11:56<7:01:10, 23.16s/it]                                                        {'loss': 0.0079, 'grad_norm': 2.835234876748068, 'learning_rate': 2.545496966868875e-07, 'completion_length': 333.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.6651786267757416, 'rewards/format_reward': 1.0, 'reward': 1.6651787161827087, 'reward_std': 0.06444473750889301, 'kl': 0.19775390625, 'epoch': 0.75}
+ 75%|███████▍  | 3195/4286 [21:11:56<7:01:10, 23.16s/it] 75%|███████▍  | 3196/4286 [21:12:18<6:53:24, 22.76s/it]                                                        {'loss': 0.0288, 'grad_norm': 1.0302872357399486, 'learning_rate': 2.543163789080728e-07, 'completion_length': 337.58929443359375, 'rewards/only_full_func_accuracy_reward': 0.7491072118282318, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7312501668930054, 'reward_std': 0.09054448083043098, 'kl': 0.720703125, 'epoch': 0.75}
+ 75%|███████▍  | 3196/4286 [21:12:18<6:53:24, 22.76s/it] 75%|███████▍  | 3197/4286 [21:12:39<6:45:35, 22.35s/it]                                                        {'loss': 0.0401, 'grad_norm': 0.9995272405671477, 'learning_rate': 2.54083061129258e-07, 'completion_length': 349.58929443359375, 'rewards/only_full_func_accuracy_reward': 0.6130952537059784, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6041668057441711, 'reward_std': 0.065594881772995, 'kl': 1.001953125, 'epoch': 0.75}
+ 75%|███████▍  | 3197/4286 [21:12:39<6:45:35, 22.35s/it] 75%|███████▍  | 3198/4286 [21:13:03<6:52:42, 22.76s/it]                                                        {'loss': 0.016, 'grad_norm': 0.34458523781329103, 'learning_rate': 2.538497433504433e-07, 'completion_length': 421.9732360839844, 'rewards/only_full_func_accuracy_reward': 0.7479167282581329, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7389881610870361, 'reward_std': 0.047049444168806076, 'kl': 0.402099609375, 'epoch': 0.75}
+ 75%|███████▍  | 3198/4286 [21:13:03<6:52:42, 22.76s/it] 75%|███████▍  | 3199/4286 [21:13:28<7:03:20, 23.37s/it]                                                        {'loss': 0.0617, 'grad_norm': 1.923433183419529, 'learning_rate': 2.5361642557162857e-07, 'completion_length': 422.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.7187500596046448, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.700892984867096, 'reward_std': 0.1681937873363495, 'kl': 1.5390625, 'epoch': 0.75}
+ 75%|███████▍  | 3199/4286 [21:13:28<7:03:20, 23.37s/it] 75%|███████▍  | 3200/4286 [21:13:51<6:58:40, 23.13s/it]                                                        {'loss': 0.0094, 'grad_norm': 0.8712461523178289, 'learning_rate': 2.533831077928138e-07, 'completion_length': 411.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.6785714328289032, 'rewards/format_reward': 1.0, 'reward': 1.6785715222358704, 'reward_std': 0.08912102319300175, 'kl': 0.2349853515625, 'epoch': 0.75}
+ 75%|███████▍  | 3200/4286 [21:13:51<6:58:40, 23.13s/it] 75%|███████▍  | 3201/4286 [21:14:47<9:56:56, 33.01s/it]                                                        {'loss': 0.0418, 'grad_norm': 1.3052733504919307, 'learning_rate': 2.5314979001399907e-07, 'completion_length': 402.50001525878906, 'rewards/only_full_func_accuracy_reward': 0.7559524178504944, 'rewards/format_reward': 1.0, 'reward': 1.7559524774551392, 'reward_std': 0.0645943209528923, 'kl': 1.041015625, 'epoch': 0.75}
+ 75%|███████▍  | 3201/4286 [21:14:47<9:56:56, 33.01s/it] 75%|███████▍  | 3202/4286 [21:15:09<9:00:50, 29.94s/it]                                                        {'loss': 0.0402, 'grad_norm': 2.4857416581301677, 'learning_rate': 2.529164722351843e-07, 'completion_length': 389.66966247558594, 'rewards/only_full_func_accuracy_reward': 0.5885416865348816, 'rewards/format_reward': 1.0, 'reward': 1.5885417461395264, 'reward_std': 0.05666939541697502, 'kl': 1.005859375, 'epoch': 0.75}
+ 75%|███████▍  | 3202/4286 [21:15:09<9:00:50, 29.94s/it] 75%|███████▍  | 3203/4286 [21:15:32<8:22:52, 27.86s/it]                                                        {'loss': 0.0513, 'grad_norm': 0.7135696919283729, 'learning_rate': 2.5268315445636956e-07, 'completion_length': 405.7500305175781, 'rewards/only_full_func_accuracy_reward': 0.7005952596664429, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.691666841506958, 'reward_std': 0.08405258879065514, 'kl': 1.28125, 'epoch': 0.75}
+ 75%|███████▍  | 3203/4286 [21:15:32<8:22:52, 27.86s/it] 75%|███████▍  | 3204/4286 [21:15:55<7:51:54, 26.17s/it]                                                        {'loss': 0.05, 'grad_norm': 0.819625183954748, 'learning_rate': 2.5244983667755484e-07, 'completion_length': 342.3303680419922, 'rewards/only_full_func_accuracy_reward': 0.8229167461395264, 'rewards/format_reward': 1.0, 'reward': 1.8229167461395264, 'reward_std': 0.05732032097876072, 'kl': 1.25, 'epoch': 0.75}
+ 75%|███████▍  | 3204/4286 [21:15:55<7:51:54, 26.17s/it] 75%|███████▍  | 3205/4286 [21:16:19<7:42:05, 25.65s/it]                                                        {'loss': 0.0651, 'grad_norm': 3.4729989562213563, 'learning_rate': 2.5221651889874006e-07, 'completion_length': 420.05360412597656, 'rewards/only_full_func_accuracy_reward': 0.6532738208770752, 'rewards/format_reward': 1.0, 'reward': 1.6532739400863647, 'reward_std': 0.06727980077266693, 'kl': 1.62890625, 'epoch': 0.75}
+ 75%|███████▍  | 3205/4286 [21:16:19<7:42:05, 25.65s/it] 75%|███████▍  | 3206/4286 [21:16:43<7:32:44, 25.15s/it]                                                        {'loss': 0.0265, 'grad_norm': 0.7507776166209887, 'learning_rate': 2.5198320111992534e-07, 'completion_length': 434.83038330078125, 'rewards/only_full_func_accuracy_reward': 0.865922600030899, 'rewards/format_reward': 1.0, 'reward': 1.865922749042511, 'reward_std': 0.04671955853700638, 'kl': 0.662109375, 'epoch': 0.75}
+ 75%|███████▍  | 3206/4286 [21:16:43<7:32:44, 25.15s/it] 75%|███████▍  | 3207/4286 [21:17:06<7:18:39, 24.39s/it]                                                        {'loss': 0.0358, 'grad_norm': 2.3174146366654544, 'learning_rate': 2.5174988334111056e-07, 'completion_length': 363.9464416503906, 'rewards/only_full_func_accuracy_reward': 0.7410714626312256, 'rewards/format_reward': 1.0, 'reward': 1.7410715222358704, 'reward_std': 0.10020924359560013, 'kl': 0.898193359375, 'epoch': 0.75}
+ 75%|███████▍  | 3207/4286 [21:17:06<7:18:39, 24.39s/it] 75%|███████▍  | 3208/4286 [21:17:30<7:16:33, 24.30s/it]                                                        {'loss': 0.0276, 'grad_norm': 1.5493220752996062, 'learning_rate': 2.5151656556229583e-07, 'completion_length': 385.5357208251953, 'rewards/only_full_func_accuracy_reward': 0.6927083432674408, 'rewards/format_reward': 1.0, 'reward': 1.6927083730697632, 'reward_std': 0.06888826005160809, 'kl': 0.6875, 'epoch': 0.75}
+ 75%|███████▍  | 3208/4286 [21:17:30<7:16:33, 24.30s/it] 75%|███████▍  | 3209/4286 [21:17:51<7:02:21, 23.53s/it]                                                        {'loss': 0.0197, 'grad_norm': 0.8898707848319999, 'learning_rate': 2.512832477834811e-07, 'completion_length': 343.9910888671875, 'rewards/only_full_func_accuracy_reward': 0.7708333730697632, 'rewards/format_reward': 1.0, 'reward': 1.770833432674408, 'reward_std': 0.06158868223428726, 'kl': 0.4913330078125, 'epoch': 0.75}
+ 75%|███████▍  | 3209/4286 [21:17:51<7:02:21, 23.53s/it] 75%|███████▍  | 3210/4286 [21:18:13<6:53:19, 23.05s/it]                                                        {'loss': 0.0162, 'grad_norm': 0.6639488293569284, 'learning_rate': 2.5104993000466633e-07, 'completion_length': 338.5357208251953, 'rewards/only_full_func_accuracy_reward': 0.7708333730697632, 'rewards/format_reward': 1.0, 'reward': 1.770833432674408, 'reward_std': 0.051483042538166046, 'kl': 0.404296875, 'epoch': 0.75}
+ 75%|███████▍  | 3210/4286 [21:18:13<6:53:19, 23.05s/it] 75%|███████▍  | 3211/4286 [21:18:36<6:49:49, 22.87s/it]                                                        {'loss': 0.1203, 'grad_norm': 3.0326028468179893, 'learning_rate': 2.508166122258516e-07, 'completion_length': 344.2857360839844, 'rewards/only_full_func_accuracy_reward': 0.7434524595737457, 'rewards/format_reward': 0.955357164144516, 'reward': 1.6988096237182617, 'reward_std': 0.14314839243888855, 'kl': 3.0078125, 'epoch': 0.75}
+ 75%|███████▍  | 3211/4286 [21:18:36<6:49:49, 22.87s/it] 75%|███████▍  | 3212/4286 [21:18:59<6:51:04, 22.96s/it]                                                        {'loss': 0.0292, 'grad_norm': 0.7648109542042144, 'learning_rate': 2.5058329444703683e-07, 'completion_length': 397.8482360839844, 'rewards/only_full_func_accuracy_reward': 0.7485118806362152, 'rewards/format_reward': 1.0, 'reward': 1.7485119700431824, 'reward_std': 0.03788071870803833, 'kl': 0.734375, 'epoch': 0.75}
+ 75%|███████▍  | 3212/4286 [21:18:59<6:51:04, 22.96s/it] 75%|███████▍  | 3213/4286 [21:19:22<6:51:02, 22.98s/it]                                                        {'loss': 0.0441, 'grad_norm': 1.1670943964526819, 'learning_rate': 2.503499766682221e-07, 'completion_length': 396.0803680419922, 'rewards/only_full_func_accuracy_reward': 0.7406994700431824, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7228423357009888, 'reward_std': 0.12280803546309471, 'kl': 1.10546875, 'epoch': 0.75}
+ 75%|███████▍  | 3213/4286 [21:19:22<6:51:02, 22.98s/it] 75%|███████▍  | 3214/4286 [21:19:46<6:54:56, 23.22s/it]                                                        {'loss': 0.0014, 'grad_norm': 0.352827751252693, 'learning_rate': 2.501166588894074e-07, 'completion_length': 427.0268096923828, 'rewards/only_full_func_accuracy_reward': 0.8816964626312256, 'rewards/format_reward': 1.0, 'reward': 1.8816965222358704, 'reward_std': 0.014731388539075851, 'kl': 0.03564453125, 'epoch': 0.75}
+ 75%|███████▍  | 3214/4286 [21:19:46<6:54:56, 23.22s/it] 75%|███████▌  | 3215/4286 [21:20:09<6:53:11, 23.15s/it]                                                        {'loss': 0.0099, 'grad_norm': 1.039964929728252, 'learning_rate': 2.498833411105926e-07, 'completion_length': 396.0268096923828, 'rewards/only_full_func_accuracy_reward': 0.8504464626312256, 'rewards/format_reward': 1.0, 'reward': 1.8504465222358704, 'reward_std': 0.04937856271862984, 'kl': 0.2486572265625, 'epoch': 0.75}
+ 75%|███████▌  | 3215/4286 [21:20:09<6:53:11, 23.15s/it] 75%|███████▌  | 3216/4286 [21:20:32<6:54:58, 23.27s/it]                                                        {'loss': 0.0282, 'grad_norm': 1.6889845158490822, 'learning_rate': 2.496500233317779e-07, 'completion_length': 403.7857360839844, 'rewards/only_full_func_accuracy_reward': 0.7294643819332123, 'rewards/format_reward': 1.0, 'reward': 1.7294644117355347, 'reward_std': 0.054258840158581734, 'kl': 0.7008056640625, 'epoch': 0.75}
+ 75%|███████▌  | 3216/4286 [21:20:32<6:54:58, 23.27s/it] 75%|███████▌  | 3217/4286 [21:20:56<6:56:55, 23.40s/it]                                                        {'loss': 0.0143, 'grad_norm': 0.8826289116356223, 'learning_rate': 2.4941670555296315e-07, 'completion_length': 359.08929443359375, 'rewards/only_full_func_accuracy_reward': 0.7633928954601288, 'rewards/format_reward': 1.0, 'reward': 1.7633929252624512, 'reward_std': 0.07735759764909744, 'kl': 0.359130859375, 'epoch': 0.75}
+ 75%|███████▌  | 3217/4286 [21:20:56<6:56:55, 23.40s/it] 75%|███████▌  | 3218/4286 [21:21:20<6:59:17, 23.56s/it]                                                        {'loss': 0.0232, 'grad_norm': 1.2128361780101085, 'learning_rate': 2.4918338777414837e-07, 'completion_length': 425.81251525878906, 'rewards/only_full_func_accuracy_reward': 0.7142857313156128, 'rewards/format_reward': 1.0, 'reward': 1.7142859101295471, 'reward_std': 0.042913421988487244, 'kl': 0.578125, 'epoch': 0.75}
+ 75%|███████▌  | 3218/4286 [21:21:20<6:59:17, 23.56s/it] 75%|███████▌  | 3219/4286 [21:21:42<6:52:44, 23.21s/it]                                                        {'loss': 0.0044, 'grad_norm': 2.658142339519259, 'learning_rate': 2.4895006999533365e-07, 'completion_length': 395.8482208251953, 'rewards/only_full_func_accuracy_reward': 0.6721726953983307, 'rewards/format_reward': 1.0, 'reward': 1.6721726655960083, 'reward_std': 0.024083588272333145, 'kl': 0.1107177734375, 'epoch': 0.75}
+ 75%|███████▌  | 3219/4286 [21:21:42<6:52:44, 23.21s/it] 75%|███████▌  | 3220/4286 [21:22:05<6:47:52, 22.96s/it]                                                        {'loss': 0.0019, 'grad_norm': 1.1730605622296335, 'learning_rate': 2.4871675221651887e-07, 'completion_length': 388.5893096923828, 'rewards/only_full_func_accuracy_reward': 0.6718751192092896, 'rewards/format_reward': 1.0, 'reward': 1.6718751192092896, 'reward_std': 0.050702568143606186, 'kl': 0.048583984375, 'epoch': 0.75}
+ 75%|███���███▌  | 3220/4286 [21:22:05<6:47:52, 22.96s/it] 75%|███████▌  | 3221/4286 [21:22:27<6:44:17, 22.78s/it]                                                        {'loss': 0.0232, 'grad_norm': 1.3387808613459904, 'learning_rate': 2.4848343443770414e-07, 'completion_length': 360.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.9040178954601288, 'rewards/format_reward': 1.0, 'reward': 1.904017984867096, 'reward_std': 0.059749577194452286, 'kl': 0.578125, 'epoch': 0.75}
+ 75%|███████▌  | 3221/4286 [21:22:27<6:44:17, 22.78s/it] 75%|███████▌  | 3222/4286 [21:22:50<6:42:13, 22.68s/it]                                                        {'loss': 0.0344, 'grad_norm': 0.8780410211316597, 'learning_rate': 2.482501166588894e-07, 'completion_length': 389.7410888671875, 'rewards/only_full_func_accuracy_reward': 0.6718750298023224, 'rewards/format_reward': 1.0, 'reward': 1.6718750596046448, 'reward_std': 0.12210572138428688, 'kl': 0.859375, 'epoch': 0.75}
+ 75%|███████▌  | 3222/4286 [21:22:50<6:42:13, 22.68s/it] 75%|███████▌  | 3223/4286 [21:23:13<6:46:09, 22.92s/it]                                                        {'loss': 0.0218, 'grad_norm': 2.2254895039474722, 'learning_rate': 2.4801679888007464e-07, 'completion_length': 383.7410888671875, 'rewards/only_full_func_accuracy_reward': 0.5669642984867096, 'rewards/format_reward': 1.0, 'reward': 1.5669644474983215, 'reward_std': 0.02397334179840982, 'kl': 0.5428466796875, 'epoch': 0.75}
+ 75%|███████▌  | 3223/4286 [21:23:13<6:46:09, 22.92s/it] 75%|███████▌  | 3224/4286 [21:23:37<6:49:26, 23.13s/it]                                                        {'loss': 0.0269, 'grad_norm': 2.4222610800863933, 'learning_rate': 2.477834811012599e-07, 'completion_length': 388.64288330078125, 'rewards/only_full_func_accuracy_reward': 0.7574405670166016, 'rewards/format_reward': 1.0, 'reward': 1.7574405670166016, 'reward_std': 0.06452402472496033, 'kl': 0.6728515625, 'epoch': 0.75}
+ 75%|███████▌  | 3224/4286 [21:23:37<6:49:26, 23.13s/it] 75%|███████▌  | 3225/4286 [21:24:00<6:50:02, 23.19s/it]                                                        {'loss': 0.0166, 'grad_norm': 0.9803885667478103, 'learning_rate': 2.4755016332244514e-07, 'completion_length': 389.35716247558594, 'rewards/only_full_func_accuracy_reward': 0.7584325671195984, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7495041489601135, 'reward_std': 0.1398734152317047, 'kl': 0.414306640625, 'epoch': 0.75}
+ 75%|███████▌  | 3225/4286 [21:24:00<6:50:02, 23.19s/it] 75%|███████▌  | 3226/4286 [21:24:23<6:51:17, 23.28s/it]                                                        {'loss': 0.0431, 'grad_norm': 1.1746252826594392, 'learning_rate': 2.473168455436304e-07, 'completion_length': 414.46429443359375, 'rewards/only_full_func_accuracy_reward': 0.8133929073810577, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7955358624458313, 'reward_std': 0.11637221649289131, 'kl': 1.078125, 'epoch': 0.75}
+ 75%|███████▌  | 3226/4286 [21:24:23<6:51:17, 23.28s/it] 75%|███████▌  | 3227/4286 [21:24:47<6:52:03, 23.35s/it]                                                        {'loss': 0.0698, 'grad_norm': 3.0921595806912645, 'learning_rate': 2.470835277648157e-07, 'completion_length': 397.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.705357164144516, 'rewards/format_reward': 1.0, 'reward': 1.705357313156128, 'reward_std': 0.12340139225125313, 'kl': 1.744140625, 'epoch': 0.75}
+ 75%|███████▌  | 3227/4286 [21:24:47<6:52:03, 23.35s/it] 75%|███████▌  | 3228/4286 [21:25:10<6:50:32, 23.28s/it]                                                        {'loss': 0.058, 'grad_norm': 2.004758610377116, 'learning_rate': 2.468502099860009e-07, 'completion_length': 388.51788330078125, 'rewards/only_full_func_accuracy_reward': 0.7698661386966705, 'rewards/format_reward': 0.973214328289032, 'reward': 1.743080496788025, 'reward_std': 0.1264735497534275, 'kl': 1.4453125, 'epoch': 0.75}
+ 75%|███████▌  | 3228/4286 [21:25:10<6:50:32, 23.28s/it] 75%|███████▌  | 3229/4286 [21:25:32<6:40:48, 22.75s/it]                                                        {'loss': 0.0902, 'grad_norm': 5.446357447171247, 'learning_rate': 2.466168922071862e-07, 'completion_length': 376.0714416503906, 'rewards/only_full_func_accuracy_reward': 0.689732164144516, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.680803656578064, 'reward_std': 0.08598049357533455, 'kl': 2.255859375, 'epoch': 0.75}
+ 75%|███████▌  | 3229/4286 [21:25:32<6:40:48, 22.75s/it] 75%|███████▌  | 3230/4286 [21:25:55<6:42:17, 22.86s/it]                                                        {'loss': 0.1068, 'grad_norm': 5.934865709370618, 'learning_rate': 2.463835744283714e-07, 'completion_length': 423.3393096923828, 'rewards/only_full_func_accuracy_reward': 0.6830357611179352, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.6562500596046448, 'reward_std': 0.1510772779583931, 'kl': 2.6640625, 'epoch': 0.75}
+ 75%|███████▌  | 3230/4286 [21:25:55<6:42:17, 22.86s/it] 75%|███████▌  | 3231/4286 [21:26:17<6:40:47, 22.79s/it]                                                        {'loss': 0.0878, 'grad_norm': 3.017870576311185, 'learning_rate': 2.461502566495567e-07, 'completion_length': 344.33038330078125, 'rewards/only_full_func_accuracy_reward': 0.7767857611179352, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.758928656578064, 'reward_std': 0.14122603088617325, 'kl': 2.203125, 'epoch': 0.75}
+ 75%|███████▌  | 3231/4286 [21:26:17<6:40:47, 22.79s/it] 75%|███████▌  | 3232/4286 [21:26:40<6:39:28, 22.74s/it]                                                        {'loss': 0.0242, 'grad_norm': 0.7891110011447493, 'learning_rate': 2.4591693887074196e-07, 'completion_length': 364.4732360839844, 'rewards/only_full_func_accuracy_reward': 0.8601190745830536, 'rewards/format_reward': 1.0, 'reward': 1.8601191639900208, 'reward_std': 0.07140078768134117, 'kl': 0.60546875, 'epoch': 0.75}
+ 75%|███████▌  | 3232/4286 [21:26:40<6:39:28, 22.74s/it] 75%|███████▌  | 3233/4286 [21:27:03<6:38:21, 22.70s/it]                                                        {'loss': 0.0389, 'grad_norm': 1.8244930521110576, 'learning_rate': 2.456836210919272e-07, 'completion_length': 362.2321472167969, 'rewards/only_full_func_accuracy_reward': 0.5811012387275696, 'rewards/format_reward': 1.0, 'reward': 1.5811012983322144, 'reward_std': 0.050353050231933594, 'kl': 0.970703125, 'epoch': 0.75}
+ 75%|███████▌  | 3233/4286 [21:27:03<6:38:21, 22.70s/it] 75%|███████▌  | 3234/4286 [21:27:26<6:44:00, 23.04s/it]                                                        {'loss': 0.0274, 'grad_norm': 1.1868057190535075, 'learning_rate': 2.4545030331311246e-07, 'completion_length': 392.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.6666667461395264, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.657738208770752, 'reward_std': 0.1333448551595211, 'kl': 0.6875, 'epoch': 0.75}
+ 75%|███████▌  | 3234/4286 [21:27:26<6:44:00, 23.04s/it] 75%|███████▌  | 3235/4286 [21:27:50<6:46:32, 23.21s/it]                                                        {'loss': 0.0747, 'grad_norm': 2.709857720089855, 'learning_rate': 2.452169855342977e-07, 'completion_length': 375.46429443359375, 'rewards/only_full_func_accuracy_reward': 0.7187500596046448, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7008930444717407, 'reward_std': 0.1288791261613369, 'kl': 1.8580322265625, 'epoch': 0.75}
+ 75%|███████▌  | 3235/4286 [21:27:50<6:46:32, 23.21s/it] 76%|███████▌  | 3236/4286 [21:28:13<6:43:26, 23.05s/it]                                                        {'loss': 0.0162, 'grad_norm': 0.5633309862263283, 'learning_rate': 2.4498366775548295e-07, 'completion_length': 389.5982360839844, 'rewards/only_full_func_accuracy_reward': 0.7931548357009888, 'rewards/format_reward': 1.0, 'reward': 1.7931548953056335, 'reward_std': 0.05035594291985035, 'kl': 0.4044189453125, 'epoch': 0.76}
+ 76%|███████▌  | 3236/4286 [21:28:13<6:43:26, 23.05s/it] 76%|███████▌  | 3237/4286 [21:28:36<6:42:45, 23.04s/it]                                                        {'loss': 0.0611, 'grad_norm': 1.7677546433090807, 'learning_rate': 2.4475034997666823e-07, 'completion_length': 379.9643096923828, 'rewards/only_full_func_accuracy_reward': 0.8102679550647736, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8013393878936768, 'reward_std': 0.1103052869439125, 'kl': 1.53125, 'epoch': 0.76}
+ 76%|███████▌  | 3237/4286 [21:28:36<6:42:45, 23.04s/it] 76%|███████▌  | 3238/4286 [21:28:59<6:42:20, 23.04s/it]                                                        {'loss': 0.0019, 'grad_norm': 1.7889046008441587, 'learning_rate': 2.4451703219785345e-07, 'completion_length': 387.54466247558594, 'rewards/only_full_func_accuracy_reward': 0.8139881491661072, 'rewards/format_reward': 1.0, 'reward': 1.813988208770752, 'reward_std': 0.06557186134159565, 'kl': 0.04656982421875, 'epoch': 0.76}
+ 76%|███████▌  | 3238/4286 [21:28:59<6:42:20, 23.04s/it] 76%|███████▌  | 3239/4286 [21:29:22<6:43:30, 23.12s/it]                                                        {'loss': 0.0707, 'grad_norm': 1.3947248715272338, 'learning_rate': 2.4428371441903873e-07, 'completion_length': 371.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.6175595670938492, 'rewards/format_reward': 1.0, 'reward': 1.6175596117973328, 'reward_std': 0.13844279572367668, 'kl': 1.765625, 'epoch': 0.76}
+ 76%|███████▌  | 3239/4286 [21:29:22<6:43:30, 23.12s/it] 76%|███████▌  | 3240/4286 [21:29:44<6:37:10, 22.78s/it]                                                        {'loss': 0.0084, 'grad_norm': 1.153192915031074, 'learning_rate': 2.44050396640224e-07, 'completion_length': 339.2053680419922, 'rewards/only_full_func_accuracy_reward': 0.6904762387275696, 'rewards/format_reward': 1.0, 'reward': 1.6904762983322144, 'reward_std': 0.03860801085829735, 'kl': 0.2098388671875, 'epoch': 0.76}
+ 76%|███████▌  | 3240/4286 [21:29:44<6:37:10, 22.78s/it] 76%|███████▌  | 3241/4286 [21:30:08<6:41:39, 23.06s/it]                                                        {'loss': 0.0103, 'grad_norm': 1.4975742712740971, 'learning_rate': 2.438170788614092e-07, 'completion_length': 398.00001525878906, 'rewards/only_full_func_accuracy_reward': 0.7395833730697632, 'rewards/format_reward': 1.0, 'reward': 1.739583432674408, 'reward_std': 0.04419222101569176, 'kl': 0.25665283203125, 'epoch': 0.76}
+ 76%|███████▌  | 3241/4286 [21:30:08<6:41:39, 23.06s/it] 76%|███████▌  | 3242/4286 [21:30:29<6:30:30, 22.44s/it]                                                        {'loss': 0.0327, 'grad_norm': 0.9291257414035576, 'learning_rate': 2.435837610825945e-07, 'completion_length': 360.7857360839844, 'rewards/only_full_func_accuracy_reward': 0.8980655074119568, 'rewards/format_reward': 1.0, 'reward': 1.8980655670166016, 'reward_std': 0.01894036028534174, 'kl': 0.818603515625, 'epoch': 0.76}
+ 76%|███████▌  | 3242/4286 [21:30:29<6:30:30, 22.44s/it] 76%|███████▌  | 3243/4286 [21:30:52<6:33:30, 22.64s/it]                                                        {'loss': 0.0938, 'grad_norm': 31.5271181932795, 'learning_rate': 2.433504433037797e-07, 'completion_length': 395.7857208251953, 'rewards/only_full_func_accuracy_reward': 0.7918154895305634, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7828869819641113, 'reward_std': 0.14268404990434647, 'kl': 2.3515625, 'epoch': 0.76}
+ 76%|███████▌  | 3243/4286 [21:30:52<6:33:30, 22.64s/it] 76%|███████▌  | 3244/4286 [21:31:16<6:41:37, 23.13s/it]                                                        {'loss': 0.056, 'grad_norm': 3.581031698757299, 'learning_rate': 2.43117125524965e-07, 'completion_length': 417.8839416503906, 'rewards/only_full_func_accuracy_reward': 0.6502976417541504, 'rewards/format_reward': 0.973214328289032, 'reward': 1.6235119700431824, 'reward_std': 0.22208383679389954, 'kl': 1.40234375, 'epoch': 0.76}
+ 76%|███████▌  | 3244/4286 [21:31:16<6:41:37, 23.13s/it] 76%|███████▌  | 3245/4286 [21:31:40<6:44:40, 23.32s/it]                                                        {'loss': 0.1251, 'grad_norm': 2.6107005356406274, 'learning_rate': 2.4288380774615027e-07, 'completion_length': 417.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.5915178656578064, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.5647322535514832, 'reward_std': 0.20294176042079926, 'kl': 3.1328125, 'epoch': 0.76}
+ 76%|███████▌  | 3245/4286 [21:31:40<6:44:40, 23.32s/it] 76%|███████▌  | 3246/4286 [21:32:04<6:47:56, 23.54s/it]                                                        {'loss': 0.1407, 'grad_norm': 4.3919308958488905, 'learning_rate': 2.426504899673355e-07, 'completion_length': 403.3125305175781, 'rewards/only_full_func_accuracy_reward': 0.6785714626312256, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6607143878936768, 'reward_std': 0.1642308458685875, 'kl': 3.5078125, 'epoch': 0.76}
+ 76%|███████▌  | 3246/4286 [21:32:04<6:47:56, 23.54s/it] 76%|███████▌  | 3247/4286 [21:32:27<6:46:04, 23.45s/it]                                                        {'loss': 0.0111, 'grad_norm': 4.2283235934203125, 'learning_rate': 2.4241717218852077e-07, 'completion_length': 408.1696472167969, 'rewards/only_full_func_accuracy_reward': 0.5803571343421936, 'rewards/format_reward': 1.0, 'reward': 1.5803571939468384, 'reward_std': 0.06102111283689737, 'kl': 0.275634765625, 'epoch': 0.76}
+ 76%|███████▌  | 3247/4286 [21:32:27<6:46:04, 23.45s/it] 76%|███████▌  | 3248/4286 [21:32:50<6:40:27, 23.15s/it]                                                        {'loss': 0.0463, 'grad_norm': 3.1073413087022943, 'learning_rate': 2.42183854409706e-07, 'completion_length': 375.8035888671875, 'rewards/only_full_func_accuracy_reward': 0.7662203013896942, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7483632564544678, 'reward_std': 0.14499133080244064, 'kl': 1.15625, 'epoch': 0.76}
+ 76%|███████▌  | 3248/4286 [21:32:50<6:40:27, 23.15s/it] 76%|███████▌  | 3249/4286 [21:33:11<6:30:38, 22.60s/it]                                                        {'loss': 0.0024, 'grad_norm': 2.8030958326856092, 'learning_rate': 2.4195053663089127e-07, 'completion_length': 349.8035888671875, 'rewards/only_full_func_accuracy_reward': 0.7470238208770752, 'rewards/format_reward': 1.0, 'reward': 1.7470239400863647, 'reward_std': 0.04195940122008324, 'kl': 0.0594482421875, 'epoch': 0.76}
+ 76%|███████▌  | 3249/4286 [21:33:11<6:30:38, 22.60s/it] 76%|███████▌  | 3250/4286 [21:33:34<6:35:00, 22.88s/it]                                                        {'loss': 0.0402, 'grad_norm': 1.1005427554232454, 'learning_rate': 2.4171721885207654e-07, 'completion_length': 404.0357208251953, 'rewards/only_full_func_accuracy_reward': 0.6225553452968597, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.613626778125763, 'reward_std': 0.12684467993676662, 'kl': 1.003662109375, 'epoch': 0.76}
+ 76%|███████▌  | 3250/4286 [21:33:34<6:35:00, 22.88s/it] 76%|███████▌  | 3251/4286 [21:33:58<6:36:20, 22.98s/it]                                                        {'loss': 0.0177, 'grad_norm': 1.1466682647263238, 'learning_rate': 2.4148390107326176e-07, 'completion_length': 385.43751525878906, 'rewards/only_full_func_accuracy_reward': 0.70163694024086, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.692708432674408, 'reward_std': 0.0610201763920486, 'kl': 0.442626953125, 'epoch': 0.76}
+ 76%|███████▌  | 3251/4286 [21:33:58<6:36:20, 22.98s/it] 76%|███████▌  | 3252/4286 [21:34:22<6:41:44, 23.31s/it]                                                        {'loss': 0.0274, 'grad_norm': 1.6079444483285332, 'learning_rate': 2.4125058329444704e-07, 'completion_length': 389.3303680419922, 'rewards/only_full_func_accuracy_reward': 0.6659226715564728, 'rewards/format_reward': 1.0, 'reward': 1.6659227013587952, 'reward_std': 0.06345261633396149, 'kl': 0.688232421875, 'epoch': 0.76}
+ 76%|███████▌  | 3252/4286 [21:34:22<6:41:44, 23.31s/it] 76%|███████▌  | 3253/4286 [21:34:46<6:45:00, 23.52s/it]                                                        {'loss': 0.0193, 'grad_norm': 0.7179783801017434, 'learning_rate': 2.4101726551563226e-07, 'completion_length': 454.23216247558594, 'rewards/only_full_func_accuracy_reward': 0.707589328289032, 'rewards/format_reward': 1.0, 'reward': 1.7075894474983215, 'reward_std': 0.03796404879540205, 'kl': 0.4853515625, 'epoch': 0.76}
+ 76%|███████▌  | 3253/4286 [21:34:46<6:45:00, 23.52s/it] 76%|███████▌  | 3254/4286 [21:35:06<6:27:06, 22.51s/it]                                                        {'loss': 0.0624, 'grad_norm': 1.4832957639247555, 'learning_rate': 2.4078394773681754e-07, 'completion_length': 292.6428680419922, 'rewards/only_full_func_accuracy_reward': 0.7227466404438019, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7048895955085754, 'reward_std': 0.11844446137547493, 'kl': 1.5576171875, 'epoch': 0.76}
+ 76%|███████▌  | 3254/4286 [21:35:06<6:27:06, 22.51s/it] 76%|███████▌  | 3255/4286 [21:35:29<6:29:39, 22.68s/it]                                                        {'loss': 0.0224, 'grad_norm': 0.7117651043742584, 'learning_rate': 2.405506299580028e-07, 'completion_length': 378.83038330078125, 'rewards/only_full_func_accuracy_reward': 0.7946429550647736, 'rewards/format_reward': 1.0, 'reward': 1.794642984867096, 'reward_std': 0.027771349996328354, 'kl': 0.5595703125, 'epoch': 0.76}
+ 76%|███████▌  | 3255/4286 [21:35:29<6:29:39, 22.68s/it] 76%|███████▌  | 3256/4286 [21:35:50<6:22:09, 22.26s/it]                                                        {'loss': 0.0022, 'grad_norm': 1.4594075339866113, 'learning_rate': 2.4031731217918803e-07, 'completion_length': 360.4553680419922, 'rewards/only_full_func_accuracy_reward': 0.625744104385376, 'rewards/format_reward': 1.0, 'reward': 1.625744104385376, 'reward_std': 0.03156726807355881, 'kl': 0.0545654296875, 'epoch': 0.76}
+ 76%|███████▌  | 3256/4286 [21:35:50<6:22:09, 22.26s/it] 76%|███████▌  | 3257/4286 [21:36:14<6:28:18, 22.64s/it]                                                        {'loss': 0.0045, 'grad_norm': 0.6781244984649565, 'learning_rate': 2.400839944003733e-07, 'completion_length': 403.0178680419922, 'rewards/only_full_func_accuracy_reward': 0.672619104385376, 'rewards/format_reward': 1.0, 'reward': 1.6726191639900208, 'reward_std': 0.028855099342763424, 'kl': 0.1134033203125, 'epoch': 0.76}
+ 76%|███████▌  | 3257/4286 [21:36:14<6:28:18, 22.64s/it] 76%|███████▌  | 3258/4286 [21:36:38<6:37:06, 23.18s/it]                                                        {'loss': 0.0263, 'grad_norm': 0.9245229346977355, 'learning_rate': 2.3985067662155853e-07, 'completion_length': 400.2857208251953, 'rewards/only_full_func_accuracy_reward': 0.6413690149784088, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6324406266212463, 'reward_std': 0.06316070258617401, 'kl': 0.658203125, 'epoch': 0.76}
+ 76%|███████▌  | 3258/4286 [21:36:38<6:37:06, 23.18s/it] 76%|███████▌  | 3259/4286 [21:37:00<6:26:55, 22.61s/it]                                                        {'loss': 0.0019, 'grad_norm': 1.3854512925217377, 'learning_rate': 2.396173588427438e-07, 'completion_length': 331.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.6659226715564728, 'rewards/format_reward': 1.0, 'reward': 1.6659227013587952, 'reward_std': 0.0312629584223032, 'kl': 0.046875, 'epoch': 0.76}
+ 76%|███████▌  | 3259/4286 [21:37:00<6:26:55, 22.61s/it] 76%|███████▌  | 3260/4286 [21:37:23<6:32:28, 22.95s/it]                                                        {'loss': 0.0019, 'grad_norm': 0.7114102285239059, 'learning_rate': 2.393840410639291e-07, 'completion_length': 391.3393096923828, 'rewards/only_full_func_accuracy_reward': 0.7797619700431824, 'rewards/format_reward': 1.0, 'reward': 1.7797619700431824, 'reward_std': 0.023648574016988277, 'kl': 0.0467529296875, 'epoch': 0.76}
+ 76%|███████▌  | 3260/4286 [21:37:23<6:32:28, 22.95s/it] 76%|███████▌  | 3261/4286 [21:37:46<6:31:06, 22.89s/it]                                                        {'loss': 0.0175, 'grad_norm': 1.6687318646172067, 'learning_rate': 2.391507232851143e-07, 'completion_length': 354.8393096923828, 'rewards/only_full_func_accuracy_reward': 0.7322916686534882, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7144346237182617, 'reward_std': 0.06538808345794678, 'kl': 0.43505859375, 'epoch': 0.76}
+ 76%|███████▌  | 3261/4286 [21:37:46<6:31:06, 22.89s/it] 76%|███████▌  | 3262/4286 [21:38:09<6:30:16, 22.87s/it]                                                        {'loss': 0.0033, 'grad_norm': 0.3880051439224183, 'learning_rate': 2.389174055062996e-07, 'completion_length': 394.6160888671875, 'rewards/only_full_func_accuracy_reward': 0.6763392984867096, 'rewards/format_reward': 1.0, 'reward': 1.6763394474983215, 'reward_std': 0.02284595649689436, 'kl': 0.08258056640625, 'epoch': 0.76}
+ 76%|███████▌  | 3262/4286 [21:38:09<6:30:16, 22.87s/it] 76%|███████▌  | 3263/4286 [21:38:32<6:30:04, 22.88s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.925425681592174, 'learning_rate': 2.3868408772748485e-07, 'completion_length': 398.7143096923828, 'rewards/only_full_func_accuracy_reward': 0.5702380836009979, 'rewards/format_reward': 1.0, 'reward': 1.570238173007965, 'reward_std': 0.077036889269948, 'kl': 0.0421142578125, 'epoch': 0.76}
+ 76%|███████▌  | 3263/4286 [21:38:32<6:30:04, 22.88s/it] 76%|███████▌  | 3264/4286 [21:38:55<6:33:02, 23.07s/it]                                                        {'loss': 0.0113, 'grad_norm': 1.230034337515711, 'learning_rate': 2.384507699486701e-07, 'completion_length': 411.71429443359375, 'rewards/only_full_func_accuracy_reward': 0.892857164144516, 'rewards/format_reward': 1.0, 'reward': 1.8928572535514832, 'reward_std': 0.016835881397128105, 'kl': 0.2816162109375, 'epoch': 0.76}
+ 76%|███████▌  | 3264/4286 [21:38:55<6:33:02, 23.07s/it] 76%|███████▌  | 3265/4286 [21:39:18<6:31:47, 23.02s/it]                                                        {'loss': 0.0156, 'grad_norm': 11.945267612094282, 'learning_rate': 2.3821745216985533e-07, 'completion_length': 390.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.6443452537059784, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6354167461395264, 'reward_std': 0.04863042011857033, 'kl': 0.3876953125, 'epoch': 0.76}
+ 76%|███████▌  | 3265/4286 [21:39:18<6:31:47, 23.02s/it] 76%|███████▌  | 3266/4286 [21:39:43<6:38:25, 23.44s/it]                                                        {'loss': 0.0075, 'grad_norm': 0.2794662840636112, 'learning_rate': 2.379841343910406e-07, 'completion_length': 435.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.651041716337204, 'rewards/format_reward': 1.0, 'reward': 1.6510417461395264, 'reward_std': 0.052105183713138103, 'kl': 0.187744140625, 'epoch': 0.76}
+ 76%|███████▌  | 3266/4286 [21:39:43<6:38:25, 23.44s/it] 76%|███████▌  | 3267/4286 [21:40:06<6:37:40, 23.42s/it]                                                        {'loss': 0.004, 'grad_norm': 0.3484696983971057, 'learning_rate': 2.3775081661222585e-07, 'completion_length': 386.43751525878906, 'rewards/only_full_func_accuracy_reward': 0.6956845223903656, 'rewards/format_reward': 1.0, 'reward': 1.6956846714019775, 'reward_std': 0.009241949766874313, 'kl': 0.1007080078125, 'epoch': 0.76}
+ 76%|███████▌  | 3267/4286 [21:40:06<6:37:40, 23.42s/it] 76%|███████▌  | 3268/4286 [21:40:26<6:20:25, 22.42s/it]                                                        {'loss': 0.0127, 'grad_norm': 1.2355901801841909, 'learning_rate': 2.375174988334111e-07, 'completion_length': 299.03572845458984, 'rewards/only_full_func_accuracy_reward': 0.7224703133106232, 'rewards/format_reward': 1.0, 'reward': 1.7224703431129456, 'reward_std': 0.08598048985004425, 'kl': 0.31787109375, 'epoch': 0.76}
+ 76%|██████���▌  | 3268/4286 [21:40:26<6:20:25, 22.42s/it] 76%|███████▋  | 3269/4286 [21:40:50<6:27:53, 22.88s/it]                                                        {'loss': 0.0109, 'grad_norm': 0.7502080100062993, 'learning_rate': 2.3728418105459635e-07, 'completion_length': 403.9464569091797, 'rewards/only_full_func_accuracy_reward': 0.6726190894842148, 'rewards/format_reward': 1.0, 'reward': 1.6726192235946655, 'reward_std': 0.033671751618385315, 'kl': 0.2725830078125, 'epoch': 0.76}
+ 76%|███████▋  | 3269/4286 [21:40:50<6:27:53, 22.88s/it] 76%|███████▋  | 3270/4286 [21:41:14<6:34:46, 23.31s/it]                                                        {'loss': 0.0186, 'grad_norm': 1.0055254713186403, 'learning_rate': 2.3705086327578162e-07, 'completion_length': 409.16966247558594, 'rewards/only_full_func_accuracy_reward': 0.7083334028720856, 'rewards/format_reward': 1.0, 'reward': 1.708333432674408, 'reward_std': 0.05050762742757797, 'kl': 0.463623046875, 'epoch': 0.76}
+ 76%|███████▋  | 3270/4286 [21:41:14<6:34:46, 23.31s/it] 76%|███████▋  | 3271/4286 [21:41:37<6:31:40, 23.15s/it]                                                        {'loss': 0.0303, 'grad_norm': 2.322817978973407, 'learning_rate': 2.3681754549696687e-07, 'completion_length': 417.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.6659226715564728, 'rewards/format_reward': 1.0, 'reward': 1.6659227013587952, 'reward_std': 0.05636601895093918, 'kl': 0.7578125, 'epoch': 0.76}
+ 76%|███████▋  | 3271/4286 [21:41:37<6:31:40, 23.15s/it] 76%|███████▋  | 3272/4286 [21:42:01<6:34:41, 23.35s/it]                                                        {'loss': 0.0025, 'grad_norm': 0.19817205007833874, 'learning_rate': 2.3658422771815212e-07, 'completion_length': 396.1518096923828, 'rewards/only_full_func_accuracy_reward': 0.7068452835083008, 'rewards/format_reward': 1.0, 'reward': 1.7068453431129456, 'reward_std': 0.03080650046467781, 'kl': 0.0616455078125, 'epoch': 0.76}
+ 76%|███████▋  | 3272/4286 [21:42:01<6:34:41, 23.35s/it] 76%|███████▋  | 3273/4286 [21:42:24<6:31:31, 23.19s/it]                                                        {'loss': 0.0162, 'grad_norm': 1.683919949967081, 'learning_rate': 2.3635090993933737e-07, 'completion_length': 400.8660888671875, 'rewards/only_full_func_accuracy_reward': 0.775297611951828, 'rewards/format_reward': 1.0, 'reward': 1.7752977013587952, 'reward_std': 0.03727211058139801, 'kl': 0.4041748046875, 'epoch': 0.76}
+ 76%|███████▋  | 3273/4286 [21:42:24<6:31:31, 23.19s/it] 76%|███████▋  | 3274/4286 [21:42:47<6:31:46, 23.23s/it]                                                        {'loss': 0.0051, 'grad_norm': 0.7901759753856425, 'learning_rate': 2.3611759216052262e-07, 'completion_length': 404.76788330078125, 'rewards/only_full_func_accuracy_reward': 0.65327388048172, 'rewards/format_reward': 1.0, 'reward': 1.65327388048172, 'reward_std': 0.04441050346940756, 'kl': 0.1285400390625, 'epoch': 0.76}
+ 76%|███████▋  | 3274/4286 [21:42:47<6:31:46, 23.23s/it] 76%|███████▋  | 3275/4286 [21:43:11<6:32:55, 23.32s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.42288352407876373, 'learning_rate': 2.358842743817079e-07, 'completion_length': 413.2053680419922, 'rewards/only_full_func_accuracy_reward': 0.7254464626312256, 'rewards/format_reward': 1.0, 'reward': 1.7254464626312256, 'reward_std': 0.03935370780527592, 'kl': 0.03662109375, 'epoch': 0.76}
+ 76%|███████▋  | 3275/4286 [21:43:11<6:32:55, 23.32s/it] 76%|███████▋  | 3276/4286 [21:43:34<6:33:03, 23.35s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.9146012398026183, 'learning_rate': 2.3565095660289314e-07, 'completion_length': 394.02679443359375, 'rewards/only_full_func_accuracy_reward': 0.7700892984867096, 'rewards/format_reward': 1.0, 'reward': 1.7700894474983215, 'reward_std': 0.043214838951826096, 'kl': 0.0452880859375, 'epoch': 0.76}
+ 76%|███████▋  | 3276/4286 [21:43:34<6:33:03, 23.35s/it] 76%|███████▋  | 3277/4286 [21:43:57<6:29:16, 23.15s/it]                                                        {'loss': 0.0095, 'grad_norm': 1.7392372795004694, 'learning_rate': 2.354176388240784e-07, 'completion_length': 410.9018096923828, 'rewards/only_full_func_accuracy_reward': 0.7812500298023224, 'rewards/format_reward': 1.0, 'reward': 1.7812501192092896, 'reward_std': 0.03660024702548981, 'kl': 0.2386474609375, 'epoch': 0.76}
+ 76%|███████▋  | 3277/4286 [21:43:57<6:29:16, 23.15s/it] 76%|███████▋  | 3278/4286 [21:44:19<6:26:40, 23.02s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.14686551501295927, 'learning_rate': 2.3518432104526364e-07, 'completion_length': 389.96429443359375, 'rewards/only_full_func_accuracy_reward': 0.7395833432674408, 'rewards/format_reward': 1.0, 'reward': 1.7395834922790527, 'reward_std': 0.021044847555458546, 'kl': 0.0452880859375, 'epoch': 0.76}
+ 76%|███████▋  | 3278/4286 [21:44:19<6:26:40, 23.02s/it] 77%|███████▋  | 3279/4286 [21:44:42<6:22:21, 22.78s/it]                                                        {'loss': 0.0073, 'grad_norm': 1.6930405482349595, 'learning_rate': 2.349510032664489e-07, 'completion_length': 375.08038330078125, 'rewards/only_full_func_accuracy_reward': 0.6428571939468384, 'rewards/format_reward': 1.0, 'reward': 1.6428571939468384, 'reward_std': 0.03757641464471817, 'kl': 0.18212890625, 'epoch': 0.77}
+ 77%|███████▋  | 3279/4286 [21:44:42<6:22:21, 22.78s/it] 77%|███████▋  | 3280/4286 [21:45:04<6:21:51, 22.78s/it]                                                        {'loss': 0.0168, 'grad_norm': 2.0457721157815194, 'learning_rate': 2.3471768548763416e-07, 'completion_length': 400.2768096923828, 'rewards/only_full_func_accuracy_reward': 0.7819941639900208, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7730655670166016, 'reward_std': 0.08469908498227596, 'kl': 0.419189453125, 'epoch': 0.77}
+ 77%|███████▋  | 3280/4286 [21:45:04<6:21:51, 22.78s/it] 77%|███████▋  | 3281/4286 [21:45:28<6:25:43, 23.03s/it]                                                        {'loss': 0.0068, 'grad_norm': 0.6374350937852752, 'learning_rate': 2.344843677088194e-07, 'completion_length': 438.79466247558594, 'rewards/only_full_func_accuracy_reward': 0.7678571939468384, 'rewards/format_reward': 1.0, 'reward': 1.7678572535514832, 'reward_std': 0.0, 'kl': 0.16949462890625, 'epoch': 0.77}
+ 77%|███████▋  | 3281/4286 [21:45:28<6:25:43, 23.03s/it] 77%|███████▋  | 3282/4286 [21:45:50<6:22:21, 22.85s/it]                                                        {'loss': 0.0125, 'grad_norm': 1.0584903411285411, 'learning_rate': 2.3425104993000466e-07, 'completion_length': 368.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.6392857134342194, 'rewards/format_reward': 1.0, 'reward': 1.6392858624458313, 'reward_std': 0.05120789841748774, 'kl': 0.3125, 'epoch': 0.77}
+ 77%|███████▋  | 3282/4286 [21:45:50<6:22:21, 22.85s/it] 77%|███████▋  | 3283/4286 [21:46:14<6:23:01, 22.91s/it]                                                        {'loss': 0.0065, 'grad_norm': 1.9824295619533552, 'learning_rate': 2.340177321511899e-07, 'completion_length': 386.6607360839844, 'rewards/only_full_func_accuracy_reward': 0.7321428954601288, 'rewards/format_reward': 1.0, 'reward': 1.7321429252624512, 'reward_std': 0.03483853116631508, 'kl': 0.1610107421875, 'epoch': 0.77}
+ 77%|███████▋  | 3283/4286 [21:46:14<6:23:01, 22.91s/it] 77%|███████▋  | 3284/4286 [21:46:37<6:25:25, 23.08s/it]                                                        {'loss': 0.0194, 'grad_norm': 0.24455547903616923, 'learning_rate': 2.3378441437237518e-07, 'completion_length': 417.7589416503906, 'rewards/only_full_func_accuracy_reward': 0.7559524476528168, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7470239400863647, 'reward_std': 0.06290854699909687, 'kl': 0.48419189453125, 'epoch': 0.77}
+ 77%|███████▋  | 3284/4286 [21:46:37<6:25:25, 23.08s/it] 77%|███████▋  | 3285/4286 [21:47:01<6:27:53, 23.25s/it]                                                        {'loss': 0.0218, 'grad_norm': 0.6756794473158626, 'learning_rate': 2.3355109659356043e-07, 'completion_length': 408.9285888671875, 'rewards/only_full_func_accuracy_reward': 0.5729166567325592, 'rewards/format_reward': 1.0, 'reward': 1.5729168057441711, 'reward_std': 0.07966703176498413, 'kl': 0.547119140625, 'epoch': 0.77}
+ 77%|███████▋  | 3285/4286 [21:47:01<6:27:53, 23.25s/it] 77%|███████▋  | 3286/4286 [21:47:23<6:20:34, 22.83s/it]                                                        {'loss': 0.0448, 'grad_norm': 1.2245543599359727, 'learning_rate': 2.3331777881474568e-07, 'completion_length': 361.8839416503906, 'rewards/only_full_func_accuracy_reward': 0.7834821939468384, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7745537161827087, 'reward_std': 0.09651300311088562, 'kl': 1.12109375, 'epoch': 0.77}
+ 77%|███████▋  | 3286/4286 [21:47:23<6:20:34, 22.83s/it] 77%|███████▋  | 3287/4286 [21:47:46<6:21:32, 22.92s/it]                                                        {'loss': 0.0148, 'grad_norm': 3.6247421667006257, 'learning_rate': 2.3308446103593093e-07, 'completion_length': 416.1428680419922, 'rewards/only_full_func_accuracy_reward': 0.6168155372142792, 'rewards/format_reward': 1.0, 'reward': 1.6168155670166016, 'reward_std': 0.06128957122564316, 'kl': 0.373046875, 'epoch': 0.77}
+ 77%|███████▋  | 3287/4286 [21:47:46<6:21:32, 22.92s/it] 77%|███████▋  | 3288/4286 [21:48:07<6:15:59, 22.60s/it]                                                        {'loss': 0.0196, 'grad_norm': 1.443357110520248, 'learning_rate': 2.3285114325711618e-07, 'completion_length': 349.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.831101268529892, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8221727013587952, 'reward_std': 0.046818364411592484, 'kl': 0.4913330078125, 'epoch': 0.77}
+ 77%|███████▋  | 3288/4286 [21:48:07<6:15:59, 22.60s/it] 77%|███████▋  | 3289/4286 [21:48:31<6:18:45, 22.79s/it]                                                        {'loss': 0.0022, 'grad_norm': 3.8775977244940383, 'learning_rate': 2.3261782547830145e-07, 'completion_length': 389.83929443359375, 'rewards/only_full_func_accuracy_reward': 0.7604167461395264, 'rewards/format_reward': 1.0, 'reward': 1.7604167461395264, 'reward_std': 0.04859565570950508, 'kl': 0.0543212890625, 'epoch': 0.77}
+ 77%|███████▋  | 3289/4286 [21:48:31<6:18:45, 22.79s/it] 77%|███████▋  | 3290/4286 [21:48:54<6:19:39, 22.87s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.31584719726952865, 'learning_rate': 2.323845076994867e-07, 'completion_length': 388.81251525878906, 'rewards/only_full_func_accuracy_reward': 0.711309552192688, 'rewards/format_reward': 1.0, 'reward': 1.7113096714019775, 'reward_std': 0.0330419335514307, 'kl': 0.039306640625, 'epoch': 0.77}
+ 77%|███████▋  | 3290/4286 [21:48:54<6:19:39, 22.87s/it] 77%|███████▋  | 3291/4286 [21:49:18<6:26:33, 23.31s/it]                                                        {'loss': 0.0168, 'grad_norm': 0.4194891487039368, 'learning_rate': 2.3215118992067195e-07, 'completion_length': 389.8482360839844, 'rewards/only_full_func_accuracy_reward': 0.7470239102840424, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7380954027175903, 'reward_std': 0.06283022277057171, 'kl': 0.41845703125, 'epoch': 0.77}
+ 77%|███████▋  | 3291/4286 [21:49:18<6:26:33, 23.31s/it] 77%|███████▋  | 3292/4286 [21:49:41<6:25:05, 23.25s/it]                                                        {'loss': 0.0035, 'grad_norm': 0.6717578772726635, 'learning_rate': 2.319178721418572e-07, 'completion_length': 421.3214569091797, 'rewards/only_full_func_accuracy_reward': 0.697916716337204, 'rewards/format_reward': 1.0, 'reward': 1.6979168057441711, 'reward_std': 0.0511570293456316, 'kl': 0.0882568359375, 'epoch': 0.77}
+ 77%|███████▋  | 3292/4286 [21:49:41<6:25:05, 23.25s/it] 77%|███████▋  | 3293/4286 [21:50:05<6:26:10, 23.33s/it]                                                        {'loss': 0.0069, 'grad_norm': 1.4175949166085684, 'learning_rate': 2.3168455436304247e-07, 'completion_length': 385.8839416503906, 'rewards/only_full_func_accuracy_reward': 0.6973214447498322, 'rewards/format_reward': 1.0, 'reward': 1.6973215341567993, 'reward_std': 0.03902396000921726, 'kl': 0.1732177734375, 'epoch': 0.77}
+ 77%|███████▋  | 3293/4286 [21:50:05<6:26:10, 23.33s/it] 77%|███████▋  | 3294/4286 [21:50:29<6:28:43, 23.51s/it]                                                        {'loss': 0.0171, 'grad_norm': 0.41833908686188015, 'learning_rate': 2.3145123658422772e-07, 'completion_length': 393.1428680419922, 'rewards/only_full_func_accuracy_reward': 0.646577388048172, 'rewards/format_reward': 1.0, 'reward': 1.646577537059784, 'reward_std': 0.054881270974874496, 'kl': 0.4263916015625, 'epoch': 0.77}
+ 77%|███████▋  | 3294/4286 [21:50:29<6:28:43, 23.51s/it] 77%|███████▋  | 3295/4286 [21:50:51<6:24:51, 23.30s/it]                                                        {'loss': 0.0071, 'grad_norm': 1.3465591548103084, 'learning_rate': 2.3121791880541297e-07, 'completion_length': 373.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.7485119104385376, 'rewards/format_reward': 1.0, 'reward': 1.7485119700431824, 'reward_std': 0.04479323513805866, 'kl': 0.1783447265625, 'epoch': 0.77}
+ 77%|███████▋  | 3295/4286 [21:50:51<6:24:51, 23.30s/it] 77%|███████▋  | 3296/4286 [21:51:14<6:22:28, 23.18s/it]                                                        {'loss': 0.0021, 'grad_norm': 0.8186617492597951, 'learning_rate': 2.3098460102659822e-07, 'completion_length': 348.1339416503906, 'rewards/only_full_func_accuracy_reward': 0.6886904835700989, 'rewards/format_reward': 1.0, 'reward': 1.6886906027793884, 'reward_std': 0.03455632925033569, 'kl': 0.0516357421875, 'epoch': 0.77}
+ 77%|███████▋  | 3296/4286 [21:51:14<6:22:28, 23.18s/it] 77%|███████▋  | 3297/4286 [21:51:38<6:25:13, 23.37s/it]                                                        {'loss': 0.0014, 'grad_norm': 0.40001643684046645, 'learning_rate': 2.3075128324778347e-07, 'completion_length': 423.6875305175781, 'rewards/only_full_func_accuracy_reward': 0.8940476477146149, 'rewards/format_reward': 1.0, 'reward': 1.8940476775169373, 'reward_std': 0.030245354399085045, 'kl': 0.03533935546875, 'epoch': 0.77}
+ 77%|███████▋  | 3297/4286 [21:51:38<6:25:13, 23.37s/it] 77%|███████▋  | 3298/4286 [21:52:02<6:27:43, 23.55s/it]                                                        {'loss': 0.0137, 'grad_norm': 5.18877830749755, 'learning_rate': 2.3051796546896874e-07, 'completion_length': 400.25001525878906, 'rewards/only_full_func_accuracy_reward': 0.7309524416923523, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7220239639282227, 'reward_std': 0.06814973056316376, 'kl': 0.3411865234375, 'epoch': 0.77}
+ 77%|███████▋  | 3298/4286 [21:52:02<6:27:43, 23.55s/it] 77%|███████▋  | 3299/4286 [21:52:27<6:31:53, 23.82s/it]                                                        {'loss': 0.0231, 'grad_norm': 1.3905743288078103, 'learning_rate': 2.30284647690154e-07, 'completion_length': 412.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.6361607611179352, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6272321939468384, 'reward_std': 0.10999014414846897, 'kl': 0.578125, 'epoch': 0.77}
+ 77%|███████▋  | 3299/4286 [21:52:27<6:31:53, 23.82s/it] 77%|███████▋  | 3300/4286 [21:52:50<6:28:45, 23.66s/it]                                                        {'loss': 0.0101, 'grad_norm': 0.9431309897829508, 'learning_rate': 2.3005132991133924e-07, 'completion_length': 430.3214569091797, 'rewards/only_full_func_accuracy_reward': 0.7232142984867096, 'rewards/format_reward': 1.0, 'reward': 1.723214328289032, 'reward_std': 0.04439834505319595, 'kl': 0.2518310546875, 'epoch': 0.77}
+ 77%|███████▋  | 3300/4286 [21:52:50<6:28:45, 23.66s/it] 77%|███████▋  | 3301/4286 [21:54:19<11:52:28, 43.40s/it]                                                         {'loss': 0.0118, 'grad_norm': 0.5150812656721033, 'learning_rate': 2.298180121325245e-07, 'completion_length': 399.9107360839844, 'rewards/only_full_func_accuracy_reward': 0.7001488506793976, 'rewards/format_reward': 1.0, 'reward': 1.7001489400863647, 'reward_std': 0.03564594313502312, 'kl': 0.29443359375, 'epoch': 0.77}
+ 77%|███████▋  | 3301/4286 [21:54:19<11:52:28, 43.40s/it] 77%|███████▋  | 3302/4286 [21:54:40<9:59:23, 36.55s/it]                                                         {'loss': 0.0173, 'grad_norm': 0.530098194537714, 'learning_rate': 2.2958469435370976e-07, 'completion_length': 382.5089569091797, 'rewards/only_full_func_accuracy_reward': 0.6847718060016632, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.675843358039856, 'reward_std': 0.07608144916594028, 'kl': 0.431640625, 'epoch': 0.77}
+ 77%|███████▋  | 3302/4286 [21:54:40<9:59:23, 36.55s/it] 77%|███████▋  | 3303/4286 [21:54:59<8:31:49, 31.24s/it]                                                        {'loss': 0.0655, 'grad_norm': 1.5428999667254686, 'learning_rate': 2.29351376574895e-07, 'completion_length': 336.9107360839844, 'rewards/only_full_func_accuracy_reward': 0.65625, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.638392984867096, 'reward_std': 0.11318617686629295, 'kl': 1.640625, 'epoch': 0.77}
+ 77%|███████▋  | 3303/4286 [21:54:59<8:31:49, 31.24s/it] 77%|███████▋  | 3304/4286 [21:55:19<7:35:19, 27.82s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.21004489270652707, 'learning_rate': 2.2911805879608026e-07, 'completion_length': 395.3482208251953, 'rewards/only_full_func_accuracy_reward': 0.8125000596046448, 'rewards/format_reward': 1.0, 'reward': 1.8125001192092896, 'reward_std': 0.013498731888830662, 'kl': 0.0377197265625, 'epoch': 0.77}
+ 77%|███████▋  | 3304/4286 [21:55:19<7:35:19, 27.82s/it] 77%|███████▋  | 3305/4286 [21:55:42<7:13:51, 26.54s/it]                                                        {'loss': 0.0304, 'grad_norm': 1.7414228844601511, 'learning_rate': 2.288847410172655e-07, 'completion_length': 418.2589569091797, 'rewards/only_full_func_accuracy_reward': 0.595982164144516, 'rewards/format_reward': 1.0, 'reward': 1.5959822535514832, 'reward_std': 0.07181333750486374, 'kl': 0.7607421875, 'epoch': 0.77}
+ 77%|███████▋  | 3305/4286 [21:55:42<7:13:51, 26.54s/it] 77%|███████▋  | 3306/4286 [21:56:05<6:54:14, 25.36s/it]                                                        {'loss': 0.0816, 'grad_norm': 0.6634879993345295, 'learning_rate': 2.2865142323845076e-07, 'completion_length': 398.6428680419922, 'rewards/only_full_func_accuracy_reward': 0.7849702835083008, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7760418057441711, 'reward_std': 0.13136305287480354, 'kl': 2.0390625, 'epoch': 0.77}
+ 77%|███████▋  | 3306/4286 [21:56:05<6:54:14, 25.36s/it] 77%|███████▋  | 3307/4286 [21:56:28<6:43:45, 24.75s/it]                                                        {'loss': 0.0701, 'grad_norm': 2.5088876190768565, 'learning_rate': 2.2841810545963603e-07, 'completion_length': 400.66966247558594, 'rewards/only_full_func_accuracy_reward': 0.7339286506175995, 'rewards/format_reward': 1.0, 'reward': 1.7339287400245667, 'reward_std': 0.10038874112069607, 'kl': 1.75390625, 'epoch': 0.77}
+ 77%|███████▋  | 3307/4286 [21:56:28<6:43:45, 24.75s/it] 77%|███████▋  | 3308/4286 [21:56:51<6:35:07, 24.24s/it]                                                        {'loss': 0.0046, 'grad_norm': 1.8423056268114113, 'learning_rate': 2.2818478768082128e-07, 'completion_length': 369.5714416503906, 'rewards/only_full_func_accuracy_reward': 0.9188988208770752, 'rewards/format_reward': 1.0, 'reward': 1.9188989400863647, 'reward_std': 0.06042330153286457, 'kl': 0.1148681640625, 'epoch': 0.77}
+ 77%|███████▋  | 3308/4286 [21:56:51<6:35:07, 24.24s/it] 77%|███████▋  | 3309/4286 [21:57:13<6:23:52, 23.57s/it]                                                        {'loss': 0.0336, 'grad_norm': 0.9447223448525723, 'learning_rate': 2.2795146990200653e-07, 'completion_length': 362.2232360839844, 'rewards/only_full_func_accuracy_reward': 0.7202381491661072, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7113096117973328, 'reward_std': 0.08316446654498577, 'kl': 0.83642578125, 'epoch': 0.77}
+ 77%|███████▋  | 3309/4286 [21:57:13<6:23:52, 23.57s/it] 77%|███████▋  | 3310/4286 [21:57:36<6:20:21, 23.38s/it]                                                        {'loss': 0.0615, 'grad_norm': 1.7523329964676306, 'learning_rate': 2.2771815212319178e-07, 'completion_length': 386.1607360839844, 'rewards/only_full_func_accuracy_reward': 0.628720223903656, 'rewards/format_reward': 1.0, 'reward': 1.6287203431129456, 'reward_std': 0.05929451808333397, 'kl': 1.5390625, 'epoch': 0.77}
+ 77%|███████▋  | 3310/4286 [21:57:36<6:20:21, 23.38s/it] 77%|███████▋  | 3311/4286 [21:58:00<6:20:45, 23.43s/it]                                                        {'loss': 0.0173, 'grad_norm': 0.589097615616316, 'learning_rate': 2.2748483434437703e-07, 'completion_length': 394.5714569091797, 'rewards/only_full_func_accuracy_reward': 0.7395834028720856, 'rewards/format_reward': 1.0, 'reward': 1.739583432674408, 'reward_std': 0.04108248092234135, 'kl': 0.4324951171875, 'epoch': 0.77}
+ 77%|███████▋  | 3311/4286 [21:58:00<6:20:45, 23.43s/it] 77%|███████▋  | 3312/4286 [21:58:22<6:17:02, 23.23s/it]                                                        {'loss': 0.0893, 'grad_norm': 0.9699927511928201, 'learning_rate': 2.272515165655623e-07, 'completion_length': 370.02679443359375, 'rewards/only_full_func_accuracy_reward': 0.5880456566810608, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5791171789169312, 'reward_std': 0.1732451729476452, 'kl': 2.23046875, 'epoch': 0.77}
+ 77%|███████▋  | 3312/4286 [21:58:22<6:17:02, 23.23s/it] 77%|███████▋  | 3313/4286 [21:58:45<6:12:03, 22.94s/it]                                                        {'loss': 0.0582, 'grad_norm': 0.5729701357555569, 'learning_rate': 2.2701819878674755e-07, 'completion_length': 382.5357360839844, 'rewards/only_full_func_accuracy_reward': 0.6123512387275696, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.5944942235946655, 'reward_std': 0.1351361945271492, 'kl': 1.453125, 'epoch': 0.77}
+ 77%|███████▋  | 3313/4286 [21:58:45<6:12:03, 22.94s/it] 77%|███████▋  | 3314/4286 [21:59:08<6:13:25, 23.05s/it]                                                        {'loss': 0.1528, 'grad_norm': 4.582424361682377, 'learning_rate': 2.267848810079328e-07, 'completion_length': 384.8035888671875, 'rewards/only_full_func_accuracy_reward': 0.7343750298023224, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.6986607909202576, 'reward_std': 0.23816309124231339, 'kl': 3.82421875, 'epoch': 0.77}
+ 77%|███████▋  | 3314/4286 [21:59:08<6:13:25, 23.05s/it] 77%|███████▋  | 3315/4286 [21:59:30<6:06:08, 22.62s/it]                                                        {'loss': 0.057, 'grad_norm': 3.3658419010680394, 'learning_rate': 2.2655156322911805e-07, 'completion_length': 358.4107360839844, 'rewards/only_full_func_accuracy_reward': 0.6562500298023224, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6473215222358704, 'reward_std': 0.09873180650174618, 'kl': 1.427734375, 'epoch': 0.77}
+ 77%|███████▋  | 3315/4286 [21:59:30<6:06:08, 22.62s/it] 77%|███████▋  | 3316/4286 [21:59:54<6:11:58, 23.01s/it]                                                        {'loss': 0.0791, 'grad_norm': 1.8140759423544364, 'learning_rate': 2.2631824545030333e-07, 'completion_length': 410.1071472167969, 'rewards/only_full_func_accuracy_reward': 0.6436012089252472, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.63467276096344, 'reward_std': 0.14463724941015244, 'kl': 1.9765625, 'epoch': 0.77}
+ 77%|███████▋  | 3316/4286 [21:59:54<6:11:58, 23.01s/it] 77%|███████▋  | 3317/4286 [22:00:17<6:13:36, 23.13s/it]                                                        {'loss': 0.0708, 'grad_norm': 2.8697067044367244, 'learning_rate': 2.2608492767148857e-07, 'completion_length': 375.00001525878906, 'rewards/only_full_func_accuracy_reward': 0.761904776096344, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7529762983322144, 'reward_std': 0.1297297291457653, 'kl': 1.7744140625, 'epoch': 0.77}
+ 77%|███████▋  | 3317/4286 [22:00:17<6:13:36, 23.13s/it] 77%|███████▋  | 3318/4286 [22:00:39<6:09:02, 22.87s/it]                                                        {'loss': 0.0499, 'grad_norm': 0.9664291465887033, 'learning_rate': 2.2585160989267382e-07, 'completion_length': 406.8839569091797, 'rewards/only_full_func_accuracy_reward': 0.8415178656578064, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8325893878936768, 'reward_std': 0.10041685402393341, 'kl': 1.24609375, 'epoch': 0.77}
+ 77%|███████▋  | 3318/4286 [22:00:39<6:09:02, 22.87s/it] 77%|███████▋  | 3319/4286 [22:01:01<6:01:55, 22.46s/it]                                                        {'loss': 0.1461, 'grad_norm': 4.1362122820403755, 'learning_rate': 2.2561829211385907e-07, 'completion_length': 325.45538330078125, 'rewards/only_full_func_accuracy_reward': 0.7739211618900299, 'rewards/format_reward': 0.955357164144516, 'reward': 1.729278326034546, 'reward_std': 0.2378145158290863, 'kl': 3.6484375, 'epoch': 0.77}
+ 77%|███████▋  | 3319/4286 [22:01:01<6:01:55, 22.46s/it] 77%|███████▋  | 3320/4286 [22:01:25<6:10:44, 23.03s/it]                                                        {'loss': 0.0476, 'grad_norm': 3.229553491289106, 'learning_rate': 2.2538497433504432e-07, 'completion_length': 406.7232360839844, 'rewards/only_full_func_accuracy_reward': 0.5870535969734192, 'rewards/format_reward': 1.0, 'reward': 1.5870537161827087, 'reward_std': 0.07205172535032034, 'kl': 1.1875, 'epoch': 0.77}
+ 77%|███████▋  | 3320/4286 [22:01:25<6:10:44, 23.03s/it] 77%|███████▋  | 3321/4286 [22:01:46<5:58:38, 22.30s/it]                                                        {'loss': 0.0802, 'grad_norm': 1.0448832398086407, 'learning_rate': 2.251516565562296e-07, 'completion_length': 346.68751525878906, 'rewards/only_full_func_accuracy_reward': 0.6924958229064941, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6746387481689453, 'reward_std': 0.11602407693862915, 'kl': 2.0, 'epoch': 0.77}
+ 77%|███████▋  | 3321/4286 [22:01:46<5:58:38, 22.30s/it] 78%|███████▊  | 3322/4286 [22:02:08<6:00:33, 22.44s/it]                                                        {'loss': 0.0565, 'grad_norm': 3.6568840569952825, 'learning_rate': 2.2491833877741484e-07, 'completion_length': 383.9732360839844, 'rewards/only_full_func_accuracy_reward': 0.7894345819950104, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7805060744285583, 'reward_std': 0.15617915242910385, 'kl': 1.40625, 'epoch': 0.78}
+ 78%|███████▊  | 3322/4286 [22:02:08<6:00:33, 22.44s/it] 78%|███████▊  | 3323/4286 [22:02:32<6:06:31, 22.84s/it]                                                        {'loss': 0.0366, 'grad_norm': 3.917456436229239, 'learning_rate': 2.246850209986001e-07, 'completion_length': 390.8214569091797, 'rewards/only_full_func_accuracy_reward': 0.5324405133724213, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5235119462013245, 'reward_std': 0.07165056839585304, 'kl': 0.91796875, 'epoch': 0.78}
+ 78%|███████▊  | 3323/4286 [22:02:32<6:06:31, 22.84s/it] 78%|███████▊  | 3324/4286 [22:02:56<6:11:24, 23.16s/it]                                                        {'loss': 0.035, 'grad_norm': 3.693207782743549, 'learning_rate': 2.2445170321978534e-07, 'completion_length': 386.2589416503906, 'rewards/only_full_func_accuracy_reward': 0.7905506491661072, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7816221714019775, 'reward_std': 0.09088144265115261, 'kl': 0.876953125, 'epoch': 0.78}
+ 78%|███████▊  | 3324/4286 [22:02:56<6:11:24, 23.16s/it] 78%|███████▊  | 3325/4286 [22:03:17<5:59:44, 22.46s/it]                                                        {'loss': 0.0315, 'grad_norm': 1.7240497647229325, 'learning_rate': 2.242183854409706e-07, 'completion_length': 306.3839416503906, 'rewards/only_full_func_accuracy_reward': 0.812202513217926, 'rewards/format_reward': 1.0, 'reward': 1.8122024536132812, 'reward_std': 0.07384606264531612, 'kl': 0.7861328125, 'epoch': 0.78}
+ 78%|███████▊  | 3325/4286 [22:03:17<5:59:44, 22.46s/it] 78%|███████▊  | 3326/4286 [22:03:39<5:57:50, 22.36s/it]                                                        {'loss': 0.03, 'grad_norm': 0.5358816785720402, 'learning_rate': 2.2398506766215587e-07, 'completion_length': 376.4375305175781, 'rewards/only_full_func_accuracy_reward': 0.740327388048172, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7313989400863647, 'reward_std': 0.06944798678159714, 'kl': 0.751953125, 'epoch': 0.78}
+ 78%|███████▊  | 3326/4286 [22:03:39<5:57:50, 22.36s/it] 78%|███████▊  | 3327/4286 [22:04:03<6:02:56, 22.71s/it]                                                        {'loss': 0.0385, 'grad_norm': 5.871988097329197, 'learning_rate': 2.2375174988334111e-07, 'completion_length': 386.46429443359375, 'rewards/only_full_func_accuracy_reward': 0.6614583432674408, 'rewards/format_reward': 1.0, 'reward': 1.661458432674408, 'reward_std': 0.06508732959628105, 'kl': 0.96875, 'epoch': 0.78}
+ 78%|███████▊  | 3327/4286 [22:04:03<6:02:56, 22.71s/it] 78%|███████▊  | 3328/4286 [22:04:24<5:58:07, 22.43s/it]                                                        {'loss': 0.0573, 'grad_norm': 1.9441884895493717, 'learning_rate': 2.2351843210452636e-07, 'completion_length': 331.33038330078125, 'rewards/only_full_func_accuracy_reward': 0.6563988327980042, 'rewards/format_reward': 1.0, 'reward': 1.6563989520072937, 'reward_std': 0.09402800351381302, 'kl': 1.43359375, 'epoch': 0.78}
+ 78%|███████▊  | 3328/4286 [22:04:24<5:58:07, 22.43s/it] 78%|███████▊  | 3329/4286 [22:04:45<5:49:26, 21.91s/it]                                                        {'loss': 0.0552, 'grad_norm': 4.592596840678527, 'learning_rate': 2.232851143257116e-07, 'completion_length': 313.3482208251953, 'rewards/only_full_func_accuracy_reward': 0.587797686457634, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5788692235946655, 'reward_std': 0.10431410185992718, 'kl': 1.3828125, 'epoch': 0.78}
+ 78%|███████▊  | 3329/4286 [22:04:45<5:49:26, 21.91s/it] 78%|███████▊  | 3330/4286 [22:05:08<5:55:33, 22.31s/it]                                                        {'loss': 0.051, 'grad_norm': 1.4320998792497743, 'learning_rate': 2.2305179654689689e-07, 'completion_length': 405.0535888671875, 'rewards/only_full_func_accuracy_reward': 0.8452381789684296, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.8273810744285583, 'reward_std': 0.13859166949987411, 'kl': 1.26953125, 'epoch': 0.78}
+ 78%|███████▊  | 3330/4286 [22:05:08<5:55:33, 22.31s/it] 78%|███████▊  | 3331/4286 [22:05:32<6:00:40, 22.66s/it]                                                        {'loss': 0.068, 'grad_norm': 3.4104660861634026, 'learning_rate': 2.2281847876808214e-07, 'completion_length': 370.9643096923828, 'rewards/only_full_func_accuracy_reward': 0.6964285969734192, 'rewards/format_reward': 1.0, 'reward': 1.696428656578064, 'reward_std': 0.15013759583234787, 'kl': 1.701171875, 'epoch': 0.78}
+ 78%|███████▊  | 3331/4286 [22:05:32<6:00:40, 22.66s/it] 78%|███████▊  | 3332/4286 [22:05:55<6:03:22, 22.85s/it]                                                        {'loss': 0.0468, 'grad_norm': 1.9442111197188043, 'learning_rate': 2.2258516098926738e-07, 'completion_length': 421.3035888671875, 'rewards/only_full_func_accuracy_reward': 0.5538690835237503, 'rewards/format_reward': 1.0, 'reward': 1.5538691282272339, 'reward_std': 0.11229125410318375, 'kl': 1.1673583984375, 'epoch': 0.78}
+ 78%|███████▊  | 3332/4286 [22:05:55<6:03:22, 22.85s/it] 78%|███████▊  | 3333/4286 [22:06:17<6:00:12, 22.68s/it]                                                        {'loss': 0.0274, 'grad_norm': 2.857499389173321, 'learning_rate': 2.2235184321045263e-07, 'completion_length': 393.21429443359375, 'rewards/only_full_func_accuracy_reward': 0.5989584028720856, 'rewards/format_reward': 1.0, 'reward': 1.5989584922790527, 'reward_std': 0.0723482696339488, 'kl': 0.683349609375, 'epoch': 0.78}
+ 78%|███████▊  | 3333/4286 [22:06:17<6:00:12, 22.68s/it] 78%|███████▊  | 3334/4286 [22:06:39<5:53:22, 22.27s/it]                                                        {'loss': 0.0841, 'grad_norm': 7.678782504570906, 'learning_rate': 2.2211852543163788e-07, 'completion_length': 348.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.7251488268375397, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7162203192710876, 'reward_std': 0.07315400429069996, 'kl': 2.10546875, 'epoch': 0.78}
+ 78%|███████▊  | 3334/4286 [22:06:39<5:53:22, 22.27s/it] 78%|███████▊  | 3335/4286 [22:07:01<5:52:15, 22.22s/it]                                                        {'loss': 0.041, 'grad_norm': 0.9894954882395928, 'learning_rate': 2.2188520765282316e-07, 'completion_length': 340.90179443359375, 'rewards/only_full_func_accuracy_reward': 0.7626488208770752, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7447918057441711, 'reward_std': 0.08207489550113678, 'kl': 1.01953125, 'epoch': 0.78}
+ 78%|███████▊  | 3335/4286 [22:07:01<5:52:15, 22.22s/it] 78%|███████▊  | 3336/4286 [22:07:23<5:53:17, 22.31s/it]                                                        {'loss': 0.0019, 'grad_norm': 1.3242921177720162, 'learning_rate': 2.216518898740084e-07, 'completion_length': 345.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.738839328289032, 'rewards/format_reward': 1.0, 'reward': 1.738839328289032, 'reward_std': 0.04260939732193947, 'kl': 0.0467529296875, 'epoch': 0.78}
+ 78%|███████▊  | 3336/4286 [22:07:23<5:53:17, 22.31s/it] 78%|███████▊  | 3337/4286 [22:07:47<5:57:05, 22.58s/it]                                                        {'loss': 0.0534, 'grad_norm': 1.853225820679155, 'learning_rate': 2.2141857209519365e-07, 'completion_length': 407.7143096923828, 'rewards/only_full_func_accuracy_reward': 0.7142857015132904, 'rewards/format_reward': 1.0, 'reward': 1.7142858505249023, 'reward_std': 0.10608789324760437, 'kl': 1.33251953125, 'epoch': 0.78}
+ 78%|███████▊  | 3337/4286 [22:07:47<5:57:05, 22.58s/it] 78%|███████▊  | 3338/4286 [22:08:10<6:01:24, 22.87s/it]                                                        {'loss': 0.0246, 'grad_norm': 2.815977689963754, 'learning_rate': 2.211852543163789e-07, 'completion_length': 394.4464416503906, 'rewards/only_full_func_accuracy_reward': 0.7135417461395264, 'rewards/format_reward': 1.0, 'reward': 1.7135418057441711, 'reward_std': 0.08685150370001793, 'kl': 0.616943359375, 'epoch': 0.78}
+ 78%|███████▊  | 3338/4286 [22:08:10<6:01:24, 22.87s/it] 78%|███████▊  | 3339/4286 [22:08:33<6:00:15, 22.83s/it]                                                        {'loss': 0.0215, 'grad_norm': 1.4001962141807645, 'learning_rate': 2.2095193653756418e-07, 'completion_length': 410.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.5100694596767426, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5011408925056458, 'reward_std': 0.07896124012768269, 'kl': 0.5380859375, 'epoch': 0.78}
+ 78%|███████▊  | 3339/4286 [22:08:33<6:00:15, 22.83s/it] 78%|███████▊  | 3340/4286 [22:08:54<5:52:51, 22.38s/it]                                                        {'loss': 0.0167, 'grad_norm': 0.5782764208559495, 'learning_rate': 2.2071861875874943e-07, 'completion_length': 363.20538330078125, 'rewards/only_full_func_accuracy_reward': 0.8641369342803955, 'rewards/format_reward': 1.0, 'reward': 1.8641369938850403, 'reward_std': 0.013889597728848457, 'kl': 0.41796875, 'epoch': 0.78}
+ 78%|███████▊  | 3340/4286 [22:08:54<5:52:51, 22.38s/it] 78%|███████▊  | 3341/4286 [22:09:16<5:51:40, 22.33s/it]                                                        {'loss': 0.0886, 'grad_norm': 9.060401138527844, 'learning_rate': 2.2048530097993467e-07, 'completion_length': 357.0893096923828, 'rewards/only_full_func_accuracy_reward': 0.5669642984867096, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5580357909202576, 'reward_std': 0.12901868671178818, 'kl': 2.21875, 'epoch': 0.78}
+ 78%|███████▊  | 3341/4286 [22:09:16<5:51:40, 22.33s/it] 78%|███████▊  | 3342/4286 [22:09:38<5:47:35, 22.09s/it]                                                        {'loss': 0.0513, 'grad_norm': 0.800619931567908, 'learning_rate': 2.2025198320111992e-07, 'completion_length': 366.6339416503906, 'rewards/only_full_func_accuracy_reward': 0.8775298297405243, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.859672725200653, 'reward_std': 0.11688867583870888, 'kl': 1.2734375, 'epoch': 0.78}
+ 78%|███████▊  | 3342/4286 [22:09:38<5:47:35, 22.09s/it] 78%|███████▊  | 3343/4286 [22:10:00<5:49:39, 22.25s/it]                                                        {'loss': 0.0675, 'grad_norm': 2.254644710087574, 'learning_rate': 2.2001866542230517e-07, 'completion_length': 341.9196472167969, 'rewards/only_full_func_accuracy_reward': 0.6785714328289032, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6607144474983215, 'reward_std': 0.1428724117577076, 'kl': 1.681640625, 'epoch': 0.78}
+ 78%|███████▊  | 3343/4286 [22:10:00<5:49:39, 22.25s/it] 78%|███████▊  | 3344/4286 [22:10:23<5:49:22, 22.25s/it]                                                        {'loss': 0.0372, 'grad_norm': 4.035322018218348, 'learning_rate': 2.1978534764349045e-07, 'completion_length': 365.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.5476190745830536, 'rewards/format_reward': 1.0, 'reward': 1.5476191639900208, 'reward_std': 0.030384467914700508, 'kl': 0.93310546875, 'epoch': 0.78}
+ 78%|███████▊  | 3344/4286 [22:10:23<5:49:22, 22.25s/it] 78%|███████▊  | 3345/4286 [22:10:46<5:55:07, 22.64s/it]                                                        {'loss': 0.0507, 'grad_norm': 2.33774888728027, 'learning_rate': 2.195520298646757e-07, 'completion_length': 430.12501525878906, 'rewards/only_full_func_accuracy_reward': 0.5989583730697632, 'rewards/format_reward': 1.0, 'reward': 1.5989583730697632, 'reward_std': 0.05560065805912018, 'kl': 1.263671875, 'epoch': 0.78}
+ 78%|███████▊  | 3345/4286 [22:10:46<5:55:07, 22.64s/it] 78%|███████▊  | 3346/4286 [22:11:09<5:56:48, 22.77s/it]                                                        {'loss': 0.0306, 'grad_norm': 1.8697284208462668, 'learning_rate': 2.1931871208586094e-07, 'completion_length': 362.4196472167969, 'rewards/only_full_func_accuracy_reward': 0.7135416865348816, 'rewards/format_reward': 1.0, 'reward': 1.7135418057441711, 'reward_std': 0.02444724179804325, 'kl': 0.76141357421875, 'epoch': 0.78}
+ 78%|███████▊  | 3346/4286 [22:11:09<5:56:48, 22.77s/it] 78%|███████▊  | 3347/4286 [22:11:32<5:56:40, 22.79s/it]                                                        {'loss': 0.0121, 'grad_norm': 6.859338515824445, 'learning_rate': 2.190853943070462e-07, 'completion_length': 406.7410888671875, 'rewards/only_full_func_accuracy_reward': 0.6473214626312256, 'rewards/format_reward': 1.0, 'reward': 1.6473214626312256, 'reward_std': 0.06868816167116165, 'kl': 0.302734375, 'epoch': 0.78}
+ 78%|███████▊  | 3347/4286 [22:11:32<5:56:40, 22.79s/it] 78%|███████▊  | 3348/4286 [22:11:57<6:06:06, 23.42s/it]                                                        {'loss': 0.0105, 'grad_norm': 1.6638741950820481, 'learning_rate': 2.1885207652823144e-07, 'completion_length': 421.1339569091797, 'rewards/only_full_func_accuracy_reward': 0.7291666865348816, 'rewards/format_reward': 1.0, 'reward': 1.7291667461395264, 'reward_std': 0.08282359689474106, 'kl': 0.26220703125, 'epoch': 0.78}
+ 78%|███████▊  | 3348/4286 [22:11:57<6:06:06, 23.42s/it] 78%|███████▊  | 3349/4286 [22:12:19<6:00:02, 23.06s/it]                                                        {'loss': 0.0273, 'grad_norm': 2.489092429278304, 'learning_rate': 2.186187587494167e-07, 'completion_length': 373.3393096923828, 'rewards/only_full_func_accuracy_reward': 0.6875000298023224, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6785715222358704, 'reward_std': 0.0417863167822361, 'kl': 0.68212890625, 'epoch': 0.78}
+ 78%|███████▊  | 3349/4286 [22:12:19<6:00:02, 23.06s/it] 78%|███████▊  | 3350/4286 [22:12:42<5:58:13, 22.96s/it]                                                        {'loss': 0.0212, 'grad_norm': 2.5393445016594245, 'learning_rate': 2.1838544097060194e-07, 'completion_length': 383.58038330078125, 'rewards/only_full_func_accuracy_reward': 0.73139888048172, 'rewards/format_reward': 1.0, 'reward': 1.7313989400863647, 'reward_std': 0.02611492550931871, 'kl': 0.53076171875, 'epoch': 0.78}
+ 78%|███████▊  | 3350/4286 [22:12:42<5:58:13, 22.96s/it] 78%|███████▊  | 3351/4286 [22:13:04<5:55:19, 22.80s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.270480868854157, 'learning_rate': 2.181521231917872e-07, 'completion_length': 395.31251525878906, 'rewards/only_full_func_accuracy_reward': 0.7797619700431824, 'rewards/format_reward': 1.0, 'reward': 1.779762089252472, 'reward_std': 0.02204333059489727, 'kl': 0.0380859375, 'epoch': 0.78}
+ 78%|███████▊  | 3351/4286 [22:13:04<5:55:19, 22.80s/it] 78%|███████▊  | 3352/4286 [22:13:30<6:06:07, 23.52s/it]                                                        {'loss': 0.0226, 'grad_norm': 1.0272615716526754, 'learning_rate': 2.1791880541297244e-07, 'completion_length': 422.0178680419922, 'rewards/only_full_func_accuracy_reward': 0.5074405074119568, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.4985120296478271, 'reward_std': 0.09042356535792351, 'kl': 0.56298828125, 'epoch': 0.78}
+ 78%|███████▊  | 3352/4286 [22:13:30<6:06:07, 23.52s/it] 78%|███████▊  | 3353/4286 [22:13:53<6:02:41, 23.32s/it]                                                        {'loss': 0.0285, 'grad_norm': 0.5384597922476023, 'learning_rate': 2.176854876341577e-07, 'completion_length': 394.2589569091797, 'rewards/only_full_func_accuracy_reward': 0.7715774178504944, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7626489400863647, 'reward_std': 0.07883966341614723, 'kl': 0.7109375, 'epoch': 0.78}
+ 78%|███████▊  | 3353/4286 [22:13:53<6:02:41, 23.32s/it] 78%|███████▊  | 3354/4286 [22:14:15<5:58:41, 23.09s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.4439563517315015, 'learning_rate': 2.1745216985534296e-07, 'completion_length': 354.6339416503906, 'rewards/only_full_func_accuracy_reward': 0.7648810148239136, 'rewards/format_reward': 1.0, 'reward': 1.7648811340332031, 'reward_std': 0.0342900650575757, 'kl': 0.0389404296875, 'epoch': 0.78}
+ 78%|███████▊  | 3354/4286 [22:14:15<5:58:41, 23.09s/it] 78%|███████▊  | 3355/4286 [22:14:39<6:00:41, 23.25s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.7724659781271543, 'learning_rate': 2.172188520765282e-07, 'completion_length': 384.91966247558594, 'rewards/only_full_func_accuracy_reward': 0.678571492433548, 'rewards/format_reward': 1.0, 'reward': 1.6785715222358704, 'reward_std': 0.019090089946985245, 'kl': 0.0404052734375, 'epoch': 0.78}
+ 78%|███████▊  | 3355/4286 [22:14:39<6:00:41, 23.25s/it] 78%|███████▊  | 3356/4286 [22:14:59<5:47:30, 22.42s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.1997704169312519, 'learning_rate': 2.1698553429771346e-07, 'completion_length': 326.5357360839844, 'rewards/only_full_func_accuracy_reward': 0.8467262387275696, 'rewards/format_reward': 1.0, 'reward': 1.8467262387275696, 'reward_std': 0.012626906856894493, 'kl': 0.044189453125, 'epoch': 0.78}
+ 78%|███████▊  | 3356/4286 [22:14:59<5:47:30, 22.42s/it] 78%|███████▊  | 3357/4286 [22:15:21<5:46:35, 22.38s/it]                                                        {'loss': 0.0197, 'grad_norm': 1.7144496032342307, 'learning_rate': 2.167522165188987e-07, 'completion_length': 346.2589569091797, 'rewards/only_full_func_accuracy_reward': 0.7269346117973328, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7180060744285583, 'reward_std': 0.056821079924702644, 'kl': 0.49267578125, 'epoch': 0.78}
+ 78%|███████▊  | 3357/4286 [22:15:21<5:46:35, 22.38s/it] 78%|███████▊  | 3358/4286 [22:15:44<5:47:54, 22.49s/it]                                                        {'loss': 0.0275, 'grad_norm': 2.8536033795806195, 'learning_rate': 2.1651889874008398e-07, 'completion_length': 374.5535888671875, 'rewards/only_full_func_accuracy_reward': 0.5723214447498322, 'rewards/format_reward': 1.0, 'reward': 1.5723214745521545, 'reward_std': 0.020512047689408064, 'kl': 0.6875, 'epoch': 0.78}
+ 78%|███████▊  | 3358/4286 [22:15:44<5:47:54, 22.49s/it] 78%|███████▊  | 3359/4286 [22:16:07<5:47:58, 22.52s/it]                                                        {'loss': 0.0129, 'grad_norm': 1.1369262970598788, 'learning_rate': 2.1628558096126923e-07, 'completion_length': 399.5357208251953, 'rewards/only_full_func_accuracy_reward': 0.7500000298023224, 'rewards/format_reward': 1.0, 'reward': 1.7500001192092896, 'reward_std': 0.016835879534482956, 'kl': 0.3232421875, 'epoch': 0.78}
+ 78%|███████▊  | 3359/4286 [22:16:07<5:47:58, 22.52s/it] 78%|███████▊  | 3360/4286 [22:16:30<5:51:18, 22.76s/it]                                                        {'loss': 0.013, 'grad_norm': 2.5680036513362303, 'learning_rate': 2.1605226318245448e-07, 'completion_length': 400.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.7837797999382019, 'rewards/format_reward': 1.0, 'reward': 1.783779799938202, 'reward_std': 0.07660416141152382, 'kl': 0.326416015625, 'epoch': 0.78}
+ 78%|███████▊  | 3360/4286 [22:16:30<5:51:18, 22.76s/it] 78%|███████▊  | 3361/4286 [22:16:53<5:49:34, 22.67s/it]                                                        {'loss': 0.027, 'grad_norm': 0.6763034217813494, 'learning_rate': 2.1581894540363973e-07, 'completion_length': 374.33038330078125, 'rewards/only_full_func_accuracy_reward': 0.5788690745830536, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5699406266212463, 'reward_std': 0.07063458440825343, 'kl': 0.6749267578125, 'epoch': 0.78}
+ 78%|███████▊  | 3361/4286 [22:16:53<5:49:34, 22.67s/it] 78%|███████▊  | 3362/4286 [22:17:16<5:50:49, 22.78s/it]                                                        {'loss': 0.0318, 'grad_norm': 1.1336597420085366, 'learning_rate': 2.1558562762482498e-07, 'completion_length': 375.5803680419922, 'rewards/only_full_func_accuracy_reward': 0.728422611951828, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.7016370296478271, 'reward_std': 0.11213358864188194, 'kl': 0.794189453125, 'epoch': 0.78}
+ 78%|███████▊  | 3362/4286 [22:17:16<5:50:49, 22.78s/it] 78%|███████▊  | 3363/4286 [22:17:37<5:43:53, 22.35s/it]                                                        {'loss': 0.0405, 'grad_norm': 0.6381901051054503, 'learning_rate': 2.1535230984601025e-07, 'completion_length': 349.6785888671875, 'rewards/only_full_func_accuracy_reward': 0.7682291865348816, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.759300708770752, 'reward_std': 0.07063875906169415, 'kl': 1.013671875, 'epoch': 0.78}
+ 78%|███████▊  | 3363/4286 [22:17:37<5:43:53, 22.35s/it] 78%|███████▊  | 3364/4286 [22:17:59<5:39:46, 22.11s/it]                                                        {'loss': 0.0522, 'grad_norm': 0.8725191114196379, 'learning_rate': 2.151189920671955e-07, 'completion_length': 337.7410888671875, 'rewards/only_full_func_accuracy_reward': 0.7589286267757416, 'rewards/format_reward': 1.0, 'reward': 1.7589287161827087, 'reward_std': 0.05927890259772539, 'kl': 1.302734375, 'epoch': 0.78}
+ 78%|█████��█▊  | 3364/4286 [22:17:59<5:39:46, 22.11s/it] 79%|███████▊  | 3365/4286 [22:18:22<5:47:00, 22.61s/it]                                                        {'loss': 0.0024, 'grad_norm': 0.8247266154280526, 'learning_rate': 2.1488567428838075e-07, 'completion_length': 397.9464416503906, 'rewards/only_full_func_accuracy_reward': 0.6145833432674408, 'rewards/format_reward': 1.0, 'reward': 1.614583432674408, 'reward_std': 0.0421088095754385, 'kl': 0.05908203125, 'epoch': 0.79}
+ 79%|███████▊  | 3365/4286 [22:18:22<5:47:00, 22.61s/it] 79%|███████▊  | 3366/4286 [22:18:45<5:48:33, 22.73s/it]                                                        {'loss': 0.065, 'grad_norm': 2.6383321077217436, 'learning_rate': 2.14652356509566e-07, 'completion_length': 331.31251525878906, 'rewards/only_full_func_accuracy_reward': 0.7217262089252472, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7038691639900208, 'reward_std': 0.10182970948517323, 'kl': 1.6279296875, 'epoch': 0.79}
+ 79%|███████▊  | 3366/4286 [22:18:45<5:48:33, 22.73s/it] 79%|███████▊  | 3367/4286 [22:19:08<5:45:50, 22.58s/it]                                                        {'loss': 0.0138, 'grad_norm': 0.7385803160289344, 'learning_rate': 2.1441903873075127e-07, 'completion_length': 357.23216247558594, 'rewards/only_full_func_accuracy_reward': 0.7373512089252472, 'rewards/format_reward': 1.0, 'reward': 1.7373512983322144, 'reward_std': 0.04640564136207104, 'kl': 0.34521484375, 'epoch': 0.79}
+ 79%|███████▊  | 3367/4286 [22:19:08<5:45:50, 22.58s/it] 79%|███████▊  | 3368/4286 [22:19:30<5:44:22, 22.51s/it]                                                        {'loss': 0.039, 'grad_norm': 2.238586262186579, 'learning_rate': 2.1418572095193652e-07, 'completion_length': 368.6785888671875, 'rewards/only_full_func_accuracy_reward': 0.7309523820877075, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7220239043235779, 'reward_std': 0.09812505170702934, 'kl': 0.9765625, 'epoch': 0.79}
+ 79%|███████▊  | 3368/4286 [22:19:30<5:44:22, 22.51s/it] 79%|███████▊  | 3369/4286 [22:19:53<5:45:53, 22.63s/it]                                                        {'loss': 0.0541, 'grad_norm': 1.3180007768321014, 'learning_rate': 2.1395240317312177e-07, 'completion_length': 365.02679443359375, 'rewards/only_full_func_accuracy_reward': 0.6540178954601288, 'rewards/format_reward': 1.0, 'reward': 1.654017984867096, 'reward_std': 0.10752874240279198, 'kl': 1.35546875, 'epoch': 0.79}
+ 79%|███████▊  | 3369/4286 [22:19:53<5:45:53, 22.63s/it] 79%|███████▊  | 3370/4286 [22:20:17<5:52:51, 23.11s/it]                                                        {'loss': 0.0387, 'grad_norm': 1.8336305717957748, 'learning_rate': 2.1371908539430702e-07, 'completion_length': 412.3303680419922, 'rewards/only_full_func_accuracy_reward': 0.5382440984249115, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5293156504631042, 'reward_std': 0.07606121152639389, 'kl': 0.967041015625, 'epoch': 0.79}
+ 79%|███████▊  | 3370/4286 [22:20:17<5:52:51, 23.11s/it] 79%|███████▊  | 3371/4286 [22:20:39<5:48:27, 22.85s/it]                                                        {'loss': 0.0371, 'grad_norm': 3.7060387696612205, 'learning_rate': 2.1348576761549227e-07, 'completion_length': 352.54466247558594, 'rewards/only_full_func_accuracy_reward': 0.8534226715564728, 'rewards/format_reward': 1.0, 'reward': 1.8534227013587952, 'reward_std': 0.05521583929657936, 'kl': 0.92578125, 'epoch': 0.79}
+ 79%|███████▊  | 3371/4286 [22:20:39<5:48:27, 22.85s/it] 79%|███████▊  | 3372/4286 [22:21:02<5:48:19, 22.87s/it]                                                        {'loss': 0.0226, 'grad_norm': 2.409175034985563, 'learning_rate': 2.1325244983667754e-07, 'completion_length': 367.45538330078125, 'rewards/only_full_func_accuracy_reward': 0.799107164144516, 'rewards/format_reward': 1.0, 'reward': 1.7991071939468384, 'reward_std': 0.08695618994534016, 'kl': 0.564453125, 'epoch': 0.79}
+ 79%|███████▊  | 3372/4286 [22:21:02<5:48:19, 22.87s/it] 79%|███████▊  | 3373/4286 [22:21:25<5:47:26, 22.83s/it]                                                        {'loss': 0.0294, 'grad_norm': 0.6672122562275672, 'learning_rate': 2.130191320578628e-07, 'completion_length': 378.5178680419922, 'rewards/only_full_func_accuracy_reward': 0.7752976715564728, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7663691639900208, 'reward_std': 0.05394489876925945, 'kl': 0.7342529296875, 'epoch': 0.79}
+ 79%|███████▊  | 3373/4286 [22:21:25<5:47:26, 22.83s/it] 79%|███████▊  | 3374/4286 [22:21:48<5:45:48, 22.75s/it]                                                        {'loss': 0.0253, 'grad_norm': 3.6876822823546047, 'learning_rate': 2.1278581427904804e-07, 'completion_length': 356.0982208251953, 'rewards/only_full_func_accuracy_reward': 0.7202381789684296, 'rewards/format_reward': 1.0, 'reward': 1.720238208770752, 'reward_std': 0.06805428676307201, 'kl': 0.6328125, 'epoch': 0.79}
+ 79%|███████▊  | 3374/4286 [22:21:48<5:45:48, 22.75s/it] 79%|███████▊  | 3375/4286 [22:22:11<5:47:04, 22.86s/it]                                                        {'loss': 0.0362, 'grad_norm': 1.0929440293481687, 'learning_rate': 2.125524965002333e-07, 'completion_length': 393.0535888671875, 'rewards/only_full_func_accuracy_reward': 0.7433035671710968, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7343751788139343, 'reward_std': 0.09352115541696548, 'kl': 0.904296875, 'epoch': 0.79}
+ 79%|███████▊  | 3375/4286 [22:22:11<5:47:04, 22.86s/it] 79%|███████▉  | 3376/4286 [22:22:34<5:50:25, 23.11s/it]                                                        {'loss': 0.0312, 'grad_norm': 1.4866943152052243, 'learning_rate': 2.1231917872141856e-07, 'completion_length': 396.8214416503906, 'rewards/only_full_func_accuracy_reward': 0.6895833313465118, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6806548237800598, 'reward_std': 0.10009745135903358, 'kl': 0.779296875, 'epoch': 0.79}
+ 79%|███████▉  | 3376/4286 [22:22:34<5:50:25, 23.11s/it] 79%|███████▉  | 3377/4286 [22:22:56<5:43:29, 22.67s/it]                                                        {'loss': 0.0085, 'grad_norm': 2.0322042563398766, 'learning_rate': 2.120858609426038e-07, 'completion_length': 356.75001525878906, 'rewards/only_full_func_accuracy_reward': 0.7001488208770752, 'rewards/format_reward': 1.0, 'reward': 1.7001489400863647, 'reward_std': 0.0885920524597168, 'kl': 0.212890625, 'epoch': 0.79}
+ 79%|███████▉  | 3377/4286 [22:22:56<5:43:29, 22.67s/it] 79%|███████▉  | 3378/4286 [22:23:19<5:45:14, 22.81s/it]                                                        {'loss': 0.0118, 'grad_norm': 0.9441675190795896, 'learning_rate': 2.1185254316378906e-07, 'completion_length': 345.75001525878906, 'rewards/only_full_func_accuracy_reward': 0.7589285969734192, 'rewards/format_reward': 1.0, 'reward': 1.758928656578064, 'reward_std': 0.06461778283119202, 'kl': 0.2947998046875, 'epoch': 0.79}
+ 79%|███████▉  | 3378/4286 [22:23:19<5:45:14, 22.81s/it] 79%|███████▉  | 3379/4286 [22:23:43<5:49:57, 23.15s/it]                                                        {'loss': 0.0755, 'grad_norm': 8.26091630808251, 'learning_rate': 2.116192253849743e-07, 'completion_length': 388.8035888671875, 'rewards/only_full_func_accuracy_reward': 0.6200893223285675, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6111607551574707, 'reward_std': 0.10115218907594681, 'kl': 1.8875732421875, 'epoch': 0.79}
+ 79%|███████▉  | 3379/4286 [22:23:43<5:49:57, 23.15s/it] 79%|███████▉  | 3380/4286 [22:24:06<5:48:48, 23.10s/it]                                                        {'loss': 0.0085, 'grad_norm': 1.0066273943711905, 'learning_rate': 2.1138590760615956e-07, 'completion_length': 374.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.5208333879709244, 'rewards/format_reward': 1.0, 'reward': 1.520833432674408, 'reward_std': 0.05050762742757797, 'kl': 0.214599609375, 'epoch': 0.79}
+ 79%|███████▉  | 3380/4286 [22:24:06<5:48:48, 23.10s/it] 79%|███████▉  | 3381/4286 [22:24:28<5:42:36, 22.71s/it]                                                        {'loss': 0.0356, 'grad_norm': 0.6264390923182137, 'learning_rate': 2.1115258982734483e-07, 'completion_length': 358.5803680419922, 'rewards/only_full_func_accuracy_reward': 0.8474703133106232, 'rewards/format_reward': 1.0, 'reward': 1.8474703431129456, 'reward_std': 0.06103004701435566, 'kl': 0.8876953125, 'epoch': 0.79}
+ 79%|███████▉  | 3381/4286 [22:24:28<5:42:36, 22.71s/it] 79%|███████▉  | 3382/4286 [22:24:50<5:37:41, 22.41s/it]                                                        {'loss': 0.0172, 'grad_norm': 9.702066903460299, 'learning_rate': 2.1091927204853008e-07, 'completion_length': 304.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.8215774595737457, 'rewards/format_reward': 1.0, 'reward': 1.8215774893760681, 'reward_std': 0.07496651262044907, 'kl': 0.4296875, 'epoch': 0.79}
+ 79%|███████▉  | 3382/4286 [22:24:50<5:37:41, 22.41s/it] 79%|███████▉  | 3383/4286 [22:25:13<5:40:57, 22.65s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.5083716757183316, 'learning_rate': 2.1068595426971533e-07, 'completion_length': 427.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.6342261731624603, 'rewards/format_reward': 1.0, 'reward': 1.6342263221740723, 'reward_std': 0.016423505265265703, 'kl': 0.04296875, 'epoch': 0.79}
+ 79%|███████▉  | 3383/4286 [22:25:13<5:40:57, 22.65s/it] 79%|███████▉  | 3384/4286 [22:25:35<5:38:59, 22.55s/it]                                                        {'loss': 0.0196, 'grad_norm': 3.0298790502695008, 'learning_rate': 2.1045263649090058e-07, 'completion_length': 333.60716247558594, 'rewards/only_full_func_accuracy_reward': 0.702529788017273, 'rewards/format_reward': 1.0, 'reward': 1.7025298476219177, 'reward_std': 0.037179927341639996, 'kl': 0.4892578125, 'epoch': 0.79}
+ 79%|███████▉  | 3384/4286 [22:25:35<5:38:59, 22.55s/it] 79%|███████▉  | 3385/4286 [22:25:57<5:35:06, 22.32s/it]                                                        {'loss': 0.0671, 'grad_norm': 1.7017613913566147, 'learning_rate': 2.1021931871208583e-07, 'completion_length': 392.79466247558594, 'rewards/only_full_func_accuracy_reward': 0.7001488208770752, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6912203431129456, 'reward_std': 0.08868349902331829, 'kl': 1.671875, 'epoch': 0.79}
+ 79%|███████▉  | 3385/4286 [22:25:57<5:35:06, 22.32s/it] 79%|███████▉  | 3386/4286 [22:26:19<5:33:08, 22.21s/it]                                                        {'loss': 0.0184, 'grad_norm': 1.5783655349178767, 'learning_rate': 2.099860009332711e-07, 'completion_length': 341.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.759672611951828, 'rewards/format_reward': 1.0, 'reward': 1.7596727013587952, 'reward_std': 0.03998520877212286, 'kl': 0.4609375, 'epoch': 0.79}
+ 79%|███████▉  | 3386/4286 [22:26:19<5:33:08, 22.21s/it] 79%|███████▉  | 3387/4286 [22:26:41<5:34:01, 22.29s/it]                                                        {'loss': 0.0382, 'grad_norm': 0.9645873616330413, 'learning_rate': 2.0975268315445635e-07, 'completion_length': 363.6518096923828, 'rewards/only_full_func_accuracy_reward': 0.6845238506793976, 'rewards/format_reward': 1.0, 'reward': 1.6845239400863647, 'reward_std': 0.06809229776263237, 'kl': 0.9527587890625, 'epoch': 0.79}
+ 79%|███████▉  | 3387/4286 [22:26:41<5:34:01, 22.29s/it] 79%|███████▉  | 3388/4286 [22:27:04<5:34:05, 22.32s/it]                                                        {'loss': 0.0403, 'grad_norm': 4.179311093314681, 'learning_rate': 2.095193653756416e-07, 'completion_length': 371.0178680419922, 'rewards/only_full_func_accuracy_reward': 0.758928656578064, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7500001788139343, 'reward_std': 0.10156681016087532, 'kl': 1.0078125, 'epoch': 0.79}
+ 79%|███████▉  | 3388/4286 [22:27:04<5:34:05, 22.32s/it] 79%|███████▉  | 3389/4286 [22:27:27<5:40:06, 22.75s/it]                                                        {'loss': 0.0103, 'grad_norm': 0.9004945319170176, 'learning_rate': 2.0928604759682685e-07, 'completion_length': 399.8482360839844, 'rewards/only_full_func_accuracy_reward': 0.6458333730697632, 'rewards/format_reward': 1.0, 'reward': 1.6458334922790527, 'reward_std': 0.03885614313185215, 'kl': 0.25634765625, 'epoch': 0.79}
+ 79%|███████▉  | 3389/4286 [22:27:27<5:40:06, 22.75s/it] 79%|███████▉  | 3390/4286 [22:27:51<5:42:29, 22.93s/it]                                                        {'loss': 0.0225, 'grad_norm': 0.9780784688470324, 'learning_rate': 2.0905272981801213e-07, 'completion_length': 388.83038330078125, 'rewards/only_full_func_accuracy_reward': 0.7656250298023224, 'rewards/format_reward': 1.0, 'reward': 1.7656251192092896, 'reward_std': 0.04835128411650658, 'kl': 0.5625, 'epoch': 0.79}
+ 79%|███████▉  | 3390/4286 [22:27:51<5:42:29, 22.93s/it] 79%|███████▉  | 3391/4286 [22:28:13<5:37:42, 22.64s/it]                                                        {'loss': 0.0425, 'grad_norm': 1.3970395946049727, 'learning_rate': 2.0881941203919737e-07, 'completion_length': 318.54466247558594, 'rewards/only_full_func_accuracy_reward': 0.6183035969734192, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6093751192092896, 'reward_std': 0.0762820802628994, 'kl': 1.064453125, 'epoch': 0.79}
+ 79%|███████▉  | 3391/4286 [22:28:13<5:37:42, 22.64s/it] 79%|███████▉  | 3392/4286 [22:28:36<5:38:39, 22.73s/it]                                                        {'loss': 0.0198, 'grad_norm': 0.5426504127535384, 'learning_rate': 2.0858609426038262e-07, 'completion_length': 341.75001525878906, 'rewards/only_full_func_accuracy_reward': 0.6852678954601288, 'rewards/format_reward': 1.0, 'reward': 1.6852679252624512, 'reward_std': 0.03742425888776779, 'kl': 0.49365234375, 'epoch': 0.79}
+ 79%|███████▉  | 3392/4286 [22:28:36<5:38:39, 22.73s/it] 79%|███████▉  | 3393/4286 [22:28:59<5:39:34, 22.82s/it]                                                        {'loss': 0.0731, 'grad_norm': 2.931693423766657, 'learning_rate': 2.0835277648156787e-07, 'completion_length': 373.58038330078125, 'rewards/only_full_func_accuracy_reward': 0.5786564648151398, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5697279572486877, 'reward_std': 0.1319628432393074, 'kl': 1.828125, 'epoch': 0.79}
+ 79%|███████▉  | 3393/4286 [22:28:59<5:39:34, 22.82s/it] 79%|███████▉  | 3394/4286 [22:29:21<5:37:46, 22.72s/it]                                                        {'loss': 0.0073, 'grad_norm': 1.1752702302329459, 'learning_rate': 2.0811945870275312e-07, 'completion_length': 367.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.5982142984867096, 'rewards/format_reward': 1.0, 'reward': 1.598214328289032, 'reward_std': 0.03336838260293007, 'kl': 0.18408203125, 'epoch': 0.79}
+ 79%|███████▉  | 3394/4286 [22:29:21<5:37:46, 22.72s/it] 79%|███████▉  | 3395/4286 [22:29:43<5:34:21, 22.52s/it]                                                        {'loss': 0.073, 'grad_norm': 1.51345780852006, 'learning_rate': 2.078861409239384e-07, 'completion_length': 361.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.7500000298023224, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7410715222358704, 'reward_std': 0.11007765866816044, 'kl': 1.828125, 'epoch': 0.79}
+ 79%|███████▉  | 3395/4286 [22:29:43<5:34:21, 22.52s/it] 79%|███████▉  | 3396/4286 [22:30:06<5:34:35, 22.56s/it]                                                        {'loss': 0.1081, 'grad_norm': 37.73932528818649, 'learning_rate': 2.0765282314512364e-07, 'completion_length': 341.7946472167969, 'rewards/only_full_func_accuracy_reward': 0.7212302386760712, 'rewards/format_reward': 0.973214328289032, 'reward': 1.6944445371627808, 'reward_std': 0.2300049141049385, 'kl': 2.703125, 'epoch': 0.79}
+ 79%|███████▉  | 3396/4286 [22:30:06<5:34:35, 22.56s/it] 79%|███████▉  | 3397/4286 [22:30:27<5:29:08, 22.21s/it]                                                        {'loss': 0.0771, 'grad_norm': 4.434843401747947, 'learning_rate': 2.074195053663089e-07, 'completion_length': 334.60716247558594, 'rewards/only_full_func_accuracy_reward': 0.7376488447189331, 'rewards/format_reward': 0.973214328289032, 'reward': 1.710863173007965, 'reward_std': 0.11270386725664139, 'kl': 1.91796875, 'epoch': 0.79}
+ 79%|███████▉  | 3397/4286 [22:30:27<5:29:08, 22.21s/it] 79%|███████▉  | 3398/4286 [22:30:50<5:31:43, 22.41s/it]                                                        {'loss': 0.0389, 'grad_norm': 2.5948882977150127, 'learning_rate': 2.0718618758749414e-07, 'completion_length': 376.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.569196492433548, 'rewards/format_reward': 1.0, 'reward': 1.5691965222358704, 'reward_std': 0.07922718115150928, 'kl': 0.97265625, 'epoch': 0.79}
+ 79%|███████▉  | 3398/4286 [22:30:50<5:31:43, 22.41s/it] 79%|███████▉  | 3399/4286 [22:31:13<5:31:23, 22.42s/it]                                                        {'loss': 0.0305, 'grad_norm': 0.7711988847561144, 'learning_rate': 2.0695286980867942e-07, 'completion_length': 376.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.7931548655033112, 'rewards/format_reward': 1.0, 'reward': 1.7931548357009888, 'reward_std': 0.07126569747924805, 'kl': 0.76171875, 'epoch': 0.79}
+ 79%|███████▉  | 3399/4286 [22:31:13<5:31:23, 22.42s/it] 79%|███████▉  | 3400/4286 [22:31:36<5:34:38, 22.66s/it]                                                        {'loss': 0.0312, 'grad_norm': 24.123231374428336, 'learning_rate': 2.0671955202986466e-07, 'completion_length': 365.0268096923828, 'rewards/only_full_func_accuracy_reward': 0.7596727609634399, 'rewards/format_reward': 1.0, 'reward': 1.7596728205680847, 'reward_std': 0.041552131064236164, 'kl': 0.78125, 'epoch': 0.79}
+ 79%|███████▉  | 3400/4286 [22:31:36<5:34:38, 22.66s/it] 79%|███████▉  | 3401/4286 [22:32:52<9:31:29, 38.75s/it]                                                        {'loss': 0.0292, 'grad_norm': 1.2259198276252679, 'learning_rate': 2.0648623425104991e-07, 'completion_length': 413.9464416503906, 'rewards/only_full_func_accuracy_reward': 0.6737351715564728, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6648066639900208, 'reward_std': 0.08938873279839754, 'kl': 0.7313232421875, 'epoch': 0.79}
+ 79%|███████▉  | 3401/4286 [22:32:52<9:31:29, 38.75s/it] 79%|███████▉  | 3402/4286 [22:33:17<8:27:35, 34.45s/it]                                                        {'loss': 0.068, 'grad_norm': 2.939078393048099, 'learning_rate': 2.0625291647223516e-07, 'completion_length': 452.4107360839844, 'rewards/only_full_func_accuracy_reward': 0.845238208770752, 'rewards/format_reward': 1.0, 'reward': 1.845238208770752, 'reward_std': 0.08970681950449944, 'kl': 1.703125, 'epoch': 0.79}
+ 79%|███████▉  | 3402/4286 [22:33:17<8:27:35, 34.45s/it] 79%|███████▉  | 3403/4286 [22:33:40<7:38:26, 31.15s/it]                                                        {'loss': 0.0273, 'grad_norm': 0.793902474280171, 'learning_rate': 2.060195986934204e-07, 'completion_length': 408.0535888671875, 'rewards/only_full_func_accuracy_reward': 0.712053656578064, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7031251192092896, 'reward_std': 0.06656228192150593, 'kl': 0.681640625, 'epoch': 0.79}
+ 79%|███████▉  | 3403/4286 [22:33:40<7:38:26, 31.15s/it] 79%|███████▉  | 3404/4286 [22:34:03<7:02:41, 28.75s/it]                                                        {'loss': 0.0276, 'grad_norm': 1.3114493938913787, 'learning_rate': 2.0578628091460569e-07, 'completion_length': 391.81251525878906, 'rewards/only_full_func_accuracy_reward': 0.6632015705108643, 'rewards/format_reward': 1.0, 'reward': 1.663201630115509, 'reward_std': 0.07451714761555195, 'kl': 0.6888427734375, 'epoch': 0.79}
+ 79%|███████▉  | 3404/4286 [22:34:03<7:02:41, 28.75s/it] 79%|███████▉  | 3405/4286 [22:34:26<6:34:33, 26.87s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.5494987183657535, 'learning_rate': 2.0555296313579093e-07, 'completion_length': 367.4643096923828, 'rewards/only_full_func_accuracy_reward': 0.7202381789684296, 'rewards/format_reward': 1.0, 'reward': 1.720238208770752, 'reward_std': 0.019090089946985245, 'kl': 0.0399169921875, 'epoch': 0.79}
+ 79%|███████▉  | 3405/4286 [22:34:26<6:34:33, 26.87s/it] 79%|███████▉  | 3406/4286 [22:34:51<6:25:36, 26.29s/it]                                                        {'loss': 0.0257, 'grad_norm': 0.9242573455690116, 'learning_rate': 2.0531964535697618e-07, 'completion_length': 411.43751525878906, 'rewards/only_full_func_accuracy_reward': 0.6681548058986664, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6592262983322144, 'reward_std': 0.10235991328954697, 'kl': 0.640625, 'epoch': 0.79}
+ 79%|███████▉  | 3406/4286 [22:34:51<6:25:36, 26.29s/it] 79%|███████▉  | 3407/4286 [22:35:15<6:16:48, 25.72s/it]                                                        {'loss': 0.0396, 'grad_norm': 2.7794769917986333, 'learning_rate': 2.0508632757816143e-07, 'completion_length': 433.0089416503906, 'rewards/only_full_func_accuracy_reward': 0.6547619998455048, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6369048357009888, 'reward_std': 0.13032636418938637, 'kl': 0.9866943359375, 'epoch': 0.79}
+ 79%|███████▉  | 3407/4286 [22:35:15<6:16:48, 25.72s/it] 80%|███████▉  | 3408/4286 [22:35:36<5:56:43, 24.38s/it]                                                        {'loss': 0.0294, 'grad_norm': 0.5224274883464317, 'learning_rate': 2.0485300979934668e-07, 'completion_length': 362.4821472167969, 'rewards/only_full_func_accuracy_reward': 0.7455357611179352, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7276787161827087, 'reward_std': 0.039226307068020105, 'kl': 0.7366943359375, 'epoch': 0.8}
+ 80%|███████▉  | 3408/4286 [22:35:36<5:56:43, 24.38s/it] 80%|███████▉  | 3409/4286 [22:36:00<5:55:02, 24.29s/it]                                                        {'loss': 0.0456, 'grad_norm': 1.6161396253930378, 'learning_rate': 2.0461969202053196e-07, 'completion_length': 430.3750305175781, 'rewards/only_full_func_accuracy_reward': 0.6000000089406967, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5910715460777283, 'reward_std': 0.09526526555418968, 'kl': 1.1346435546875, 'epoch': 0.8}
+ 80%|███████▉  | 3409/4286 [22:36:00<5:55:02, 24.29s/it] 80%|███████▉  | 3410/4286 [22:36:23<5:48:29, 23.87s/it]                                                        {'loss': 0.0285, 'grad_norm': 1.0006599192693653, 'learning_rate': 2.043863742417172e-07, 'completion_length': 396.9285888671875, 'rewards/only_full_func_accuracy_reward': 0.6272321343421936, 'rewards/format_reward': 1.0, 'reward': 1.6272322535514832, 'reward_std': 0.06560750678181648, 'kl': 0.709716796875, 'epoch': 0.8}
+ 80%|███████▉  | 3410/4286 [22:36:23<5:48:29, 23.87s/it] 80%|███████▉  | 3411/4286 [22:36:46<5:45:22, 23.68s/it]                                                        {'loss': 0.0295, 'grad_norm': 3.480255000840039, 'learning_rate': 2.0415305646290245e-07, 'completion_length': 379.1964416503906, 'rewards/only_full_func_accuracy_reward': 0.802827388048172, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7849704027175903, 'reward_std': 0.10789568163454533, 'kl': 0.73681640625, 'epoch': 0.8}
+ 80%|███████▉  | 3411/4286 [22:36:46<5:45:22, 23.68s/it] 80%|███████▉  | 3412/4286 [22:37:09<5:42:13, 23.49s/it]                                                        {'loss': 0.0169, 'grad_norm': 3.8157737003263943, 'learning_rate': 2.039197386840877e-07, 'completion_length': 413.83929443359375, 'rewards/only_full_func_accuracy_reward': 0.7529762387275696, 'rewards/format_reward': 1.0, 'reward': 1.7529763579368591, 'reward_std': 0.029158477671444416, 'kl': 0.4215087890625, 'epoch': 0.8}
+ 80%|█████���█▉  | 3412/4286 [22:37:09<5:42:13, 23.49s/it] 80%|███████▉  | 3413/4286 [22:37:33<5:43:57, 23.64s/it]                                                        {'loss': 0.0014, 'grad_norm': 0.029601627926636644, 'learning_rate': 2.0368642090527298e-07, 'completion_length': 402.3482208251953, 'rewards/only_full_func_accuracy_reward': 0.7202381491661072, 'rewards/format_reward': 1.0, 'reward': 1.720238208770752, 'reward_std': 0.0, 'kl': 0.0343017578125, 'epoch': 0.8}
+ 80%|███████▉  | 3413/4286 [22:37:33<5:43:57, 23.64s/it] 80%|███████▉  | 3414/4286 [22:37:56<5:39:11, 23.34s/it]                                                        {'loss': 0.005, 'grad_norm': 6.95696918685641, 'learning_rate': 2.0345310312645823e-07, 'completion_length': 338.85716247558594, 'rewards/only_full_func_accuracy_reward': 0.7358631789684296, 'rewards/format_reward': 1.0, 'reward': 1.7358632683753967, 'reward_std': 0.06463040225207806, 'kl': 0.125244140625, 'epoch': 0.8}
+ 80%|███████▉  | 3414/4286 [22:37:56<5:39:11, 23.34s/it] 80%|███████▉  | 3415/4286 [22:38:17<5:26:09, 22.47s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.12549835067975446, 'learning_rate': 2.0321978534764347e-07, 'completion_length': 338.8303680419922, 'rewards/only_full_func_accuracy_reward': 0.813244104385376, 'rewards/format_reward': 1.0, 'reward': 1.8132441639900208, 'reward_std': 0.017659885808825493, 'kl': 0.0394287109375, 'epoch': 0.8}
+ 80%|███████▉  | 3415/4286 [22:38:17<5:26:09, 22.47s/it] 80%|███████▉  | 3416/4286 [22:38:39<5:25:39, 22.46s/it]                                                        {'loss': 0.0168, 'grad_norm': 0.664147888744687, 'learning_rate': 2.0298646756882872e-07, 'completion_length': 402.90179443359375, 'rewards/only_full_func_accuracy_reward': 0.7336309850215912, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7247024774551392, 'reward_std': 0.07155247405171394, 'kl': 0.418701171875, 'epoch': 0.8}
+ 80%|███████▉  | 3416/4286 [22:38:39<5:25:39, 22.46s/it] 80%|███████▉  | 3417/4286 [22:39:01<5:24:22, 22.40s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.479265010393543, 'learning_rate': 2.0275314979001397e-07, 'completion_length': 390.3571472167969, 'rewards/only_full_func_accuracy_reward': 0.7023809552192688, 'rewards/format_reward': 1.0, 'reward': 1.7023810744285583, 'reward_std': 0.038804272189736366, 'kl': 0.0390625, 'epoch': 0.8}
+ 80%|███████▉  | 3417/4286 [22:39:01<5:24:22, 22.40s/it] 80%|███████▉  | 3418/4286 [22:39:25<5:30:26, 22.84s/it]                                                        {'loss': 0.0162, 'grad_norm': 0.3280323776839143, 'learning_rate': 2.0251983201119925e-07, 'completion_length': 412.0982360839844, 'rewards/only_full_func_accuracy_reward': 0.7172619104385376, 'rewards/format_reward': 1.0, 'reward': 1.7172620296478271, 'reward_std': 0.04208969417959452, 'kl': 0.40380859375, 'epoch': 0.8}
+ 80%|███████▉  | 3418/4286 [22:39:25<5:30:26, 22.84s/it] 80%|███████▉  | 3419/4286 [22:39:48<5:30:57, 22.90s/it]                                                        {'loss': 0.0127, 'grad_norm': 1.0101171697335003, 'learning_rate': 2.022865142323845e-07, 'completion_length': 404.9285888671875, 'rewards/only_full_func_accuracy_reward': 0.7171131074428558, 'rewards/format_reward': 1.0, 'reward': 1.7171132564544678, 'reward_std': 0.03784656338393688, 'kl': 0.3204345703125, 'epoch': 0.8}
+ 80%|███████▉  | 3419/4286 [22:39:48<5:30:57, 22.90s/it] 80%|███████▉  | 3420/4286 [22:40:12<5:34:37, 23.18s/it]                                                        {'loss': 0.021, 'grad_norm': 1.1387698774358528, 'learning_rate': 2.0205319645356974e-07, 'completion_length': 382.8750305175781, 'rewards/only_full_func_accuracy_reward': 0.6912202537059784, 'rewards/format_reward': 1.0, 'reward': 1.6912204027175903, 'reward_std': 0.06062477454543114, 'kl': 0.52587890625, 'epoch': 0.8}
+ 80%|███████▉  | 3420/4286 [22:40:12<5:34:37, 23.18s/it] 80%|███████▉  | 3421/4286 [22:40:35<5:32:09, 23.04s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.5925846412005363, 'learning_rate': 2.01819878674755e-07, 'completion_length': 395.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.6726190745830536, 'rewards/format_reward': 1.0, 'reward': 1.6726192235946655, 'reward_std': 0.04764330945909023, 'kl': 0.03656005859375, 'epoch': 0.8}
+ 80%|███████▉  | 3421/4286 [22:40:35<5:32:09, 23.04s/it] 80%|███████▉  | 3422/4286 [22:40:58<5:33:27, 23.16s/it]                                                        {'loss': 0.0029, 'grad_norm': 0.7588331095855754, 'learning_rate': 2.0158656089594027e-07, 'completion_length': 397.51788330078125, 'rewards/only_full_func_accuracy_reward': 0.8632440865039825, 'rewards/format_reward': 1.0, 'reward': 1.863244116306305, 'reward_std': 0.026950513944029808, 'kl': 0.0731201171875, 'epoch': 0.8}
+ 80%|███████▉  | 3422/4286 [22:40:58<5:33:27, 23.16s/it] 80%|███████▉  | 3423/4286 [22:41:22<5:36:19, 23.38s/it]                                                        {'loss': 0.0041, 'grad_norm': 2.7751556932896526, 'learning_rate': 2.0135324311712552e-07, 'completion_length': 412.3839416503906, 'rewards/only_full_func_accuracy_reward': 0.7098214626312256, 'rewards/format_reward': 1.0, 'reward': 1.7098215818405151, 'reward_std': 0.06684233620762825, 'kl': 0.1031494140625, 'epoch': 0.8}
+ 80%|███████▉  | 3423/4286 [22:41:22<5:36:19, 23.38s/it] 80%|███████▉  | 3424/4286 [22:41:43<5:26:58, 22.76s/it]                                                        {'loss': 0.0013, 'grad_norm': 0.6762153945891124, 'learning_rate': 2.0111992533831077e-07, 'completion_length': 366.50001525878906, 'rewards/only_full_func_accuracy_reward': 0.7715774476528168, 'rewards/format_reward': 1.0, 'reward': 1.7715774774551392, 'reward_std': 0.0063134534284472466, 'kl': 0.0335693359375, 'epoch': 0.8}
+ 80%|███████▉  | 3424/4286 [22:41:43<5:26:58, 22.76s/it] 80%|███████▉  | 3425/4286 [22:42:07<5:28:55, 22.92s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.38272558247860156, 'learning_rate': 2.0088660755949601e-07, 'completion_length': 384.06251525878906, 'rewards/only_full_func_accuracy_reward': 0.87202388048172, 'rewards/format_reward': 1.0, 'reward': 1.8720239400863647, 'reward_std': 0.02931109443306923, 'kl': 0.043212890625, 'epoch': 0.8}
+ 80%|███████▉  | 3425/4286 [22:42:07<5:28:55, 22.92s/it] 80%|███████▉  | 3426/4286 [22:42:32<5:36:56, 23.51s/it]                                                        {'loss': 0.0552, 'grad_norm': 1.870547305669795, 'learning_rate': 2.0065328978068126e-07, 'completion_length': 444.1339569091797, 'rewards/only_full_func_accuracy_reward': 0.6183035969734192, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6004465222358704, 'reward_std': 0.10969426855444908, 'kl': 1.3790283203125, 'epoch': 0.8}
+ 80%|███████▉  | 3426/4286 [22:42:32<5:36:56, 23.51s/it] 80%|███████▉  | 3427/4286 [22:42:55<5:35:32, 23.44s/it]                                                        {'loss': 0.0169, 'grad_norm': 1.4127188443910819, 'learning_rate': 2.0041997200186654e-07, 'completion_length': 405.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.6867559552192688, 'rewards/format_reward': 1.0, 'reward': 1.6867560744285583, 'reward_std': 0.06853506341576576, 'kl': 0.424072265625, 'epoch': 0.8}
+ 80%|███████▉  | 3427/4286 [22:42:55<5:35:32, 23.44s/it] 80%|███████▉  | 3428/4286 [22:43:17<5:29:33, 23.05s/it]                                                        {'loss': 0.0083, 'grad_norm': 1.0030458153958035, 'learning_rate': 2.0018665422305179e-07, 'completion_length': 378.0714416503906, 'rewards/only_full_func_accuracy_reward': 0.7566964626312256, 'rewards/format_reward': 1.0, 'reward': 1.7566965818405151, 'reward_std': 0.03110959380865097, 'kl': 0.20703125, 'epoch': 0.8}
+ 80%|███████▉  | 3428/4286 [22:43:17<5:29:33, 23.05s/it] 80%|████████  | 3429/4286 [22:43:41<5:32:12, 23.26s/it]                                                        {'loss': 0.0054, 'grad_norm': 2.2730506828708466, 'learning_rate': 1.9995333644423704e-07, 'completion_length': 432.0893096923828, 'rewards/only_full_func_accuracy_reward': 0.7276786863803864, 'rewards/format_reward': 1.0, 'reward': 1.7276787161827087, 'reward_std': 0.012626906856894493, 'kl': 0.1358642578125, 'epoch': 0.8}
+ 80%|████████  | 3429/4286 [22:43:41<5:32:12, 23.26s/it] 80%|████████  | 3430/4286 [22:44:05<5:34:21, 23.44s/it]                                                        {'loss': 0.0205, 'grad_norm': 1.7068050485857604, 'learning_rate': 1.9972001866542228e-07, 'completion_length': 388.9464569091797, 'rewards/only_full_func_accuracy_reward': 0.6391369104385376, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.630208432674408, 'reward_std': 0.05729158781468868, 'kl': 0.5126953125, 'epoch': 0.8}
+ 80%|████████  | 3430/4286 [22:44:05<5:34:21, 23.44s/it] 80%|████████  | 3431/4286 [22:44:28<5:34:38, 23.48s/it]                                                        {'loss': 0.0127, 'grad_norm': 1.1939436785266848, 'learning_rate': 1.9948670088660753e-07, 'completion_length': 414.70538330078125, 'rewards/only_full_func_accuracy_reward': 0.7194940745830536, 'rewards/format_reward': 1.0, 'reward': 1.7194942235946655, 'reward_std': 0.032488951459527016, 'kl': 0.318603515625, 'epoch': 0.8}
+ 80%|████████  | 3431/4286 [22:44:28<5:34:38, 23.48s/it] 80%|████████  | 3432/4286 [22:44:52<5:34:52, 23.53s/it]                                                        {'loss': 0.0014, 'grad_norm': 0.1150787545577015, 'learning_rate': 1.992533831077928e-07, 'completion_length': 404.7232360839844, 'rewards/only_full_func_accuracy_reward': 0.7217262387275696, 'rewards/format_reward': 1.0, 'reward': 1.7217262983322144, 'reward_std': 0.008266251534223557, 'kl': 0.0357666015625, 'epoch': 0.8}
+ 80%|████████  | 3432/4286 [22:44:52<5:34:52, 23.53s/it] 80%|████████  | 3433/4286 [22:45:14<5:30:11, 23.23s/it]                                                        {'loss': 0.0121, 'grad_norm': 378.8712110380574, 'learning_rate': 1.9902006532897806e-07, 'completion_length': 386.8839416503906, 'rewards/only_full_func_accuracy_reward': 0.719494104385376, 'rewards/format_reward': 1.0, 'reward': 1.7194941639900208, 'reward_std': 0.030135106295347214, 'kl': 0.300537109375, 'epoch': 0.8}
+ 80%|████████  | 3433/4286 [22:45:14<5:30:11, 23.23s/it] 80%|████████  | 3434/4286 [22:45:37<5:28:16, 23.12s/it]                                                        {'loss': 0.0035, 'grad_norm': 1.1844393217315516, 'learning_rate': 1.987867475501633e-07, 'completion_length': 378.2678680419922, 'rewards/only_full_func_accuracy_reward': 0.7284226715564728, 'rewards/format_reward': 1.0, 'reward': 1.72842276096344, 'reward_std': 0.021717173047363758, 'kl': 0.087158203125, 'epoch': 0.8}
+ 80%|████████  | 3434/4286 [22:45:37<5:28:16, 23.12s/it] 80%|████████  | 3435/4286 [22:46:01<5:31:27, 23.37s/it]                                                        {'loss': 0.0013, 'grad_norm': 0.32005874332350137, 'learning_rate': 1.9855342977134855e-07, 'completion_length': 424.7143096923828, 'rewards/only_full_func_accuracy_reward': 0.6964285969734192, 'rewards/format_reward': 1.0, 'reward': 1.6964287161827087, 'reward_std': 0.012475223746150732, 'kl': 0.03369140625, 'epoch': 0.8}
+ 80%|████████  | 3435/4286 [22:46:01<5:31:27, 23.37s/it] 80%|████████  | 3436/4286 [22:46:25<5:31:53, 23.43s/it]                                                        {'loss': 0.0014, 'grad_norm': 0.29637493669676446, 'learning_rate': 1.9832011199253383e-07, 'completion_length': 396.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.8147321939468384, 'rewards/format_reward': 1.0, 'reward': 1.8147322535514832, 'reward_std': 0.038704730570316315, 'kl': 0.0341796875, 'epoch': 0.8}
+ 80%|████████  | 3436/4286 [22:46:25<5:31:53, 23.43s/it] 80%|████████  | 3437/4286 [22:46:49<5:36:23, 23.77s/it]                                                        {'loss': 0.0125, 'grad_norm': 0.8344843635284548, 'learning_rate': 1.9808679421371908e-07, 'completion_length': 418.17860412597656, 'rewards/only_full_func_accuracy_reward': 0.6808035969734192, 'rewards/format_reward': 1.0, 'reward': 1.6808037161827087, 'reward_std': 0.04525474412366748, 'kl': 0.313720703125, 'epoch': 0.8}
+ 80%|████████  | 3437/4286 [22:46:49<5:36:23, 23.77s/it] 80%|████████  | 3438/4286 [22:47:13<5:35:11, 23.72s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.39250863838767075, 'learning_rate': 1.9785347643490433e-07, 'completion_length': 414.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.5305059403181076, 'rewards/format_reward': 1.0, 'reward': 1.5305060744285583, 'reward_std': 0.03419145569205284, 'kl': 0.0379638671875, 'epoch': 0.8}
+ 80%|████████  | 3438/4286 [22:47:13<5:35:11, 23.72s/it] 80%|████████  | 3439/4286 [22:47:35<5:28:48, 23.29s/it]                                                        {'loss': 0.0037, 'grad_norm': 12.33889120546302, 'learning_rate': 1.9762015865608958e-07, 'completion_length': 352.76788330078125, 'rewards/only_full_func_accuracy_reward': 0.6636905074119568, 'rewards/format_reward': 1.0, 'reward': 1.6636905670166016, 'reward_std': 0.05133136175572872, 'kl': 0.0927734375, 'epoch': 0.8}
+ 80%|████████  | 3439/4286 [22:47:35<5:28:48, 23.29s/it] 80%|████████  | 3440/4286 [22:47:59<5:29:11, 23.35s/it]                                                        {'loss': 0.0118, 'grad_norm': 0.7457904624911912, 'learning_rate': 1.9738684087727482e-07, 'completion_length': 390.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.7755952179431915, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7666667699813843, 'reward_std': 0.08667630143463612, 'kl': 0.2943115234375, 'epoch': 0.8}
+ 80%|████████  | 3440/4286 [22:47:59<5:29:11, 23.35s/it] 80%|████████  | 3441/4286 [22:48:22<5:28:01, 23.29s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.8044454280312102, 'learning_rate': 1.971535230984601e-07, 'completion_length': 398.25001525878906, 'rewards/only_full_func_accuracy_reward': 0.6941964626312256, 'rewards/format_reward': 1.0, 'reward': 1.6941965222358704, 'reward_std': 0.03459558356553316, 'kl': 0.0435791015625, 'epoch': 0.8}
+ 80%|████████  | 3441/4286 [22:48:22<5:28:01, 23.29s/it] 80%|████████  | 3442/4286 [22:48:44<5:24:12, 23.05s/it]                                                        {'loss': 0.0102, 'grad_norm': 2.3852425377526396, 'learning_rate': 1.9692020531964535e-07, 'completion_length': 323.4107360839844, 'rewards/only_full_func_accuracy_reward': 0.7001488506793976, 'rewards/format_reward': 1.0, 'reward': 1.7001489400863647, 'reward_std': 0.0728035680949688, 'kl': 0.255859375, 'epoch': 0.8}
+ 80%|████████  | 3442/4286 [22:48:44<5:24:12, 23.05s/it] 80%|████████  | 3443/4286 [22:49:09<5:32:01, 23.63s/it]                                                        {'loss': 0.0014, 'grad_norm': 0.26083084664806483, 'learning_rate': 1.966868875408306e-07, 'completion_length': 417.12501525878906, 'rewards/only_full_func_accuracy_reward': 0.7224702537059784, 'rewards/format_reward': 1.0, 'reward': 1.7224703431129456, 'reward_std': 0.05230538081377745, 'kl': 0.033935546875, 'epoch': 0.8}
+ 80%|████████  | 3443/4286 [22:49:09<5:32:01, 23.63s/it] 80%|████████  | 3444/4286 [22:49:31<5:24:27, 23.12s/it]                                                        {'loss': 0.0206, 'grad_norm': 1.3033153442606495, 'learning_rate': 1.9645356976201585e-07, 'completion_length': 343.68751525878906, 'rewards/only_full_func_accuracy_reward': 0.7559524178504944, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7470239400863647, 'reward_std': 0.0649944320321083, 'kl': 0.5130615234375, 'epoch': 0.8}
+ 80%|████████  | 3444/4286 [22:49:31<5:24:27, 23.12s/it] 80%|████████  | 3445/4286 [22:49:55<5:29:09, 23.48s/it]                                                        {'loss': 0.0052, 'grad_norm': 0.8871105229449874, 'learning_rate': 1.9622025198320112e-07, 'completion_length': 420.1964416503906, 'rewards/only_full_func_accuracy_reward': 0.7514881491661072, 'rewards/format_reward': 1.0, 'reward': 1.751488208770752, 'reward_std': 0.023047554306685925, 'kl': 0.1295166015625, 'epoch': 0.8}
+ 80%|████████  | 3445/4286 [22:49:55<5:29:09, 23.48s/it] 80%|████████  | 3446/4286 [22:50:18<5:24:49, 23.20s/it]                                                        {'loss': 0.002, 'grad_norm': 0.1406056374464536, 'learning_rate': 1.9598693420438637e-07, 'completion_length': 355.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.898809552192688, 'rewards/format_reward': 1.0, 'reward': 1.8988096117973328, 'reward_std': 0.011021665297448635, 'kl': 0.0511474609375, 'epoch': 0.8}
+ 80%|████████  | 3446/4286 [22:50:18<5:24:49, 23.20s/it] 80%|████████  | 3447/4286 [22:50:40<5:19:56, 22.88s/it]                                                        {'loss': 0.0098, 'grad_norm': 0.8521535997223068, 'learning_rate': 1.9575361642557162e-07, 'completion_length': 363.0357360839844, 'rewards/only_full_func_accuracy_reward': 0.807291716337204, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.798363208770752, 'reward_std': 0.03156726807355881, 'kl': 0.245361328125, 'epoch': 0.8}
+ 80%|████████  | 3447/4286 [22:50:40<5:19:56, 22.88s/it] 80%|████████  | 3448/4286 [22:51:02<5:14:43, 22.53s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.5993581107407853, 'learning_rate': 1.9552029864675687e-07, 'completion_length': 338.02679443359375, 'rewards/only_full_func_accuracy_reward': 0.7299107611179352, 'rewards/format_reward': 1.0, 'reward': 1.7299108505249023, 'reward_std': 0.018940359354019165, 'kl': 0.043701171875, 'epoch': 0.8}
+ 80%|████████  | 3448/4286 [22:51:02<5:14:43, 22.53s/it] 80%|████████  | 3449/4286 [22:51:26<5:19:53, 22.93s/it]                                                        {'loss': 0.0537, 'grad_norm': 1.573105690907976, 'learning_rate': 1.9528698086794211e-07, 'completion_length': 374.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.6559524387121201, 'rewards/format_reward': 1.0, 'reward': 1.655952513217926, 'reward_std': 0.028395031578838825, 'kl': 1.341796875, 'epoch': 0.8}
+ 80%|████████  | 3449/4286 [22:51:26<5:19:53, 22.93s/it] 80%|████████  | 3450/4286 [22:51:47<5:13:57, 22.53s/it]                                                        {'loss': 0.0182, 'grad_norm': 0.6530986538181637, 'learning_rate': 1.950536630891274e-07, 'completion_length': 340.9732208251953, 'rewards/only_full_func_accuracy_reward': 0.7544643580913544, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7455359101295471, 'reward_std': 0.06847061030566692, 'kl': 0.45458984375, 'epoch': 0.8}
+ 80%|████████  | 3450/4286 [22:51:47<5:13:57, 22.53s/it] 81%|████████  | 3451/4286 [22:52:08<5:05:01, 21.92s/it]                                                        {'loss': 0.0322, 'grad_norm': 1.087428499582188, 'learning_rate': 1.9482034531031264e-07, 'completion_length': 316.25001525878906, 'rewards/only_full_func_accuracy_reward': 0.6028274595737457, 'rewards/format_reward': 1.0, 'reward': 1.6028274893760681, 'reward_std': 0.08362511545419693, 'kl': 0.8046875, 'epoch': 0.81}
+ 81%|████████  | 3451/4286 [22:52:08<5:05:01, 21.92s/it] 81%|████████  | 3452/4286 [22:52:31<5:07:52, 22.15s/it]                                                        {'loss': 0.003, 'grad_norm': 0.8518164570176173, 'learning_rate': 1.945870275314979e-07, 'completion_length': 373.85716247558594, 'rewards/only_full_func_accuracy_reward': 0.8095239102840424, 'rewards/format_reward': 1.0, 'reward': 1.8095239400863647, 'reward_std': 0.011021665297448635, 'kl': 0.0753173828125, 'epoch': 0.81}
+ 81%|████████  | 3452/4286 [22:52:31<5:07:52, 22.15s/it] 81%|████████  | 3453/4286 [22:52:55<5:16:37, 22.81s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.4308110898943097, 'learning_rate': 1.9435370975268314e-07, 'completion_length': 399.68751525878906, 'rewards/only_full_func_accuracy_reward': 0.7202380895614624, 'rewards/format_reward': 1.0, 'reward': 1.7202382683753967, 'reward_std': 0.05105678550899029, 'kl': 0.03955078125, 'epoch': 0.81}
+ 81%|████████  | 3453/4286 [22:52:55<5:16:37, 22.81s/it] 81%|████████  | 3454/4286 [22:53:17<5:14:32, 22.68s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.6272683884817012, 'learning_rate': 1.9412039197386838e-07, 'completion_length': 343.9464416503906, 'rewards/only_full_func_accuracy_reward': 0.6971726417541504, 'rewards/format_reward': 1.0, 'reward': 1.6971727013587952, 'reward_std': 0.04779546521604061, 'kl': 0.0458984375, 'epoch': 0.81}
+ 81%|████████  | 3454/4286 [22:53:17<5:14:32, 22.68s/it] 81%|████████  | 3455/4286 [22:53:39<5:11:50, 22.52s/it]                                                        {'loss': 0.0104, 'grad_norm': 1.8683742660304852, 'learning_rate': 1.9388707419505366e-07, 'completion_length': 368.7410888671875, 'rewards/only_full_func_accuracy_reward': 0.8005953133106232, 'rewards/format_reward': 1.0, 'reward': 1.8005954027175903, 'reward_std': 0.06298284977674484, 'kl': 0.2603759765625, 'epoch': 0.81}
+ 81%|████████  | 3455/4286 [22:53:39<5:11:50, 22.52s/it] 81%|████████  | 3456/4286 [22:54:04<5:18:07, 23.00s/it]                                                        {'loss': 0.0214, 'grad_norm': 0.7733417180109704, 'learning_rate': 1.936537564162389e-07, 'completion_length': 395.04466247558594, 'rewards/only_full_func_accuracy_reward': 0.7142857015132904, 'rewards/format_reward': 1.0, 'reward': 1.7142857909202576, 'reward_std': 0.04507121257483959, 'kl': 0.5352783203125, 'epoch': 0.81}
+ 81%|████████  | 3456/4286 [22:54:04<5:18:07, 23.00s/it] 81%|████████  | 3457/4286 [22:54:26<5:17:37, 22.99s/it]                                                        {'loss': 0.0289, 'grad_norm': 2.532143531360385, 'learning_rate': 1.9342043863742416e-07, 'completion_length': 403.48216247558594, 'rewards/only_full_func_accuracy_reward': 0.6421131789684296, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6242560744285583, 'reward_std': 0.11446617543697357, 'kl': 0.71875, 'epoch': 0.81}
+ 81%|████████  | 3457/4286 [22:54:26<5:17:37, 22.99s/it] 81%|████████  | 3458/4286 [22:54:50<5:20:27, 23.22s/it]                                                        {'loss': 0.0029, 'grad_norm': 7.875986356038804, 'learning_rate': 1.931871208586094e-07, 'completion_length': 427.27679443359375, 'rewards/only_full_func_accuracy_reward': 0.799107164144516, 'rewards/format_reward': 1.0, 'reward': 1.7991072535514832, 'reward_std': 0.021044842898845673, 'kl': 0.0726318359375, 'epoch': 0.81}
+ 81%|████████  | 3458/4286 [22:54:50<5:20:27, 23.22s/it] 81%|████████  | 3459/4286 [22:55:13<5:18:54, 23.14s/it]                                                        {'loss': 0.0012, 'grad_norm': 0.20965164245205953, 'learning_rate': 1.9295380307979468e-07, 'completion_length': 427.05360412597656, 'rewards/only_full_func_accuracy_reward': 0.8683035969734192, 'rewards/format_reward': 1.0, 'reward': 1.868303656578064, 'reward_std': 0.021968675777316093, 'kl': 0.03125, 'epoch': 0.81}
+ 81%|████████  | 3459/4286 [22:55:13<5:18:54, 23.14s/it] 81%|████████  | 3460/4286 [22:55:34<5:08:56, 22.44s/it]                                                        {'loss': 0.004, 'grad_norm': 0.8738484307529485, 'learning_rate': 1.9272048530097993e-07, 'completion_length': 353.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.8392857611179352, 'rewards/format_reward': 1.0, 'reward': 1.8392857909202576, 'reward_std': 0.06926255486905575, 'kl': 0.099365234375, 'epoch': 0.81}
+ 81%|████████  | 3460/4286 [22:55:34<5:08:56, 22.44s/it] 81%|████████  | 3461/4286 [22:55:57<5:09:39, 22.52s/it]                                                        {'loss': 0.0017, 'grad_norm': 4.284409063051771, 'learning_rate': 1.9248716752216518e-07, 'completion_length': 367.35716247558594, 'rewards/only_full_func_accuracy_reward': 0.7110119760036469, 'rewards/format_reward': 1.0, 'reward': 1.711012065410614, 'reward_std': 0.01937413541600108, 'kl': 0.043701171875, 'epoch': 0.81}
+ 81%|████████  | 3461/4286 [22:55:57<5:09:39, 22.52s/it] 81%|████████  | 3462/4286 [22:56:21<5:14:42, 22.92s/it]                                                        {'loss': 0.0282, 'grad_norm': 1.190152446427132, 'learning_rate': 1.9225384974335043e-07, 'completion_length': 369.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.7229167222976685, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7139882445335388, 'reward_std': 0.11678166687488556, 'kl': 0.704833984375, 'epoch': 0.81}
+ 81%|████████  | 3462/4286 [22:56:21<5:14:42, 22.92s/it] 81%|████████  | 3463/4286 [22:56:44<5:16:23, 23.07s/it]                                                        {'loss': 0.0286, 'grad_norm': 0.7805540189344047, 'learning_rate': 1.9202053196453568e-07, 'completion_length': 404.9464416503906, 'rewards/only_full_func_accuracy_reward': 0.6711309850215912, 'rewards/format_reward': 1.0, 'reward': 1.6711310744285583, 'reward_std': 0.0572262778878212, 'kl': 0.710693359375, 'epoch': 0.81}
+ 81%|████████  | 3463/4286 [22:56:44<5:16:23, 23.07s/it] 81%|████████  | 3464/4286 [22:57:06<5:11:48, 22.76s/it]                                                        {'loss': 0.0163, 'grad_norm': 0.2958060783581231, 'learning_rate': 1.9178721418572095e-07, 'completion_length': 374.46429443359375, 'rewards/only_full_func_accuracy_reward': 0.7924107611179352, 'rewards/format_reward': 1.0, 'reward': 1.7924108505249023, 'reward_std': 0.04291369952261448, 'kl': 0.4088134765625, 'epoch': 0.81}
+ 81%|████████  | 3464/4286 [22:57:06<5:11:48, 22.76s/it] 81%|████████  | 3465/4286 [22:57:29<5:12:49, 22.86s/it]                                                        {'loss': 0.017, 'grad_norm': 5.4364447184695255, 'learning_rate': 1.915538964069062e-07, 'completion_length': 374.6607360839844, 'rewards/only_full_func_accuracy_reward': 0.6674107015132904, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.658482313156128, 'reward_std': 0.05555504560470581, 'kl': 0.42578125, 'epoch': 0.81}
+ 81%|████████  | 3465/4286 [22:57:29<5:12:49, 22.86s/it] 81%|████████  | 3466/4286 [22:57:52<5:11:03, 22.76s/it]                                                        {'loss': 0.0134, 'grad_norm': 1.4579404412365924, 'learning_rate': 1.9132057862809145e-07, 'completion_length': 361.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.7351191341876984, 'rewards/format_reward': 1.0, 'reward': 1.7351192235946655, 'reward_std': 0.04263884108513594, 'kl': 0.3349609375, 'epoch': 0.81}
+ 81%|████████  | 3466/4286 [22:57:52<5:11:03, 22.76s/it] 81%|████████  | 3467/4286 [22:58:15<5:12:42, 22.91s/it]                                                        {'loss': 0.0246, 'grad_norm': 0.6629932982743882, 'learning_rate': 1.910872608492767e-07, 'completion_length': 360.2589416503906, 'rewards/only_full_func_accuracy_reward': 0.7075893580913544, 'rewards/format_reward': 1.0, 'reward': 1.7075893878936768, 'reward_std': 0.052156115882098675, 'kl': 0.6160888671875, 'epoch': 0.81}
+ 81%|████████  | 3467/4286 [22:58:15<5:12:42, 22.91s/it] 81%|████████  | 3468/4286 [22:58:37<5:08:13, 22.61s/it]                                                        {'loss': 0.0021, 'grad_norm': 0.7461771993143839, 'learning_rate': 1.9085394307046197e-07, 'completion_length': 349.7589416503906, 'rewards/only_full_func_accuracy_reward': 0.8497024476528168, 'rewards/format_reward': 1.0, 'reward': 1.8497024774551392, 'reward_std': 0.025102123618125916, 'kl': 0.0526123046875, 'epoch': 0.81}
+ 81%|████████  | 3468/4286 [22:58:37<5:08:13, 22.61s/it] 81%|████████  | 3469/4286 [22:58:58<5:02:38, 22.23s/it]                                                        {'loss': 0.0287, 'grad_norm': 0.8358559698653951, 'learning_rate': 1.9062062529164722e-07, 'completion_length': 343.83929443359375, 'rewards/only_full_func_accuracy_reward': 0.6584821343421936, 'rewards/format_reward': 1.0, 'reward': 1.6584822535514832, 'reward_std': 0.0445804288610816, 'kl': 0.71875, 'epoch': 0.81}
+ 81%|████████  | 3469/4286 [22:58:58<5:02:38, 22.23s/it] 81%|████████  | 3470/4286 [22:59:22<5:08:17, 22.67s/it]                                                        {'loss': 0.0402, 'grad_norm': 0.5004445611382373, 'learning_rate': 1.9038730751283247e-07, 'completion_length': 401.9107360839844, 'rewards/only_full_func_accuracy_reward': 0.6815476715564728, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6726191639900208, 'reward_std': 0.06698118150234222, 'kl': 1.001953125, 'epoch': 0.81}
+ 81%|████████  | 3470/4286 [22:59:22<5:08:17, 22.67s/it] 81%|████████  | 3471/4286 [22:59:45<5:11:14, 22.91s/it]                                                        {'loss': 0.0337, 'grad_norm': 1.2867567801604107, 'learning_rate': 1.9015398973401772e-07, 'completion_length': 404.70538330078125, 'rewards/only_full_func_accuracy_reward': 0.8163691163063049, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8074406385421753, 'reward_std': 0.10012103151530027, 'kl': 0.8472900390625, 'epoch': 0.81}
+ 81%|████████  | 3471/4286 [22:59:45<5:11:14, 22.91s/it] 81%|████████  | 3472/4286 [23:00:09<5:12:46, 23.05s/it]                                                        {'loss': 0.0014, 'grad_norm': 0.5023284775010235, 'learning_rate': 1.8992067195520297e-07, 'completion_length': 373.48216247558594, 'rewards/only_full_func_accuracy_reward': 0.7775298357009888, 'rewards/format_reward': 1.0, 'reward': 1.7775299549102783, 'reward_std': 0.03389486577361822, 'kl': 0.035400390625, 'epoch': 0.81}
+ 81%|████████  | 3472/4286 [23:00:09<5:12:46, 23.05s/it] 81%|████████  | 3473/4286 [23:00:32<5:12:07, 23.03s/it]                                                        {'loss': 0.0128, 'grad_norm': 0.8553565488183449, 'learning_rate': 1.8968735417638824e-07, 'completion_length': 387.0714569091797, 'rewards/only_full_func_accuracy_reward': 0.70163694024086, 'rewards/format_reward': 1.0, 'reward': 1.7016370296478271, 'reward_std': 0.04543589800596237, 'kl': 0.319091796875, 'epoch': 0.81}
+ 81%|████████  | 3473/4286 [23:00:32<5:12:07, 23.03s/it] 81%|████████  | 3474/4286 [23:00:52<5:00:58, 22.24s/it]                                                        {'loss': 0.0225, 'grad_norm': 6.384556043994179, 'learning_rate': 1.894540363975735e-07, 'completion_length': 307.68751525878906, 'rewards/only_full_func_accuracy_reward': 0.6495536267757416, 'rewards/format_reward': 1.0, 'reward': 1.6495537161827087, 'reward_std': 0.08246570080518723, 'kl': 0.56201171875, 'epoch': 0.81}
+ 81%|████████  | 3474/4286 [23:00:52<5:00:58, 22.24s/it] 81%|████████  | 3475/4286 [23:01:16<5:07:17, 22.73s/it]                                                        {'loss': 0.0657, 'grad_norm': 1.2537245208748475, 'learning_rate': 1.8922071861875874e-07, 'completion_length': 387.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.7373512089252472, 'rewards/format_reward': 1.0, 'reward': 1.7373513579368591, 'reward_std': 0.14763357862830162, 'kl': 1.63671875, 'epoch': 0.81}
+ 81%|████████  | 3475/4286 [23:01:16<5:07:17, 22.73s/it] 81%|████████  | 3476/4286 [23:01:39<5:06:52, 22.73s/it]                                                        {'loss': 0.0225, 'grad_norm': 1.3294101864858552, 'learning_rate': 1.88987400839944e-07, 'completion_length': 416.7946472167969, 'rewards/only_full_func_accuracy_reward': 0.6130953133106232, 'rewards/format_reward': 1.0, 'reward': 1.6130953431129456, 'reward_std': 0.047949397936463356, 'kl': 0.5621337890625, 'epoch': 0.81}
+ 81%|████████  | 3476/4286 [23:01:39<5:06:52, 22.73s/it] 81%|████████  | 3477/4286 [23:02:03<5:11:37, 23.11s/it]                                                        {'loss': 0.0242, 'grad_norm': 2.397311361845568, 'learning_rate': 1.8875408306112924e-07, 'completion_length': 445.8393096923828, 'rewards/only_full_func_accuracy_reward': 0.8489584028720856, 'rewards/format_reward': 1.0, 'reward': 1.848958432674408, 'reward_std': 0.06444309465587139, 'kl': 0.60546875, 'epoch': 0.81}
+ 81%|████████  | 3477/4286 [23:02:03<5:11:37, 23.11s/it] 81%|████████  | 3478/4286 [23:02:25<5:06:59, 22.80s/it]                                                        {'loss': 0.0021, 'grad_norm': 0.5619001612375398, 'learning_rate': 1.885207652823145e-07, 'completion_length': 385.60716247558594, 'rewards/only_full_func_accuracy_reward': 0.7180059552192688, 'rewards/format_reward': 1.0, 'reward': 1.7180060744285583, 'reward_std': 0.025403542444109917, 'kl': 0.052001953125, 'epoch': 0.81}
+ 81%|████████  | 3478/4286 [23:02:25<5:06:59, 22.80s/it] 81%|████████  | 3479/4286 [23:02:49<5:10:40, 23.10s/it]                                                        {'loss': 0.0392, 'grad_norm': 3.673453396922479, 'learning_rate': 1.8828744750349976e-07, 'completion_length': 395.8482208251953, 'rewards/only_full_func_accuracy_reward': 0.7498512268066406, 'rewards/format_reward': 1.0, 'reward': 1.7498513460159302, 'reward_std': 0.07627320103347301, 'kl': 0.9765625, 'epoch': 0.81}
+ 81%|████████  | 3479/4286 [23:02:49<5:10:40, 23.10s/it] 81%|████████  | 3480/4286 [23:03:13<5:13:54, 23.37s/it]                                                        {'loss': 0.033, 'grad_norm': 0.8049240029241455, 'learning_rate': 1.88054129724685e-07, 'completion_length': 450.6607360839844, 'rewards/only_full_func_accuracy_reward': 0.7239583134651184, 'rewards/format_reward': 1.0, 'reward': 1.723958432674408, 'reward_std': 0.05907529778778553, 'kl': 0.826171875, 'epoch': 0.81}
+ 81%|████████  | 3480/4286 [23:03:13<5:13:54, 23.37s/it] 81%|████████  | 3481/4286 [23:03:35<5:09:32, 23.07s/it]                                                        {'loss': 0.2024, 'grad_norm': 6.681765323534764, 'learning_rate': 1.8782081194587026e-07, 'completion_length': 358.6785888671875, 'rewards/only_full_func_accuracy_reward': 0.5751487910747528, 'rewards/format_reward': 0.9375000298023224, 'reward': 1.51264888048172, 'reward_std': 0.3085562437772751, 'kl': 5.0625, 'epoch': 0.81}
+ 81%|████████  | 3481/4286 [23:03:35<5:09:32, 23.07s/it] 81%|████████  | 3482/4286 [23:03:58<5:09:06, 23.07s/it]                                                        {'loss': 0.0755, 'grad_norm': 1.8678716640455277, 'learning_rate': 1.8758749416705553e-07, 'completion_length': 396.5535888671875, 'rewards/only_full_func_accuracy_reward': 0.6581101715564728, 'rewards/format_reward': 0.973214328289032, 'reward': 1.6313244700431824, 'reward_std': 0.12773935496807098, 'kl': 1.8828125, 'epoch': 0.81}
+ 81%|████████  | 3482/4286 [23:03:58<5:09:06, 23.07s/it] 81%|████████▏ | 3483/4286 [23:04:19<5:00:58, 22.49s/it]                                                        {'loss': 0.0253, 'grad_norm': 3.212865692127154, 'learning_rate': 1.8735417638824078e-07, 'completion_length': 310.8303680419922, 'rewards/only_full_func_accuracy_reward': 0.8266369104385376, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.817708432674408, 'reward_std': 0.0752238780260086, 'kl': 0.630859375, 'epoch': 0.81}
+ 81%|████████▏ | 3483/4286 [23:04:19<5:00:58, 22.49s/it] 81%|████████▏ | 3484/4286 [23:04:42<5:02:02, 22.60s/it]                                                        {'loss': 0.0417, 'grad_norm': 2.1563295123621917, 'learning_rate': 1.8712085860942603e-07, 'completion_length': 418.06251525878906, 'rewards/only_full_func_accuracy_reward': 0.740327388048172, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7224703431129456, 'reward_std': 0.12794218212366104, 'kl': 1.044921875, 'epoch': 0.81}
+ 81%|████████▏ | 3484/4286 [23:04:42<5:02:02, 22.60s/it] 81%|████████▏ | 3485/4286 [23:05:07<5:10:55, 23.29s/it]                                                        {'loss': 0.0417, 'grad_norm': 1.185639363911595, 'learning_rate': 1.8688754083061128e-07, 'completion_length': 416.6518096923828, 'rewards/only_full_func_accuracy_reward': 0.8022693693637848, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7933409214019775, 'reward_std': 0.13825943134725094, 'kl': 1.041015625, 'epoch': 0.81}
+ 81%|████████▏ | 3485/4286 [23:05:07<5:10:55, 23.29s/it] 81%|████████▏ | 3486/4286 [23:05:30<5:08:26, 23.13s/it]                                                        {'loss': 0.1072, 'grad_norm': 6.150801444459769, 'learning_rate': 1.8665422305179653e-07, 'completion_length': 370.9285888671875, 'rewards/only_full_func_accuracy_reward': 0.7537203133106232, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.7180060744285583, 'reward_std': 0.18523883074522018, 'kl': 2.6875, 'epoch': 0.81}
+ 81%|████████▏ | 3486/4286 [23:05:30<5:08:26, 23.13s/it] 81%|████████▏ | 3487/4286 [23:05:52<5:06:05, 22.99s/it]                                                        {'loss': 0.1137, 'grad_norm': 4.496082663003751, 'learning_rate': 1.864209052729818e-07, 'completion_length': 369.8839569091797, 'rewards/only_full_func_accuracy_reward': 0.7477678954601288, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7299108505249023, 'reward_std': 0.19910778850317, 'kl': 2.8359375, 'epoch': 0.81}
+ 81%|████████▏ | 3487/4286 [23:05:52<5:06:05, 22.99s/it] 81%|████████▏ | 3488/4286 [23:06:14<4:59:34, 22.52s/it]                                                        {'loss': 0.0698, 'grad_norm': 5.598269078005368, 'learning_rate': 1.8618758749416705e-07, 'completion_length': 319.83038330078125, 'rewards/only_full_func_accuracy_reward': 0.659226268529892, 'rewards/format_reward': 1.0, 'reward': 1.6592262983322144, 'reward_std': 0.0898846797645092, 'kl': 1.75, 'epoch': 0.81}
+ 81%|████████▏ | 3488/4286 [23:06:14<4:59:34, 22.52s/it] 81%|████████▏ | 3489/4286 [23:06:37<5:02:51, 22.80s/it]                                                        {'loss': 0.0426, 'grad_norm': 1.6223326149989252, 'learning_rate': 1.859542697153523e-07, 'completion_length': 397.23216247558594, 'rewards/only_full_func_accuracy_reward': 0.7098214328289032, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6919643878936768, 'reward_std': 0.0750238262116909, 'kl': 1.06640625, 'epoch': 0.81}
+ 81%|█████���██▏ | 3489/4286 [23:06:37<5:02:51, 22.80s/it] 81%|████████▏ | 3490/4286 [23:06:59<4:58:01, 22.46s/it]                                                        {'loss': 0.0645, 'grad_norm': 3.2708973108425403, 'learning_rate': 1.8572095193653755e-07, 'completion_length': 347.08038330078125, 'rewards/only_full_func_accuracy_reward': 0.697916716337204, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.688988208770752, 'reward_std': 0.10342395305633545, 'kl': 1.6171875, 'epoch': 0.81}
+ 81%|████████▏ | 3490/4286 [23:06:59<4:58:01, 22.46s/it] 81%|████████▏ | 3491/4286 [23:07:23<5:03:08, 22.88s/it]                                                        {'loss': 0.0685, 'grad_norm': 1.7166175852381074, 'learning_rate': 1.854876341577228e-07, 'completion_length': 401.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.6949405074119568, 'rewards/format_reward': 0.973214328289032, 'reward': 1.6681548953056335, 'reward_std': 0.17572185397148132, 'kl': 1.71484375, 'epoch': 0.81}
+ 81%|████████▏ | 3491/4286 [23:07:23<5:03:08, 22.88s/it] 81%|████████▏ | 3492/4286 [23:07:46<5:03:52, 22.96s/it]                                                        {'loss': 0.0504, 'grad_norm': 15.0376822502771, 'learning_rate': 1.8525431637890807e-07, 'completion_length': 405.7857360839844, 'rewards/only_full_func_accuracy_reward': 0.735119104385376, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7261905670166016, 'reward_std': 0.12801271677017212, 'kl': 1.2578125, 'epoch': 0.81}
+ 81%|████████▏ | 3492/4286 [23:07:46<5:03:52, 22.96s/it] 81%|████████▏ | 3493/4286 [23:08:09<5:03:40, 22.98s/it]                                                        {'loss': 0.0884, 'grad_norm': 1.0150856115171805, 'learning_rate': 1.8502099860009332e-07, 'completion_length': 384.0178680419922, 'rewards/only_full_func_accuracy_reward': 0.6731771528720856, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6642487049102783, 'reward_std': 0.14102287963032722, 'kl': 2.20703125, 'epoch': 0.81}
+ 81%|████████▏ | 3493/4286 [23:08:09<5:03:40, 22.98s/it] 82%|████████▏ | 3494/4286 [23:08:32<5:02:00, 22.88s/it]                                                        {'loss': 0.1546, 'grad_norm': 27.64563023636976, 'learning_rate': 1.8478768082127857e-07, 'completion_length': 406.7410888671875, 'rewards/only_full_func_accuracy_reward': 0.505059540271759, 'rewards/format_reward': 0.9464285969734192, 'reward': 1.4514881372451782, 'reward_std': 0.26428304612636566, 'kl': 3.8671875, 'epoch': 0.82}
+ 82%|████████▏ | 3494/4286 [23:08:32<5:02:00, 22.88s/it] 82%|████████▏ | 3495/4286 [23:08:53<4:55:47, 22.44s/it]                                                        {'loss': 0.1387, 'grad_norm': 9.968503082621659, 'learning_rate': 1.8455436304246382e-07, 'completion_length': 335.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.736607164144516, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7276785969734192, 'reward_std': 0.19986404478549957, 'kl': 3.4609375, 'epoch': 0.82}
+ 82%|████████▏ | 3495/4286 [23:08:53<4:55:47, 22.44s/it] 82%|████████▏ | 3496/4286 [23:09:15<4:54:38, 22.38s/it]                                                        {'loss': 0.1413, 'grad_norm': 3.5469945520369697, 'learning_rate': 1.843210452636491e-07, 'completion_length': 362.35716247558594, 'rewards/only_full_func_accuracy_reward': 0.7023809850215912, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.68452388048172, 'reward_std': 0.18702033907175064, 'kl': 3.5390625, 'epoch': 0.82}
+ 82%|████████▏ | 3496/4286 [23:09:15<4:54:38, 22.38s/it] 82%|████████▏ | 3497/4286 [23:09:38<4:54:52, 22.42s/it]                                                        {'loss': 0.0643, 'grad_norm': 13.065124563233047, 'learning_rate': 1.8408772748483434e-07, 'completion_length': 354.9910888671875, 'rewards/only_full_func_accuracy_reward': 0.7261904776096344, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7172620296478271, 'reward_std': 0.12827515974640846, 'kl': 1.60546875, 'epoch': 0.82}
+ 82%|████████▏ | 3497/4286 [23:09:38<4:54:52, 22.42s/it] 82%|████████▏ | 3498/4286 [23:10:00<4:53:54, 22.38s/it]                                                        {'loss': 0.1105, 'grad_norm': 5.090954112546851, 'learning_rate': 1.838544097060196e-07, 'completion_length': 328.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.8020833432674408, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7931548953056335, 'reward_std': 0.14540530368685722, 'kl': 2.765625, 'epoch': 0.82}
+ 82%|████████▏ | 3498/4286 [23:10:00<4:53:54, 22.38s/it] 82%|████████▏ | 3499/4286 [23:10:24<4:59:34, 22.84s/it]                                                        {'loss': 0.0399, 'grad_norm': 0.9756317062917048, 'learning_rate': 1.8362109192720484e-07, 'completion_length': 414.5714416503906, 'rewards/only_full_func_accuracy_reward': 0.7180059552192688, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7090774774551392, 'reward_std': 0.1243969090282917, 'kl': 0.998046875, 'epoch': 0.82}
+ 82%|████████▏ | 3499/4286 [23:10:24<4:59:34, 22.84s/it] 82%|████████▏ | 3500/4286 [23:10:47<4:59:39, 22.87s/it]                                                        {'loss': 0.0446, 'grad_norm': 8.711738476463452, 'learning_rate': 1.833877741483901e-07, 'completion_length': 397.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.7669643461704254, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7491072416305542, 'reward_std': 0.15855373442173004, 'kl': 1.1171875, 'epoch': 0.82}
+ 82%|████████▏ | 3500/4286 [23:10:47<4:59:39, 22.87s/it] 82%|████████▏ | 3501/4286 [23:12:36<10:37:44, 48.74s/it]                                                         {'loss': 0.0398, 'grad_norm': 1.9762635205012677, 'learning_rate': 1.8315445636957536e-07, 'completion_length': 401.6428680419922, 'rewards/only_full_func_accuracy_reward': 0.6867559254169464, 'rewards/format_reward': 1.0, 'reward': 1.6867560744285583, 'reward_std': 0.05133164208382368, 'kl': 0.994140625, 'epoch': 0.82}
+ 82%|████████▏ | 3501/4286 [23:12:36<10:37:44, 48.74s/it] 82%|████████▏ | 3502/4286 [23:12:55<8:42:01, 39.95s/it]                                                         {'loss': 0.0235, 'grad_norm': 2.981752323811771, 'learning_rate': 1.829211385907606e-07, 'completion_length': 363.2410888671875, 'rewards/only_full_func_accuracy_reward': 0.705357164144516, 'rewards/format_reward': 1.0, 'reward': 1.7053571939468384, 'reward_std': 0.07628180459141731, 'kl': 0.58984375, 'epoch': 0.82}
+ 82%|████████▏ | 3502/4286 [23:12:55<8:42:01, 39.95s/it] 82%|████████▏ | 3503/4286 [23:13:16<7:24:46, 34.08s/it]                                                        {'loss': 0.0489, 'grad_norm': 2.5308268624890107, 'learning_rate': 1.8268782081194586e-07, 'completion_length': 365.00001525878906, 'rewards/only_full_func_accuracy_reward': 0.7909226715564728, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7730655670166016, 'reward_std': 0.1284148432314396, 'kl': 1.21875, 'epoch': 0.82}
+ 82%|████████▏ | 3503/4286 [23:13:16<7:24:46, 34.08s/it] 82%|████████▏ | 3504/4286 [23:13:39<6:42:42, 30.90s/it]                                                        {'loss': 0.0442, 'grad_norm': 1.2333658668093774, 'learning_rate': 1.824545030331311e-07, 'completion_length': 398.33038330078125, 'rewards/only_full_func_accuracy_reward': 0.5840774178504944, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.57514888048172, 'reward_std': 0.09462648257613182, 'kl': 1.10546875, 'epoch': 0.82}
+ 82%|████████▏ | 3504/4286 [23:13:39<6:42:42, 30.90s/it] 82%|████████▏ | 3505/4286 [23:14:04<6:18:20, 29.07s/it]                                                        {'loss': 0.0162, 'grad_norm': 24.231248676372278, 'learning_rate': 1.8222118525431639e-07, 'completion_length': 433.45538330078125, 'rewards/only_full_func_accuracy_reward': 0.6733631193637848, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6644346117973328, 'reward_std': 0.11374915391206741, 'kl': 0.40087890625, 'epoch': 0.82}
+ 82%|████████▏ | 3505/4286 [23:14:04<6:18:20, 29.07s/it] 82%|████████▏ | 3506/4286 [23:14:27<5:54:03, 27.23s/it]                                                        {'loss': 0.0607, 'grad_norm': 2.0128415889083215, 'learning_rate': 1.8198786747550163e-07, 'completion_length': 415.1339416503906, 'rewards/only_full_func_accuracy_reward': 0.7500000894069672, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7321429252624512, 'reward_std': 0.13785813376307487, 'kl': 1.517578125, 'epoch': 0.82}
+ 82%|████████▏ | 3506/4286 [23:14:27<5:54:03, 27.23s/it] 82%|████████▏ | 3507/4286 [23:14:51<5:40:06, 26.20s/it]                                                        {'loss': 0.0894, 'grad_norm': 4.288859143569708, 'learning_rate': 1.8175454969668688e-07, 'completion_length': 365.81251525878906, 'rewards/only_full_func_accuracy_reward': 0.59375, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.566964328289032, 'reward_std': 0.22146571055054665, 'kl': 2.236328125, 'epoch': 0.82}
+ 82%|████████▏ | 3507/4286 [23:14:51<5:40:06, 26.20s/it] 82%|████████▏ | 3508/4286 [23:15:14<5:28:23, 25.33s/it]                                                        {'loss': 0.0562, 'grad_norm': 3.4280381821683155, 'learning_rate': 1.8152123191787213e-07, 'completion_length': 385.7768096923828, 'rewards/only_full_func_accuracy_reward': 0.7252976894378662, 'rewards/format_reward': 1.0, 'reward': 1.725297749042511, 'reward_std': 0.09516212716698647, 'kl': 1.40625, 'epoch': 0.82}
+ 82%|████████▏ | 3508/4286 [23:15:14<5:28:23, 25.33s/it] 82%|████████▏ | 3509/4286 [23:15:38<5:20:56, 24.78s/it]                                                        {'loss': 0.0752, 'grad_norm': 1.512278497082933, 'learning_rate': 1.8128791413905738e-07, 'completion_length': 401.5089416503906, 'rewards/only_full_func_accuracy_reward': 0.741071492433548, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.732142984867096, 'reward_std': 0.11335646733641624, 'kl': 1.884765625, 'epoch': 0.82}
+ 82%|████████▏ | 3509/4286 [23:15:38<5:20:56, 24.78s/it] 82%|████████▏ | 3510/4286 [23:16:01<5:15:51, 24.42s/it]                                                        {'loss': 0.0153, 'grad_norm': 0.44231448656008515, 'learning_rate': 1.8105459636024266e-07, 'completion_length': 380.0714416503906, 'rewards/only_full_func_accuracy_reward': 0.785714328289032, 'rewards/format_reward': 1.0, 'reward': 1.7857143878936768, 'reward_std': 0.026750151067972183, 'kl': 0.3828125, 'epoch': 0.82}
+ 82%|████████▏ | 3510/4286 [23:16:01<5:15:51, 24.42s/it] 82%|████████▏ | 3511/4286 [23:16:24<5:07:44, 23.82s/it]                                                        {'loss': 0.0401, 'grad_norm': 1.3666613350031183, 'learning_rate': 1.808212785814279e-07, 'completion_length': 377.0982208251953, 'rewards/only_full_func_accuracy_reward': 0.5729166865348816, 'rewards/format_reward': 1.0, 'reward': 1.5729168057441711, 'reward_std': 0.09040994569659233, 'kl': 1.0023193359375, 'epoch': 0.82}
+ 82%|████████▏ | 3511/4286 [23:16:24<5:07:44, 23.82s/it] 82%|████████▏ | 3512/4286 [23:16:47<5:06:11, 23.74s/it]                                                        {'loss': 0.0383, 'grad_norm': 0.7379239306778247, 'learning_rate': 1.8058796080261315e-07, 'completion_length': 402.5357208251953, 'rewards/only_full_func_accuracy_reward': 0.6562500298023224, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6383929252624512, 'reward_std': 0.12483515217900276, 'kl': 0.95703125, 'epoch': 0.82}
+ 82%|████████▏ | 3512/4286 [23:16:47<5:06:11, 23.74s/it] 82%|████████▏ | 3513/4286 [23:17:10<5:01:31, 23.40s/it]                                                        {'loss': 0.0628, 'grad_norm': 7.89468045358336, 'learning_rate': 1.803546430237984e-07, 'completion_length': 345.35716247558594, 'rewards/only_full_func_accuracy_reward': 0.7971939146518707, 'rewards/format_reward': 0.973214328289032, 'reward': 1.770408272743225, 'reward_std': 0.2146175056695938, 'kl': 1.572265625, 'epoch': 0.82}
+ 82%|████████▏ | 3513/4286 [23:17:10<5:01:31, 23.40s/it] 82%|████████▏ | 3514/4286 [23:17:31<4:53:28, 22.81s/it]                                                        {'loss': 0.0527, 'grad_norm': 2.6668369905188123, 'learning_rate': 1.8012132524498365e-07, 'completion_length': 352.21429443359375, 'rewards/only_full_func_accuracy_reward': 0.7388393878936768, 'rewards/format_reward': 1.0, 'reward': 1.7388393878936768, 'reward_std': 0.06307075172662735, 'kl': 1.318359375, 'epoch': 0.82}
+ 82%|████████▏ | 3514/4286 [23:17:31<4:53:28, 22.81s/it] 82%|████████▏ | 3515/4286 [23:17:55<4:56:25, 23.07s/it]                                                        {'loss': 0.0667, 'grad_norm': 1.5810738350700335, 'learning_rate': 1.7988800746616892e-07, 'completion_length': 357.5982360839844, 'rewards/only_full_func_accuracy_reward': 0.8638393580913544, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8549108505249023, 'reward_std': 0.0966710839420557, 'kl': 1.666259765625, 'epoch': 0.82}
+ 82%|████████▏ | 3515/4286 [23:17:55<4:56:25, 23.07s/it] 82%|████████▏ | 3516/4286 [23:18:18<4:55:23, 23.02s/it]                                                        {'loss': 0.0256, 'grad_norm': 1.203764834485588, 'learning_rate': 1.7965468968735417e-07, 'completion_length': 385.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.7931548655033112, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7842262983322144, 'reward_std': 0.06944604218006134, 'kl': 0.640625, 'epoch': 0.82}
+ 82%|████████▏ | 3516/4286 [23:18:18<4:55:23, 23.02s/it] 82%|████████▏ | 3517/4286 [23:18:39<4:47:21, 22.42s/it]                                                        {'loss': 0.0407, 'grad_norm': 2.493116115605773, 'learning_rate': 1.7942137190853942e-07, 'completion_length': 349.8660888671875, 'rewards/only_full_func_accuracy_reward': 0.6815477013587952, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.672619104385376, 'reward_std': 0.052111534401774406, 'kl': 1.02001953125, 'epoch': 0.82}
+ 82%|████████▏ | 3517/4286 [23:18:39<4:47:21, 22.42s/it] 82%|████████▏ | 3518/4286 [23:19:00<4:44:20, 22.21s/it]                                                        {'loss': 0.0634, 'grad_norm': 2.7813368631107416, 'learning_rate': 1.7918805412972467e-07, 'completion_length': 321.3303680419922, 'rewards/only_full_func_accuracy_reward': 0.7619048058986664, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7529762983322144, 'reward_std': 0.13140159100294113, 'kl': 1.583984375, 'epoch': 0.82}
+ 82%|████████▏ | 3518/4286 [23:19:01<4:44:20, 22.21s/it] 82%|████████▏ | 3519/4286 [23:19:24<4:50:45, 22.75s/it]                                                        {'loss': 0.0335, 'grad_norm': 160.98676613641734, 'learning_rate': 1.7895473635090995e-07, 'completion_length': 416.43751525878906, 'rewards/only_full_func_accuracy_reward': 0.6657738387584686, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6479167938232422, 'reward_std': 0.1398063637316227, 'kl': 0.8359375, 'epoch': 0.82}
+ 82%|████████▏ | 3519/4286 [23:19:24<4:50:45, 22.75s/it] 82%|████████▏ | 3520/4286 [23:19:47<4:50:38, 22.77s/it]                                                        {'loss': 0.0631, 'grad_norm': 1.6251698113885489, 'learning_rate': 1.787214185720952e-07, 'completion_length': 376.3303680419922, 'rewards/only_full_func_accuracy_reward': 0.7611607909202576, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7433037161827087, 'reward_std': 0.10475831851363182, 'kl': 1.57421875, 'epoch': 0.82}
+ 82%|████████▏ | 3520/4286 [23:19:47<4:50:38, 22.77s/it] 82%|████████▏ | 3521/4286 [23:20:12<4:56:06, 23.22s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.18898137267064113, 'learning_rate': 1.7848810079328044e-07, 'completion_length': 404.9285888671875, 'rewards/only_full_func_accuracy_reward': 0.758928656578064, 'rewards/format_reward': 1.0, 'reward': 1.7589287161827087, 'reward_std': 0.008417940698564053, 'kl': 0.037353515625, 'epoch': 0.82}
+ 82%|████████▏ | 3521/4286 [23:20:12<4:56:06, 23.22s/it] 82%|████████▏ | 3522/4286 [23:20:34<4:53:32, 23.05s/it]                                                        {'loss': 0.0347, 'grad_norm': 0.8280843000880411, 'learning_rate': 1.782547830144657e-07, 'completion_length': 400.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.816964328289032, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7991072535514832, 'reward_std': 0.06751955859363079, 'kl': 0.8673095703125, 'epoch': 0.82}
+ 82%|████████▏ | 3522/4286 [23:20:34<4:53:32, 23.05s/it] 82%|████████▏ | 3523/4286 [23:20:58<4:57:02, 23.36s/it]                                                        {'loss': 0.0207, 'grad_norm': 7.202025780253511, 'learning_rate': 1.7802146523565094e-07, 'completion_length': 413.5893096923828, 'rewards/only_full_func_accuracy_reward': 0.6912202537059784, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6822918057441711, 'reward_std': 0.08193235844373703, 'kl': 0.516845703125, 'epoch': 0.82}
+ 82%|████████▏ | 3523/4286 [23:20:58<4:57:02, 23.36s/it] 82%|████████▏ | 3524/4286 [23:21:21<4:53:40, 23.12s/it]                                                        {'loss': 0.0712, 'grad_norm': 2.0301217688582054, 'learning_rate': 1.7778814745683622e-07, 'completion_length': 365.7053680419922, 'rewards/only_full_func_accuracy_reward': 0.750744104385376, 'rewards/format_reward': 1.0, 'reward': 1.7507441639900208, 'reward_std': 0.08569842763245106, 'kl': 1.779296875, 'epoch': 0.82}
+ 82%|████████▏ | 3524/4286 [23:21:21<4:53:40, 23.12s/it] 82%|████████▏ | 3525/4286 [23:21:45<4:58:18, 23.52s/it]                                                        {'loss': 0.0339, 'grad_norm': 1.5274016837648414, 'learning_rate': 1.7755482967802146e-07, 'completion_length': 409.85716247558594, 'rewards/only_full_func_accuracy_reward': 0.6773809492588043, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6595239043235779, 'reward_std': 0.07636156305670738, 'kl': 0.849609375, 'epoch': 0.82}
+ 82%|████████▏ | 3525/4286 [23:21:45<4:58:18, 23.52s/it] 82%|████████▏ | 3526/4286 [23:22:09<4:58:34, 23.57s/it]                                                        {'loss': 0.0251, 'grad_norm': 1.2365129195336346, 'learning_rate': 1.7732151189920671e-07, 'completion_length': 367.2053680419922, 'rewards/only_full_func_accuracy_reward': 0.6465774178504944, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6376489400863647, 'reward_std': 0.08747420832514763, 'kl': 0.626953125, 'epoch': 0.82}
+ 82%|████████▏ | 3526/4286 [23:22:09<4:58:34, 23.57s/it] 82%|████████▏ | 3527/4286 [23:22:31<4:52:57, 23.16s/it]                                                        {'loss': 0.0365, 'grad_norm': 2.028226273255886, 'learning_rate': 1.7708819412039196e-07, 'completion_length': 378.5982360839844, 'rewards/only_full_func_accuracy_reward': 0.79538694024086, 'rewards/format_reward': 1.0, 'reward': 1.795387089252472, 'reward_std': 0.061234782449901104, 'kl': 0.9122314453125, 'epoch': 0.82}
+ 82%|████████▏ | 3527/4286 [23:22:31<4:52:57, 23.16s/it] 82%|████████▏ | 3528/4286 [23:22:53<4:48:50, 22.86s/it]                                                        {'loss': 0.0463, 'grad_norm': 0.44228519429262353, 'learning_rate': 1.7685487634157724e-07, 'completion_length': 362.85716247558594, 'rewards/only_full_func_accuracy_reward': 0.7514881193637848, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7336310148239136, 'reward_std': 0.11820132844150066, 'kl': 1.1607666015625, 'epoch': 0.82}
+ 82%|████████▏ | 3528/4286 [23:22:53<4:48:50, 22.86s/it] 82%|████████▏ | 3529/4286 [23:23:16<4:48:37, 22.88s/it]                                                        {'loss': 0.0658, 'grad_norm': 1.6555280177960057, 'learning_rate': 1.7662155856276249e-07, 'completion_length': 382.5982208251953, 'rewards/only_full_func_accuracy_reward': 0.7358631193637848, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7269346117973328, 'reward_std': 0.14140332117676735, 'kl': 1.64453125, 'epoch': 0.82}
+ 82%|████████▏ | 3529/4286 [23:23:16<4:48:37, 22.88s/it] 82%|████████▏ | 3530/4286 [23:23:40<4:52:31, 23.22s/it]                                                        {'loss': 0.0072, 'grad_norm': 0.8333738129104882, 'learning_rate': 1.7638824078394773e-07, 'completion_length': 396.96429443359375, 'rewards/only_full_func_accuracy_reward': 0.7108631134033203, 'rewards/format_reward': 1.0, 'reward': 1.7108632922172546, 'reward_std': 0.04905802384018898, 'kl': 0.1787109375, 'epoch': 0.82}
+ 82%|████████▏ | 3530/4286 [23:23:40<4:52:31, 23.22s/it] 82%|████████▏ | 3531/4286 [23:24:03<4:48:37, 22.94s/it]                                                        {'loss': 0.0014, 'grad_norm': 0.5100130332815055, 'learning_rate': 1.7615492300513298e-07, 'completion_length': 378.0178680419922, 'rewards/only_full_func_accuracy_reward': 0.6949405372142792, 'rewards/format_reward': 1.0, 'reward': 1.6949405670166016, 'reward_std': 0.02479875460267067, 'kl': 0.0352783203125, 'epoch': 0.82}
+ 82%|████████▏ | 3531/4286 [23:24:03<4:48:37, 22.94s/it] 82%|████████▏ | 3532/4286 [23:24:25<4:46:14, 22.78s/it]                                                        {'loss': 0.025, 'grad_norm': 0.9400770948300762, 'learning_rate': 1.7592160522631823e-07, 'completion_length': 374.51788330078125, 'rewards/only_full_func_accuracy_reward': 0.7440476417541504, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.735119104385376, 'reward_std': 0.1136932484805584, 'kl': 0.62548828125, 'epoch': 0.82}
+ 82%|████████▏ | 3532/4286 [23:24:25<4:46:14, 22.78s/it] 82%|████████▏ | 3533/4286 [23:24:48<4:47:14, 22.89s/it]                                                        {'loss': 0.0749, 'grad_norm': 2.177178870495379, 'learning_rate': 1.756882874475035e-07, 'completion_length': 360.7857360839844, 'rewards/only_full_func_accuracy_reward': 0.6659226417541504, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6480655670166016, 'reward_std': 0.12676148116588593, 'kl': 1.8681640625, 'epoch': 0.82}
+ 82%|████████▏ | 3533/4286 [23:24:48<4:47:14, 22.89s/it] 82%|████████▏ | 3534/4286 [23:25:11<4:48:13, 23.00s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.02844622245935629, 'learning_rate': 1.7545496966868876e-07, 'completion_length': 410.7053680419922, 'rewards/only_full_func_accuracy_reward': 0.642857164144516, 'rewards/format_reward': 1.0, 'reward': 1.6428571939468384, 'reward_std': 0.0, 'kl': 0.0374755859375, 'epoch': 0.82}
+ 82%|████████▏ | 3534/4286 [23:25:11<4:48:13, 23.00s/it] 82%|████████▏ | 3535/4286 [23:25:34<4:46:48, 22.91s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.2186085610894595, 'learning_rate': 1.75221651889874e-07, 'completion_length': 386.7410888671875, 'rewards/only_full_func_accuracy_reward': 0.5654762536287308, 'rewards/format_reward': 1.0, 'reward': 1.5654762983322144, 'reward_std': 0.011021665297448635, 'kl': 0.03759765625, 'epoch': 0.82}
+ 82%|████████▏ | 3535/4286 [23:25:34<4:46:48, 22.91s/it] 83%|████████▎ | 3536/4286 [23:25:56<4:42:32, 22.60s/it]                                                        {'loss': 0.0273, 'grad_norm': 0.37476407568284004, 'learning_rate': 1.7498833411105925e-07, 'completion_length': 360.35716247558594, 'rewards/only_full_func_accuracy_reward': 0.6882440745830536, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6793156266212463, 'reward_std': 0.08932440355420113, 'kl': 0.6824951171875, 'epoch': 0.83}
+ 83%|████████▎ | 3536/4286 [23:25:56<4:42:32, 22.60s/it] 83%|████████▎ | 3537/4286 [23:26:17<4:35:40, 22.08s/it]                                                        {'loss': 0.0039, 'grad_norm': 0.4939907919098624, 'learning_rate': 1.747550163322445e-07, 'completion_length': 355.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.7306548357009888, 'rewards/format_reward': 1.0, 'reward': 1.7306548953056335, 'reward_std': 0.008266251534223557, 'kl': 0.0987548828125, 'epoch': 0.83}
+ 83%|████████▎ | 3537/4286 [23:26:17<4:35:40, 22.08s/it] 83%|████████▎ | 3538/4286 [23:26:39<4:35:37, 22.11s/it]                                                        {'loss': 0.0013, 'grad_norm': 0.43012988668445556, 'learning_rate': 1.7452169855342978e-07, 'completion_length': 385.7857360839844, 'rewards/only_full_func_accuracy_reward': 0.7715774178504944, 'rewards/format_reward': 1.0, 'reward': 1.7715774774551392, 'reward_std': 0.018786992877721786, 'kl': 0.0335693359375, 'epoch': 0.83}
+ 83%|████████▎ | 3538/4286 [23:26:39<4:35:37, 22.11s/it] 83%|████████▎ | 3539/4286 [23:27:01<4:36:08, 22.18s/it]                                                        {'loss': 0.0139, 'grad_norm': 1.963248117112475, 'learning_rate': 1.7428838077461503e-07, 'completion_length': 352.9464416503906, 'rewards/only_full_func_accuracy_reward': 0.6904762089252472, 'rewards/format_reward': 1.0, 'reward': 1.6904762983322144, 'reward_std': 0.12197259813547134, 'kl': 0.34814453125, 'epoch': 0.83}
+ 83%|████████▎ | 3539/4286 [23:27:01<4:36:08, 22.18s/it] 83%|████████▎ | 3540/4286 [23:27:23<4:34:56, 22.11s/it]                                                        {'loss': 0.0126, 'grad_norm': 0.9388370650730476, 'learning_rate': 1.7405506299580027e-07, 'completion_length': 366.79466247558594, 'rewards/only_full_func_accuracy_reward': 0.6977679133415222, 'rewards/format_reward': 1.0, 'reward': 1.6977680325508118, 'reward_std': 0.04681272339075804, 'kl': 0.3154296875, 'epoch': 0.83}
+ 83%|████████▎ | 3540/4286 [23:27:23<4:34:56, 22.11s/it] 83%|████████▎ | 3541/4286 [23:27:45<4:31:58, 21.90s/it]                                                        {'loss': 0.0033, 'grad_norm': 0.6687457254959543, 'learning_rate': 1.7382174521698552e-07, 'completion_length': 354.00001525878906, 'rewards/only_full_func_accuracy_reward': 0.6889880895614624, 'rewards/format_reward': 1.0, 'reward': 1.688988208770752, 'reward_std': 0.07030358910560608, 'kl': 0.083251953125, 'epoch': 0.83}
+ 83%|████████▎ | 3541/4286 [23:27:45<4:31:58, 21.90s/it] 83%|████████▎ | 3542/4286 [23:28:07<4:32:53, 22.01s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.2324174806969657, 'learning_rate': 1.735884274381708e-07, 'completion_length': 380.2053680419922, 'rewards/only_full_func_accuracy_reward': 0.7916667461395264, 'rewards/format_reward': 1.0, 'reward': 1.7916668057441711, 'reward_std': 0.03479885868728161, 'kl': 0.03759765625, 'epoch': 0.83}
+ 83%|████████▎ | 3542/4286 [23:28:07<4:32:53, 22.01s/it] 83%|████████▎ | 3543/4286 [23:28:29<4:34:01, 22.13s/it]                                                        {'loss': 0.0172, 'grad_norm': 2.6771966048147795, 'learning_rate': 1.7335510965935605e-07, 'completion_length': 379.6607360839844, 'rewards/only_full_func_accuracy_reward': 0.7849702835083008, 'rewards/format_reward': 1.0, 'reward': 1.7849703431129456, 'reward_std': 0.06521820835769176, 'kl': 0.4267578125, 'epoch': 0.83}
+ 83%|████████▎ | 3543/4286 [23:28:29<4:34:01, 22.13s/it] 83%|████████▎ | 3544/4286 [23:28:51<4:32:55, 22.07s/it]                                                        {'loss': 0.0125, 'grad_norm': 0.7545820414936716, 'learning_rate': 1.731217918805413e-07, 'completion_length': 366.6964416503906, 'rewards/only_full_func_accuracy_reward': 0.658536285161972, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6496078372001648, 'reward_std': 0.06226505525410175, 'kl': 0.31201171875, 'epoch': 0.83}
+ 83%|████████▎ | 3544/4286 [23:28:51<4:32:55, 22.07s/it] 83%|████████▎ | 3545/4286 [23:29:15<4:37:36, 22.48s/it]                                                        {'loss': 0.0046, 'grad_norm': 0.5947499239801484, 'learning_rate': 1.7288847410172654e-07, 'completion_length': 395.9107208251953, 'rewards/only_full_func_accuracy_reward': 0.7574405074119568, 'rewards/format_reward': 1.0, 'reward': 1.7574405670166016, 'reward_std': 0.016684187576174736, 'kl': 0.1153564453125, 'epoch': 0.83}
+ 83%|████████▎ | 3545/4286 [23:29:15<4:37:36, 22.48s/it] 83%|████████▎ | 3546/4286 [23:29:38<4:38:32, 22.58s/it]                                                        {'loss': 0.014, 'grad_norm': 0.3890861581417786, 'learning_rate': 1.726551563229118e-07, 'completion_length': 372.3839416503906, 'rewards/only_full_func_accuracy_reward': 0.6309524774551392, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6220239400863647, 'reward_std': 0.043216800317168236, 'kl': 0.34942626953125, 'epoch': 0.83}
+ 83%|████████▎ | 3546/4286 [23:29:38<4:38:32, 22.58s/it] 83%|████████▎ | 3547/4286 [23:30:01<4:41:37, 22.87s/it]                                                        {'loss': 0.0148, 'grad_norm': 1.1122836591543301, 'learning_rate': 1.7242183854409707e-07, 'completion_length': 380.8035888671875, 'rewards/only_full_func_accuracy_reward': 0.6688988506793976, 'rewards/format_reward': 1.0, 'reward': 1.6688989400863647, 'reward_std': 0.021868856623768806, 'kl': 0.371337890625, 'epoch': 0.83}
+ 83%|████████▎ | 3547/4286 [23:30:01<4:41:37, 22.87s/it] 83%|████████▎ | 3548/4286 [23:30:25<4:46:12, 23.27s/it]                                                        {'loss': 0.0181, 'grad_norm': 1.195557510391076, 'learning_rate': 1.7218852076528232e-07, 'completion_length': 410.8482360839844, 'rewards/only_full_func_accuracy_reward': 0.8452381193637848, 'rewards/format_reward': 1.0, 'reward': 1.845238208770752, 'reward_std': 0.024927371414378285, 'kl': 0.4521484375, 'epoch': 0.83}
+ 83%|████████▎ | 3548/4286 [23:30:25<4:46:12, 23.27s/it] 83%|████████▎ | 3549/4286 [23:30:48<4:43:41, 23.10s/it]                                                        {'loss': 0.0439, 'grad_norm': 2.1378636949339143, 'learning_rate': 1.7195520298646757e-07, 'completion_length': 336.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.7485119998455048, 'rewards/format_reward': 1.0, 'reward': 1.7485120296478271, 'reward_std': 0.04082582890987396, 'kl': 1.0966796875, 'epoch': 0.83}
+ 83%|████████▎ | 3549/4286 [23:30:48<4:43:41, 23.10s/it] 83%|████████▎ | 3550/4286 [23:31:10<4:39:43, 22.80s/it]                                                        {'loss': 0.0272, 'grad_norm': 1.9865414098684187, 'learning_rate': 1.7172188520765281e-07, 'completion_length': 378.3750305175781, 'rewards/only_full_func_accuracy_reward': 0.6406250596046448, 'rewards/format_reward': 1.0, 'reward': 1.6406251192092896, 'reward_std': 0.034464720636606216, 'kl': 0.68212890625, 'epoch': 0.83}
+ 83%|████████▎ | 3550/4286 [23:31:10<4:39:43, 22.80s/it] 83%|████████▎ | 3551/4286 [23:31:33<4:39:06, 22.78s/it]                                                        {'loss': 0.0164, 'grad_norm': 1.4945511067910031, 'learning_rate': 1.714885674288381e-07, 'completion_length': 359.1339416503906, 'rewards/only_full_func_accuracy_reward': 0.692708432674408, 'rewards/format_reward': 1.0, 'reward': 1.692708432674408, 'reward_std': 0.0844289232045412, 'kl': 0.4129638671875, 'epoch': 0.83}
+ 83%|████████▎ | 3551/4286 [23:31:33<4:39:06, 22.78s/it] 83%|████████▎ | 3552/4286 [23:31:56<4:38:16, 22.75s/it]                                                        {'loss': 0.0106, 'grad_norm': 1.7446259918780687, 'learning_rate': 1.7125524965002334e-07, 'completion_length': 367.3393096923828, 'rewards/only_full_func_accuracy_reward': 0.6532738506793976, 'rewards/format_reward': 1.0, 'reward': 1.6532739400863647, 'reward_std': 0.02683025784790516, 'kl': 0.264892578125, 'epoch': 0.83}
+ 83%|████████▎ | 3552/4286 [23:31:56<4:38:16, 22.75s/it] 83%|████████▎ | 3553/4286 [23:32:19<4:39:37, 22.89s/it]                                                        {'loss': 0.0055, 'grad_norm': 0.6593309179877038, 'learning_rate': 1.7102193187120859e-07, 'completion_length': 402.6607360839844, 'rewards/only_full_func_accuracy_reward': 0.8172619044780731, 'rewards/format_reward': 1.0, 'reward': 1.8172619938850403, 'reward_std': 0.03468451276421547, 'kl': 0.1370849609375, 'epoch': 0.83}
+ 83%|████████▎ | 3553/4286 [23:32:19<4:39:37, 22.89s/it] 83%|████████▎ | 3554/4286 [23:32:42<4:39:58, 22.95s/it]                                                        {'loss': 0.0129, 'grad_norm': 1.4013438982628426, 'learning_rate': 1.7078861409239384e-07, 'completion_length': 378.1339416503906, 'rewards/only_full_func_accuracy_reward': 0.6035714894533157, 'rewards/format_reward': 1.0, 'reward': 1.6035715341567993, 'reward_std': 0.055880628526210785, 'kl': 0.32177734375, 'epoch': 0.83}
+ 83%|████████▎ | 3554/4286 [23:32:42<4:39:58, 22.95s/it] 83%|████████▎ | 3555/4286 [23:33:04<4:38:02, 22.82s/it]                                                        {'loss': 0.0021, 'grad_norm': 0.6189343442468083, 'learning_rate': 1.7055529631357908e-07, 'completion_length': 366.9107360839844, 'rewards/only_full_func_accuracy_reward': 0.7812500298023224, 'rewards/format_reward': 1.0, 'reward': 1.7812501192092896, 'reward_std': 0.016684193164110184, 'kl': 0.052490234375, 'epoch': 0.83}
+ 83%|████████▎ | 3555/4286 [23:33:04<4:38:02, 22.82s/it] 83%|████████▎ | 3556/4286 [23:33:27<4:38:31, 22.89s/it]                                                        {'loss': 0.0085, 'grad_norm': 1.2596755719715438, 'learning_rate': 1.7032197853476436e-07, 'completion_length': 394.1518096923828, 'rewards/only_full_func_accuracy_reward': 0.87202388048172, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8630954027175903, 'reward_std': 0.06527804210782051, 'kl': 0.2137451171875, 'epoch': 0.83}
+ 83%|████████▎ | 3556/4286 [23:33:27<4:38:31, 22.89s/it] 83%|████████▎ | 3557/4286 [23:33:52<4:43:50, 23.36s/it]                                                        {'loss': 0.0103, 'grad_norm': 0.7266843995807288, 'learning_rate': 1.700886607559496e-07, 'completion_length': 396.1607208251953, 'rewards/only_full_func_accuracy_reward': 0.7254464626312256, 'rewards/format_reward': 1.0, 'reward': 1.7254465818405151, 'reward_std': 0.09413783624768257, 'kl': 0.258544921875, 'epoch': 0.83}
+ 83%|████████▎ | 3557/4286 [23:33:52<4:43:50, 23.36s/it] 83%|████████▎ | 3558/4286 [23:34:14<4:38:57, 22.99s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.7075258897478295, 'learning_rate': 1.6985534297713486e-07, 'completion_length': 334.9285888671875, 'rewards/only_full_func_accuracy_reward': 0.6331845819950104, 'rewards/format_reward': 1.0, 'reward': 1.6331846117973328, 'reward_std': 0.05647401139140129, 'kl': 0.04052734375, 'epoch': 0.83}
+ 83%|████████▎ | 3558/4286 [23:34:14<4:38:57, 22.99s/it] 83%|████████▎ | 3559/4286 [23:34:36<4:36:28, 22.82s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.16464735758594493, 'learning_rate': 1.696220251983201e-07, 'completion_length': 382.95538330078125, 'rewards/only_full_func_accuracy_reward': 0.7351190745830536, 'rewards/format_reward': 1.0, 'reward': 1.7351191639900208, 'reward_std': 0.02304377593100071, 'kl': 0.03765869140625, 'epoch': 0.83}
+ 83%|████████▎ | 3559/4286 [23:34:36<4:36:28, 22.82s/it] 83%|████████▎ | 3560/4286 [23:35:00<4:37:59, 22.97s/it]                                                        {'loss': 0.0028, 'grad_norm': 0.5510742751318104, 'learning_rate': 1.6938870741950535e-07, 'completion_length': 389.0357360839844, 'rewards/only_full_func_accuracy_reward': 0.6889881491661072, 'rewards/format_reward': 1.0, 'reward': 1.688988208770752, 'reward_std': 0.045087896287441254, 'kl': 0.070556640625, 'epoch': 0.83}
+ 83%|████████▎ | 3560/4286 [23:35:00<4:37:59, 22.97s/it] 83%|████████▎ | 3561/4286 [23:35:22<4:34:39, 22.73s/it]                                                        {'loss': 0.0239, 'grad_norm': 8.5599446766856, 'learning_rate': 1.6915538964069063e-07, 'completion_length': 344.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.5625000298023224, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5535715222358704, 'reward_std': 0.09687238931655884, 'kl': 0.5986328125, 'epoch': 0.83}
+ 83%|████████▎ | 3561/4286 [23:35:22<4:34:39, 22.73s/it] 83%|████████▎ | 3562/4286 [23:35:44<4:33:09, 22.64s/it]                                                        {'loss': 0.0051, 'grad_norm': 1.2984504822805314, 'learning_rate': 1.6892207186187588e-07, 'completion_length': 349.3928680419922, 'rewards/only_full_func_accuracy_reward': 0.784970223903656, 'rewards/format_reward': 1.0, 'reward': 1.7849704027175903, 'reward_std': 0.061465988866984844, 'kl': 0.1263427734375, 'epoch': 0.83}
+ 83%|████████▎ | 3562/4286 [23:35:44<4:33:09, 22.64s/it] 83%|████████▎ | 3563/4286 [23:36:07<4:33:14, 22.67s/it]                                                        {'loss': 0.0469, 'grad_norm': 1.3548112545191613, 'learning_rate': 1.6868875408306113e-07, 'completion_length': 356.58929443359375, 'rewards/only_full_func_accuracy_reward': 0.6956846117973328, 'rewards/format_reward': 1.0, 'reward': 1.6956846117973328, 'reward_std': 0.09207678958773613, 'kl': 1.16796875, 'epoch': 0.83}
+ 83%|████████▎ | 3563/4286 [23:36:07<4:33:14, 22.67s/it] 83%|████████▎ | 3564/4286 [23:36:31<4:38:19, 23.13s/it]                                                        {'loss': 0.0014, 'grad_norm': 3.2616548324693455, 'learning_rate': 1.6845543630424638e-07, 'completion_length': 444.2589416503906, 'rewards/only_full_func_accuracy_reward': 0.7032738327980042, 'rewards/format_reward': 1.0, 'reward': 1.7032739520072937, 'reward_std': 0.022546405903995037, 'kl': 0.034912109375, 'epoch': 0.83}
+ 83%|████████▎ | 3564/4286 [23:36:31<4:38:19, 23.13s/it] 83%|████████▎ | 3565/4286 [23:36:55<4:38:28, 23.17s/it]                                                        {'loss': 0.0013, 'grad_norm': 0.17288966995034416, 'learning_rate': 1.6822211852543165e-07, 'completion_length': 383.8393096923828, 'rewards/only_full_func_accuracy_reward': 0.7180060148239136, 'rewards/format_reward': 1.0, 'reward': 1.7180060744285583, 'reward_std': 0.0063134534284472466, 'kl': 0.0333251953125, 'epoch': 0.83}
+ 83%|███████���▎ | 3565/4286 [23:36:55<4:38:28, 23.17s/it] 83%|████████▎ | 3566/4286 [23:37:16<4:31:10, 22.60s/it]                                                        {'loss': 0.017, 'grad_norm': 0.7198378972365912, 'learning_rate': 1.679888007466169e-07, 'completion_length': 352.66966247558594, 'rewards/only_full_func_accuracy_reward': 0.7410714626312256, 'rewards/format_reward': 1.0, 'reward': 1.7410715818405151, 'reward_std': 0.044126421213150024, 'kl': 0.4268798828125, 'epoch': 0.83}
+ 83%|████████▎ | 3566/4286 [23:37:16<4:31:10, 22.60s/it] 83%|████████▎ | 3567/4286 [23:37:39<4:32:21, 22.73s/it]                                                        {'loss': 0.004, 'grad_norm': 1.0110134201828906, 'learning_rate': 1.6775548296780215e-07, 'completion_length': 371.6785888671875, 'rewards/only_full_func_accuracy_reward': 0.659226268529892, 'rewards/format_reward': 1.0, 'reward': 1.6592262983322144, 'reward_std': 0.03742472641170025, 'kl': 0.0994873046875, 'epoch': 0.83}
+ 83%|████████▎ | 3567/4286 [23:37:39<4:32:21, 22.73s/it] 83%|████████▎ | 3568/4286 [23:38:01<4:30:46, 22.63s/it]                                                        {'loss': 0.0025, 'grad_norm': 0.35322147815364524, 'learning_rate': 1.675221651889874e-07, 'completion_length': 371.7589416503906, 'rewards/only_full_func_accuracy_reward': 0.7261905372142792, 'rewards/format_reward': 1.0, 'reward': 1.7261905670166016, 'reward_std': 0.0, 'kl': 0.0621337890625, 'epoch': 0.83}
+ 83%|████████▎ | 3568/4286 [23:38:01<4:30:46, 22.63s/it] 83%|████████▎ | 3569/4286 [23:38:24<4:30:06, 22.60s/it]                                                        {'loss': 0.0023, 'grad_norm': 1.4020771737116686, 'learning_rate': 1.6728884741017264e-07, 'completion_length': 379.5089416503906, 'rewards/only_full_func_accuracy_reward': 0.7760416865348816, 'rewards/format_reward': 1.0, 'reward': 1.7760417461395264, 'reward_std': 0.05315554514527321, 'kl': 0.0577392578125, 'epoch': 0.83}
+ 83%|████████▎ | 3569/4286 [23:38:24<4:30:06, 22.60s/it] 83%|████████▎ | 3570/4286 [23:38:47<4:33:18, 22.90s/it]                                                        {'loss': 0.0157, 'grad_norm': 1.5753819300721605, 'learning_rate': 1.6705552963135792e-07, 'completion_length': 392.7678680419922, 'rewards/only_full_func_accuracy_reward': 0.6525297462940216, 'rewards/format_reward': 1.0, 'reward': 1.6525299549102783, 'reward_std': 0.07415424473583698, 'kl': 0.3916015625, 'epoch': 0.83}
+ 83%|████████▎ | 3570/4286 [23:38:47<4:33:18, 22.90s/it] 83%|████████▎ | 3571/4286 [23:39:11<4:34:03, 23.00s/it]                                                        {'loss': 0.0112, 'grad_norm': 1.0054099121072952, 'learning_rate': 1.6682221185254317e-07, 'completion_length': 401.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.5982143133878708, 'rewards/format_reward': 1.0, 'reward': 1.598214328289032, 'reward_std': 0.03772903233766556, 'kl': 0.28125, 'epoch': 0.83}
+ 83%|████████▎ | 3571/4286 [23:39:11<4:34:03, 23.00s/it] 83%|████████▎ | 3572/4286 [23:39:33<4:32:14, 22.88s/it]                                                        {'loss': 0.0068, 'grad_norm': 2.5154358370953642, 'learning_rate': 1.6658889407372842e-07, 'completion_length': 375.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.7504464685916901, 'rewards/format_reward': 1.0, 'reward': 1.7504464983940125, 'reward_std': 0.011709575541317463, 'kl': 0.1710205078125, 'epoch': 0.83}
+ 83%|████████▎ | 3572/4286 [23:39:33<4:32:14, 22.88s/it] 83%|████████▎ | 3573/4286 [23:39:57<4:34:44, 23.12s/it]                                                        {'loss': 0.0177, 'grad_norm': 51.56772663348174, 'learning_rate': 1.6635557629491367e-07, 'completion_length': 390.3035888671875, 'rewards/only_full_func_accuracy_reward': 0.6205357611179352, 'rewards/format_reward': 1.0, 'reward': 1.6205358505249023, 'reward_std': 0.022997182793915272, 'kl': 0.44091796875, 'epoch': 0.83}
+ 83%|████████▎ | 3573/4286 [23:39:57<4:34:44, 23.12s/it] 83%|████████▎ | 3574/4286 [23:40:19<4:30:33, 22.80s/it]                                                        {'loss': 0.0209, 'grad_norm': 2.6253752691411365, 'learning_rate': 1.6612225851609894e-07, 'completion_length': 354.4107360839844, 'rewards/only_full_func_accuracy_reward': 0.7202381193637848, 'rewards/format_reward': 1.0, 'reward': 1.720238208770752, 'reward_std': 0.02533995546400547, 'kl': 0.52197265625, 'epoch': 0.83}
+ 83%|████████▎ | 3574/4286 [23:40:19<4:30:33, 22.80s/it] 83%|████████▎ | 3575/4286 [23:40:43<4:34:04, 23.13s/it]                                                        {'loss': 0.0015, 'grad_norm': 1.1178421600966402, 'learning_rate': 1.658889407372842e-07, 'completion_length': 394.1607360839844, 'rewards/only_full_func_accuracy_reward': 0.6443452835083008, 'rewards/format_reward': 1.0, 'reward': 1.6443453431129456, 'reward_std': 0.05087611638009548, 'kl': 0.0374755859375, 'epoch': 0.83}
+ 83%|████████▎ | 3575/4286 [23:40:43<4:34:04, 23.13s/it] 83%|████████▎ | 3576/4286 [23:41:06<4:32:46, 23.05s/it]                                                        {'loss': 0.0046, 'grad_norm': 2.189009761819233, 'learning_rate': 1.6565562295846944e-07, 'completion_length': 362.9464569091797, 'rewards/only_full_func_accuracy_reward': 0.6763393580913544, 'rewards/format_reward': 1.0, 'reward': 1.6763394474983215, 'reward_std': 0.019040181301534176, 'kl': 0.114501953125, 'epoch': 0.83}
+ 83%|████████▎ | 3576/4286 [23:41:06<4:32:46, 23.05s/it] 83%|████████▎ | 3577/4286 [23:41:26<4:23:20, 22.29s/it]                                                        {'loss': 0.0049, 'grad_norm': 2.705434933985583, 'learning_rate': 1.654223051796547e-07, 'completion_length': 306.0893096923828, 'rewards/only_full_func_accuracy_reward': 0.785714328289032, 'rewards/format_reward': 1.0, 'reward': 1.785714328289032, 'reward_std': 0.04291342385113239, 'kl': 0.1209716796875, 'epoch': 0.83}
+ 83%|████████▎ | 3577/4286 [23:41:26<4:23:20, 22.29s/it] 83%|████████▎ | 3578/4286 [23:41:49<4:23:50, 22.36s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.19804898967788548, 'learning_rate': 1.6518898740083994e-07, 'completion_length': 380.9464416503906, 'rewards/only_full_func_accuracy_reward': 0.7500000298023224, 'rewards/format_reward': 1.0, 'reward': 1.7500001192092896, 'reward_std': 0.019090089946985245, 'kl': 0.040283203125, 'epoch': 0.83}
+ 83%|████████▎ | 3578/4286 [23:41:49<4:23:50, 22.36s/it] 84%|████████▎ | 3579/4286 [23:42:12<4:26:09, 22.59s/it]                                                        {'loss': 0.0118, 'grad_norm': 0.443196079218503, 'learning_rate': 1.649556696220252e-07, 'completion_length': 376.23216247558594, 'rewards/only_full_func_accuracy_reward': 0.595238134264946, 'rewards/format_reward': 1.0, 'reward': 1.595238208770752, 'reward_std': 0.046398481354117393, 'kl': 0.2960205078125, 'epoch': 0.84}
+ 84%|████████▎ | 3579/4286 [23:42:12<4:26:09, 22.59s/it] 84%|████████▎ | 3580/4286 [23:42:34<4:23:01, 22.35s/it]                                                        {'loss': 0.0086, 'grad_norm': 1.808537428278659, 'learning_rate': 1.6472235184321046e-07, 'completion_length': 309.4732208251953, 'rewards/only_full_func_accuracy_reward': 0.694196492433548, 'rewards/format_reward': 1.0, 'reward': 1.6941965222358704, 'reward_std': 0.07408087700605392, 'kl': 0.21435546875, 'epoch': 0.84}
+ 84%|████████▎ | 3580/4286 [23:42:34<4:23:01, 22.35s/it] 84%|████████▎ | 3581/4286 [23:42:57<4:24:28, 22.51s/it]                                                        {'loss': 0.026, 'grad_norm': 2.4904393862807113, 'learning_rate': 1.644890340643957e-07, 'completion_length': 350.27679443359375, 'rewards/only_full_func_accuracy_reward': 0.663690447807312, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6547620296478271, 'reward_std': 0.09361883252859116, 'kl': 0.6484375, 'epoch': 0.84}
+ 84%|████████▎ | 3581/4286 [23:42:57<4:24:28, 22.51s/it] 84%|████████▎ | 3582/4286 [23:43:20<4:27:11, 22.77s/it]                                                        {'loss': 0.026, 'grad_norm': 0.9928857909447817, 'learning_rate': 1.6425571628558096e-07, 'completion_length': 374.7589569091797, 'rewards/only_full_func_accuracy_reward': 0.7991071939468384, 'rewards/format_reward': 1.0, 'reward': 1.7991072535514832, 'reward_std': 0.04569191485643387, 'kl': 0.6500244140625, 'epoch': 0.84}
+ 84%|████████▎ | 3582/4286 [23:43:20<4:27:11, 22.77s/it] 84%|████████▎ | 3583/4286 [23:43:42<4:24:32, 22.58s/it]                                                        {'loss': 0.0016, 'grad_norm': 1.014982919595956, 'learning_rate': 1.640223985067662e-07, 'completion_length': 353.2410888671875, 'rewards/only_full_func_accuracy_reward': 0.8556548058986664, 'rewards/format_reward': 1.0, 'reward': 1.8556548357009888, 'reward_std': 0.039303794503211975, 'kl': 0.0400390625, 'epoch': 0.84}
+ 84%|████████▎ | 3583/4286 [23:43:42<4:24:32, 22.58s/it] 84%|████████▎ | 3584/4286 [23:44:04<4:22:09, 22.41s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.5467375698059533, 'learning_rate': 1.6378908072795148e-07, 'completion_length': 386.96429443359375, 'rewards/only_full_func_accuracy_reward': 0.9122024178504944, 'rewards/format_reward': 1.0, 'reward': 1.912202537059784, 'reward_std': 0.03208790719509125, 'kl': 0.038818359375, 'epoch': 0.84}
+ 84%|████████▎ | 3584/4286 [23:44:04<4:22:09, 22.41s/it] 84%|████████▎ | 3585/4286 [23:44:27<4:23:26, 22.55s/it]                                                        {'loss': 0.0036, 'grad_norm': 1.4349935554276783, 'learning_rate': 1.6355576294913673e-07, 'completion_length': 390.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.821428656578064, 'rewards/format_reward': 1.0, 'reward': 1.821428656578064, 'reward_std': 0.02204333944246173, 'kl': 0.0909423828125, 'epoch': 0.84}
+ 84%|████████▎ | 3585/4286 [23:44:27<4:23:26, 22.55s/it] 84%|████████▎ | 3586/4286 [23:44:50<4:22:59, 22.54s/it]                                                        {'loss': 0.011, 'grad_norm': 1.8974806090920746, 'learning_rate': 1.6332244517032198e-07, 'completion_length': 392.33038330078125, 'rewards/only_full_func_accuracy_reward': 0.875744104385376, 'rewards/format_reward': 1.0, 'reward': 1.8757441639900208, 'reward_std': 0.06350699253380299, 'kl': 0.2772216796875, 'epoch': 0.84}
+ 84%|████████▎ | 3586/4286 [23:44:50<4:22:59, 22.54s/it] 84%|████████▎ | 3587/4286 [23:45:11<4:20:14, 22.34s/it]                                                        {'loss': 0.0285, 'grad_norm': 4.385889944523635, 'learning_rate': 1.6308912739150723e-07, 'completion_length': 358.0268096923828, 'rewards/only_full_func_accuracy_reward': 0.6279762387275696, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.61904776096344, 'reward_std': 0.06948073580861092, 'kl': 0.712890625, 'epoch': 0.84}
+ 84%|████████▎ | 3587/4286 [23:45:11<4:20:14, 22.34s/it] 84%|████████▎ | 3588/4286 [23:45:36<4:28:45, 23.10s/it]                                                        {'loss': 0.0159, 'grad_norm': 5.813259022790857, 'learning_rate': 1.628558096126925e-07, 'completion_length': 398.9107360839844, 'rewards/only_full_func_accuracy_reward': 0.7909226715564728, 'rewards/format_reward': 1.0, 'reward': 1.7909227013587952, 'reward_std': 0.04963006917387247, 'kl': 0.3974609375, 'epoch': 0.84}
+ 84%|████████▎ | 3588/4286 [23:45:36<4:28:45, 23.10s/it] 84%|████████▎ | 3589/4286 [23:45:58<4:23:38, 22.69s/it]                                                        {'loss': 0.0292, 'grad_norm': 3.1703571271273727, 'learning_rate': 1.6262249183387775e-07, 'completion_length': 353.40179443359375, 'rewards/only_full_func_accuracy_reward': 0.6473214328289032, 'rewards/format_reward': 1.0, 'reward': 1.6473215222358704, 'reward_std': 0.12469753623008728, 'kl': 0.73046875, 'epoch': 0.84}
+ 84%|████████▎ | 3589/4286 [23:45:58<4:23:38, 22.69s/it] 84%|████████▍ | 3590/4286 [23:46:20<4:21:56, 22.58s/it]                                                        {'loss': 0.0107, 'grad_norm': 3.899650411577068, 'learning_rate': 1.62389174055063e-07, 'completion_length': 349.2768096923828, 'rewards/only_full_func_accuracy_reward': 0.7912203371524811, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.782291829586029, 'reward_std': 0.07192760519683361, 'kl': 0.2666015625, 'epoch': 0.84}
+ 84%|████████▍ | 3590/4286 [23:46:20<4:21:56, 22.58s/it] 84%|████████▍ | 3591/4286 [23:46:43<4:20:23, 22.48s/it]                                                        {'loss': 0.0034, 'grad_norm': 0.34164644603337263, 'learning_rate': 1.6215585627624825e-07, 'completion_length': 357.7143096923828, 'rewards/only_full_func_accuracy_reward': 0.7276785969734192, 'rewards/format_reward': 1.0, 'reward': 1.727678656578064, 'reward_std': 0.015555404126644135, 'kl': 0.0841064453125, 'epoch': 0.84}
+ 84%|████████▍ | 3591/4286 [23:46:43<4:20:23, 22.48s/it] 84%|████████▍ | 3592/4286 [23:47:06<4:21:52, 22.64s/it]                                                        {'loss': 0.0195, 'grad_norm': 4.022466893588226, 'learning_rate': 1.619225384974335e-07, 'completion_length': 351.5178680419922, 'rewards/only_full_func_accuracy_reward': 0.7031250298023224, 'rewards/format_reward': 1.0, 'reward': 1.7031251788139343, 'reward_std': 0.10671523585915565, 'kl': 0.4873046875, 'epoch': 0.84}
+ 84%|████████▍ | 3592/4286 [23:47:06<4:21:52, 22.64s/it] 84%|████████▍ | 3593/4286 [23:47:27<4:17:28, 22.29s/it]                                                        {'loss': 0.0193, 'grad_norm': 2.4484810258761076, 'learning_rate': 1.6168922071861877e-07, 'completion_length': 336.7589416503906, 'rewards/only_full_func_accuracy_reward': 0.7991071939468384, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.790178656578064, 'reward_std': 0.07155247032642365, 'kl': 0.4833984375, 'epoch': 0.84}
+ 84%|████████▍ | 3593/4286 [23:47:27<4:17:28, 22.29s/it] 84%|████████▍ | 3594/4286 [23:47:49<4:17:29, 22.33s/it]                                                        {'loss': 0.0223, 'grad_norm': 1.1017315334058702, 'learning_rate': 1.6145590293980402e-07, 'completion_length': 361.8482360839844, 'rewards/only_full_func_accuracy_reward': 0.7433036267757416, 'rewards/format_reward': 1.0, 'reward': 1.743303656578064, 'reward_std': 0.0626780791208148, 'kl': 0.556640625, 'epoch': 0.84}
+ 84%|████████▍ | 3594/4286 [23:47:49<4:17:29, 22.33s/it] 84%|████████▍ | 3595/4286 [23:48:13<4:20:54, 22.65s/it]                                                        {'loss': 0.0138, 'grad_norm': 2.232819991598529, 'learning_rate': 1.6122258516098927e-07, 'completion_length': 390.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.8467263281345367, 'rewards/format_reward': 1.0, 'reward': 1.8467262983322144, 'reward_std': 0.04504977725446224, 'kl': 0.3458251953125, 'epoch': 0.84}
+ 84%|████████▍ | 3595/4286 [23:48:13<4:20:54, 22.65s/it] 84%|████████▍ | 3596/4286 [23:48:37<4:25:08, 23.06s/it]                                                        {'loss': 0.0205, 'grad_norm': 3.689364907885781, 'learning_rate': 1.6098926738217452e-07, 'completion_length': 383.7678680419922, 'rewards/only_full_func_accuracy_reward': 0.7522322237491608, 'rewards/format_reward': 1.0, 'reward': 1.7522321939468384, 'reward_std': 0.05558259040117264, 'kl': 0.5125732421875, 'epoch': 0.84}
+ 84%|████████▍ | 3596/4286 [23:48:37<4:25:08, 23.06s/it] 84%|████████▍ | 3597/4286 [23:49:00<4:24:05, 23.00s/it]                                                        {'loss': 0.0613, 'grad_norm': 2.9102417874639355, 'learning_rate': 1.607559496033598e-07, 'completion_length': 373.12501525878906, 'rewards/only_full_func_accuracy_reward': 0.7462663054466248, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7373378276824951, 'reward_std': 0.13223651237785816, 'kl': 1.53466796875, 'epoch': 0.84}
+ 84%|████████▍ | 3597/4286 [23:49:00<4:24:05, 23.00s/it] 84%|████████▍ | 3598/4286 [23:49:22<4:22:43, 22.91s/it]                                                        {'loss': 0.0277, 'grad_norm': 6.308519365266158, 'learning_rate': 1.6052263182454504e-07, 'completion_length': 366.8928680419922, 'rewards/only_full_func_accuracy_reward': 0.6607143580913544, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6517858505249023, 'reward_std': 0.11940610781311989, 'kl': 0.6923828125, 'epoch': 0.84}
+ 84%|████████▍ | 3598/4286 [23:49:22<4:22:43, 22.91s/it] 84%|████████▍ | 3599/4286 [23:49:45<4:19:27, 22.66s/it]                                                        {'loss': 0.0276, 'grad_norm': 2.202749414771545, 'learning_rate': 1.602893140457303e-07, 'completion_length': 362.0893096923828, 'rewards/only_full_func_accuracy_reward': 0.7693453133106232, 'rewards/format_reward': 1.0, 'reward': 1.7693453431129456, 'reward_std': 0.08007023110985756, 'kl': 0.69140625, 'epoch': 0.84}
+ 84%|████████▍ | 3599/4286 [23:49:45<4:19:27, 22.66s/it] 84%|████████▍ | 3600/4286 [23:50:08<4:22:14, 22.94s/it]                                                        {'loss': 0.0371, 'grad_norm': 2.5932189213061982, 'learning_rate': 1.6005599626691554e-07, 'completion_length': 391.2410888671875, 'rewards/only_full_func_accuracy_reward': 0.549851268529892, 'rewards/format_reward': 1.0, 'reward': 1.5498513579368591, 'reward_std': 0.11800194159150124, 'kl': 0.927001953125, 'epoch': 0.84}
+ 84%|████████▍ | 3600/4286 [23:50:08<4:22:14, 22.94s/it] 84%|████████▍ | 3601/4286 [23:51:39<8:13:52, 43.26s/it]                                                        {'loss': 0.0014, 'grad_norm': 1.4509818537680548, 'learning_rate': 1.598226784881008e-07, 'completion_length': 402.0357360839844, 'rewards/only_full_func_accuracy_reward': 0.7449405193328857, 'rewards/format_reward': 1.0, 'reward': 1.7449405789375305, 'reward_std': 0.03261529002338648, 'kl': 0.03515625, 'epoch': 0.84}
+ 84%|████████▍ | 3601/4286 [23:51:39<8:13:52, 43.26s/it] 84%|████████▍ | 3602/4286 [23:52:00<6:57:08, 36.59s/it]                                                        {'loss': 0.0125, 'grad_norm': 0.8961856003465786, 'learning_rate': 1.5958936070928606e-07, 'completion_length': 360.33929443359375, 'rewards/only_full_func_accuracy_reward': 0.6755952537059784, 'rewards/format_reward': 1.0, 'reward': 1.6755954027175903, 'reward_std': 0.06006033532321453, 'kl': 0.312255859375, 'epoch': 0.84}
+ 84%|████████▍ | 3602/4286 [23:52:00<6:57:08, 36.59s/it] 84%|████████▍ | 3603/4286 [23:52:22<6:06:59, 32.24s/it]                                                        {'loss': 0.0554, 'grad_norm': 1.8876246422835836, 'learning_rate': 1.593560429304713e-07, 'completion_length': 355.8303680419922, 'rewards/only_full_func_accuracy_reward': 0.729166716337204, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7113096117973328, 'reward_std': 0.19653461501002312, 'kl': 1.38671875, 'epoch': 0.84}
+ 84%|████████▍ | 3603/4286 [23:52:22<6:06:59, 32.24s/it] 84%|████████▍ | 3604/4286 [23:52:45<5:35:01, 29.47s/it]                                                        {'loss': 0.0494, 'grad_norm': 1.1041308276547122, 'learning_rate': 1.5912272515165656e-07, 'completion_length': 381.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.8318453431129456, 'rewards/format_reward': 1.0, 'reward': 1.8318453431129456, 'reward_std': 0.09003581665456295, 'kl': 1.236328125, 'epoch': 0.84}
+ 84%|████████▍ | 3604/4286 [23:52:45<5:35:01, 29.47s/it] 84%|████████▍ | 3605/4286 [23:53:08<5:14:00, 27.67s/it]                                                        {'loss': 0.0169, 'grad_norm': 2.406499745705488, 'learning_rate': 1.588894073728418e-07, 'completion_length': 388.43751525878906, 'rewards/only_full_func_accuracy_reward': 0.718006044626236, 'rewards/format_reward': 1.0, 'reward': 1.7180060744285583, 'reward_std': 0.040808944031596184, 'kl': 0.4208984375, 'epoch': 0.84}
+ 84%|████████▍ | 3605/4286 [23:53:08<5:14:00, 27.67s/it] 84%|████████▍ | 3606/4286 [23:53:31<4:57:07, 26.22s/it]                                                        {'loss': 0.0772, 'grad_norm': 2.163288374684612, 'learning_rate': 1.5865608959402706e-07, 'completion_length': 382.39288330078125, 'rewards/only_full_func_accuracy_reward': 0.8306547999382019, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8217263221740723, 'reward_std': 0.09196101129055023, 'kl': 1.92919921875, 'epoch': 0.84}
+ 84%|████████▍ | 3606/4286 [23:53:31<4:57:07, 26.22s/it] 84%|████████▍ | 3607/4286 [23:53:55<4:47:09, 25.37s/it]                                                        {'loss': 0.0297, 'grad_norm': 2.2825526748435743, 'learning_rate': 1.5842277181521233e-07, 'completion_length': 388.71429443359375, 'rewards/only_full_func_accuracy_reward': 0.6324405372142792, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6235119700431824, 'reward_std': 0.09819257073104382, 'kl': 0.7421875, 'epoch': 0.84}
+ 84%|████████▍ | 3607/4286 [23:53:55<4:47:09, 25.37s/it] 84%|████████▍ | 3608/4286 [23:54:17<4:36:15, 24.45s/it]                                                        {'loss': 0.0262, 'grad_norm': 1.0130424355521421, 'learning_rate': 1.5818945403639758e-07, 'completion_length': 380.6696472167969, 'rewards/only_full_func_accuracy_reward': 0.7418154776096344, 'rewards/format_reward': 1.0, 'reward': 1.7418155670166016, 'reward_std': 0.021544091403484344, 'kl': 0.6529541015625, 'epoch': 0.84}
+ 84%|████████▍ | 3608/4286 [23:54:17<4:36:15, 24.45s/it] 84%|████████▍ | 3609/4286 [23:54:40<4:29:58, 23.93s/it]                                                        {'loss': 0.0425, 'grad_norm': 1.7863582245375957, 'learning_rate': 1.5795613625758283e-07, 'completion_length': 372.1339569091797, 'rewards/only_full_func_accuracy_reward': 0.7187500596046448, 'rewards/format_reward': 1.0, 'reward': 1.7187501192092896, 'reward_std': 0.06894563883543015, 'kl': 1.06494140625, 'epoch': 0.84}
+ 84%|████████▍ | 3609/4286 [23:54:40<4:29:58, 23.93s/it] 84%|████████▍ | 3610/4286 [23:55:03<4:26:34, 23.66s/it]                                                        {'loss': 0.0485, 'grad_norm': 2.604939721860981, 'learning_rate': 1.5772281847876808e-07, 'completion_length': 405.08929443359375, 'rewards/only_full_func_accuracy_reward': 0.9000000357627869, 'rewards/format_reward': 1.0, 'reward': 1.9000000953674316, 'reward_std': 0.06492582987993956, 'kl': 1.2080078125, 'epoch': 0.84}
+ 84%|████████▍ | 3610/4286 [23:55:03<4:26:34, 23.66s/it] 84%|████████▍ | 3611/4286 [23:55:25<4:20:40, 23.17s/it]                                                        {'loss': 0.0365, 'grad_norm': 6.791056256945162, 'learning_rate': 1.5748950069995335e-07, 'completion_length': 358.25001525878906, 'rewards/only_full_func_accuracy_reward': 0.7366071939468384, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.727678656578064, 'reward_std': 0.10227543115615845, 'kl': 0.91455078125, 'epoch': 0.84}
+ 84%|████████▍ | 3611/4286 [23:55:25<4:20:40, 23.17s/it] 84%|████████▍ | 3612/4286 [23:55:48<4:21:10, 23.25s/it]                                                        {'loss': 0.0895, 'grad_norm': 4.927090371901886, 'learning_rate': 1.572561829211386e-07, 'completion_length': 380.00001525878906, 'rewards/only_full_func_accuracy_reward': 0.6927083730697632, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.6569941639900208, 'reward_std': 0.1477225236594677, 'kl': 2.22412109375, 'epoch': 0.84}
+ 84%|████████▍ | 3612/4286 [23:55:48<4:21:10, 23.25s/it] 84%|████████▍ | 3613/4286 [23:56:10<4:16:12, 22.84s/it]                                                        {'loss': 0.0242, 'grad_norm': 2.100383073108743, 'learning_rate': 1.5702286514232385e-07, 'completion_length': 339.9821472167969, 'rewards/only_full_func_accuracy_reward': 0.6696429252624512, 'rewards/format_reward': 1.0, 'reward': 1.669642984867096, 'reward_std': 0.04655236564576626, 'kl': 0.603271484375, 'epoch': 0.84}
+ 84%|████████▍ | 3613/4286 [23:56:10<4:16:12, 22.84s/it] 84%|████████▍ | 3614/4286 [23:56:32<4:13:05, 22.60s/it]                                                        {'loss': 0.0399, 'grad_norm': 0.5049351307470358, 'learning_rate': 1.567895473635091e-07, 'completion_length': 388.77679443359375, 'rewards/only_full_func_accuracy_reward': 0.8132440447807312, 'rewards/format_reward': 1.0, 'reward': 1.8132441639900208, 'reward_std': 0.03377873636782169, 'kl': 0.9921875, 'epoch': 0.84}
+ 84%|████████▍ | 3614/4286 [23:56:32<4:13:05, 22.60s/it] 84%|████████▍ | 3615/4286 [23:56:55<4:14:16, 22.74s/it]                                                        {'loss': 0.0671, 'grad_norm': 2.700953005764714, 'learning_rate': 1.5655622958469435e-07, 'completion_length': 366.54466247558594, 'rewards/only_full_func_accuracy_reward': 0.7450893223285675, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.7183036804199219, 'reward_std': 0.13342541456222534, 'kl': 1.6767578125, 'epoch': 0.84}
+ 84%|████████▍ | 3615/4286 [23:56:55<4:14:16, 22.74s/it] 84%|████████▍ | 3616/4286 [23:57:17<4:09:55, 22.38s/it]                                                        {'loss': 0.0367, 'grad_norm': 1.1744289624181627, 'learning_rate': 1.5632291180587962e-07, 'completion_length': 364.9107360839844, 'rewards/only_full_func_accuracy_reward': 0.6145833730697632, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.5967262387275696, 'reward_std': 0.14323418959975243, 'kl': 0.9140625, 'epoch': 0.84}
+ 84%|████████▍ | 3616/4286 [23:57:17<4:09:55, 22.38s/it] 84%|████████▍ | 3617/4286 [23:57:40<4:13:39, 22.75s/it]                                                        {'loss': 0.0213, 'grad_norm': 1.6003594352885344, 'learning_rate': 1.5608959402706485e-07, 'completion_length': 424.27679443359375, 'rewards/only_full_func_accuracy_reward': 0.6622024476528168, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.65327388048172, 'reward_std': 0.09650291129946709, 'kl': 0.533203125, 'epoch': 0.84}
+ 84%|████████▍ | 3617/4286 [23:57:40<4:13:39, 22.75s/it] 84%|████████▍ | 3618/4286 [23:58:03<4:12:52, 22.71s/it]                                                        {'loss': 0.048, 'grad_norm': 2.712173754307904, 'learning_rate': 1.558562762482501e-07, 'completion_length': 384.3928680419922, 'rewards/only_full_func_accuracy_reward': 0.6825892925262451, 'rewards/format_reward': 1.0, 'reward': 1.68258935213089, 'reward_std': 0.12855368107557297, 'kl': 1.19677734375, 'epoch': 0.84}
+ 84%|████████▍ | 3618/4286 [23:58:03<4:12:52, 22.71s/it] 84%|████████▍ | 3619/4286 [23:58:26<4:12:50, 22.75s/it]                                                        {'loss': 0.0512, 'grad_norm': 2.6994347675776846, 'learning_rate': 1.5562295846943534e-07, 'completion_length': 391.23216247558594, 'rewards/only_full_func_accuracy_reward': 0.849702388048172, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8407739400863647, 'reward_std': 0.1273103468120098, 'kl': 1.28125, 'epoch': 0.84}
+ 84%|████████▍ | 3619/4286 [23:58:26<4:12:50, 22.75s/it] 84%|████████▍ | 3620/4286 [23:58:49<4:14:18, 22.91s/it]                                                        {'loss': 0.0473, 'grad_norm': 0.8248341950587839, 'learning_rate': 1.553896406906206e-07, 'completion_length': 391.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.7378827333450317, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7289541959762573, 'reward_std': 0.11537590622901917, 'kl': 1.18359375, 'epoch': 0.84}
+ 84%|████████▍ | 3620/4286 [23:58:49<4:14:18, 22.91s/it] 84%|████████▍ | 3621/4286 [23:59:12<4:13:10, 22.84s/it]                                                        {'loss': 0.0329, 'grad_norm': 1.3617978339827281, 'learning_rate': 1.5515632291180587e-07, 'completion_length': 372.1964416503906, 'rewards/only_full_func_accuracy_reward': 0.6450892984867096, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6361608505249023, 'reward_std': 0.0704217329621315, 'kl': 0.822265625, 'epoch': 0.84}
+ 84%|████████▍ | 3621/4286 [23:59:12<4:13:10, 22.84s/it] 85%|████████▍ | 3622/4286 [23:59:35<4:14:56, 23.04s/it]                                                        {'loss': 0.0028, 'grad_norm': 1.9408588499746733, 'learning_rate': 1.5492300513299112e-07, 'completion_length': 376.3035888671875, 'rewards/only_full_func_accuracy_reward': 0.8281250298023224, 'rewards/format_reward': 1.0, 'reward': 1.8281251788139343, 'reward_std': 0.034408824518322945, 'kl': 0.07080078125, 'epoch': 0.85}
+ 85%|████████▍ | 3622/4286 [23:59:35<4:14:56, 23.04s/it] 85%|████████▍ | 3623/4286 [23:59:58<4:12:15, 22.83s/it]                                                        {'loss': 0.0087, 'grad_norm': 2.5876505815687247, 'learning_rate': 1.5468968735417636e-07, 'completion_length': 360.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.7619048058986664, 'rewards/format_reward': 1.0, 'reward': 1.7619048953056335, 'reward_std': 0.0, 'kl': 0.2177734375, 'epoch': 0.85}
+ 85%|████████▍ | 3623/4286 [23:59:58<4:12:15, 22.83s/it] 85%|████████▍ | 3624/4286 [24:00:19<4:07:09, 22.40s/it]                                                        {'loss': 0.045, 'grad_norm': 1.6793242017089953, 'learning_rate': 1.5445636957536161e-07, 'completion_length': 328.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.8363095819950104, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8273810744285583, 'reward_std': 0.0732746971771121, 'kl': 1.1273193359375, 'epoch': 0.85}
+ 85%|████████▍ | 3624/4286 [24:00:19<4:07:09, 22.40s/it] 85%|████████▍ | 3625/4286 [24:00:42<4:08:30, 22.56s/it]                                                        {'loss': 0.0157, 'grad_norm': 2.602444089025796, 'learning_rate': 1.542230517965469e-07, 'completion_length': 364.50001525878906, 'rewards/only_full_func_accuracy_reward': 0.7294643521308899, 'rewards/format_reward': 1.0, 'reward': 1.72946435213089, 'reward_std': 0.03211119398474693, 'kl': 0.392822265625, 'epoch': 0.85}
+ 85%|████████▍ | 3625/4286 [24:00:42<4:08:30, 22.56s/it] 85%|████████▍ | 3626/4286 [24:01:03<4:03:02, 22.10s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.581959490383512, 'learning_rate': 1.5398973401773214e-07, 'completion_length': 357.65179443359375, 'rewards/only_full_func_accuracy_reward': 0.779017835855484, 'rewards/format_reward': 1.0, 'reward': 1.779017984867096, 'reward_std': 0.04138689301908016, 'kl': 0.03662109375, 'epoch': 0.85}
+ 85%|████████▍ | 3626/4286 [24:01:03<4:03:02, 22.10s/it] 85%|████████▍ | 3627/4286 [24:01:24<3:59:28, 21.80s/it]                                                        {'loss': 0.014, 'grad_norm': 0.9483840019004617, 'learning_rate': 1.5375641623891739e-07, 'completion_length': 307.21429443359375, 'rewards/only_full_func_accuracy_reward': 0.7775298058986664, 'rewards/format_reward': 1.0, 'reward': 1.7775298357009888, 'reward_std': 0.06511078402400017, 'kl': 0.348388671875, 'epoch': 0.85}
+ 85%|████████▍ | 3627/4286 [24:01:24<3:59:28, 21.80s/it] 85%|████████▍ | 3628/4286 [24:01:46<3:58:56, 21.79s/it]                                                        {'loss': 0.081, 'grad_norm': 2.8291352371710534, 'learning_rate': 1.5352309846010263e-07, 'completion_length': 376.70538330078125, 'rewards/only_full_func_accuracy_reward': 0.7034970819950104, 'rewards/format_reward': 0.973214328289032, 'reward': 1.6767114400863647, 'reward_std': 0.1299300715327263, 'kl': 2.02734375, 'epoch': 0.85}
+ 85%|████████▍ | 3628/4286 [24:01:46<3:58:56, 21.79s/it] 85%|████████▍ | 3629/4286 [24:02:07<3:57:20, 21.68s/it]                                                        {'loss': 0.0402, 'grad_norm': 3.9435315636698203, 'learning_rate': 1.5328978068128788e-07, 'completion_length': 333.76788330078125, 'rewards/only_full_func_accuracy_reward': 0.7202381491661072, 'rewards/format_reward': 1.0, 'reward': 1.720238208770752, 'reward_std': 0.0, 'kl': 1.0078125, 'epoch': 0.85}
+ 85%|████████▍ | 3629/4286 [24:02:07<3:57:20, 21.68s/it] 85%|████████▍ | 3630/4286 [24:02:31<4:04:58, 22.41s/it]                                                        {'loss': 0.0561, 'grad_norm': 3.965241408217959, 'learning_rate': 1.5305646290247316e-07, 'completion_length': 387.9464569091797, 'rewards/only_full_func_accuracy_reward': 0.664434552192688, 'rewards/format_reward': 1.0, 'reward': 1.6644346117973328, 'reward_std': 0.08196098729968071, 'kl': 1.40234375, 'epoch': 0.85}
+ 85%|████████▍ | 3630/4286 [24:02:31<4:04:58, 22.41s/it] 85%|████████▍ | 3631/4286 [24:02:52<4:00:50, 22.06s/it]                                                        {'loss': 0.0381, 'grad_norm': 5.417342395923773, 'learning_rate': 1.528231451236584e-07, 'completion_length': 345.4732360839844, 'rewards/only_full_func_accuracy_reward': 0.6446429193019867, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6357144713401794, 'reward_std': 0.1509585902094841, 'kl': 0.94921875, 'epoch': 0.85}
+ 85%|████████▍ | 3631/4286 [24:02:53<4:00:50, 22.06s/it] 85%|████████▍ | 3632/4286 [24:03:14<3:59:48, 22.00s/it]                                                        {'loss': 0.0548, 'grad_norm': 1.0492146822080968, 'learning_rate': 1.5258982734484366e-07, 'completion_length': 373.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.6607143580913544, 'rewards/format_reward': 1.0, 'reward': 1.6607144474983215, 'reward_std': 0.08013514429330826, 'kl': 1.3671875, 'epoch': 0.85}
+ 85%|████████▍ | 3632/4286 [24:03:14<3:59:48, 22.00s/it] 85%|████████▍ | 3633/4286 [24:03:37<4:00:38, 22.11s/it]                                                        {'loss': 0.0264, 'grad_norm': 5.213806772270868, 'learning_rate': 1.523565095660289e-07, 'completion_length': 349.21429443359375, 'rewards/only_full_func_accuracy_reward': 0.8117560148239136, 'rewards/format_reward': 1.0, 'reward': 1.8117560744285583, 'reward_std': 0.07031139358878136, 'kl': 0.66015625, 'epoch': 0.85}
+ 85%|████████▍ | 3633/4286 [24:03:37<4:00:38, 22.11s/it] 85%|████████▍ | 3634/4286 [24:03:57<3:54:05, 21.54s/it]                                                        {'loss': 0.0115, 'grad_norm': 10.741363099184117, 'learning_rate': 1.5212319178721418e-07, 'completion_length': 289.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.7328869700431824, 'rewards/format_reward': 1.0, 'reward': 1.7328870296478271, 'reward_std': 0.12040580809116364, 'kl': 0.287109375, 'epoch': 0.85}
+ 85%|████████▍ | 3634/4286 [24:03:57<3:54:05, 21.54s/it] 85%|████████▍ | 3635/4286 [24:04:20<3:59:23, 22.06s/it]                                                        {'loss': 0.0318, 'grad_norm': 0.7253588312288463, 'learning_rate': 1.5188987400839943e-07, 'completion_length': 387.43751525878906, 'rewards/only_full_func_accuracy_reward': 0.6525298357009888, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6436012983322144, 'reward_std': 0.07499479688704014, 'kl': 0.79638671875, 'epoch': 0.85}
+ 85%|████████▍ | 3635/4286 [24:04:20<3:59:23, 22.06s/it] 85%|████████▍ | 3636/4286 [24:04:43<4:02:19, 22.37s/it]                                                        {'loss': 0.0333, 'grad_norm': 1.8019658257381388, 'learning_rate': 1.5165655622958468e-07, 'completion_length': 344.45538330078125, 'rewards/only_full_func_accuracy_reward': 0.9017857909202576, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.892857313156128, 'reward_std': 0.10470361262559891, 'kl': 0.83203125, 'epoch': 0.85}
+ 85%|████████▍ | 3636/4286 [24:04:43<4:02:19, 22.37s/it] 85%|████████▍ | 3637/4286 [24:05:07<4:06:06, 22.75s/it]                                                        {'loss': 0.0019, 'grad_norm': 0.2627278749973832, 'learning_rate': 1.5142323845076993e-07, 'completion_length': 402.7678680419922, 'rewards/only_full_func_accuracy_reward': 0.6717262268066406, 'rewards/format_reward': 1.0, 'reward': 1.6717262864112854, 'reward_std': 0.009873469360172749, 'kl': 0.0484619140625, 'epoch': 0.85}
+ 85%|████████▍ | 3637/4286 [24:05:07<4:06:06, 22.75s/it] 85%|████████▍ | 3638/4286 [24:05:30<4:05:59, 22.78s/it]                                                        {'loss': 0.0655, 'grad_norm': 24.686020948724074, 'learning_rate': 1.5118992067195517e-07, 'completion_length': 366.75001525878906, 'rewards/only_full_func_accuracy_reward': 0.5256165117025375, 'rewards/format_reward': 1.0, 'reward': 1.5256166458129883, 'reward_std': 0.03227363899350166, 'kl': 1.640625, 'epoch': 0.85}
+ 85%|████████▍ | 3638/4286 [24:05:30<4:05:59, 22.78s/it] 85%|████████▍ | 3639/4286 [24:05:53<4:07:57, 22.99s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.9867619888137292, 'learning_rate': 1.5095660289314045e-07, 'completion_length': 399.5982208251953, 'rewards/only_full_func_accuracy_reward': 0.7648809552192688, 'rewards/format_reward': 1.0, 'reward': 1.7648810744285583, 'reward_std': 0.00841793604195118, 'kl': 0.0457763671875, 'epoch': 0.85}
+ 85%|████████▍ | 3639/4286 [24:05:53<4:07:57, 22.99s/it] 85%|████████▍ | 3640/4286 [24:06:16<4:06:28, 22.89s/it]                                                        {'loss': 0.004, 'grad_norm': 0.7465320027850084, 'learning_rate': 1.507232851143257e-07, 'completion_length': 362.8303680419922, 'rewards/only_full_func_accuracy_reward': 0.7581845223903656, 'rewards/format_reward': 1.0, 'reward': 1.7581846714019775, 'reward_std': 0.028332039713859558, 'kl': 0.1005859375, 'epoch': 0.85}
+ 85%|████████▍ | 3640/4286 [24:06:16<4:06:28, 22.89s/it] 85%|████████▍ | 3641/4286 [24:06:37<4:01:41, 22.48s/it]                                                        {'loss': 0.0721, 'grad_norm': 2.9151472065897215, 'learning_rate': 1.5048996733551095e-07, 'completion_length': 352.91966247558594, 'rewards/only_full_func_accuracy_reward': 0.7842262387275696, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7663691639900208, 'reward_std': 0.0952516607940197, 'kl': 1.8046875, 'epoch': 0.85}
+ 85%|████████▍ | 3641/4286 [24:06:37<4:01:41, 22.48s/it] 85%|████████▍ | 3642/4286 [24:07:00<4:00:29, 22.41s/it]                                                        {'loss': 0.0155, 'grad_norm': 2.5569340197836086, 'learning_rate': 1.502566495566962e-07, 'completion_length': 359.02679443359375, 'rewards/only_full_func_accuracy_reward': 0.6614583432674408, 'rewards/format_reward': 1.0, 'reward': 1.6614584922790527, 'reward_std': 0.024124749936163425, 'kl': 0.3837890625, 'epoch': 0.85}
+ 85%|████████▍ | 3642/4286 [24:07:00<4:00:29, 22.41s/it] 85%|████████▍ | 3643/4286 [24:07:23<4:01:25, 22.53s/it]                                                        {'loss': 0.0192, 'grad_norm': 1.7090120905322403, 'learning_rate': 1.5002333177788144e-07, 'completion_length': 370.5357360839844, 'rewards/only_full_func_accuracy_reward': 0.815476268529892, 'rewards/format_reward': 1.0, 'reward': 1.8154762983322144, 'reward_std': 0.057025257498025894, 'kl': 0.48095703125, 'epoch': 0.85}
+ 85%|████████▍ | 3643/4286 [24:07:23<4:01:25, 22.53s/it] 85%|████████▌ | 3644/4286 [24:07:43<3:55:25, 22.00s/it]                                                        {'loss': 0.0166, 'grad_norm': 3.5341153679502755, 'learning_rate': 1.4979001399906672e-07, 'completion_length': 338.3035888671875, 'rewards/only_full_func_accuracy_reward': 0.8973215222358704, 'rewards/format_reward': 1.0, 'reward': 1.8973215818405151, 'reward_std': 0.054716601967811584, 'kl': 0.4144287109375, 'epoch': 0.85}
+ 85%|████████▌ | 3644/4286 [24:07:43<3:55:25, 22.00s/it] 85%|████████▌ | 3645/4286 [24:08:06<3:58:46, 22.35s/it]                                                        {'loss': 0.002, 'grad_norm': 1.1188118744243885, 'learning_rate': 1.4955669622025197e-07, 'completion_length': 394.9107360839844, 'rewards/only_full_func_accuracy_reward': 0.753720223903656, 'rewards/format_reward': 1.0, 'reward': 1.7537204027175903, 'reward_std': 0.01585849840193987, 'kl': 0.0491943359375, 'epoch': 0.85}
+ 85%|████████▌ | 3645/4286 [24:08:06<3:58:46, 22.35s/it] 85%|████████▌ | 3646/4286 [24:08:28<3:54:50, 22.02s/it]                                                        {'loss': 0.0101, 'grad_norm': 0.6131779142911368, 'learning_rate': 1.4932337844143722e-07, 'completion_length': 337.6160888671875, 'rewards/only_full_func_accuracy_reward': 0.7336309850215912, 'rewards/format_reward': 1.0, 'reward': 1.7336310744285583, 'reward_std': 0.07800810039043427, 'kl': 0.252685546875, 'epoch': 0.85}
+ 85%|████████▌ | 3646/4286 [24:08:28<3:54:50, 22.02s/it] 85%|████████▌ | 3647/4286 [24:08:48<3:49:06, 21.51s/it]                                                        {'loss': 0.0311, 'grad_norm': 3.6944723293556483, 'learning_rate': 1.4909006066262247e-07, 'completion_length': 324.16966247558594, 'rewards/only_full_func_accuracy_reward': 0.6130952835083008, 'rewards/format_reward': 1.0, 'reward': 1.6130953431129456, 'reward_std': 0.050265729427337646, 'kl': 0.77734375, 'epoch': 0.85}
+ 85%|████████▌ | 3647/4286 [24:08:48<3:49:06, 21.51s/it] 85%|████████▌ | 3648/4286 [24:09:11<3:52:32, 21.87s/it]                                                        {'loss': 0.044, 'grad_norm': 2.1023837748645384, 'learning_rate': 1.4885674288380774e-07, 'completion_length': 367.9821472167969, 'rewards/only_full_func_accuracy_reward': 0.7098214328289032, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.700892984867096, 'reward_std': 0.11110152676701546, 'kl': 1.1015625, 'epoch': 0.85}
+ 85%|████████▌ | 3648/4286 [24:09:11<3:52:32, 21.87s/it] 85%|████████▌ | 3649/4286 [24:09:34<3:57:47, 22.40s/it]                                                        {'loss': 0.0347, 'grad_norm': 0.7912892028645425, 'learning_rate': 1.48623425104993e-07, 'completion_length': 379.8214416503906, 'rewards/only_full_func_accuracy_reward': 0.7053572237491608, 'rewards/format_reward': 1.0, 'reward': 1.705357313156128, 'reward_std': 0.025253813713788986, 'kl': 0.8671875, 'epoch': 0.85}
+ 85%|████████▌ | 3649/4286 [24:09:34<3:57:47, 22.40s/it] 85%|████████▌ | 3650/4286 [24:09:57<3:57:14, 22.38s/it]                                                        {'loss': 0.0256, 'grad_norm': 0.8223561222615436, 'learning_rate': 1.4839010732617824e-07, 'completion_length': 362.7678680419922, 'rewards/only_full_func_accuracy_reward': 0.7421131432056427, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7331846952438354, 'reward_std': 0.12252177298069, 'kl': 0.63641357421875, 'epoch': 0.85}
+ 85%|████████▌ | 3650/4286 [24:09:57<3:57:14, 22.38s/it] 85%|████████▌ | 3651/4286 [24:10:18<3:55:01, 22.21s/it]                                                        {'loss': 0.0203, 'grad_norm': 2.3587277946330345, 'learning_rate': 1.481567895473635e-07, 'completion_length': 387.2410888671875, 'rewards/only_full_func_accuracy_reward': 0.7775298357009888, 'rewards/format_reward': 1.0, 'reward': 1.7775298357009888, 'reward_std': 0.0812261551618576, 'kl': 0.5068359375, 'epoch': 0.85}
+ 85%|████████▌ | 3651/4286 [24:10:18<3:55:01, 22.21s/it] 85%|████████▌ | 3652/4286 [24:10:42<3:58:05, 22.53s/it]                                                        {'loss': 0.0439, 'grad_norm': 2.7735179273109294, 'learning_rate': 1.4792347176854874e-07, 'completion_length': 387.0535888671875, 'rewards/only_full_func_accuracy_reward': 0.6041666865348816, 'rewards/format_reward': 1.0, 'reward': 1.6041667461395264, 'reward_std': 0.07693133875727654, 'kl': 1.1005859375, 'epoch': 0.85}
+ 85%|████████▌ | 3652/4286 [24:10:42<3:58:05, 22.53s/it] 85%|████████▌ | 3653/4286 [24:11:03<3:54:46, 22.25s/it]                                                        {'loss': 0.0309, 'grad_norm': 2.4014304337251717, 'learning_rate': 1.47690153989734e-07, 'completion_length': 393.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.6227678656578064, 'rewards/format_reward': 1.0, 'reward': 1.622767984867096, 'reward_std': 0.06285343505442142, 'kl': 0.775390625, 'epoch': 0.85}
+ 85%|████████▌ | 3653/4286 [24:11:03<3:54:46, 22.25s/it] 85%|████████▌ | 3654/4286 [24:11:27<3:57:18, 22.53s/it]                                                        {'loss': 0.0468, 'grad_norm': 3.7750994187845586, 'learning_rate': 1.4745683621091926e-07, 'completion_length': 353.43751525878906, 'rewards/only_full_func_accuracy_reward': 0.7026786208152771, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6937502026557922, 'reward_std': 0.09766349196434021, 'kl': 1.166015625, 'epoch': 0.85}
+ 85%|████████▌ | 3654/4286 [24:11:27<3:57:18, 22.53s/it] 85%|████████▌ | 3655/4286 [24:11:50<3:58:20, 22.66s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.7368371201828792, 'learning_rate': 1.472235184321045e-07, 'completion_length': 383.91966247558594, 'rewards/only_full_func_accuracy_reward': 0.6785714328289032, 'rewards/format_reward': 1.0, 'reward': 1.6785715222358704, 'reward_std': 0.041482940316200256, 'kl': 0.04150390625, 'epoch': 0.85}
+ 85%|████████▌ | 3655/4286 [24:11:50<3:58:20, 22.66s/it] 85%|████████▌ | 3656/4286 [24:12:11<3:54:50, 22.37s/it]                                                        {'loss': 0.047, 'grad_norm': 2.7118039728916608, 'learning_rate': 1.4699020065328976e-07, 'completion_length': 367.6785888671875, 'rewards/only_full_func_accuracy_reward': 0.7284226715564728, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.719494104385376, 'reward_std': 0.12233233824372292, 'kl': 1.169921875, 'epoch': 0.85}
+ 85%|████████▌ | 3656/4286 [24:12:11<3:54:50, 22.37s/it] 85%|████████▌ | 3657/4286 [24:12:35<3:57:44, 22.68s/it]                                                        {'loss': 0.0147, 'grad_norm': 1.9528778189333087, 'learning_rate': 1.46756882874475e-07, 'completion_length': 382.83929443359375, 'rewards/only_full_func_accuracy_reward': 0.6861607730388641, 'rewards/format_reward': 1.0, 'reward': 1.6861608624458313, 'reward_std': 0.045983707532286644, 'kl': 0.3681640625, 'epoch': 0.85}
+ 85%|████████▌ | 3657/4286 [24:12:35<3:57:44, 22.68s/it] 85%|████████▌ | 3658/4286 [24:12:58<3:58:57, 22.83s/it]                                                        {'loss': 0.0734, 'grad_norm': 2.099226641946582, 'learning_rate': 1.4652356509566028e-07, 'completion_length': 402.1339416503906, 'rewards/only_full_func_accuracy_reward': 0.7679248452186584, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.758996307849884, 'reward_std': 0.1349165327847004, 'kl': 1.8359375, 'epoch': 0.85}
+ 85%|████████▌ | 3658/4286 [24:12:58<3:58:57, 22.83s/it] 85%|████████▌ | 3659/4286 [24:13:20<3:56:00, 22.58s/it]                                                        {'loss': 0.036, 'grad_norm': 6.335665721913933, 'learning_rate': 1.4629024731684553e-07, 'completion_length': 368.3393096923828, 'rewards/only_full_func_accuracy_reward': 0.7187500298023224, 'rewards/format_reward': 1.0, 'reward': 1.7187500596046448, 'reward_std': 0.0470422487705946, 'kl': 0.90234375, 'epoch': 0.85}
+ 85%|████████▌ | 3659/4286 [24:13:20<3:56:00, 22.58s/it] 85%|████████▌ | 3660/4286 [24:13:44<4:00:51, 23.09s/it]                                                        {'loss': 0.0293, 'grad_norm': 3.008976131509307, 'learning_rate': 1.4605692953803078e-07, 'completion_length': 415.5714416503906, 'rewards/only_full_func_accuracy_reward': 0.642857164144516, 'rewards/format_reward': 1.0, 'reward': 1.6428571939468384, 'reward_std': 0.12099828943610191, 'kl': 0.732421875, 'epoch': 0.85}
+ 85%|████████▌ | 3660/4286 [24:13:44<4:00:51, 23.09s/it] 85%|████████▌ | 3661/4286 [24:14:08<4:03:42, 23.40s/it]                                                        {'loss': 0.0697, 'grad_norm': 4.346422137227962, 'learning_rate': 1.4582361175921603e-07, 'completion_length': 398.2410888671875, 'rewards/only_full_func_accuracy_reward': 0.5968751013278961, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5879464745521545, 'reward_std': 0.1118219830095768, 'kl': 1.7421875, 'epoch': 0.85}
+ 85%|████████▌ | 3661/4286 [24:14:08<4:03:42, 23.40s/it] 85%|████████▌ | 3662/4286 [24:14:30<3:58:34, 22.94s/it]                                                        {'loss': 0.0122, 'grad_norm': 3.5145628121448453, 'learning_rate': 1.455902939804013e-07, 'completion_length': 354.2232360839844, 'rewards/only_full_func_accuracy_reward': 0.6897321939468384, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6808037161827087, 'reward_std': 0.064867346547544, 'kl': 0.3046875, 'epoch': 0.85}
+ 85%|████████▌ | 3662/4286 [24:14:30<3:58:34, 22.94s/it] 85%|████████▌ | 3663/4286 [24:14:52<3:55:32, 22.68s/it]                                                        {'loss': 0.031, 'grad_norm': 1.8768701481053642, 'learning_rate': 1.4535697620158655e-07, 'completion_length': 348.7053680419922, 'rewards/only_full_func_accuracy_reward': 0.7468750476837158, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7379465103149414, 'reward_std': 0.04695465927943587, 'kl': 0.77099609375, 'epoch': 0.85}
+ 85%|████████▌ | 3663/4286 [24:14:52<3:55:32, 22.68s/it] 85%|████████▌ | 3664/4286 [24:15:13<3:50:11, 22.21s/it]                                                        {'loss': 0.0021, 'grad_norm': 0.5653738402831325, 'learning_rate': 1.451236584227718e-07, 'completion_length': 328.0357360839844, 'rewards/only_full_func_accuracy_reward': 0.7693452537059784, 'rewards/format_reward': 1.0, 'reward': 1.7693453431129456, 'reward_std': 0.03748396784067154, 'kl': 0.052734375, 'epoch': 0.85}
+ 85%|████████▌ | 3664/4286 [24:15:13<3:50:11, 22.21s/it] 86%|████████▌ | 3665/4286 [24:15:37<3:53:58, 22.61s/it]                                                        {'loss': 0.018, 'grad_norm': 18.288862163290666, 'learning_rate': 1.4489034064395705e-07, 'completion_length': 374.9553680419922, 'rewards/only_full_func_accuracy_reward': 0.7455357313156128, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.736607313156128, 'reward_std': 0.1116032563149929, 'kl': 0.4486083984375, 'epoch': 0.86}
+ 86%|████████▌ | 3665/4286 [24:15:37<3:53:58, 22.61s/it] 86%|████████▌ | 3666/4286 [24:16:00<3:55:00, 22.74s/it]                                                        {'loss': 0.0417, 'grad_norm': 1.9372942289479087, 'learning_rate': 1.446570228651423e-07, 'completion_length': 378.50001525878906, 'rewards/only_full_func_accuracy_reward': 0.5925595462322235, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5836310386657715, 'reward_std': 0.08234161511063576, 'kl': 1.0390625, 'epoch': 0.86}
+ 86%|████████▌ | 3666/4286 [24:16:00<3:55:00, 22.74s/it] 86%|████████▌ | 3667/4286 [24:16:26<4:03:51, 23.64s/it]                                                        {'loss': 0.0259, 'grad_norm': 1.4960203633891833, 'learning_rate': 1.4442370508632757e-07, 'completion_length': 424.66966247558594, 'rewards/only_full_func_accuracy_reward': 0.740114837884903, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7311863899230957, 'reward_std': 0.07652743672952056, 'kl': 0.645751953125, 'epoch': 0.86}
+ 86%|████████▌ | 3667/4286 [24:16:26<4:03:51, 23.64s/it] 86%|████████▌ | 3668/4286 [24:16:46<3:53:32, 22.67s/it]                                                        {'loss': 0.0132, 'grad_norm': 0.5784741740970771, 'learning_rate': 1.4419038730751282e-07, 'completion_length': 335.90179443359375, 'rewards/only_full_func_accuracy_reward': 0.758184552192688, 'rewards/format_reward': 1.0, 'reward': 1.7581846117973328, 'reward_std': 0.0344957634806633, 'kl': 0.330322265625, 'epoch': 0.86}
+ 86%|████████▌ | 3668/4286 [24:16:46<3:53:32, 22.67s/it] 86%|████████▌ | 3669/4286 [24:17:08<3:52:25, 22.60s/it]                                                        {'loss': 0.0561, 'grad_norm': 2.2985202139575582, 'learning_rate': 1.4395706952869807e-07, 'completion_length': 383.9285888671875, 'rewards/only_full_func_accuracy_reward': 0.5937500298023224, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.5758929252624512, 'reward_std': 0.07094572857022285, 'kl': 1.3984375, 'epoch': 0.86}
+ 86%|████████▌ | 3669/4286 [24:17:08<3:52:25, 22.60s/it] 86%|████████▌ | 3670/4286 [24:17:32<3:55:45, 22.96s/it]                                                        {'loss': 0.002, 'grad_norm': 0.829301445038527, 'learning_rate': 1.4372375174988332e-07, 'completion_length': 384.54466247558594, 'rewards/only_full_func_accuracy_reward': 0.7157738506793976, 'rewards/format_reward': 1.0, 'reward': 1.7157739400863647, 'reward_std': 0.032911455258727074, 'kl': 0.0491943359375, 'epoch': 0.86}
+ 86%|████████▌ | 3670/4286 [24:17:32<3:55:45, 22.96s/it] 86%|████████▌ | 3671/4286 [24:17:56<3:58:28, 23.27s/it]                                                        {'loss': 0.051, 'grad_norm': 1.534546601929045, 'learning_rate': 1.434904339710686e-07, 'completion_length': 385.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.630952388048172, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.6041668057441711, 'reward_std': 0.09912803769111633, 'kl': 1.27197265625, 'epoch': 0.86}
+ 86%|████████▌ | 3671/4286 [24:17:56<3:58:28, 23.27s/it] 86%|████████▌ | 3672/4286 [24:18:19<3:56:43, 23.13s/it]                                                        {'loss': 0.0199, 'grad_norm': 2.6682078813745242, 'learning_rate': 1.4325711619225384e-07, 'completion_length': 395.6160888671875, 'rewards/only_full_func_accuracy_reward': 0.6860119998455048, 'rewards/format_reward': 1.0, 'reward': 1.6860120296478271, 'reward_std': 0.07833469659090042, 'kl': 0.498046875, 'epoch': 0.86}
+ 86%|████████▌ | 3672/4286 [24:18:19<3:56:43, 23.13s/it] 86%|████████▌ | 3673/4286 [24:18:43<3:59:12, 23.41s/it]                                                        {'loss': 0.0377, 'grad_norm': 0.9518059833459562, 'learning_rate': 1.430237984134391e-07, 'completion_length': 389.5000305175781, 'rewards/only_full_func_accuracy_reward': 0.760416716337204, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.751488208770752, 'reward_std': 0.0949702076613903, 'kl': 0.9427490234375, 'epoch': 0.86}
+ 86%|████████▌ | 3673/4286 [24:18:43<3:59:12, 23.41s/it] 86%|████████▌ | 3674/4286 [24:19:05<3:54:59, 23.04s/it]                                                        {'loss': 0.0058, 'grad_norm': 1.5592693526099684, 'learning_rate': 1.4279048063462434e-07, 'completion_length': 346.9643096923828, 'rewards/only_full_func_accuracy_reward': 0.705357164144516, 'rewards/format_reward': 1.0, 'reward': 1.7053572535514832, 'reward_std': 0.04648858401924372, 'kl': 0.1453857421875, 'epoch': 0.86}
+ 86%|████████▌ | 3674/4286 [24:19:05<3:54:59, 23.04s/it] 86%|████████▌ | 3675/4286 [24:19:29<3:55:34, 23.13s/it]                                                        {'loss': 0.0343, 'grad_norm': 2.6339594845731327, 'learning_rate': 1.425571628558096e-07, 'completion_length': 390.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.6505952775478363, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6416667699813843, 'reward_std': 0.07620885595679283, 'kl': 0.8572998046875, 'epoch': 0.86}
+ 86%|████████▌ | 3675/4286 [24:19:29<3:55:34, 23.13s/it] 86%|████████▌ | 3676/4286 [24:19:53<3:57:44, 23.39s/it]                                                        {'loss': 0.0115, 'grad_norm': 0.6494839764461059, 'learning_rate': 1.4232384507699486e-07, 'completion_length': 392.7410888671875, 'rewards/only_full_func_accuracy_reward': 0.7329546213150024, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.724026083946228, 'reward_std': 0.08027833327651024, 'kl': 0.28814697265625, 'epoch': 0.86}
+ 86%|████████▌ | 3676/4286 [24:19:53<3:57:44, 23.39s/it] 86%|████████▌ | 3677/4286 [24:20:14<3:51:27, 22.80s/it]                                                        {'loss': 0.0081, 'grad_norm': 0.4051772795810133, 'learning_rate': 1.420905272981801e-07, 'completion_length': 336.9732208251953, 'rewards/only_full_func_accuracy_reward': 0.6681548058986664, 'rewards/format_reward': 1.0, 'reward': 1.6681548953056335, 'reward_std': 0.04133125767111778, 'kl': 0.200927734375, 'epoch': 0.86}
+ 86%|████████▌ | 3677/4286 [24:20:14<3:51:27, 22.80s/it] 86%|████████▌ | 3678/4286 [24:20:35<3:44:55, 22.20s/it]                                                        {'loss': 0.0112, 'grad_norm': 0.6269190235411298, 'learning_rate': 1.4185720951936536e-07, 'completion_length': 354.79466247558594, 'rewards/only_full_func_accuracy_reward': 0.737351268529892, 'rewards/format_reward': 1.0, 'reward': 1.7373512983322144, 'reward_std': 0.04390740022063255, 'kl': 0.2799072265625, 'epoch': 0.86}
+ 86%|████████▌ | 3678/4286 [24:20:35<3:44:55, 22.20s/it] 86%|████████▌ | 3679/4286 [24:20:56<3:42:51, 22.03s/it]                                                        {'loss': 0.0076, 'grad_norm': 1.1720106609474905, 'learning_rate': 1.416238917405506e-07, 'completion_length': 372.68751525878906, 'rewards/only_full_func_accuracy_reward': 0.6726190745830536, 'rewards/format_reward': 1.0, 'reward': 1.672619104385376, 'reward_std': 0.020893159322440624, 'kl': 0.1917724609375, 'epoch': 0.86}
+ 86%|████████▌ | 3679/4286 [24:20:56<3:42:51, 22.03s/it] 86%|████████▌ | 3680/4286 [24:21:19<3:44:31, 22.23s/it]                                                        {'loss': 0.0031, 'grad_norm': 1.1019268181210162, 'learning_rate': 1.4139057396173586e-07, 'completion_length': 371.96429443359375, 'rewards/only_full_func_accuracy_reward': 0.7552084028720856, 'rewards/format_reward': 1.0, 'reward': 1.755208432674408, 'reward_std': 0.014579705893993378, 'kl': 0.0770263671875, 'epoch': 0.86}
+ 86%|████████▌ | 3680/4286 [24:21:19<3:44:31, 22.23s/it] 86%|████████▌ | 3681/4286 [24:21:43<3:48:32, 22.67s/it]                                                        {'loss': 0.0144, 'grad_norm': 1.4545654950327715, 'learning_rate': 1.4115725618292113e-07, 'completion_length': 406.0535888671875, 'rewards/only_full_func_accuracy_reward': 0.675595223903656, 'rewards/format_reward': 1.0, 'reward': 1.6755953431129456, 'reward_std': 0.0858274046331644, 'kl': 0.35986328125, 'epoch': 0.86}
+ 86%|████████▌ | 3681/4286 [24:21:43<3:48:32, 22.67s/it] 86%|████████▌ | 3682/4286 [24:22:05<3:47:18, 22.58s/it]                                                        {'loss': 0.0026, 'grad_norm': 0.20073569470432842, 'learning_rate': 1.4092393840410638e-07, 'completion_length': 373.54466247558594, 'rewards/only_full_func_accuracy_reward': 0.7857143580913544, 'rewards/format_reward': 1.0, 'reward': 1.7857144474983215, 'reward_std': 0.0, 'kl': 0.064453125, 'epoch': 0.86}
+ 86%|████████▌ | 3682/4286 [24:22:05<3:47:18, 22.58s/it] 86%|████████▌ | 3683/4286 [24:22:27<3:44:48, 22.37s/it]                                                        {'loss': 0.0014, 'grad_norm': 0.48997678119543076, 'learning_rate': 1.4069062062529163e-07, 'completion_length': 362.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.8363095819950104, 'rewards/format_reward': 1.0, 'reward': 1.8363096714019775, 'reward_std': 0.00841793604195118, 'kl': 0.0360107421875, 'epoch': 0.86}
+ 86%|████████▌ | 3683/4286 [24:22:27<3:44:48, 22.37s/it] 86%|████████▌ | 3684/4286 [24:22:51<3:48:43, 22.80s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.6172587038017908, 'learning_rate': 1.4045730284647688e-07, 'completion_length': 378.64288330078125, 'rewards/only_full_func_accuracy_reward': 0.7187500596046448, 'rewards/format_reward': 1.0, 'reward': 1.7187501192092896, 'reward_std': 0.05774491559714079, 'kl': 0.0445556640625, 'epoch': 0.86}
+ 86%|████████▌ | 3684/4286 [24:22:51<3:48:43, 22.80s/it] 86%|████████▌ | 3685/4286 [24:23:14<3:50:04, 22.97s/it]                                                        {'loss': 0.0025, 'grad_norm': 0.46327948654309287, 'learning_rate': 1.4022398506766215e-07, 'completion_length': 381.35716247558594, 'rewards/only_full_func_accuracy_reward': 0.677827388048172, 'rewards/format_reward': 1.0, 'reward': 1.6778274774551392, 'reward_std': 0.041749054566025734, 'kl': 0.0626220703125, 'epoch': 0.86}
+ 86%|████████▌ | 3685/4286 [24:23:14<3:50:04, 22.97s/it] 86%|████████▌ | 3686/4286 [24:23:39<3:55:40, 23.57s/it]                                                        {'loss': 0.021, 'grad_norm': 1.162941719982559, 'learning_rate': 1.399906672888474e-07, 'completion_length': 427.6250305175781, 'rewards/only_full_func_accuracy_reward': 0.8102678656578064, 'rewards/format_reward': 1.0, 'reward': 1.8102680444717407, 'reward_std': 0.048923506401479244, 'kl': 0.52734375, 'epoch': 0.86}
+ 86%|████████▌ | 3686/4286 [24:23:39<3:55:40, 23.57s/it] 86%|████████▌ | 3687/4286 [24:24:01<3:50:41, 23.11s/it]                                                        {'loss': 0.0032, 'grad_norm': 0.738382096775331, 'learning_rate': 1.3975734951003265e-07, 'completion_length': 337.5893096923828, 'rewards/only_full_func_accuracy_reward': 0.85491082072258, 'rewards/format_reward': 1.0, 'reward': 1.8549108505249023, 'reward_std': 0.04712266847491264, 'kl': 0.0787353515625, 'epoch': 0.86}
+ 86%|████████▌ | 3687/4286 [24:24:01<3:50:41, 23.11s/it] 86%|████████▌ | 3688/4286 [24:24:25<3:52:48, 23.36s/it]                                                        {'loss': 0.0055, 'grad_norm': 2.202086183142295, 'learning_rate': 1.395240317312179e-07, 'completion_length': 385.33929443359375, 'rewards/only_full_func_accuracy_reward': 0.7083333730697632, 'rewards/format_reward': 1.0, 'reward': 1.7083334922790527, 'reward_std': 0.07722658291459084, 'kl': 0.137451171875, 'epoch': 0.86}
+ 86%|████████▌ | 3688/4286 [24:24:25<3:52:48, 23.36s/it] 86%|████████▌ | 3689/4286 [24:24:48<3:51:03, 23.22s/it]                                                        {'loss': 0.013, 'grad_norm': 2.166435466675995, 'learning_rate': 1.3929071395240315e-07, 'completion_length': 383.40179443359375, 'rewards/only_full_func_accuracy_reward': 0.7879464626312256, 'rewards/format_reward': 1.0, 'reward': 1.7879465818405151, 'reward_std': 0.06103004887700081, 'kl': 0.32421875, 'epoch': 0.86}
+ 86%|████████▌ | 3689/4286 [24:24:48<3:51:03, 23.22s/it] 86%|████████▌ | 3690/4286 [24:25:13<3:55:02, 23.66s/it]                                                        {'loss': 0.0256, 'grad_norm': 1.383363963313276, 'learning_rate': 1.3905739617358842e-07, 'completion_length': 445.3303680419922, 'rewards/only_full_func_accuracy_reward': 0.6808035969734192, 'rewards/format_reward': 1.0, 'reward': 1.680803656578064, 'reward_std': 0.07061998173594475, 'kl': 0.6416015625, 'epoch': 0.86}
+ 86%|████████▌ | 3690/4286 [24:25:13<3:55:02, 23.66s/it] 86%|████████▌ | 3691/4286 [24:25:35<3:49:57, 23.19s/it]                                                        {'loss': 0.0215, 'grad_norm': 0.7086599841389605, 'learning_rate': 1.3882407839477367e-07, 'completion_length': 329.00001525878906, 'rewards/only_full_func_accuracy_reward': 0.7150297462940216, 'rewards/format_reward': 1.0, 'reward': 1.7150298953056335, 'reward_std': 0.03840136155486107, 'kl': 0.534912109375, 'epoch': 0.86}
+ 86%|████████▌ | 3691/4286 [24:25:35<3:49:57, 23.19s/it] 86%|████████▌ | 3692/4286 [24:25:56<3:44:37, 22.69s/it]                                                        {'loss': 0.006, 'grad_norm': 3.8309569580781786, 'learning_rate': 1.3859076061595892e-07, 'completion_length': 332.43751525878906, 'rewards/only_full_func_accuracy_reward': 0.7760416865348816, 'rewards/format_reward': 1.0, 'reward': 1.7760417461395264, 'reward_std': 0.03547286242246628, 'kl': 0.1500244140625, 'epoch': 0.86}
+ 86%|████████▌ | 3692/4286 [24:25:56<3:44:37, 22.69s/it] 86%|████████▌ | 3693/4286 [24:26:18<3:40:58, 22.36s/it]                                                        {'loss': 0.0064, 'grad_norm': 1.047195019321781, 'learning_rate': 1.3835744283714417e-07, 'completion_length': 369.7857208251953, 'rewards/only_full_func_accuracy_reward': 0.7267857789993286, 'rewards/format_reward': 1.0, 'reward': 1.7267858386039734, 'reward_std': 0.00874817743897438, 'kl': 0.1591796875, 'epoch': 0.86}
+ 86%|████████▌ | 3693/4286 [24:26:18<3:40:58, 22.36s/it] 86%|████████▌ | 3694/4286 [24:26:40<3:38:40, 22.16s/it]                                                        {'loss': 0.0133, 'grad_norm': 2.6277099029530766, 'learning_rate': 1.3812412505832944e-07, 'completion_length': 342.9732360839844, 'rewards/only_full_func_accuracy_reward': 0.584077388048172, 'rewards/format_reward': 1.0, 'reward': 1.5840774774551392, 'reward_std': 0.014579704962670803, 'kl': 0.3330078125, 'epoch': 0.86}
+ 86%|████████▌ | 3694/4286 [24:26:40<3:38:40, 22.16s/it] 86%|████████▌ | 3695/4286 [24:27:01<3:36:50, 22.01s/it]                                                        {'loss': 0.0128, 'grad_norm': 1.3535105967282108, 'learning_rate': 1.378908072795147e-07, 'completion_length': 341.2946472167969, 'rewards/only_full_func_accuracy_reward': 0.8744048178195953, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8654763102531433, 'reward_std': 0.05703336652368307, 'kl': 0.3212890625, 'epoch': 0.86}
+ 86%|████████▌ | 3695/4286 [24:27:01<3:36:50, 22.01s/it] 86%|████████▌ | 3696/4286 [24:27:22<3:31:34, 21.52s/it]                                                        {'loss': 0.0102, 'grad_norm': 1.07010452841167, 'learning_rate': 1.3765748950069994e-07, 'completion_length': 331.12501525878906, 'rewards/only_full_func_accuracy_reward': 0.7336309850215912, 'rewards/format_reward': 1.0, 'reward': 1.7336310744285583, 'reward_std': 0.05671358574181795, 'kl': 0.2548828125, 'epoch': 0.86}
+ 86%|████████▌ | 3696/4286 [24:27:22<3:31:34, 21.52s/it] 86%|████████▋ | 3697/4286 [24:27:44<3:33:57, 21.80s/it]                                                        {'loss': 0.0014, 'grad_norm': 0.22049868454186908, 'learning_rate': 1.374241717218852e-07, 'completion_length': 388.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.6398809552192688, 'rewards/format_reward': 1.0, 'reward': 1.6398810744285583, 'reward_std': 0.022271769121289253, 'kl': 0.03485107421875, 'epoch': 0.86}
+ 86%|████████▋ | 3697/4286 [24:27:44<3:33:57, 21.80s/it] 86%|████████▋ | 3698/4286 [24:28:08<3:40:31, 22.50s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.8910286328417203, 'learning_rate': 1.3719085394307044e-07, 'completion_length': 377.8214569091797, 'rewards/only_full_func_accuracy_reward': 0.752232164144516, 'rewards/format_reward': 1.0, 'reward': 1.7522322535514832, 'reward_std': 0.0421218890696764, 'kl': 0.0399169921875, 'epoch': 0.86}
+ 86%|████████▋ | 3698/4286 [24:28:08<3:40:31, 22.50s/it] 86%|████████▋ | 3699/4286 [24:28:31<3:41:08, 22.60s/it]                                                        {'loss': 0.002, 'grad_norm': 2.7492004993034618, 'learning_rate': 1.3695753616425571e-07, 'completion_length': 384.8214569091797, 'rewards/only_full_func_accuracy_reward': 0.674107164144516, 'rewards/format_reward': 1.0, 'reward': 1.6741071939468384, 'reward_std': 0.0704878680408001, 'kl': 0.048828125, 'epoch': 0.86}
+ 86%|████████▋ | 3699/4286 [24:28:31<3:41:08, 22.60s/it] 86%|████████▋ | 3700/4286 [24:28:55<3:43:06, 22.84s/it]                                                        {'loss': 0.0273, 'grad_norm': 6.384732818442533, 'learning_rate': 1.3672421838544096e-07, 'completion_length': 411.48216247558594, 'rewards/only_full_func_accuracy_reward': 0.6964286267757416, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6875001192092896, 'reward_std': 0.10934402048587799, 'kl': 0.68359375, 'epoch': 0.86}
+ 86%|████████▋ | 3700/4286 [24:28:55<3:43:06, 22.84s/it] 86%|████████▋ | 3701/4286 [24:30:05<6:02:03, 37.13s/it]                                                        {'loss': 0.0045, 'grad_norm': 12.004805380639384, 'learning_rate': 1.364909006066262e-07, 'completion_length': 392.1964569091797, 'rewards/only_full_func_accuracy_reward': 0.8142857253551483, 'rewards/format_reward': 1.0, 'reward': 1.814285695552826, 'reward_std': 0.015456289984285831, 'kl': 0.1123046875, 'epoch': 0.86}
+ 86%|████████▋ | 3701/4286 [24:30:05<6:02:03, 37.13s/it] 86%|████████▋ | 3702/4286 [24:30:27<5:17:30, 32.62s/it]                                                        {'loss': 0.0069, 'grad_norm': 3.75598688932016, 'learning_rate': 1.3625758282781146e-07, 'completion_length': 370.4464569091797, 'rewards/only_full_func_accuracy_reward': 0.7001489102840424, 'rewards/format_reward': 1.0, 'reward': 1.7001489400863647, 'reward_std': 0.053956761956214905, 'kl': 0.17333984375, 'epoch': 0.86}
+ 86%|████████▋ | 3702/4286 [24:30:27<5:17:30, 32.62s/it] 86%|████████▋ | 3703/4286 [24:30:51<4:50:43, 29.92s/it]                                                        {'loss': 0.0021, 'grad_norm': 1.0074318117609427, 'learning_rate': 1.360242650489967e-07, 'completion_length': 348.77679443359375, 'rewards/only_full_func_accuracy_reward': 0.6830357611179352, 'rewards/format_reward': 1.0, 'reward': 1.6830358505249023, 'reward_std': 0.02607661299407482, 'kl': 0.052001953125, 'epoch': 0.86}
+ 86%|████████▋ | 3703/4286 [24:30:51<4:50:43, 29.92s/it] 86%|████████▋ | 3704/4286 [24:31:15<4:32:48, 28.12s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.755004644063241, 'learning_rate': 1.3579094727018198e-07, 'completion_length': 396.2143096923828, 'rewards/only_full_func_accuracy_reward': 0.6964285969734192, 'rewards/format_reward': 1.0, 'reward': 1.696428656578064, 'reward_std': 0.016532503068447113, 'kl': 0.0389404296875, 'epoch': 0.86}
+ 86%|████████▋ | 3704/4286 [24:31:15<4:32:48, 28.12s/it] 86%|████████▋ | 3705/4286 [24:31:36<4:13:46, 26.21s/it]                                                        {'loss': 0.0102, 'grad_norm': 1.2653558459309064, 'learning_rate': 1.3555762949136723e-07, 'completion_length': 383.9018096923828, 'rewards/only_full_func_accuracy_reward': 0.6622024178504944, 'rewards/format_reward': 1.0, 'reward': 1.662202537059784, 'reward_std': 0.01582866534590721, 'kl': 0.25634765625, 'epoch': 0.86}
+ 86%|████████▋ | 3705/4286 [24:31:36<4:13:46, 26.21s/it] 86%|████████▋ | 3706/4286 [24:32:00<4:04:43, 25.32s/it]                                                        {'loss': 0.0123, 'grad_norm': 0.6893774521670274, 'learning_rate': 1.3532431171255248e-07, 'completion_length': 389.33038330078125, 'rewards/only_full_func_accuracy_reward': 0.7083333432674408, 'rewards/format_reward': 1.0, 'reward': 1.708333432674408, 'reward_std': 0.05604028236120939, 'kl': 0.3067626953125, 'epoch': 0.86}
+ 86%|████████▋ | 3706/4286 [24:32:00<4:04:43, 25.32s/it] 86%|████████▋ | 3707/4286 [24:32:21<3:53:55, 24.24s/it]                                                        {'loss': 0.0014, 'grad_norm': 0.9696545278256219, 'learning_rate': 1.3509099393373773e-07, 'completion_length': 363.08929443359375, 'rewards/only_full_func_accuracy_reward': 0.70163694024086, 'rewards/format_reward': 1.0, 'reward': 1.7016370296478271, 'reward_std': 0.033079481683671474, 'kl': 0.035888671875, 'epoch': 0.86}
+ 86%|████████▋ | 3707/4286 [24:32:21<3:53:55, 24.24s/it] 87%|████████▋ | 3708/4286 [24:32:44<3:49:06, 23.78s/it]                                                        {'loss': 0.0362, 'grad_norm': 1.0504123841544941, 'learning_rate': 1.34857676154923e-07, 'completion_length': 387.23216247558594, 'rewards/only_full_func_accuracy_reward': 0.6919643580913544, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6830358505249023, 'reward_std': 0.07683771103620529, 'kl': 0.901123046875, 'epoch': 0.87}
+ 87%|████████▋ | 3708/4286 [24:32:44<3:49:06, 23.78s/it] 87%|████████▋ | 3709/4286 [24:33:07<3:45:51, 23.49s/it]                                                        {'loss': 0.0346, 'grad_norm': 2.091014287267201, 'learning_rate': 1.3462435837610825e-07, 'completion_length': 370.7143096923828, 'rewards/only_full_func_accuracy_reward': 0.7998512387275696, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7909227013587952, 'reward_std': 0.09773551858961582, 'kl': 0.8631591796875, 'epoch': 0.87}
+ 87%|████████▋ | 3709/4286 [24:33:07<3:45:51, 23.49s/it] 87%|████████▋ | 3710/4286 [24:33:28<3:37:56, 22.70s/it]                                                        {'loss': 0.0058, 'grad_norm': 3.1114452707300564, 'learning_rate': 1.343910405972935e-07, 'completion_length': 339.3928680419922, 'rewards/only_full_func_accuracy_reward': 0.7900297939777374, 'rewards/format_reward': 1.0, 'reward': 1.7900298833847046, 'reward_std': 0.05073799751698971, 'kl': 0.1455078125, 'epoch': 0.87}
+ 87%|████████▋ | 3710/4286 [24:33:28<3:37:56, 22.70s/it] 87%|████████▋ | 3711/4286 [24:33:51<3:39:43, 22.93s/it]                                                        {'loss': 0.0063, 'grad_norm': 2.0963797924277796, 'learning_rate': 1.3415772281847875e-07, 'completion_length': 384.8214569091797, 'rewards/only_full_func_accuracy_reward': 0.7529762387275696, 'rewards/format_reward': 1.0, 'reward': 1.7529762983322144, 'reward_std': 0.01232259813696146, 'kl': 0.15673828125, 'epoch': 0.87}
+ 87%|████████▋ | 3711/4286 [24:33:51<3:39:43, 22.93s/it] 87%|████████▋ | 3712/4286 [24:34:14<3:38:53, 22.88s/it]                                                        {'loss': 0.0188, 'grad_norm': 2.277918100625476, 'learning_rate': 1.33924405039664e-07, 'completion_length': 382.7410888671875, 'rewards/only_full_func_accuracy_reward': 0.7663690745830536, 'rewards/format_reward': 1.0, 'reward': 1.7663691639900208, 'reward_std': 0.05056404322385788, 'kl': 0.4697265625, 'epoch': 0.87}
+ 87%|████████▋ | 3712/4286 [24:34:14<3:38:53, 22.88s/it] 87%|████████▋ | 3713/4286 [24:34:37<3:39:46, 23.01s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.03421602010196673, 'learning_rate': 1.3369108726084928e-07, 'completion_length': 386.33038330078125, 'rewards/only_full_func_accuracy_reward': 0.8630952835083008, 'rewards/format_reward': 1.0, 'reward': 1.8630953431129456, 'reward_std': 0.0, 'kl': 0.0428466796875, 'epoch': 0.87}
+ 87%|████████▋ | 3713/4286 [24:34:37<3:39:46, 23.01s/it] 87%|████████▋ | 3714/4286 [24:35:00<3:37:52, 22.85s/it]                                                        {'loss': 0.0487, 'grad_norm': 5.740273236824047, 'learning_rate': 1.3345776948203452e-07, 'completion_length': 415.6785888671875, 'rewards/only_full_func_accuracy_reward': 0.6592262089252472, 'rewards/format_reward': 1.0, 'reward': 1.6592262387275696, 'reward_std': 0.04599698632955551, 'kl': 1.2200927734375, 'epoch': 0.87}
+ 87%|████████▋ | 3714/4286 [24:35:00<3:37:52, 22.85s/it] 87%|████████▋ | 3715/4286 [24:35:24<3:42:22, 23.37s/it]                                                        {'loss': 0.0381, 'grad_norm': 1.7776820056121596, 'learning_rate': 1.3322445170321977e-07, 'completion_length': 369.7232360839844, 'rewards/only_full_func_accuracy_reward': 0.5232142955064774, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5142858028411865, 'reward_std': 0.0955832302570343, 'kl': 0.951171875, 'epoch': 0.87}
+ 87%|████████▋ | 3715/4286 [24:35:24<3:42:22, 23.37s/it] 87%|████████▋ | 3716/4286 [24:35:48<3:42:47, 23.45s/it]                                                        {'loss': 0.0015, 'grad_norm': 1.4466742573869806, 'learning_rate': 1.3299113392440502e-07, 'completion_length': 423.04466247558594, 'rewards/only_full_func_accuracy_reward': 0.6922618746757507, 'rewards/format_reward': 1.0, 'reward': 1.6922619342803955, 'reward_std': 0.02903712820261717, 'kl': 0.03759765625, 'epoch': 0.87}
+ 87%|████████▋ | 3716/4286 [24:35:48<3:42:47, 23.45s/it] 87%|████████▋ | 3717/4286 [24:36:11<3:41:26, 23.35s/it]                                                        {'loss': 0.0087, 'grad_norm': 0.8593716686009186, 'learning_rate': 1.327578161455903e-07, 'completion_length': 384.4107208251953, 'rewards/only_full_func_accuracy_reward': 0.6843750476837158, 'rewards/format_reward': 1.0, 'reward': 1.6843750476837158, 'reward_std': 0.031009788624942303, 'kl': 0.21875, 'epoch': 0.87}
+ 87%|████████▋ | 3717/4286 [24:36:11<3:41:26, 23.35s/it] 87%|████████▋ | 3718/4286 [24:36:33<3:35:56, 22.81s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.2304669424206287, 'learning_rate': 1.3252449836677555e-07, 'completion_length': 364.5089569091797, 'rewards/only_full_func_accuracy_reward': 0.7455357611179352, 'rewards/format_reward': 1.0, 'reward': 1.7455358505249023, 'reward_std': 0.018483899533748627, 'kl': 0.0377197265625, 'epoch': 0.87}
+ 87%|████████▋ | 3718/4286 [24:36:33<3:35:56, 22.81s/it] 87%|████████▋ | 3719/4286 [24:36:57<3:39:18, 23.21s/it]                                                        {'loss': 0.0556, 'grad_norm': 3.8057369298717014, 'learning_rate': 1.322911805879608e-07, 'completion_length': 399.2768096923828, 'rewards/only_full_func_accuracy_reward': 0.6686011850833893, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.6418156027793884, 'reward_std': 0.1718304269015789, 'kl': 1.3896484375, 'epoch': 0.87}
+ 87%|████████▋ | 3719/4286 [24:36:57<3:39:18, 23.21s/it] 87%|████████▋ | 3720/4286 [24:37:21<3:40:51, 23.41s/it]                                                        {'loss': 0.053, 'grad_norm': 1.5766539904909789, 'learning_rate': 1.3205786280914604e-07, 'completion_length': 407.31251525878906, 'rewards/only_full_func_accuracy_reward': 0.5848214477300644, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5758929252624512, 'reward_std': 0.10458807274699211, 'kl': 1.326171875, 'epoch': 0.87}
+ 87%|████████▋ | 3720/4286 [24:37:21<3:40:51, 23.41s/it] 87%|████████▋ | 3721/4286 [24:37:44<3:40:19, 23.40s/it]                                                        {'loss': 0.0153, 'grad_norm': 3.7571298288638464, 'learning_rate': 1.318245450303313e-07, 'completion_length': 364.2232360839844, 'rewards/only_full_func_accuracy_reward': 0.7514881491661072, 'rewards/format_reward': 1.0, 'reward': 1.751488208770752, 'reward_std': 0.016684189438819885, 'kl': 0.380859375, 'epoch': 0.87}
+ 87%|████████▋ | 3721/4286 [24:37:44<3:40:19, 23.40s/it] 87%|████████▋ | 3722/4286 [24:38:08<3:42:27, 23.67s/it]                                                        {'loss': 0.0378, 'grad_norm': 1.8450236390982393, 'learning_rate': 1.3159122725151657e-07, 'completion_length': 419.8393096923828, 'rewards/only_full_func_accuracy_reward': 0.7155612707138062, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6977041959762573, 'reward_std': 0.10894649103283882, 'kl': 0.9453125, 'epoch': 0.87}
+ 87%|████████▋ | 3722/4286 [24:38:08<3:42:27, 23.67s/it] 87%|████████▋ | 3723/4286 [24:38:32<3:42:15, 23.69s/it]                                                        {'loss': 0.0416, 'grad_norm': 1.795904791360178, 'learning_rate': 1.3135790947270182e-07, 'completion_length': 365.96429443359375, 'rewards/only_full_func_accuracy_reward': 0.6517857313156128, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.633928656578064, 'reward_std': 0.1444917656481266, 'kl': 1.044921875, 'epoch': 0.87}
+ 87%|████████▋ | 3723/4286 [24:38:32<3:42:15, 23.69s/it] 87%|████████▋ | 3724/4286 [24:38:53<3:35:22, 22.99s/it]                                                        {'loss': 0.0088, 'grad_norm': 0.9928258981811673, 'learning_rate': 1.3112459169388706e-07, 'completion_length': 312.85716247558594, 'rewards/only_full_func_accuracy_reward': 0.658482164144516, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6495537161827087, 'reward_std': 0.058472282253205776, 'kl': 0.220458984375, 'epoch': 0.87}
+ 87%|████████▋ | 3724/4286 [24:38:53<3:35:22, 22.99s/it] 87%|████████▋ | 3725/4286 [24:39:17<3:35:32, 23.05s/it]                                                        {'loss': 0.0188, 'grad_norm': 3.061951163282508, 'learning_rate': 1.308912739150723e-07, 'completion_length': 376.1518096923828, 'rewards/only_full_func_accuracy_reward': 0.8727678954601288, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8638393878936768, 'reward_std': 0.07500067446380854, 'kl': 0.47021484375, 'epoch': 0.87}
+ 87%|████████▋ | 3725/4286 [24:39:17<3:35:32, 23.05s/it] 87%|████████▋ | 3726/4286 [24:39:39<3:33:22, 22.86s/it]                                                        {'loss': 0.0063, 'grad_norm': 0.8618369968590597, 'learning_rate': 1.3065795613625756e-07, 'completion_length': 370.9464416503906, 'rewards/only_full_func_accuracy_reward': 0.5440476536750793, 'rewards/format_reward': 1.0, 'reward': 1.5440476536750793, 'reward_std': 0.0484818983823061, 'kl': 0.157958984375, 'epoch': 0.87}
+ 87%|████████▋ | 3726/4286 [24:39:39<3:33:22, 22.86s/it] 87%|████████▋ | 3727/4286 [24:40:02<3:31:56, 22.75s/it]                                                        {'loss': 0.0296, 'grad_norm': 0.7615396288151104, 'learning_rate': 1.3042463835744284e-07, 'completion_length': 314.33038330078125, 'rewards/only_full_func_accuracy_reward': 0.7239584028720856, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7150298357009888, 'reward_std': 0.052485326305031776, 'kl': 0.7408447265625, 'epoch': 0.87}
+ 87%|████████▋ | 3727/4286 [24:40:02<3:31:56, 22.75s/it] 87%|████████▋ | 3728/4286 [24:40:25<3:33:18, 22.94s/it]                                                        {'loss': 0.0136, 'grad_norm': 0.9579869735458069, 'learning_rate': 1.3019132057862809e-07, 'completion_length': 378.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.5892857313156128, 'rewards/format_reward': 1.0, 'reward': 1.5892857909202576, 'reward_std': 0.09581531956791878, 'kl': 0.34130859375, 'epoch': 0.87}
+ 87%|████████▋ | 3728/4286 [24:40:25<3:33:18, 22.94s/it] 87%|████████▋ | 3729/4286 [24:40:48<3:33:59, 23.05s/it]                                                        {'loss': 0.0294, 'grad_norm': 2.896604459059819, 'learning_rate': 1.2995800279981333e-07, 'completion_length': 355.2143096923828, 'rewards/only_full_func_accuracy_reward': 0.7834821939468384, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7656251192092896, 'reward_std': 0.1489824652671814, 'kl': 0.73046875, 'epoch': 0.87}
+ 87%|████████▋ | 3729/4286 [24:40:48<3:33:59, 23.05s/it] 87%|████████▋ | 3730/4286 [24:41:11<3:32:20, 22.92s/it]                                                        {'loss': 0.0137, 'grad_norm': 2.909759581828396, 'learning_rate': 1.2972468502099858e-07, 'completion_length': 361.31251525878906, 'rewards/only_full_func_accuracy_reward': 0.73288694024086, 'rewards/format_reward': 1.0, 'reward': 1.7328870296478271, 'reward_std': 0.0147313941270113, 'kl': 0.34130859375, 'epoch': 0.87}
+ 87%|████████▋ | 3730/4286 [24:41:11<3:32:20, 22.92s/it] 87%|████████▋ | 3731/4286 [24:41:33<3:30:32, 22.76s/it]                                                        {'loss': 0.0343, 'grad_norm': 0.8926575537537912, 'learning_rate': 1.2949136724218386e-07, 'completion_length': 372.2589416503906, 'rewards/only_full_func_accuracy_reward': 0.8214286267757416, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8125001192092896, 'reward_std': 0.06413301825523376, 'kl': 0.857177734375, 'epoch': 0.87}
+ 87%|████████▋ | 3731/4286 [24:41:33<3:30:32, 22.76s/it] 87%|████████▋ | 3732/4286 [24:41:56<3:31:13, 22.88s/it]                                                        {'loss': 0.0137, 'grad_norm': 0.6147251077826017, 'learning_rate': 1.292580494633691e-07, 'completion_length': 392.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.6562500298023224, 'rewards/format_reward': 1.0, 'reward': 1.6562501192092896, 'reward_std': 0.012626906856894493, 'kl': 0.3424072265625, 'epoch': 0.87}
+ 87%|████████▋ | 3732/4286 [24:41:56<3:31:13, 22.88s/it] 87%|████████▋ | 3733/4286 [24:42:20<3:33:01, 23.11s/it]                                                        {'loss': 0.006, 'grad_norm': 1.6886877529079958, 'learning_rate': 1.2902473168455436e-07, 'completion_length': 399.8660888671875, 'rewards/only_full_func_accuracy_reward': 0.5818452835083008, 'rewards/format_reward': 1.0, 'reward': 1.5818453431129456, 'reward_std': 0.008266251534223557, 'kl': 0.150390625, 'epoch': 0.87}
+ 87%|████████▋ | 3733/4286 [24:42:20<3:33:01, 23.11s/it] 87%|████████▋ | 3734/4286 [24:42:43<3:33:14, 23.18s/it]                                                        {'loss': 0.0172, 'grad_norm': 0.7526417480700864, 'learning_rate': 1.287914139057396e-07, 'completion_length': 389.83929443359375, 'rewards/only_full_func_accuracy_reward': 0.7997024059295654, 'rewards/format_reward': 1.0, 'reward': 1.7997024655342102, 'reward_std': 0.03337622154504061, 'kl': 0.43212890625, 'epoch': 0.87}
+ 87%|████████▋ | 3734/4286 [24:42:43<3:33:14, 23.18s/it] 87%|████████▋ | 3735/4286 [24:43:06<3:30:31, 22.93s/it]                                                        {'loss': 0.0137, 'grad_norm': 1.1793483323891383, 'learning_rate': 1.2855809612692485e-07, 'completion_length': 361.6607208251953, 'rewards/only_full_func_accuracy_reward': 0.65476194024086, 'rewards/format_reward': 1.0, 'reward': 1.6547620296478271, 'reward_std': 0.02364857867360115, 'kl': 0.3408203125, 'epoch': 0.87}
+ 87%|████████▋ | 3735/4286 [24:43:06<3:30:31, 22.93s/it] 87%|████████▋ | 3736/4286 [24:43:25<3:21:19, 21.96s/it]                                                        {'loss': 0.021, 'grad_norm': 3.6434277140427014, 'learning_rate': 1.2832477834811013e-07, 'completion_length': 271.8214416503906, 'rewards/only_full_func_accuracy_reward': 0.6418155133724213, 'rewards/format_reward': 1.0, 'reward': 1.6418155431747437, 'reward_std': 0.07313442975282669, 'kl': 0.52587890625, 'epoch': 0.87}
+ 87%|████████▋ | 3736/4286 [24:43:25<3:21:19, 21.96s/it] 87%|████████▋ | 3737/4286 [24:43:50<3:27:53, 22.72s/it]                                                        {'loss': 0.0242, 'grad_norm': 3.777330889655436, 'learning_rate': 1.2809146056929538e-07, 'completion_length': 386.02679443359375, 'rewards/only_full_func_accuracy_reward': 0.7066965103149414, 'rewards/format_reward': 1.0, 'reward': 1.7066965103149414, 'reward_std': 0.057660866528749466, 'kl': 0.6064453125, 'epoch': 0.87}
+ 87%|████████▋ | 3737/4286 [24:43:50<3:27:53, 22.72s/it] 87%|████████▋ | 3738/4286 [24:44:13<3:28:25, 22.82s/it]                                                        {'loss': 0.0052, 'grad_norm': 1.4290413008663743, 'learning_rate': 1.2785814279048063e-07, 'completion_length': 375.8571472167969, 'rewards/only_full_func_accuracy_reward': 0.6190476417541504, 'rewards/format_reward': 1.0, 'reward': 1.61904776096344, 'reward_std': 0.0, 'kl': 0.12890625, 'epoch': 0.87}
+ 87%|████████▋ | 3738/4286 [24:44:13<3:28:25, 22.82s/it] 87%|████████▋ | 3739/4286 [24:44:36<3:28:47, 22.90s/it]                                                        {'loss': 0.0014, 'grad_norm': 0.5977803751693659, 'learning_rate': 1.2762482501166587e-07, 'completion_length': 403.7232360839844, 'rewards/only_full_func_accuracy_reward': 0.694196492433548, 'rewards/format_reward': 1.0, 'reward': 1.6941965818405151, 'reward_std': 0.025904426351189613, 'kl': 0.03399658203125, 'epoch': 0.87}
+ 87%|████████▋ | 3739/4286 [24:44:36<3:28:47, 22.90s/it] 87%|████████▋ | 3740/4286 [24:44:59<3:28:02, 22.86s/it]                                                        {'loss': 0.0149, 'grad_norm': 3.660825262795977, 'learning_rate': 1.2739150723285115e-07, 'completion_length': 379.35716247558594, 'rewards/only_full_func_accuracy_reward': 0.7452380955219269, 'rewards/format_reward': 1.0, 'reward': 1.745238184928894, 'reward_std': 0.05109922029078007, 'kl': 0.3740234375, 'epoch': 0.87}
+ 87%|████████▋ | 3740/4286 [24:44:59<3:28:02, 22.86s/it] 87%|████████▋ | 3741/4286 [24:45:22<3:28:50, 22.99s/it]                                                        {'loss': 0.0294, 'grad_norm': 0.46055346153754767, 'learning_rate': 1.271581894540364e-07, 'completion_length': 402.40179443359375, 'rewards/only_full_func_accuracy_reward': 0.7157738506793976, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7068453431129456, 'reward_std': 0.03788072057068348, 'kl': 0.732421875, 'epoch': 0.87}
+ 87%|████████▋ | 3741/4286 [24:45:22<3:28:50, 22.99s/it] 87%|████████▋ | 3742/4286 [24:45:46<3:30:01, 23.17s/it]                                                        {'loss': 0.0155, 'grad_norm': 2.1398238634277207, 'learning_rate': 1.2692487167522165e-07, 'completion_length': 403.71429443359375, 'rewards/only_full_func_accuracy_reward': 0.7410714626312256, 'rewards/format_reward': 1.0, 'reward': 1.7410715222358704, 'reward_std': 0.04434390366077423, 'kl': 0.38916015625, 'epoch': 0.87}
+ 87%|████████▋ | 3742/4286 [24:45:46<3:30:01, 23.17s/it] 87%|████████▋ | 3743/4286 [24:46:09<3:30:03, 23.21s/it]                                                        {'loss': 0.0361, 'grad_norm': 1.794465705836161, 'learning_rate': 1.266915538964069e-07, 'completion_length': 434.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.6572916507720947, 'rewards/format_reward': 1.0, 'reward': 1.6572917699813843, 'reward_std': 0.0352395111694932, 'kl': 0.8997802734375, 'epoch': 0.87}
+ 87%|████████▋ | 3743/4286 [24:46:09<3:30:03, 23.21s/it] 87%|████████▋ | 3744/4286 [24:46:32<3:28:50, 23.12s/it]                                                        {'loss': 0.0187, 'grad_norm': 1.3476262301626996, 'learning_rate': 1.2645823611759214e-07, 'completion_length': 364.1607360839844, 'rewards/only_full_func_accuracy_reward': 0.7730655372142792, 'rewards/format_reward': 1.0, 'reward': 1.7730655670166016, 'reward_std': 0.06772555410861969, 'kl': 0.46826171875, 'epoch': 0.87}
+ 87%|████████▋ | 3744/4286 [24:46:32<3:28:50, 23.12s/it] 87%|████████▋ | 3745/4286 [24:46:54<3:25:21, 22.77s/it]                                                        {'loss': 0.0337, 'grad_norm': 1.6851336278152746, 'learning_rate': 1.2622491833877742e-07, 'completion_length': 360.46429443359375, 'rewards/only_full_func_accuracy_reward': 0.6184524297714233, 'rewards/format_reward': 1.0, 'reward': 1.6184524893760681, 'reward_std': 0.08248784393072128, 'kl': 0.8463134765625, 'epoch': 0.87}
+ 87%|████████▋ | 3745/4286 [24:46:54<3:25:21, 22.77s/it] 87%|████████▋ | 3746/4286 [24:47:16<3:23:18, 22.59s/it]                                                        {'loss': 0.025, 'grad_norm': 1.9360195629400632, 'learning_rate': 1.2599160055996267e-07, 'completion_length': 345.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.7909226715564728, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.781994104385376, 'reward_std': 0.07146356254816055, 'kl': 0.625, 'epoch': 0.87}
+ 87%|████████▋ | 3746/4286 [24:47:16<3:23:18, 22.59s/it] 87%|████████▋ | 3747/4286 [24:47:38<3:21:04, 22.38s/it]                                                        {'loss': 0.0054, 'grad_norm': 1.5017022413147345, 'learning_rate': 1.2575828278114792e-07, 'completion_length': 389.9732360839844, 'rewards/only_full_func_accuracy_reward': 0.7693453133106232, 'rewards/format_reward': 1.0, 'reward': 1.7693453431129456, 'reward_std': 0.053574531339108944, 'kl': 0.1348876953125, 'epoch': 0.87}
+ 87%|████████▋ | 3747/4286 [24:47:38<3:21:04, 22.38s/it] 87%|████████▋ | 3748/4286 [24:48:01<3:21:51, 22.51s/it]                                                        {'loss': 0.0143, 'grad_norm': 0.577347258806097, 'learning_rate': 1.2552496500233316e-07, 'completion_length': 413.23216247558594, 'rewards/only_full_func_accuracy_reward': 0.7976191341876984, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7886906266212463, 'reward_std': 0.048580411821603775, 'kl': 0.3575439453125, 'epoch': 0.87}
+ 87%|████████▋ | 3748/4286 [24:48:01<3:21:51, 22.51s/it] 87%|████████▋ | 3749/4286 [24:48:22<3:18:06, 22.13s/it]                                                        {'loss': 0.084, 'grad_norm': 3.6409172222908617, 'learning_rate': 1.2529164722351841e-07, 'completion_length': 366.0714416503906, 'rewards/only_full_func_accuracy_reward': 0.7120535969734192, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.6763393878936768, 'reward_std': 0.2261311411857605, 'kl': 2.09765625, 'epoch': 0.87}
+ 87%|████████▋ | 3749/4286 [24:48:22<3:18:06, 22.13s/it] 87%|████████▋ | 3750/4286 [24:48:46<3:22:31, 22.67s/it]                                                        {'loss': 0.0109, 'grad_norm': 1.9214303059444258, 'learning_rate': 1.250583294447037e-07, 'completion_length': 407.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.7790178954601288, 'rewards/format_reward': 1.0, 'reward': 1.7790179252624512, 'reward_std': 0.039004601538181305, 'kl': 0.2733154296875, 'epoch': 0.87}
+ 87%|████████▋ | 3750/4286 [24:48:46<3:22:31, 22.67s/it] 88%|████████▊ | 3751/4286 [24:49:09<3:22:27, 22.71s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.3311093171651971, 'learning_rate': 1.2482501166588894e-07, 'completion_length': 352.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.7008928954601288, 'rewards/format_reward': 1.0, 'reward': 1.7008929252624512, 'reward_std': 0.04611424636095762, 'kl': 0.040283203125, 'epoch': 0.88}
+ 88%|████████▊ | 3751/4286 [24:49:09<3:22:27, 22.71s/it] 88%|████████▊ | 3752/4286 [24:49:32<3:22:46, 22.78s/it]                                                        {'loss': 0.0025, 'grad_norm': 0.416027563144117, 'learning_rate': 1.2459169388707419e-07, 'completion_length': 376.83038330078125, 'rewards/only_full_func_accuracy_reward': 0.7626488208770752, 'rewards/format_reward': 1.0, 'reward': 1.7626489400863647, 'reward_std': 0.018940359354019165, 'kl': 0.0626220703125, 'epoch': 0.88}
+ 88%|████████▊ | 3752/4286 [24:49:32<3:22:46, 22.78s/it] 88%|████████▊ | 3753/4286 [24:49:54<3:21:06, 22.64s/it]                                                        {'loss': 0.0038, 'grad_norm': 0.4054606379582614, 'learning_rate': 1.2435837610825943e-07, 'completion_length': 372.6964416503906, 'rewards/only_full_func_accuracy_reward': 0.8058036267757416, 'rewards/format_reward': 1.0, 'reward': 1.805803656578064, 'reward_std': 0.021868856623768806, 'kl': 0.095703125, 'epoch': 0.88}
+ 88%|████████▊ | 3753/4286 [24:49:54<3:21:06, 22.64s/it] 88%|████████▊ | 3754/4286 [24:50:16<3:19:21, 22.48s/it]                                                        {'loss': 0.0263, 'grad_norm': 1.152938206405341, 'learning_rate': 1.241250583294447e-07, 'completion_length': 363.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.8370536267757416, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8281250596046448, 'reward_std': 0.09049283154308796, 'kl': 0.654296875, 'epoch': 0.88}
+ 88%|████████▊ | 3754/4286 [24:50:16<3:19:21, 22.48s/it] 88%|████████▊ | 3755/4286 [24:50:39<3:19:25, 22.53s/it]                                                        {'loss': 0.01, 'grad_norm': 2.869393363700685, 'learning_rate': 1.2389174055062996e-07, 'completion_length': 374.0178680419922, 'rewards/only_full_func_accuracy_reward': 0.7241071462631226, 'rewards/format_reward': 1.0, 'reward': 1.7241072058677673, 'reward_std': 0.03339904360473156, 'kl': 0.249755859375, 'epoch': 0.88}
+ 88%|████████▊ | 3755/4286 [24:50:39<3:19:25, 22.53s/it] 88%|████████▊ | 3756/4286 [24:51:01<3:18:19, 22.45s/it]                                                        {'loss': 0.0033, 'grad_norm': 1.8680245094271282, 'learning_rate': 1.236584227718152e-07, 'completion_length': 352.9285888671875, 'rewards/only_full_func_accuracy_reward': 0.6778273284435272, 'rewards/format_reward': 1.0, 'reward': 1.6778274774551392, 'reward_std': 0.07513580471277237, 'kl': 0.083251953125, 'epoch': 0.88}
+ 88%|████████▊ | 3756/4286 [24:51:01<3:18:19, 22.45s/it] 88%|████████▊ | 3757/4286 [24:51:25<3:21:24, 22.84s/it]                                                        {'loss': 0.0303, 'grad_norm': 1.4640113185301582, 'learning_rate': 1.2342510499300046e-07, 'completion_length': 385.68751525878906, 'rewards/only_full_func_accuracy_reward': 0.6755952835083008, 'rewards/format_reward': 1.0, 'reward': 1.6755953431129456, 'reward_std': 0.11087430641055107, 'kl': 0.758544921875, 'epoch': 0.88}
+ 88%|████████▊ | 3757/4286 [24:51:25<3:21:24, 22.84s/it] 88%|████████▊ | 3758/4286 [24:51:49<3:23:36, 23.14s/it]                                                        {'loss': 0.0782, 'grad_norm': 1.2471961547459802, 'learning_rate': 1.231917872141857e-07, 'completion_length': 423.79466247558594, 'rewards/only_full_func_accuracy_reward': 0.5727040767669678, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.5548471212387085, 'reward_std': 0.14341063983738422, 'kl': 1.953125, 'epoch': 0.88}
+ 88%|████████▊ | 3758/4286 [24:51:49<3:23:36, 23.14s/it] 88%|████████▊ | 3759/4286 [24:52:12<3:23:30, 23.17s/it]                                                        {'loss': 0.015, 'grad_norm': 0.7235595696662505, 'learning_rate': 1.2295846943537098e-07, 'completion_length': 384.00001525878906, 'rewards/only_full_func_accuracy_reward': 0.7209821939468384, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7120537161827087, 'reward_std': 0.09965423494577408, 'kl': 0.3729248046875, 'epoch': 0.88}
+ 88%|████████▊ | 3759/4286 [24:52:12<3:23:30, 23.17s/it] 88%|████████▊ | 3760/4286 [24:52:34<3:20:59, 22.93s/it]                                                        {'loss': 0.0268, 'grad_norm': 1.2219624626948598, 'learning_rate': 1.2272515165655623e-07, 'completion_length': 349.15179443359375, 'rewards/only_full_func_accuracy_reward': 0.8266369700431824, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.817708432674408, 'reward_std': 0.12611448764801025, 'kl': 0.6688232421875, 'epoch': 0.88}
+ 88%|████████▊ | 3760/4286 [24:52:34<3:20:59, 22.93s/it] 88%|████████▊ | 3761/4286 [24:52:56<3:17:21, 22.55s/it]                                                        {'loss': 0.0174, 'grad_norm': 0.8341433596816986, 'learning_rate': 1.2249183387774148e-07, 'completion_length': 403.8214569091797, 'rewards/only_full_func_accuracy_reward': 0.7299107313156128, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.720982313156128, 'reward_std': 0.06478303112089634, 'kl': 0.43408203125, 'epoch': 0.88}
+ 88%|████████▊ | 3761/4286 [24:52:56<3:17:21, 22.55s/it] 88%|████████▊ | 3762/4286 [24:53:21<3:23:10, 23.26s/it]                                                        {'loss': 0.0223, 'grad_norm': 1.3212944296785174, 'learning_rate': 1.2225851609892673e-07, 'completion_length': 420.9910888671875, 'rewards/only_full_func_accuracy_reward': 0.6482143700122833, 'rewards/format_reward': 1.0, 'reward': 1.6482143998146057, 'reward_std': 0.05353493243455887, 'kl': 0.5595703125, 'epoch': 0.88}
+ 88%|████████▊ | 3762/4286 [24:53:21<3:23:10, 23.26s/it] 88%|████████▊ | 3763/4286 [24:53:43<3:19:51, 22.93s/it]                                                        {'loss': 0.0303, 'grad_norm': 0.9449131492633728, 'learning_rate': 1.22025198320112e-07, 'completion_length': 316.61607360839844, 'rewards/only_full_func_accuracy_reward': 0.7976190447807312, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7886905670166016, 'reward_std': 0.06934959441423416, 'kl': 0.75439453125, 'epoch': 0.88}
+ 88%|████████▊ | 3763/4286 [24:53:43<3:19:51, 22.93s/it] 88%|████████▊ | 3764/4286 [24:54:05<3:17:58, 22.76s/it]                                                        {'loss': 0.0253, 'grad_norm': 1.6312167140039322, 'learning_rate': 1.2179188054129725e-07, 'completion_length': 389.6339416503906, 'rewards/only_full_func_accuracy_reward': 0.7477679550647736, 'rewards/format_reward': 1.0, 'reward': 1.7477680444717407, 'reward_std': 0.017495112027972937, 'kl': 0.634765625, 'epoch': 0.88}
+ 88%|████████▊ | 3764/4286 [24:54:05<3:17:58, 22.76s/it] 88%|████████▊ | 3765/4286 [24:54:28<3:18:08, 22.82s/it]                                                        {'loss': 0.0269, 'grad_norm': 9.59821928406383, 'learning_rate': 1.215585627624825e-07, 'completion_length': 350.1964569091797, 'rewards/only_full_func_accuracy_reward': 0.8288690745830536, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8199406266212463, 'reward_std': 0.0754571333527565, 'kl': 0.6728515625, 'epoch': 0.88}
+ 88%|████████▊ | 3765/4286 [24:54:28<3:18:08, 22.82s/it] 88%|████████▊ | 3766/4286 [24:54:49<3:13:08, 22.29s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.5025610207587814, 'learning_rate': 1.2132524498366775e-07, 'completion_length': 341.3839416503906, 'rewards/only_full_func_accuracy_reward': 0.6852678954601288, 'rewards/format_reward': 1.0, 'reward': 1.685267984867096, 'reward_std': 0.05831661447882652, 'kl': 0.042724609375, 'epoch': 0.88}
+ 88%|████████▊ | 3766/4286 [24:54:49<3:13:08, 22.29s/it] 88%|████████▊ | 3767/4286 [24:55:12<3:13:50, 22.41s/it]                                                        {'loss': 0.0145, 'grad_norm': 1.1153879740018535, 'learning_rate': 1.21091927204853e-07, 'completion_length': 381.8035888671875, 'rewards/only_full_func_accuracy_reward': 0.6949405074119568, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6860120296478271, 'reward_std': 0.05545169860124588, 'kl': 0.3634033203125, 'epoch': 0.88}
+ 88%|████████▊ | 3767/4286 [24:55:12<3:13:50, 22.41s/it] 88%|████████▊ | 3768/4286 [24:55:34<3:13:17, 22.39s/it]                                                        {'loss': 0.0599, 'grad_norm': 5.281464682731236, 'learning_rate': 1.2085860942603827e-07, 'completion_length': 365.0714569091797, 'rewards/only_full_func_accuracy_reward': 0.6648065447807312, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6469494700431824, 'reward_std': 0.10400760546326637, 'kl': 1.4921875, 'epoch': 0.88}
+ 88%|████████▊ | 3768/4286 [24:55:34<3:13:17, 22.39s/it] 88%|████████▊ | 3769/4286 [24:55:57<3:13:18, 22.43s/it]                                                        {'loss': 0.0298, 'grad_norm': 0.5964206567212561, 'learning_rate': 1.2062529164722352e-07, 'completion_length': 373.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.7299107611179352, 'rewards/format_reward': 1.0, 'reward': 1.7299109101295471, 'reward_std': 0.08146721683442593, 'kl': 0.7442626953125, 'epoch': 0.88}
+ 88%|████████▊ | 3769/4286 [24:55:57<3:13:18, 22.43s/it] 88%|████████▊ | 3770/4286 [24:56:19<3:13:07, 22.46s/it]                                                        {'loss': 0.0196, 'grad_norm': 6.989550017787056, 'learning_rate': 1.2039197386840877e-07, 'completion_length': 373.5535888671875, 'rewards/only_full_func_accuracy_reward': 0.90327388048172, 'rewards/format_reward': 1.0, 'reward': 1.9032739400863647, 'reward_std': 0.06170237623155117, 'kl': 0.49072265625, 'epoch': 0.88}
+ 88%|████████▊ | 3770/4286 [24:56:19<3:13:07, 22.46s/it] 88%|████████▊ | 3771/4286 [24:56:41<3:11:05, 22.26s/it]                                                        {'loss': 0.0187, 'grad_norm': 0.8996313494336511, 'learning_rate': 1.2015865608959402e-07, 'completion_length': 366.8303680419922, 'rewards/only_full_func_accuracy_reward': 0.7529762387275696, 'rewards/format_reward': 1.0, 'reward': 1.7529762983322144, 'reward_std': 0.04614697024226189, 'kl': 0.46630859375, 'epoch': 0.88}
+ 88%|████████▊ | 3771/4286 [24:56:41<3:11:05, 22.26s/it] 88%|████████▊ | 3772/4286 [24:57:04<3:11:38, 22.37s/it]                                                        {'loss': 0.0433, 'grad_norm': 1.6128023200214734, 'learning_rate': 1.1992533831077927e-07, 'completion_length': 398.71429443359375, 'rewards/only_full_func_accuracy_reward': 0.5811012387275696, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.5632442235946655, 'reward_std': 0.07110007479786873, 'kl': 1.079833984375, 'epoch': 0.88}
+ 88%|████████▊ | 3772/4286 [24:57:04<3:11:38, 22.37s/it] 88%|████████▊ | 3773/4286 [24:57:27<3:13:31, 22.63s/it]                                                        {'loss': 0.0163, 'grad_norm': 0.3132942196861651, 'learning_rate': 1.1969202053196454e-07, 'completion_length': 377.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.7559524178504944, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7470239400863647, 'reward_std': 0.05892556346952915, 'kl': 0.407470703125, 'epoch': 0.88}
+ 88%|████████▊ | 3773/4286 [24:57:27<3:13:31, 22.63s/it] 88%|████████▊ | 3774/4286 [24:57:50<3:13:04, 22.63s/it]                                                        {'loss': 0.0301, 'grad_norm': 1.634233510223172, 'learning_rate': 1.194587027531498e-07, 'completion_length': 394.5357360839844, 'rewards/only_full_func_accuracy_reward': 0.7209821939468384, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7120537161827087, 'reward_std': 0.05988425388932228, 'kl': 0.7503662109375, 'epoch': 0.88}
+ 88%|████████▊ | 3774/4286 [24:57:50<3:13:04, 22.63s/it] 88%|████████▊ | 3775/4286 [24:58:13<3:14:16, 22.81s/it]                                                        {'loss': 0.0268, 'grad_norm': 1.6649674202659437, 'learning_rate': 1.1922538497433504e-07, 'completion_length': 380.31251525878906, 'rewards/only_full_func_accuracy_reward': 0.7827381491661072, 'rewards/format_reward': 1.0, 'reward': 1.782738208770752, 'reward_std': 0.101027712225914, 'kl': 0.669921875, 'epoch': 0.88}
+ 88%|███████��▊ | 3775/4286 [24:58:13<3:14:16, 22.81s/it] 88%|████████▊ | 3776/4286 [24:58:35<3:11:28, 22.53s/it]                                                        {'loss': 0.017, 'grad_norm': 0.25066686885853523, 'learning_rate': 1.189920671955203e-07, 'completion_length': 373.8214416503906, 'rewards/only_full_func_accuracy_reward': 0.6138392984867096, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6049107909202576, 'reward_std': 0.06095472536981106, 'kl': 0.4287109375, 'epoch': 0.88}
+ 88%|████████▊ | 3776/4286 [24:58:35<3:11:28, 22.53s/it] 88%|████████▊ | 3777/4286 [24:58:58<3:12:12, 22.66s/it]                                                        {'loss': 0.0167, 'grad_norm': 0.7081161527882449, 'learning_rate': 1.1875874941670555e-07, 'completion_length': 388.3214569091797, 'rewards/only_full_func_accuracy_reward': 0.707589328289032, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6986608505249023, 'reward_std': 0.05682108085602522, 'kl': 0.4178466796875, 'epoch': 0.88}
+ 88%|████████▊ | 3777/4286 [24:58:58<3:12:12, 22.66s/it] 88%|████████▊ | 3778/4286 [24:59:20<3:09:38, 22.40s/it]                                                        {'loss': 0.0182, 'grad_norm': 3.616124833861707, 'learning_rate': 1.1852543163789081e-07, 'completion_length': 331.5089416503906, 'rewards/only_full_func_accuracy_reward': 0.7336309552192688, 'rewards/format_reward': 1.0, 'reward': 1.7336310744285583, 'reward_std': 0.07222433388233185, 'kl': 0.45361328125, 'epoch': 0.88}
+ 88%|████████▊ | 3778/4286 [24:59:20<3:09:38, 22.40s/it] 88%|████████▊ | 3779/4286 [24:59:42<3:09:55, 22.48s/it]                                                        {'loss': 0.0012, 'grad_norm': 0.20801578691011666, 'learning_rate': 1.1829211385907606e-07, 'completion_length': 386.31251525878906, 'rewards/only_full_func_accuracy_reward': 0.6205357611179352, 'rewards/format_reward': 1.0, 'reward': 1.6205357909202576, 'reward_std': 0.029462780803442, 'kl': 0.03094482421875, 'epoch': 0.88}
+ 88%|████████▊ | 3779/4286 [24:59:42<3:09:55, 22.48s/it] 88%|████████▊ | 3780/4286 [25:00:05<3:11:14, 22.68s/it]                                                        {'loss': 0.0047, 'grad_norm': 4.0296884388508545, 'learning_rate': 1.1805879608026131e-07, 'completion_length': 366.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.8169642984867096, 'rewards/format_reward': 1.0, 'reward': 1.8169644474983215, 'reward_std': 0.10491854697465897, 'kl': 0.118408203125, 'epoch': 0.88}
+ 88%|████████▊ | 3780/4286 [25:00:05<3:11:14, 22.68s/it] 88%|████████▊ | 3781/4286 [25:00:27<3:09:15, 22.49s/it]                                                        {'loss': 0.0471, 'grad_norm': 3.568983551864412, 'learning_rate': 1.1782547830144657e-07, 'completion_length': 345.1696472167969, 'rewards/only_full_func_accuracy_reward': 0.8221726715564728, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8132441639900208, 'reward_std': 0.05974957533180714, 'kl': 1.18310546875, 'epoch': 0.88}
+ 88%|████████▊ | 3781/4286 [25:00:27<3:09:15, 22.49s/it] 88%|████████▊ | 3782/4286 [25:00:50<3:07:58, 22.38s/it]                                                        {'loss': 0.0485, 'grad_norm': 3.0084029994843133, 'learning_rate': 1.1759216052263182e-07, 'completion_length': 369.5178680419922, 'rewards/only_full_func_accuracy_reward': 0.6696429252624512, 'rewards/format_reward': 1.0, 'reward': 1.669642984867096, 'reward_std': 0.07343868911266327, 'kl': 1.2127685546875, 'epoch': 0.88}
+ 88%|████████▊ | 3782/4286 [25:00:50<3:07:58, 22.38s/it] 88%|████████▊ | 3783/4286 [25:01:13<3:09:28, 22.60s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.4006016773767699, 'learning_rate': 1.1735884274381708e-07, 'completion_length': 385.00001525878906, 'rewards/only_full_func_accuracy_reward': 0.692708432674408, 'rewards/format_reward': 1.0, 'reward': 1.692708432674408, 'reward_std': 0.037524077109992504, 'kl': 0.0369873046875, 'epoch': 0.88}
+ 88%|████████▊ | 3783/4286 [25:01:13<3:09:28, 22.60s/it] 88%|████████▊ | 3784/4286 [25:01:35<3:07:23, 22.40s/it]                                                        {'loss': 0.0643, 'grad_norm': 1.07072720529003, 'learning_rate': 1.1712552496500233e-07, 'completion_length': 355.35716247558594, 'rewards/only_full_func_accuracy_reward': 0.6904762387275696, 'rewards/format_reward': 1.0, 'reward': 1.6904763579368591, 'reward_std': 0.11082062125205994, 'kl': 1.609375, 'epoch': 0.88}
+ 88%|████████▊ | 3784/4286 [25:01:35<3:07:23, 22.40s/it] 88%|████████▊ | 3785/4286 [25:01:57<3:08:04, 22.52s/it]                                                        {'loss': 0.0014, 'grad_norm': 0.5090617353242833, 'learning_rate': 1.1689220718618759e-07, 'completion_length': 390.2053680419922, 'rewards/only_full_func_accuracy_reward': 0.7730655372142792, 'rewards/format_reward': 1.0, 'reward': 1.7730655670166016, 'reward_std': 0.0469408743083477, 'kl': 0.0355224609375, 'epoch': 0.88}
+ 88%|████████▊ | 3785/4286 [25:01:57<3:08:04, 22.52s/it] 88%|████████▊ | 3786/4286 [25:02:20<3:09:03, 22.69s/it]                                                        {'loss': 0.016, 'grad_norm': 0.3496025462014152, 'learning_rate': 1.1665888940737284e-07, 'completion_length': 390.40179443359375, 'rewards/only_full_func_accuracy_reward': 0.7693453133106232, 'rewards/format_reward': 1.0, 'reward': 1.7693453431129456, 'reward_std': 0.03171699494123459, 'kl': 0.399169921875, 'epoch': 0.88}
+ 88%|████████▊ | 3786/4286 [25:02:20<3:09:03, 22.69s/it] 88%|████████▊ | 3787/4286 [25:02:43<3:08:45, 22.70s/it]                                                        {'loss': 0.028, 'grad_norm': 0.8846480013105575, 'learning_rate': 1.1642557162855809e-07, 'completion_length': 358.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.8251489102840424, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8162203431129456, 'reward_std': 0.07479553855955601, 'kl': 0.699462890625, 'epoch': 0.88}
+ 88%|████████▊ | 3787/4286 [25:02:43<3:08:45, 22.70s/it] 88%|████████▊ | 3788/4286 [25:03:07<3:10:49, 22.99s/it]                                                        {'loss': 0.0173, 'grad_norm': 0.44702903359899837, 'learning_rate': 1.1619225384974335e-07, 'completion_length': 394.9643096923828, 'rewards/only_full_func_accuracy_reward': 0.8125000894069672, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8035715818405151, 'reward_std': 0.06323435809463263, 'kl': 0.4320068359375, 'epoch': 0.88}
+ 88%|████████▊ | 3788/4286 [25:03:07<3:10:49, 22.99s/it] 88%|████████▊ | 3789/4286 [25:03:29<3:08:45, 22.79s/it]                                                        {'loss': 0.0528, 'grad_norm': 1.9213553780849633, 'learning_rate': 1.159589360709286e-07, 'completion_length': 396.52679443359375, 'rewards/only_full_func_accuracy_reward': 0.7328868806362152, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7150298953056335, 'reward_std': 0.1203136071562767, 'kl': 1.314453125, 'epoch': 0.88}
+ 88%|████████▊ | 3789/4286 [25:03:29<3:08:45, 22.79s/it] 88%|████████▊ | 3790/4286 [25:03:52<3:08:58, 22.86s/it]                                                        {'loss': 0.0149, 'grad_norm': 1.66920163313222, 'learning_rate': 1.1572561829211386e-07, 'completion_length': 389.6428680419922, 'rewards/only_full_func_accuracy_reward': 0.752976268529892, 'rewards/format_reward': 1.0, 'reward': 1.7529762983322144, 'reward_std': 0.0652767363935709, 'kl': 0.374755859375, 'epoch': 0.88}
+ 88%|████████▊ | 3790/4286 [25:03:52<3:08:58, 22.86s/it] 88%|████████▊ | 3791/4286 [25:04:15<3:07:51, 22.77s/it]                                                        {'loss': 0.0616, 'grad_norm': 1.1105656566676383, 'learning_rate': 1.1549230051329911e-07, 'completion_length': 379.15179443359375, 'rewards/only_full_func_accuracy_reward': 0.7383929193019867, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7294644117355347, 'reward_std': 0.08017623052001, 'kl': 1.5390625, 'epoch': 0.88}
+ 88%|████████▊ | 3791/4286 [25:04:15<3:07:51, 22.77s/it] 88%|████████▊ | 3792/4286 [25:04:37<3:06:06, 22.60s/it]                                                        {'loss': 0.0185, 'grad_norm': 1.6216006511380998, 'learning_rate': 1.1525898273448437e-07, 'completion_length': 380.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.79396653175354, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7850379943847656, 'reward_std': 0.08099181763827801, 'kl': 0.46466064453125, 'epoch': 0.88}
+ 88%|████████▊ | 3792/4286 [25:04:37<3:06:06, 22.60s/it] 88%|████████▊ | 3793/4286 [25:05:01<3:09:23, 23.05s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.608758587926895, 'learning_rate': 1.1502566495566962e-07, 'completion_length': 407.65179443359375, 'rewards/only_full_func_accuracy_reward': 0.7730655074119568, 'rewards/format_reward': 1.0, 'reward': 1.7730655670166016, 'reward_std': 0.05102826654911041, 'kl': 0.037841796875, 'epoch': 0.88}
+ 88%|████████▊ | 3793/4286 [25:05:01<3:09:23, 23.05s/it] 89%|████████▊ | 3794/4286 [25:05:24<3:08:20, 22.97s/it]                                                        {'loss': 0.0291, 'grad_norm': 2.4849697073576866, 'learning_rate': 1.1479234717685488e-07, 'completion_length': 375.33038330078125, 'rewards/only_full_func_accuracy_reward': 0.5989583730697632, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5900298357009888, 'reward_std': 0.1437220387160778, 'kl': 0.727783203125, 'epoch': 0.89}
+ 89%|█��██████▊ | 3794/4286 [25:05:24<3:08:20, 22.97s/it] 89%|████████▊ | 3795/4286 [25:05:46<3:05:48, 22.71s/it]                                                        {'loss': 0.0356, 'grad_norm': 0.4572272607700082, 'learning_rate': 1.1455902939804013e-07, 'completion_length': 365.6696472167969, 'rewards/only_full_func_accuracy_reward': 0.7046807408332825, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6868236660957336, 'reward_std': 0.10121893137693405, 'kl': 0.88720703125, 'epoch': 0.89}
+ 89%|████████▊ | 3795/4286 [25:05:46<3:05:48, 22.71s/it] 89%|████████▊ | 3796/4286 [25:06:08<3:03:19, 22.45s/it]                                                        {'loss': 0.0306, 'grad_norm': 1.7894066928938552, 'learning_rate': 1.1432571161922538e-07, 'completion_length': 351.1518096923828, 'rewards/only_full_func_accuracy_reward': 0.6034226417541504, 'rewards/format_reward': 1.0, 'reward': 1.60342276096344, 'reward_std': 0.053576577454805374, 'kl': 0.763427734375, 'epoch': 0.89}
+ 89%|████████▊ | 3796/4286 [25:06:08<3:03:19, 22.45s/it] 89%|████████▊ | 3797/4286 [25:06:31<3:04:02, 22.58s/it]                                                        {'loss': 0.0952, 'grad_norm': 1.9141589353114077, 'learning_rate': 1.1409239384041064e-07, 'completion_length': 393.6160888671875, 'rewards/only_full_func_accuracy_reward': 0.630151093006134, 'rewards/format_reward': 0.9642857313156128, 'reward': 1.5944368839263916, 'reward_std': 0.1398125495761633, 'kl': 2.380859375, 'epoch': 0.89}
+ 89%|████████▊ | 3797/4286 [25:06:31<3:04:02, 22.58s/it] 89%|████████▊ | 3798/4286 [25:06:53<3:02:27, 22.43s/it]                                                        {'loss': 0.0065, 'grad_norm': 0.702127765305044, 'learning_rate': 1.1385907606159589e-07, 'completion_length': 373.7589416503906, 'rewards/only_full_func_accuracy_reward': 0.827381044626236, 'rewards/format_reward': 1.0, 'reward': 1.8273810744285583, 'reward_std': 0.012626906856894493, 'kl': 0.1611328125, 'epoch': 0.89}
+ 89%|████████▊ | 3798/4286 [25:06:53<3:02:27, 22.43s/it] 89%|████████▊ | 3799/4286 [25:07:17<3:06:04, 22.93s/it]                                                        {'loss': 0.0599, 'grad_norm': 2.723315720446448, 'learning_rate': 1.1362575828278115e-07, 'completion_length': 385.1964569091797, 'rewards/only_full_func_accuracy_reward': 0.6666666865348816, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.657738208770752, 'reward_std': 0.08628293499350548, 'kl': 1.490234375, 'epoch': 0.89}
+ 89%|████████▊ | 3799/4286 [25:07:17<3:06:04, 22.93s/it] 89%|████████▊ | 3800/4286 [25:07:40<3:06:46, 23.06s/it]                                                        {'loss': 0.0256, 'grad_norm': 1.254238321243791, 'learning_rate': 1.133924405039664e-07, 'completion_length': 385.25001525878906, 'rewards/only_full_func_accuracy_reward': 0.7876487970352173, 'rewards/format_reward': 1.0, 'reward': 1.7876489162445068, 'reward_std': 0.05080778710544109, 'kl': 0.6392822265625, 'epoch': 0.89}
+ 89%|████████▊ | 3800/4286 [25:07:40<3:06:46, 23.06s/it] 89%|████████▊ | 3801/4286 [25:09:08<5:42:27, 42.37s/it]                                                        {'loss': 0.002, 'grad_norm': 1.5266955554345196, 'learning_rate': 1.1315912272515166e-07, 'completion_length': 371.0982208251953, 'rewards/only_full_func_accuracy_reward': 0.6793155372142792, 'rewards/format_reward': 1.0, 'reward': 1.6793155670166016, 'reward_std': 0.05721002072095871, 'kl': 0.0504150390625, 'epoch': 0.89}
+ 89%|████████▊ | 3801/4286 [25:09:08<5:42:27, 42.37s/it] 89%|████████▊ | 3802/4286 [25:09:27<4:47:04, 35.59s/it]                                                        {'loss': 0.0309, 'grad_norm': 1.6751372954694141, 'learning_rate': 1.1292580494633691e-07, 'completion_length': 393.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.6831845343112946, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6653274297714233, 'reward_std': 0.103059072047472, 'kl': 0.771728515625, 'epoch': 0.89}
+ 89%|████████▊ | 3802/4286 [25:09:27<4:47:04, 35.59s/it] 89%|████████▊ | 3803/4286 [25:09:46<4:05:58, 30.56s/it]                                                        {'loss': 0.0165, 'grad_norm': 1.1942334473817802, 'learning_rate': 1.1269248716752216e-07, 'completion_length': 386.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.7300595641136169, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7211310267448425, 'reward_std': 0.059003915870562196, 'kl': 0.4124755859375, 'epoch': 0.89}
+ 89%|████████▊ | 3803/4286 [25:09:46<4:05:58, 30.56s/it] 89%|████████▉ | 3804/4286 [25:10:06<3:40:21, 27.43s/it]                                                        {'loss': 0.0042, 'grad_norm': 0.9243697506646501, 'learning_rate': 1.1245916938870742e-07, 'completion_length': 390.7143096923828, 'rewards/only_full_func_accuracy_reward': 0.705357164144516, 'rewards/format_reward': 1.0, 'reward': 1.705357313156128, 'reward_std': 0.05260577704757452, 'kl': 0.106201171875, 'epoch': 0.89}
+ 89%|████████▉ | 3804/4286 [25:10:06<3:40:21, 27.43s/it] 89%|████████▉ | 3805/4286 [25:10:27<3:22:51, 25.30s/it]                                                        {'loss': 0.0091, 'grad_norm': 2.370035551966478, 'learning_rate': 1.1222585160989267e-07, 'completion_length': 404.3393096923828, 'rewards/only_full_func_accuracy_reward': 0.627232164144516, 'rewards/format_reward': 1.0, 'reward': 1.6272322535514832, 'reward_std': 0.03937845956534147, 'kl': 0.2269287109375, 'epoch': 0.89}
+ 89%|████████▉ | 3805/4286 [25:10:27<3:22:51, 25.30s/it] 89%|████████▉ | 3806/4286 [25:10:50<3:17:39, 24.71s/it]                                                        {'loss': 0.0602, 'grad_norm': 3.1372142401674945, 'learning_rate': 1.1199253383107793e-07, 'completion_length': 405.16966247558594, 'rewards/only_full_func_accuracy_reward': 0.7547123432159424, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7457838654518127, 'reward_std': 0.09094363451004028, 'kl': 1.50390625, 'epoch': 0.89}
+ 89%|████████▉ | 3806/4286 [25:10:50<3:17:39, 24.71s/it] 89%|████████▉ | 3807/4286 [25:11:14<3:15:47, 24.53s/it]                                                        {'loss': 0.04, 'grad_norm': 25.99962122173714, 'learning_rate': 1.1175921605226318e-07, 'completion_length': 409.14288330078125, 'rewards/only_full_func_accuracy_reward': 0.5312500298023224, 'rewards/format_reward': 1.0, 'reward': 1.5312501788139343, 'reward_std': 0.025353632867336273, 'kl': 1.00390625, 'epoch': 0.89}
+ 89%|████████▉ | 3807/4286 [25:11:14<3:15:47, 24.53s/it] 89%|████████▉ | 3808/4286 [25:11:36<3:10:02, 23.86s/it]                                                        {'loss': 0.0291, 'grad_norm': 1.8886837908132021, 'learning_rate': 1.1152589827344844e-07, 'completion_length': 382.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.6733630895614624, 'rewards/format_reward': 1.0, 'reward': 1.673363208770752, 'reward_std': 0.0668500754982233, 'kl': 0.7247314453125, 'epoch': 0.89}
+ 89%|████████▉ | 3808/4286 [25:11:36<3:10:02, 23.86s/it] 89%|████████▉ | 3809/4286 [25:12:00<3:08:37, 23.73s/it]                                                        {'loss': 0.0165, 'grad_norm': 3.9063858537612224, 'learning_rate': 1.1129258049463369e-07, 'completion_length': 404.3035888671875, 'rewards/only_full_func_accuracy_reward': 0.5535714775323868, 'rewards/format_reward': 1.0, 'reward': 1.5535715222358704, 'reward_std': 0.03818017989397049, 'kl': 0.41015625, 'epoch': 0.89}
+ 89%|████████▉ | 3809/4286 [25:12:00<3:08:37, 23.73s/it] 89%|████████▉ | 3810/4286 [25:12:22<3:05:13, 23.35s/it]                                                        {'loss': 0.0676, 'grad_norm': 2.759571017079307, 'learning_rate': 1.1105926271581894e-07, 'completion_length': 358.5714569091797, 'rewards/only_full_func_accuracy_reward': 0.71726194024086, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7083334922790527, 'reward_std': 0.09110962599515915, 'kl': 1.68359375, 'epoch': 0.89}
+ 89%|████████▉ | 3810/4286 [25:12:22<3:05:13, 23.35s/it] 89%|████████▉ | 3811/4286 [25:12:43<2:58:14, 22.51s/it]                                                        {'loss': 0.0566, 'grad_norm': 2.4957524102552457, 'learning_rate': 1.108259449370042e-07, 'completion_length': 321.02679443359375, 'rewards/only_full_func_accuracy_reward': 0.7001488506793976, 'rewards/format_reward': 1.0, 'reward': 1.7001489400863647, 'reward_std': 0.06432609632611275, 'kl': 1.4140625, 'epoch': 0.89}
+ 89%|████████▉ | 3811/4286 [25:12:43<2:58:14, 22.51s/it] 89%|████████▉ | 3812/4286 [25:13:07<3:00:45, 22.88s/it]                                                        {'loss': 0.027, 'grad_norm': 1.0328866415909987, 'learning_rate': 1.1059262715818945e-07, 'completion_length': 377.7857208251953, 'rewards/only_full_func_accuracy_reward': 0.6458333730697632, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6369048953056335, 'reward_std': 0.08412752114236355, 'kl': 0.6717529296875, 'epoch': 0.89}
+ 89%|████████▉ | 3812/4286 [25:13:07<3:00:45, 22.88s/it] 89%|████████▉ | 3813/4286 [25:13:30<3:00:50, 22.94s/it]                                                        {'loss': 0.0325, 'grad_norm': 18.56961063376612, 'learning_rate': 1.1035930937937471e-07, 'completion_length': 376.23216247558594, 'rewards/only_full_func_accuracy_reward': 0.6562500298023224, 'rewards/format_reward': 1.0, 'reward': 1.6562500596046448, 'reward_std': 0.023648572154343128, 'kl': 0.81396484375, 'epoch': 0.89}
+ 89%|██████��█▉ | 3813/4286 [25:13:30<3:00:50, 22.94s/it] 89%|████████▉ | 3814/4286 [25:13:54<3:02:32, 23.20s/it]                                                        {'loss': 0.0281, 'grad_norm': 0.7954401767228457, 'learning_rate': 1.1012599160055996e-07, 'completion_length': 372.16966247558594, 'rewards/only_full_func_accuracy_reward': 0.7366071939468384, 'rewards/format_reward': 1.0, 'reward': 1.7366072535514832, 'reward_std': 0.08402768895030022, 'kl': 0.70166015625, 'epoch': 0.89}
+ 89%|████████▉ | 3814/4286 [25:13:54<3:02:32, 23.20s/it] 89%|████████▉ | 3815/4286 [25:14:16<3:00:06, 22.94s/it]                                                        {'loss': 0.0014, 'grad_norm': 0.12634232750898283, 'learning_rate': 1.0989267382174522e-07, 'completion_length': 378.9910888671875, 'rewards/only_full_func_accuracy_reward': 0.8571428954601288, 'rewards/format_reward': 1.0, 'reward': 1.8571429252624512, 'reward_std': 0.03818017989397049, 'kl': 0.0340576171875, 'epoch': 0.89}
+ 89%|████████▉ | 3815/4286 [25:14:16<3:00:06, 22.94s/it] 89%|████████▉ | 3816/4286 [25:14:40<3:01:41, 23.19s/it]                                                        {'loss': 0.0074, 'grad_norm': 1.3349696515798903, 'learning_rate': 1.0965935604293047e-07, 'completion_length': 408.7768096923828, 'rewards/only_full_func_accuracy_reward': 0.761904776096344, 'rewards/format_reward': 1.0, 'reward': 1.7619048953056335, 'reward_std': 0.011021665297448635, 'kl': 0.185302734375, 'epoch': 0.89}
+ 89%|████████▉ | 3816/4286 [25:14:40<3:01:41, 23.19s/it] 89%|████████▉ | 3817/4286 [25:15:03<3:01:00, 23.16s/it]                                                        {'loss': 0.0914, 'grad_norm': 4.874593607809157, 'learning_rate': 1.0942603826411572e-07, 'completion_length': 343.1339416503906, 'rewards/only_full_func_accuracy_reward': 0.7294643223285675, 'rewards/format_reward': 1.0, 'reward': 1.7294644117355347, 'reward_std': 0.09728049486875534, 'kl': 2.28515625, 'epoch': 0.89}
+ 89%|████████▉ | 3817/4286 [25:15:03<3:01:00, 23.16s/it] 89%|████████▉ | 3818/4286 [25:15:24<2:56:54, 22.68s/it]                                                        {'loss': 0.0387, 'grad_norm': 5.209721134034957, 'learning_rate': 1.0919272048530097e-07, 'completion_length': 324.6607360839844, 'rewards/only_full_func_accuracy_reward': 0.7425595223903656, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7336310744285583, 'reward_std': 0.10307040065526962, 'kl': 0.96435546875, 'epoch': 0.89}
+ 89%|████████▉ | 3818/4286 [25:15:24<2:56:54, 22.68s/it] 89%|████████▉ | 3819/4286 [25:15:48<2:59:50, 23.11s/it]                                                        {'loss': 0.0305, 'grad_norm': 4.691017034571269, 'learning_rate': 1.0895940270648622e-07, 'completion_length': 416.4464416503906, 'rewards/only_full_func_accuracy_reward': 0.5580357015132904, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5491072535514832, 'reward_std': 0.11499843746423721, 'kl': 0.76171875, 'epoch': 0.89}
+ 89%|████████▉ | 3819/4286 [25:15:48<2:59:50, 23.11s/it] 89%|████████▉ | 3820/4286 [25:16:12<3:00:07, 23.19s/it]                                                        {'loss': 0.088, 'grad_norm': 4.947791005519804, 'learning_rate': 1.0872608492767148e-07, 'completion_length': 416.5714416503906, 'rewards/only_full_func_accuracy_reward': 0.7482639253139496, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.7125498056411743, 'reward_std': 0.10979204624891281, 'kl': 2.203125, 'epoch': 0.89}
+ 89%|████████▉ | 3820/4286 [25:16:12<3:00:07, 23.19s/it] 89%|████████▉ | 3821/4286 [25:16:36<3:01:04, 23.36s/it]                                                        {'loss': 0.0245, 'grad_norm': 0.9672888348429739, 'learning_rate': 1.0849276714885673e-07, 'completion_length': 397.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.8612351715564728, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8523066639900208, 'reward_std': 0.08352100104093552, 'kl': 0.610595703125, 'epoch': 0.89}
+ 89%|████████▉ | 3821/4286 [25:16:36<3:01:04, 23.36s/it] 89%|████████▉ | 3822/4286 [25:16:57<2:57:27, 22.95s/it]                                                        {'loss': 0.0248, 'grad_norm': 1.7726095502896382, 'learning_rate': 1.0825944937004199e-07, 'completion_length': 331.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.7269346117973328, 'rewards/format_reward': 1.0, 'reward': 1.7269346714019775, 'reward_std': 0.0147313941270113, 'kl': 0.619140625, 'epoch': 0.89}
+ 89%|████████▉ | 3822/4286 [25:16:57<2:57:27, 22.95s/it] 89%|████████▉ | 3823/4286 [25:17:20<2:56:45, 22.91s/it]                                                        {'loss': 0.0609, 'grad_norm': 2.008206033165625, 'learning_rate': 1.0802613159122724e-07, 'completion_length': 338.9553680419922, 'rewards/only_full_func_accuracy_reward': 0.8400298357009888, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8311012983322144, 'reward_std': 0.08122451137751341, 'kl': 1.517578125, 'epoch': 0.89}
+ 89%|████████▉ | 3823/4286 [25:17:20<2:56:45, 22.91s/it] 89%|████████▉ | 3824/4286 [25:17:43<2:56:35, 22.93s/it]                                                        {'loss': 0.018, 'grad_norm': 2.412159717059507, 'learning_rate': 1.0779281381241249e-07, 'completion_length': 383.7768096923828, 'rewards/only_full_func_accuracy_reward': 0.62425597012043, 'rewards/format_reward': 1.0, 'reward': 1.6242560744285583, 'reward_std': 0.09599552303552628, 'kl': 0.44921875, 'epoch': 0.89}
+ 89%|████████▉ | 3824/4286 [25:17:43<2:56:35, 22.93s/it] 89%|████████▉ | 3825/4286 [25:18:05<2:53:45, 22.62s/it]                                                        {'loss': 0.0297, 'grad_norm': 1.5047140243377297, 'learning_rate': 1.0755949603359775e-07, 'completion_length': 364.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.8392857611179352, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.830357313156128, 'reward_std': 0.07576144486665726, 'kl': 0.7421875, 'epoch': 0.89}
+ 89%|████████▉ | 3825/4286 [25:18:05<2:53:45, 22.62s/it] 89%|████████▉ | 3826/4286 [25:18:28<2:53:54, 22.68s/it]                                                        {'loss': 0.0164, 'grad_norm': 1.0553636073241577, 'learning_rate': 1.07326178254783e-07, 'completion_length': 358.2232360839844, 'rewards/only_full_func_accuracy_reward': 0.6592262089252472, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.641369104385376, 'reward_std': 0.09966810792684555, 'kl': 0.409423828125, 'epoch': 0.89}
+ 89%|████████▉ | 3826/4286 [25:18:28<2:53:54, 22.68s/it] 89%|████████▉ | 3827/4286 [25:18:50<2:52:08, 22.50s/it]                                                        {'loss': 0.0275, 'grad_norm': 0.8494690087273126, 'learning_rate': 1.0709286047596826e-07, 'completion_length': 366.35716247558594, 'rewards/only_full_func_accuracy_reward': 0.7687500715255737, 'rewards/format_reward': 1.0, 'reward': 1.7687501311302185, 'reward_std': 0.024066001176834106, 'kl': 0.6873779296875, 'epoch': 0.89}
+ 89%|████████▉ | 3827/4286 [25:18:50<2:52:08, 22.50s/it] 89%|████████▉ | 3828/4286 [25:19:13<2:52:12, 22.56s/it]                                                        {'loss': 0.0044, 'grad_norm': 2.4414229020752383, 'learning_rate': 1.0685954269715351e-07, 'completion_length': 407.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.7255952954292297, 'rewards/format_reward': 1.0, 'reward': 1.7255952954292297, 'reward_std': 0.014943674206733704, 'kl': 0.1092529296875, 'epoch': 0.89}
+ 89%|████████▉ | 3828/4286 [25:19:13<2:52:12, 22.56s/it] 89%|████████▉ | 3829/4286 [25:19:34<2:48:53, 22.17s/it]                                                        {'loss': 0.0146, 'grad_norm': 0.32831263368072416, 'learning_rate': 1.0662622491833877e-07, 'completion_length': 347.96429443359375, 'rewards/only_full_func_accuracy_reward': 0.7708333730697632, 'rewards/format_reward': 1.0, 'reward': 1.770833432674408, 'reward_std': 0.025253813713788986, 'kl': 0.36279296875, 'epoch': 0.89}
+ 89%|████████▉ | 3829/4286 [25:19:34<2:48:53, 22.17s/it] 89%|████████▉ | 3830/4286 [25:19:57<2:49:43, 22.33s/it]                                                        {'loss': 0.0457, 'grad_norm': 1.10620019865604, 'learning_rate': 1.0639290713952402e-07, 'completion_length': 356.9285888671875, 'rewards/only_full_func_accuracy_reward': 0.7276786267757416, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7098215818405151, 'reward_std': 0.11612740904092789, 'kl': 1.13671875, 'epoch': 0.89}
+ 89%|████████▉ | 3830/4286 [25:19:57<2:49:43, 22.33s/it] 89%|████████▉ | 3831/4286 [25:20:20<2:50:29, 22.48s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.17172731863390656, 'learning_rate': 1.0615958936070928e-07, 'completion_length': 372.0178680419922, 'rewards/only_full_func_accuracy_reward': 0.7886905372142792, 'rewards/format_reward': 1.0, 'reward': 1.7886905670166016, 'reward_std': 0.008417940698564053, 'kl': 0.0430908203125, 'epoch': 0.89}
+ 89%|████████▉ | 3831/4286 [25:20:20<2:50:29, 22.48s/it] 89%|████████▉ | 3832/4286 [25:20:41<2:47:18, 22.11s/it]                                                        {'loss': 0.0137, 'grad_norm': 0.4623261736607456, 'learning_rate': 1.0592627158189453e-07, 'completion_length': 328.0535888671875, 'rewards/only_full_func_accuracy_reward': 0.7053571939468384, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.696428656578064, 'reward_std': 0.04172736033797264, 'kl': 0.3419189453125, 'epoch': 0.89}
+ 89%|█████��██▉ | 3832/4286 [25:20:41<2:47:18, 22.11s/it] 89%|████████▉ | 3833/4286 [25:21:03<2:48:03, 22.26s/it]                                                        {'loss': 0.0252, 'grad_norm': 1.3644984766708215, 'learning_rate': 1.0569295380307978e-07, 'completion_length': 357.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.7812500298023224, 'rewards/format_reward': 1.0, 'reward': 1.7812501788139343, 'reward_std': 0.02946278266608715, 'kl': 0.6302490234375, 'epoch': 0.89}
+ 89%|████████▉ | 3833/4286 [25:21:03<2:48:03, 22.26s/it] 89%|████████▉ | 3834/4286 [25:21:27<2:50:19, 22.61s/it]                                                        {'loss': 0.0025, 'grad_norm': 0.7552161096763422, 'learning_rate': 1.0545963602426504e-07, 'completion_length': 387.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.7730655074119568, 'rewards/format_reward': 1.0, 'reward': 1.7730656266212463, 'reward_std': 0.026077824644744396, 'kl': 0.062255859375, 'epoch': 0.89}
+ 89%|████████▉ | 3834/4286 [25:21:27<2:50:19, 22.61s/it] 89%|████████▉ | 3835/4286 [25:21:49<2:49:58, 22.61s/it]                                                        {'loss': 0.0114, 'grad_norm': 1.0069527267350007, 'learning_rate': 1.0522631824545029e-07, 'completion_length': 391.16966247558594, 'rewards/only_full_func_accuracy_reward': 0.8199405074119568, 'rewards/format_reward': 1.0, 'reward': 1.8199405670166016, 'reward_std': 0.04989994969218969, 'kl': 0.2845458984375, 'epoch': 0.89}
+ 89%|████████▉ | 3835/4286 [25:21:49<2:49:58, 22.61s/it] 90%|████████▉ | 3836/4286 [25:22:13<2:51:20, 22.84s/it]                                                        {'loss': 0.0127, 'grad_norm': 0.6491004324447697, 'learning_rate': 1.0499300046663555e-07, 'completion_length': 405.04466247558594, 'rewards/only_full_func_accuracy_reward': 0.7046131491661072, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6956846117973328, 'reward_std': 0.05298284441232681, 'kl': 0.317138671875, 'epoch': 0.9}
+ 90%|████████▉ | 3836/4286 [25:22:13<2:51:20, 22.84s/it] 90%|████████▉ | 3837/4286 [25:22:35<2:49:18, 22.63s/it]                                                        {'loss': 0.007, 'grad_norm': 2.7022556686663872, 'learning_rate': 1.047596826878208e-07, 'completion_length': 370.9464416503906, 'rewards/only_full_func_accuracy_reward': 0.683779776096344, 'rewards/format_reward': 1.0, 'reward': 1.6837799549102783, 'reward_std': 0.04712267220020294, 'kl': 0.1759033203125, 'epoch': 0.9}
+ 90%|████████▉ | 3837/4286 [25:22:35<2:49:18, 22.63s/it] 90%|████████▉ | 3838/4286 [25:22:58<2:50:34, 22.84s/it]                                                        {'loss': 0.0047, 'grad_norm': 0.25833304806198354, 'learning_rate': 1.0452636490900606e-07, 'completion_length': 390.3393096923828, 'rewards/only_full_func_accuracy_reward': 0.7529762387275696, 'rewards/format_reward': 1.0, 'reward': 1.7529762983322144, 'reward_std': 0.012322601862251759, 'kl': 0.116943359375, 'epoch': 0.9}
+ 90%|████████▉ | 3838/4286 [25:22:58<2:50:34, 22.84s/it] 90%|████████▉ | 3839/4286 [25:23:22<2:51:45, 23.06s/it]                                                        {'loss': 0.0127, 'grad_norm': 0.745639156486007, 'learning_rate': 1.0429304713019131e-07, 'completion_length': 378.90179443359375, 'rewards/only_full_func_accuracy_reward': 0.5967262387275696, 'rewards/format_reward': 1.0, 'reward': 1.5967262983322144, 'reward_std': 0.05671357735991478, 'kl': 0.317626953125, 'epoch': 0.9}
+ 90%|████████▉ | 3839/4286 [25:23:22<2:51:45, 23.06s/it] 90%|████████▉ | 3840/4286 [25:23:47<2:55:10, 23.57s/it]                                                        {'loss': 0.016, 'grad_norm': 0.2925328346017892, 'learning_rate': 1.0405972935137656e-07, 'completion_length': 433.0268096923828, 'rewards/only_full_func_accuracy_reward': 0.8199405372142792, 'rewards/format_reward': 1.0, 'reward': 1.8199405670166016, 'reward_std': 0.022997178602963686, 'kl': 0.399658203125, 'epoch': 0.9}
+ 90%|████████▉ | 3840/4286 [25:23:47<2:55:10, 23.57s/it] 90%|████████▉ | 3841/4286 [25:24:10<2:54:12, 23.49s/it]                                                        {'loss': 0.0111, 'grad_norm': 5.6400374629994445, 'learning_rate': 1.0382641157256182e-07, 'completion_length': 380.8928680419922, 'rewards/only_full_func_accuracy_reward': 0.7805059552192688, 'rewards/format_reward': 1.0, 'reward': 1.7805060744285583, 'reward_std': 0.031853388994932175, 'kl': 0.27850341796875, 'epoch': 0.9}
+ 90%|████████▉ | 3841/4286 [25:24:10<2:54:12, 23.49s/it] 90%|████████▉ | 3842/4286 [25:24:32<2:50:53, 23.09s/it]                                                        {'loss': 0.0192, 'grad_norm': 6.465986658482681, 'learning_rate': 1.0359309379374707e-07, 'completion_length': 348.6785888671875, 'rewards/only_full_func_accuracy_reward': 0.7150298058986664, 'rewards/format_reward': 1.0, 'reward': 1.7150298357009888, 'reward_std': 0.051225150004029274, 'kl': 0.4814453125, 'epoch': 0.9}
+ 90%|████████▉ | 3842/4286 [25:24:32<2:50:53, 23.09s/it] 90%|████████▉ | 3843/4286 [25:24:55<2:49:01, 22.89s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.36736873055092184, 'learning_rate': 1.0335977601493233e-07, 'completion_length': 363.2232360839844, 'rewards/only_full_func_accuracy_reward': 0.8125000298023224, 'rewards/format_reward': 1.0, 'reward': 1.8125001192092896, 'reward_std': 0.016532503068447113, 'kl': 0.0367431640625, 'epoch': 0.9}
+ 90%|████████▉ | 3843/4286 [25:24:55<2:49:01, 22.89s/it] 90%|████████▉ | 3844/4286 [25:25:18<2:49:48, 23.05s/it]                                                        {'loss': 0.0359, 'grad_norm': 11.1372607426233, 'learning_rate': 1.0312645823611758e-07, 'completion_length': 384.0268096923828, 'rewards/only_full_func_accuracy_reward': 0.5494047403335571, 'rewards/format_reward': 1.0, 'reward': 1.5494048595428467, 'reward_std': 0.029305209405720234, 'kl': 0.8955078125, 'epoch': 0.9}
+ 90%|████████▉ | 3844/4286 [25:25:18<2:49:48, 23.05s/it] 90%|████████▉ | 3845/4286 [25:25:43<2:53:59, 23.67s/it]                                                        {'loss': 0.0311, 'grad_norm': 1.7605087148077674, 'learning_rate': 1.0289314045730284e-07, 'completion_length': 406.6339416503906, 'rewards/only_full_func_accuracy_reward': 0.8065476417541504, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7976191639900208, 'reward_std': 0.06734350137412548, 'kl': 0.77734375, 'epoch': 0.9}
+ 90%|████████▉ | 3845/4286 [25:25:43<2:53:59, 23.67s/it] 90%|████████▉ | 3846/4286 [25:26:07<2:53:14, 23.62s/it]                                                        {'loss': 0.0158, 'grad_norm': 2.454375055162103, 'learning_rate': 1.0265982267848809e-07, 'completion_length': 400.2410888671875, 'rewards/only_full_func_accuracy_reward': 0.7135416865348816, 'rewards/format_reward': 1.0, 'reward': 1.7135418057441711, 'reward_std': 0.10264620184898376, 'kl': 0.39453125, 'epoch': 0.9}
+ 90%|████████▉ | 3846/4286 [25:26:07<2:53:14, 23.62s/it] 90%|████████▉ | 3847/4286 [25:26:30<2:51:39, 23.46s/it]                                                        {'loss': 0.0156, 'grad_norm': 0.30517949497981844, 'learning_rate': 1.0242650489967334e-07, 'completion_length': 399.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.719494104385376, 'rewards/format_reward': 1.0, 'reward': 1.7194941639900208, 'reward_std': 0.04593782313168049, 'kl': 0.3919677734375, 'epoch': 0.9}
+ 90%|████████▉ | 3847/4286 [25:26:30<2:51:39, 23.46s/it] 90%|████████▉ | 3848/4286 [25:26:52<2:48:38, 23.10s/it]                                                        {'loss': 0.0096, 'grad_norm': 1.1020518644984978, 'learning_rate': 1.021931871208586e-07, 'completion_length': 381.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.6836310029029846, 'rewards/format_reward': 1.0, 'reward': 1.6836310029029846, 'reward_std': 0.015152287669479847, 'kl': 0.2406005859375, 'epoch': 0.9}
+ 90%|████████▉ | 3848/4286 [25:26:52<2:48:38, 23.10s/it] 90%|████████▉ | 3849/4286 [25:27:15<2:48:01, 23.07s/it]                                                        {'loss': 0.0018, 'grad_norm': 0.7688009772224288, 'learning_rate': 1.0195986934204385e-07, 'completion_length': 394.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.6949405372142792, 'rewards/format_reward': 1.0, 'reward': 1.6949405670166016, 'reward_std': 0.04013493470847607, 'kl': 0.0438232421875, 'epoch': 0.9}
+ 90%|████████▉ | 3849/4286 [25:27:15<2:48:01, 23.07s/it] 90%|████████▉ | 3850/4286 [25:27:37<2:45:16, 22.74s/it]                                                        {'loss': 0.0142, 'grad_norm': 7.287819927124302, 'learning_rate': 1.0172655156322911e-07, 'completion_length': 366.61607360839844, 'rewards/only_full_func_accuracy_reward': 0.7180059850215912, 'rewards/format_reward': 1.0, 'reward': 1.7180060744285583, 'reward_std': 0.07134021073579788, 'kl': 0.3558349609375, 'epoch': 0.9}
+ 90%|████████▉ | 3850/4286 [25:27:37<2:45:16, 22.74s/it] 90%|████████▉ | 3851/4286 [25:28:00<2:46:05, 22.91s/it]                                                        {'loss': 0.034, 'grad_norm': 1.217908144821236, 'learning_rate': 1.0149323378441436e-07, 'completion_length': 359.6339569091797, 'rewards/only_full_func_accuracy_reward': 0.689732164144516, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6718751192092896, 'reward_std': 0.09619813412427902, 'kl': 0.8515625, 'epoch': 0.9}
+ 90%|████████▉ | 3851/4286 [25:28:00<2:46:05, 22.91s/it] 90%|███��████▉ | 3852/4286 [25:28:23<2:45:43, 22.91s/it]                                                        {'loss': 0.0017, 'grad_norm': 0.7152049960864777, 'learning_rate': 1.0125991600559962e-07, 'completion_length': 354.4464416503906, 'rewards/only_full_func_accuracy_reward': 0.7038691341876984, 'rewards/format_reward': 1.0, 'reward': 1.7038691639900208, 'reward_std': 0.04175161477178335, 'kl': 0.042724609375, 'epoch': 0.9}
+ 90%|████████▉ | 3852/4286 [25:28:23<2:45:43, 22.91s/it] 90%|████████▉ | 3853/4286 [25:28:48<2:48:39, 23.37s/it]                                                        {'loss': 0.0051, 'grad_norm': 0.8791938728948282, 'learning_rate': 1.0102659822678487e-07, 'completion_length': 445.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.689732164144516, 'rewards/format_reward': 1.0, 'reward': 1.6897322535514832, 'reward_std': 0.025753055699169636, 'kl': 0.1279296875, 'epoch': 0.9}
+ 90%|████████▉ | 3853/4286 [25:28:48<2:48:39, 23.37s/it] 90%|████████▉ | 3854/4286 [25:29:10<2:46:22, 23.11s/it]                                                        {'loss': 0.0088, 'grad_norm': 1.8673978032541196, 'learning_rate': 1.0079328044797013e-07, 'completion_length': 361.42857360839844, 'rewards/only_full_func_accuracy_reward': 0.8281250298023224, 'rewards/format_reward': 1.0, 'reward': 1.8281250596046448, 'reward_std': 0.04429399035871029, 'kl': 0.2188720703125, 'epoch': 0.9}
+ 90%|████████▉ | 3854/4286 [25:29:10<2:46:22, 23.11s/it] 90%|████████▉ | 3855/4286 [25:29:34<2:47:33, 23.33s/it]                                                        {'loss': 0.0182, 'grad_norm': 1.6840406902004603, 'learning_rate': 1.0055996266915538e-07, 'completion_length': 391.21429443359375, 'rewards/only_full_func_accuracy_reward': 0.6795635521411896, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6706350445747375, 'reward_std': 0.08107003197073936, 'kl': 0.45458984375, 'epoch': 0.9}
+ 90%|████████▉ | 3855/4286 [25:29:34<2:47:33, 23.33s/it] 90%|████████▉ | 3856/4286 [25:29:56<2:45:26, 23.09s/it]                                                        {'loss': 0.0138, 'grad_norm': 2.4390707073048765, 'learning_rate': 1.0032664489034063e-07, 'completion_length': 365.5893096923828, 'rewards/only_full_func_accuracy_reward': 0.7726190686225891, 'rewards/format_reward': 1.0, 'reward': 1.7726191878318787, 'reward_std': 0.03378242580220103, 'kl': 0.3447265625, 'epoch': 0.9}
+ 90%|████████▉ | 3856/4286 [25:29:56<2:45:26, 23.09s/it] 90%|████████▉ | 3857/4286 [25:30:19<2:44:07, 22.95s/it]                                                        {'loss': 0.0115, 'grad_norm': 0.41359964798720794, 'learning_rate': 1.0009332711152589e-07, 'completion_length': 379.9553680419922, 'rewards/only_full_func_accuracy_reward': 0.8258928954601288, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8169643878936768, 'reward_std': 0.05192647874355316, 'kl': 0.2879638671875, 'epoch': 0.9}
+ 90%|████████▉ | 3857/4286 [25:30:19<2:44:07, 22.95s/it] 90%|█████████ | 3858/4286 [25:30:42<2:43:25, 22.91s/it]                                                        {'loss': 0.0013, 'grad_norm': 0.3715947615694054, 'learning_rate': 9.986000933271114e-08, 'completion_length': 402.2857360839844, 'rewards/only_full_func_accuracy_reward': 0.7611607611179352, 'rewards/format_reward': 1.0, 'reward': 1.7611607909202576, 'reward_std': 0.039004601538181305, 'kl': 0.03369140625, 'epoch': 0.9}
+ 90%|█████████ | 3858/4286 [25:30:42<2:43:25, 22.91s/it] 90%|█████████ | 3859/4286 [25:31:05<2:42:26, 22.83s/it]                                                        {'loss': 0.0164, 'grad_norm': 1.7584140523170078, 'learning_rate': 9.96266915538964e-08, 'completion_length': 325.5893096923828, 'rewards/only_full_func_accuracy_reward': 0.7812500894069672, 'rewards/format_reward': 1.0, 'reward': 1.7812501788139343, 'reward_std': 0.0427386611700058, 'kl': 0.4091796875, 'epoch': 0.9}
+ 90%|█████████ | 3859/4286 [25:31:05<2:42:26, 22.83s/it] 90%|█████████ | 3860/4286 [25:31:27<2:41:29, 22.75s/it]                                                        {'loss': 0.0313, 'grad_norm': 0.918820588230133, 'learning_rate': 9.939337377508165e-08, 'completion_length': 378.6607360839844, 'rewards/only_full_func_accuracy_reward': 0.6852679252624512, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6674109101295471, 'reward_std': 0.09238138049840927, 'kl': 0.77978515625, 'epoch': 0.9}
+ 90%|█████████ | 3860/4286 [25:31:27<2:41:29, 22.75s/it] 90%|█████████ | 3861/4286 [25:31:49<2:40:06, 22.60s/it]                                                        {'loss': 0.013, 'grad_norm': 3.160683617060452, 'learning_rate': 9.916005599626691e-08, 'completion_length': 349.55357360839844, 'rewards/only_full_func_accuracy_reward': 0.7514881789684296, 'rewards/format_reward': 1.0, 'reward': 1.751488208770752, 'reward_std': 0.05625571683049202, 'kl': 0.32568359375, 'epoch': 0.9}
+ 90%|█████████ | 3861/4286 [25:31:49<2:40:06, 22.60s/it] 90%|█████████ | 3862/4286 [25:32:12<2:40:10, 22.67s/it]                                                        {'loss': 0.0339, 'grad_norm': 0.9154929540018845, 'learning_rate': 9.892673821745216e-08, 'completion_length': 355.9464569091797, 'rewards/only_full_func_accuracy_reward': 0.7745536267757416, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7566965222358704, 'reward_std': 0.12386120855808258, 'kl': 0.845703125, 'epoch': 0.9}
+ 90%|█████████ | 3862/4286 [25:32:12<2:40:10, 22.67s/it] 90%|█████████ | 3863/4286 [25:32:35<2:39:28, 22.62s/it]                                                        {'loss': 0.0193, 'grad_norm': 2.4948274382668325, 'learning_rate': 9.869342043863741e-08, 'completion_length': 368.08038330078125, 'rewards/only_full_func_accuracy_reward': 0.7833333909511566, 'rewards/format_reward': 1.0, 'reward': 1.783333420753479, 'reward_std': 0.07528256252408028, 'kl': 0.48046875, 'epoch': 0.9}
+ 90%|█████████ | 3863/4286 [25:32:35<2:39:28, 22.62s/it] 90%|█████████ | 3864/4286 [25:32:58<2:41:37, 22.98s/it]                                                        {'loss': 0.0277, 'grad_norm': 1.6302028478072415, 'learning_rate': 9.846010265982267e-08, 'completion_length': 368.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.7611607611179352, 'rewards/format_reward': 1.0, 'reward': 1.7611608505249023, 'reward_std': 0.046957891434431076, 'kl': 0.69140625, 'epoch': 0.9}
+ 90%|█████████ | 3864/4286 [25:32:58<2:41:37, 22.98s/it] 90%|█████████ | 3865/4286 [25:33:22<2:42:17, 23.13s/it]                                                        {'loss': 0.0016, 'grad_norm': 1.1685878070464315, 'learning_rate': 9.822678488100792e-08, 'completion_length': 407.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.7075892686843872, 'rewards/format_reward': 1.0, 'reward': 1.7075894474983215, 'reward_std': 0.04035275615751743, 'kl': 0.039794921875, 'epoch': 0.9}
+ 90%|█████████ | 3865/4286 [25:33:22<2:42:17, 23.13s/it] 90%|█████████ | 3866/4286 [25:33:45<2:40:46, 22.97s/it]                                                        {'loss': 0.0046, 'grad_norm': 1.354060433400565, 'learning_rate': 9.799346710219318e-08, 'completion_length': 381.2232208251953, 'rewards/only_full_func_accuracy_reward': 0.635416716337204, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.626488208770752, 'reward_std': 0.04629865847527981, 'kl': 0.1148681640625, 'epoch': 0.9}
+ 90%|█████████ | 3866/4286 [25:33:45<2:40:46, 22.97s/it] 90%|█████████ | 3867/4286 [25:34:08<2:41:41, 23.15s/it]                                                        {'loss': 0.0458, 'grad_norm': 1.3140456173864778, 'learning_rate': 9.776014932337843e-08, 'completion_length': 404.0089569091797, 'rewards/only_full_func_accuracy_reward': 0.6763392984867096, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6674107909202576, 'reward_std': 0.08050286024808884, 'kl': 1.1484375, 'epoch': 0.9}
+ 90%|█████████ | 3867/4286 [25:34:08<2:41:41, 23.15s/it] 90%|█████████ | 3868/4286 [25:34:31<2:41:06, 23.13s/it]                                                        {'loss': 0.0129, 'grad_norm': 0.548222937227187, 'learning_rate': 9.75268315445637e-08, 'completion_length': 390.7857360839844, 'rewards/only_full_func_accuracy_reward': 0.6502976715564728, 'rewards/format_reward': 1.0, 'reward': 1.6502977013587952, 'reward_std': 0.04188613686710596, 'kl': 0.321533203125, 'epoch': 0.9}
+ 90%|█████████ | 3868/4286 [25:34:31<2:41:06, 23.13s/it] 90%|█████████ | 3869/4286 [25:34:54<2:39:57, 23.02s/it]                                                        {'loss': 0.0435, 'grad_norm': 1.2106343384934888, 'learning_rate': 9.729351376574894e-08, 'completion_length': 380.7232360839844, 'rewards/only_full_func_accuracy_reward': 0.629464328289032, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6205357909202576, 'reward_std': 0.11954578384757042, 'kl': 1.0877685546875, 'epoch': 0.9}
+ 90%|█████████ | 3869/4286 [25:34:54<2:39:57, 23.02s/it] 90%|█████████ | 3870/4286 [25:35:17<2:39:47, 23.05s/it]                                                        {'loss': 0.056, 'grad_norm': 1.8586961403863311, 'learning_rate': 9.706019598693419e-08, 'completion_length': 360.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.7470238506793976, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7291667461395264, 'reward_std': 0.14112915098667145, 'kl': 1.40234375, 'epoch': 0.9}
+ 90%|█████████ | 3870/4286 [25:35:17<2:39:47, 23.05s/it] 90%|█████████ | 3871/4286 [25:35:42<2:43:53, 23.69s/it]                                                        {'loss': 0.0013, 'grad_norm': 0.11715111765858614, 'learning_rate': 9.682687820811945e-08, 'completion_length': 455.2053680419922, 'rewards/only_full_func_accuracy_reward': 0.7715774178504944, 'rewards/format_reward': 1.0, 'reward': 1.7715774774551392, 'reward_std': 0.0063134534284472466, 'kl': 0.03240966796875, 'epoch': 0.9}
+ 90%|█████████ | 3871/4286 [25:35:42<2:43:53, 23.69s/it] 90%|█████████ | 3872/4286 [25:36:06<2:44:06, 23.78s/it]                                                        {'loss': 0.0497, 'grad_norm': 1.846629990056329, 'learning_rate': 9.65935604293047e-08, 'completion_length': 374.5089416503906, 'rewards/only_full_func_accuracy_reward': 0.7635416686534882, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.754613220691681, 'reward_std': 0.09943143278360367, 'kl': 1.2421875, 'epoch': 0.9}
+ 90%|█████████ | 3872/4286 [25:36:06<2:44:06, 23.78s/it] 90%|█████████ | 3873/4286 [25:36:29<2:41:47, 23.51s/it]                                                        {'loss': 0.0183, 'grad_norm': 0.43740711557896944, 'learning_rate': 9.636024265048996e-08, 'completion_length': 365.31251525878906, 'rewards/only_full_func_accuracy_reward': 0.6544643342494965, 'rewards/format_reward': 1.0, 'reward': 1.6544644236564636, 'reward_std': 0.03766332566738129, 'kl': 0.455322265625, 'epoch': 0.9}
+ 90%|█████████ | 3873/4286 [25:36:29<2:41:47, 23.51s/it] 90%|█████████ | 3874/4286 [25:36:52<2:40:04, 23.31s/it]                                                        {'loss': 0.0819, 'grad_norm': 1.241061881922055, 'learning_rate': 9.612692487167521e-08, 'completion_length': 391.48216247558594, 'rewards/only_full_func_accuracy_reward': 0.7596727013587952, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7507441639900208, 'reward_std': 0.09613684937357903, 'kl': 2.0546875, 'epoch': 0.9}
+ 90%|█████████ | 3874/4286 [25:36:52<2:40:04, 23.31s/it] 90%|█████████ | 3875/4286 [25:37:15<2:39:58, 23.36s/it]                                                        {'loss': 0.0418, 'grad_norm': 4.361443958884598, 'learning_rate': 9.589360709286048e-08, 'completion_length': 390.04466247558594, 'rewards/only_full_func_accuracy_reward': 0.6755953133106232, 'rewards/format_reward': 1.0, 'reward': 1.6755953431129456, 'reward_std': 0.028676367364823818, 'kl': 1.04296875, 'epoch': 0.9}
+ 90%|█████████ | 3875/4286 [25:37:15<2:39:58, 23.36s/it] 90%|█████████ | 3876/4286 [25:37:38<2:38:01, 23.12s/it]                                                        {'loss': 0.0507, 'grad_norm': 0.8901176459310893, 'learning_rate': 9.566028931404572e-08, 'completion_length': 350.8482208251953, 'rewards/only_full_func_accuracy_reward': 0.7569445073604584, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7480159401893616, 'reward_std': 0.10241824015974998, 'kl': 1.267578125, 'epoch': 0.9}
+ 90%|█████████ | 3876/4286 [25:37:38<2:38:01, 23.12s/it] 90%|█████████ | 3877/4286 [25:38:02<2:39:27, 23.39s/it]                                                        {'loss': 0.0241, 'grad_norm': 1.6857968905527507, 'learning_rate': 9.542697153523099e-08, 'completion_length': 387.7053680419922, 'rewards/only_full_func_accuracy_reward': 0.7529762387275696, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.74404776096344, 'reward_std': 0.10101525112986565, 'kl': 0.603759765625, 'epoch': 0.9}
+ 90%|█████████ | 3877/4286 [25:38:02<2:39:27, 23.39s/it] 90%|█████████ | 3878/4286 [25:38:26<2:40:35, 23.62s/it]                                                        {'loss': 0.0617, 'grad_norm': 1.5959110528285418, 'learning_rate': 9.519365375641623e-08, 'completion_length': 427.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.796279788017273, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7784227132797241, 'reward_std': 0.1220388226211071, 'kl': 1.5390625, 'epoch': 0.9}
+ 90%|█████████ | 3878/4286 [25:38:26<2:40:35, 23.62s/it] 91%|█████████ | 3879/4286 [25:38:49<2:39:04, 23.45s/it]                                                        {'loss': 0.0593, 'grad_norm': 1.1267186527199888, 'learning_rate': 9.496033597760148e-08, 'completion_length': 397.60716247558594, 'rewards/only_full_func_accuracy_reward': 0.7073767185211182, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6984482407569885, 'reward_std': 0.10686525516211987, 'kl': 1.4871826171875, 'epoch': 0.91}
+ 91%|█████████ | 3879/4286 [25:38:49<2:39:04, 23.45s/it] 91%|█████████ | 3880/4286 [25:39:12<2:37:38, 23.30s/it]                                                        {'loss': 0.0554, 'grad_norm': 1.8357462812714431, 'learning_rate': 9.472701819878675e-08, 'completion_length': 405.54466247558594, 'rewards/only_full_func_accuracy_reward': 0.6721726357936859, 'rewards/format_reward': 1.0, 'reward': 1.6721727848052979, 'reward_std': 0.04578302055597305, 'kl': 1.3828125, 'epoch': 0.91}
+ 91%|█████████ | 3880/4286 [25:39:12<2:37:38, 23.30s/it] 91%|█████████ | 3881/4286 [25:39:35<2:35:55, 23.10s/it]                                                        {'loss': 0.1022, 'grad_norm': 1.3981988663513754, 'learning_rate': 9.4493700419972e-08, 'completion_length': 389.9464416503906, 'rewards/only_full_func_accuracy_reward': 0.723214328289032, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7142857909202576, 'reward_std': 0.10840441286563873, 'kl': 2.546875, 'epoch': 0.91}
+ 91%|█████████ | 3881/4286 [25:39:35<2:35:55, 23.10s/it] 91%|█████████ | 3882/4286 [25:39:58<2:34:58, 23.02s/it]                                                        {'loss': 0.0016, 'grad_norm': 1.2087040870135357, 'learning_rate': 9.426038264115726e-08, 'completion_length': 392.7500305175781, 'rewards/only_full_func_accuracy_reward': 0.7656250596046448, 'rewards/format_reward': 1.0, 'reward': 1.7656251788139343, 'reward_std': 0.034191456623375416, 'kl': 0.039306640625, 'epoch': 0.91}
+ 91%|█████████ | 3882/4286 [25:39:58<2:34:58, 23.02s/it] 91%|█████████ | 3883/4286 [25:40:23<2:39:19, 23.72s/it]                                                        {'loss': 0.0157, 'grad_norm': 2.1803168287972836, 'learning_rate': 9.40270648623425e-08, 'completion_length': 441.58038330078125, 'rewards/only_full_func_accuracy_reward': 0.6860119700431824, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.677083432674408, 'reward_std': 0.0978204496204853, 'kl': 0.390380859375, 'epoch': 0.91}
+ 91%|█████████ | 3883/4286 [25:40:23<2:39:19, 23.72s/it] 91%|█████████ | 3884/4286 [25:40:48<2:40:53, 24.01s/it]                                                        {'loss': 0.0245, 'grad_norm': 2.486691792394814, 'learning_rate': 9.379374708352777e-08, 'completion_length': 455.3214569091797, 'rewards/only_full_func_accuracy_reward': 0.5252976566553116, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.516369104385376, 'reward_std': 0.07515040412545204, 'kl': 0.610107421875, 'epoch': 0.91}
+ 91%|█████████ | 3884/4286 [25:40:48<2:40:53, 24.01s/it] 91%|█████████ | 3885/4286 [25:41:11<2:38:57, 23.78s/it]                                                        {'loss': 0.0214, 'grad_norm': 1.2340656431855084, 'learning_rate': 9.356042930471302e-08, 'completion_length': 382.0178680419922, 'rewards/only_full_func_accuracy_reward': 0.688244104385376, 'rewards/format_reward': 1.0, 'reward': 1.688244104385376, 'reward_std': 0.06592831388115883, 'kl': 0.533203125, 'epoch': 0.91}
+ 91%|█████████ | 3885/4286 [25:41:11<2:38:57, 23.78s/it] 91%|█████████ | 3886/4286 [25:41:35<2:39:46, 23.97s/it]                                                        {'loss': 0.0607, 'grad_norm': 1.9643646952918608, 'learning_rate': 9.332711152589826e-08, 'completion_length': 409.7053680419922, 'rewards/only_full_func_accuracy_reward': 0.7155612409114838, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.697704255580902, 'reward_std': 0.1986130103468895, 'kl': 1.521484375, 'epoch': 0.91}
+ 91%|█████████ | 3886/4286 [25:41:35<2:39:46, 23.97s/it] 91%|█████████ | 3887/4286 [25:41:58<2:37:18, 23.65s/it]                                                        {'loss': 0.0426, 'grad_norm': 4.953271461179709, 'learning_rate': 9.309379374708353e-08, 'completion_length': 383.5357360839844, 'rewards/only_full_func_accuracy_reward': 0.6473214328289032, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6294644474983215, 'reward_std': 0.16142001748085022, 'kl': 1.064453125, 'epoch': 0.91}
+ 91%|█████████ | 3887/4286 [25:41:58<2:37:18, 23.65s/it] 91%|█████████ | 3888/4286 [25:42:22<2:36:08, 23.54s/it]                                                        {'loss': 0.0287, 'grad_norm': 11.216169129884495, 'learning_rate': 9.286047596826877e-08, 'completion_length': 408.6250305175781, 'rewards/only_full_func_accuracy_reward': 0.802827388048172, 'rewards/format_reward': 1.0, 'reward': 1.8028274774551392, 'reward_std': 0.06365424022078514, 'kl': 0.7197265625, 'epoch': 0.91}
+ 91%|█████████ | 3888/4286 [25:42:22<2:36:08, 23.54s/it] 91%|█████████ | 3889/4286 [25:42:44<2:33:55, 23.26s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.6381923261242624, 'learning_rate': 9.262715818945404e-08, 'completion_length': 351.52679443359375, 'rewards/only_full_func_accuracy_reward': 0.7284226715564728, 'rewards/format_reward': 1.0, 'reward': 1.72842276096344, 'reward_std': 0.04764209873974323, 'kl': 0.0411376953125, 'epoch': 0.91}
+ 91%|█████████ | 3889/4286 [25:42:44<2:33:55, 23.26s/it] 91%|█████████ | 3890/4286 [25:43:08<2:34:37, 23.43s/it]                                                        {'loss': 0.0217, 'grad_norm': 6.043597823356922, 'learning_rate': 9.239384041063929e-08, 'completion_length': 400.6518096923828, 'rewards/only_full_func_accuracy_reward': 0.6153274178504944, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6063989400863647, 'reward_std': 0.07156550139188766, 'kl': 0.538330078125, 'epoch': 0.91}
+ 91%|█████████ | 3890/4286 [25:43:08<2:34:37, 23.43s/it] 91%|█████████ | 3891/4286 [25:43:31<2:33:59, 23.39s/it]                                                        {'loss': 0.0302, 'grad_norm': 1.1287300129155537, 'learning_rate': 9.216052263182455e-08, 'completion_length': 355.8660888671875, 'rewards/only_full_func_accuracy_reward': 0.8075892925262451, 'rewards/format_reward': 1.0, 'reward': 1.8075894117355347, 'reward_std': 0.03789173811674118, 'kl': 0.7578125, 'epoch': 0.91}
+ 91%|█████████ | 3891/4286 [25:43:31<2:33:59, 23.39s/it] 91%|█████████ | 3892/4286 [25:43:55<2:34:39, 23.55s/it]                                                        {'loss': 0.0077, 'grad_norm': 1.2570654084747617, 'learning_rate': 9.19272048530098e-08, 'completion_length': 417.8660888671875, 'rewards/only_full_func_accuracy_reward': 0.703869104385376, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6860120296478271, 'reward_std': 0.11736576072871685, 'kl': 0.191650390625, 'epoch': 0.91}
+ 91%|█████████ | 3892/4286 [25:43:55<2:34:39, 23.55s/it] 91%|█████████ | 3893/4286 [25:44:17<2:29:48, 22.87s/it]                                                        {'loss': 0.0237, 'grad_norm': 2.532694400513855, 'learning_rate': 9.169388707419504e-08, 'completion_length': 388.4464416503906, 'rewards/only_full_func_accuracy_reward': 0.7312500476837158, 'rewards/format_reward': 1.0, 'reward': 1.7312500476837158, 'reward_std': 0.05616496317088604, 'kl': 0.591796875, 'epoch': 0.91}
+ 91%|█████████ | 3893/4286 [25:44:17<2:29:48, 22.87s/it] 91%|█████████ | 3894/4286 [25:44:40<2:30:30, 23.04s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.3936981054749565, 'learning_rate': 9.14605692953803e-08, 'completion_length': 379.40179443359375, 'rewards/only_full_func_accuracy_reward': 0.7849702537059784, 'rewards/format_reward': 1.0, 'reward': 1.7849703431129456, 'reward_std': 0.03168716374784708, 'kl': 0.03857421875, 'epoch': 0.91}
+ 91%|█████████ | 3894/4286 [25:44:40<2:30:30, 23.04s/it] 91%|█████████ | 3895/4286 [25:45:04<2:32:58, 23.47s/it]                                                        {'loss': 0.0567, 'grad_norm': 1.417132600835841, 'learning_rate': 9.122725151656556e-08, 'completion_length': 423.51788330078125, 'rewards/only_full_func_accuracy_reward': 0.6523171961307526, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6344601511955261, 'reward_std': 0.15094145014882088, 'kl': 1.416015625, 'epoch': 0.91}
+ 91%|█████████ | 3895/4286 [25:45:04<2:32:58, 23.47s/it] 91%|█████████ | 3896/4286 [25:45:28<2:32:20, 23.44s/it]                                                        {'loss': 0.0198, 'grad_norm': 1.4645395974411968, 'learning_rate': 9.099393373775082e-08, 'completion_length': 400.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.6168154776096344, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6078869700431824, 'reward_std': 0.0774108674377203, 'kl': 0.4970703125, 'epoch': 0.91}
+ 91%|█████████ | 3896/4286 [25:45:28<2:32:20, 23.44s/it] 91%|█████████ | 3897/4286 [25:45:50<2:30:29, 23.21s/it]                                                        {'loss': 0.0014, 'grad_norm': 0.10319839229539352, 'learning_rate': 9.076061595893607e-08, 'completion_length': 392.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.6770834028720856, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6681548953056335, 'reward_std': 0.029804393649101257, 'kl': 0.03466796875, 'epoch': 0.91}
+ 91%|█████████ | 3897/4286 [25:45:50<2:30:29, 23.21s/it] 91%|█████████ | 3898/4286 [25:46:13<2:29:15, 23.08s/it]                                                        {'loss': 0.0363, 'grad_norm': 3.6286400076916645, 'learning_rate': 9.052729818012133e-08, 'completion_length': 387.3393096923828, 'rewards/only_full_func_accuracy_reward': 0.6398809552192688, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.630952537059784, 'reward_std': 0.0965409092605114, 'kl': 0.908203125, 'epoch': 0.91}
+ 91%|█████████ | 3898/4286 [25:46:13<2:29:15, 23.08s/it] 91%|█████████ | 3899/4286 [25:46:37<2:30:46, 23.38s/it]                                                        {'loss': 0.0412, 'grad_norm': 10.343557686452039, 'learning_rate': 9.029398040130658e-08, 'completion_length': 412.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.7399554550647736, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7310268878936768, 'reward_std': 0.15211866796016693, 'kl': 1.02734375, 'epoch': 0.91}
+ 91%|█████████ | 3899/4286 [25:46:37<2:30:46, 23.38s/it] 91%|█████████ | 3900/4286 [25:47:01<2:30:18, 23.36s/it]                                                        {'loss': 0.0153, 'grad_norm': 1.1906315981122046, 'learning_rate': 9.006066262249182e-08, 'completion_length': 374.2589416503906, 'rewards/only_full_func_accuracy_reward': 0.7849702835083008, 'rewards/format_reward': 1.0, 'reward': 1.7849703431129456, 'reward_std': 0.05208738520741463, 'kl': 0.379150390625, 'epoch': 0.91}
+ 91%|█████████ | 3900/4286 [25:47:01<2:30:18, 23.36s/it] 91%|█████████ | 3901/4286 [25:48:28<4:33:55, 42.69s/it]                                                        {'loss': 0.0409, 'grad_norm': 0.6533076411996991, 'learning_rate': 8.982734484367709e-08, 'completion_length': 403.39288330078125, 'rewards/only_full_func_accuracy_reward': 0.7587797939777374, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.740922749042511, 'reward_std': 0.10407307650893927, 'kl': 1.02392578125, 'epoch': 0.91}
+ 91%|█████████ | 3901/4286 [25:48:28<4:33:55, 42.69s/it] 91%|█████████ | 3902/4286 [25:48:50<3:53:16, 36.45s/it]                                                        {'loss': 0.0347, 'grad_norm': 8.299206286360638, 'learning_rate': 8.959402706486234e-08, 'completion_length': 304.5268096923828, 'rewards/only_full_func_accuracy_reward': 0.8794643878936768, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8705359101295471, 'reward_std': 0.07560976222157478, 'kl': 0.869140625, 'epoch': 0.91}
+ 91%|█████████ | 3902/4286 [25:48:50<3:53:16, 36.45s/it] 91%|█████████ | 3903/4286 [25:49:14<3:28:50, 32.72s/it]                                                        {'loss': 0.0155, 'grad_norm': 1.320409739047902, 'learning_rate': 8.93607092860476e-08, 'completion_length': 405.9732360839844, 'rewards/only_full_func_accuracy_reward': 0.674107164144516, 'rewards/format_reward': 1.0, 'reward': 1.6741071939468384, 'reward_std': 0.029206686769612134, 'kl': 0.3876953125, 'epoch': 0.91}
+ 91%|█████████ | 3903/4286 [25:49:14<3:28:50, 32.72s/it] 91%|█████████ | 3904/4286 [25:49:38<3:10:29, 29.92s/it]                                                        {'loss': 0.06, 'grad_norm': 4.347545029708405, 'learning_rate': 8.912739150723285e-08, 'completion_length': 419.6785888671875, 'rewards/only_full_func_accuracy_reward': 0.6696428954601288, 'rewards/format_reward': 1.0, 'reward': 1.6696429252624512, 'reward_std': 0.05145306698977947, 'kl': 1.4921875, 'epoch': 0.91}
+ 91%|█████████ | 3904/4286 [25:49:38<3:10:29, 29.92s/it] 91%|█████████ | 3905/4286 [25:50:00<2:55:07, 27.58s/it]                                                        {'loss': 0.0259, 'grad_norm': 0.8079323122056666, 'learning_rate': 8.889407372841811e-08, 'completion_length': 318.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.844494104385376, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8355655670166016, 'reward_std': 0.04419417306780815, 'kl': 0.6484375, 'epoch': 0.91}
+ 91%|█████████ | 3905/4286 [25:50:00<2:55:07, 27.58s/it] 91%|█████████ | 3906/4286 [25:50:23<2:46:09, 26.24s/it]                                                        {'loss': 0.0434, 'grad_norm': 0.9597243615514017, 'learning_rate': 8.866075594960336e-08, 'completion_length': 382.75001525878906, 'rewards/only_full_func_accuracy_reward': 0.6415604054927826, 'rewards/format_reward': 1.0, 'reward': 1.6415603756904602, 'reward_std': 0.07331445068120956, 'kl': 1.08251953125, 'epoch': 0.91}
+ 91%|█████████ | 3906/4286 [25:50:23<2:46:09, 26.24s/it] 91%|█████████ | 3907/4286 [25:50:46<2:39:38, 25.27s/it]                                                        {'loss': 0.0432, 'grad_norm': 5.65177188867605, 'learning_rate': 8.842743817078862e-08, 'completion_length': 398.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.7068453431129456, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6979168057441711, 'reward_std': 0.06682127714157104, 'kl': 1.078125, 'epoch': 0.91}
+ 91%|█████████ | 3907/4286 [25:50:46<2:39:38, 25.27s/it] 91%|█████████ | 3908/4286 [25:51:09<2:34:58, 24.60s/it]                                                        {'loss': 0.015, 'grad_norm': 1.6625796104371149, 'learning_rate': 8.819412039197387e-08, 'completion_length': 375.6964416503906, 'rewards/only_full_func_accuracy_reward': 0.7581845223903656, 'rewards/format_reward': 1.0, 'reward': 1.7581846714019775, 'reward_std': 0.05476908013224602, 'kl': 0.3756103515625, 'epoch': 0.91}
+ 91%|█████████ | 3908/4286 [25:51:09<2:34:58, 24.60s/it] 91%|█████████ | 3909/4286 [25:51:31<2:29:07, 23.73s/it]                                                        {'loss': 0.0322, 'grad_norm': 1.7398316829562357, 'learning_rate': 8.796080261315912e-08, 'completion_length': 387.16966247558594, 'rewards/only_full_func_accuracy_reward': 0.6741071939468384, 'rewards/format_reward': 1.0, 'reward': 1.6741072535514832, 'reward_std': 0.03928241040557623, 'kl': 0.806640625, 'epoch': 0.91}
+ 91%|█████████ | 3909/4286 [25:51:31<2:29:07, 23.73s/it] 91%|█████████ | 3910/4286 [25:51:54<2:27:08, 23.48s/it]                                                        {'loss': 0.0319, 'grad_norm': 3.125393003041195, 'learning_rate': 8.772748483434438e-08, 'completion_length': 400.8928680419922, 'rewards/only_full_func_accuracy_reward': 0.6555059552192688, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6465774774551392, 'reward_std': 0.10782769694924355, 'kl': 0.80078125, 'epoch': 0.91}
+ 91%|█████████ | 3910/4286 [25:51:54<2:27:08, 23.48s/it] 91%|█████████▏| 3911/4286 [25:52:17<2:26:02, 23.37s/it]                                                        {'loss': 0.0185, 'grad_norm': 1.0254820651215684, 'learning_rate': 8.749416705552963e-08, 'completion_length': 396.1964416503906, 'rewards/only_full_func_accuracy_reward': 0.7991072237491608, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.790178656578064, 'reward_std': 0.06744333356618881, 'kl': 0.4622802734375, 'epoch': 0.91}
+ 91%|█████████▏| 3911/4286 [25:52:17<2:26:02, 23.37s/it] 91%|█████████▏| 3912/4286 [25:52:42<2:28:58, 23.90s/it]                                                        {'loss': 0.0362, 'grad_norm': 9.935351355406981, 'learning_rate': 8.726084927671489e-08, 'completion_length': 416.9107360839844, 'rewards/only_full_func_accuracy_reward': 0.5967262089252472, 'rewards/format_reward': 1.0, 'reward': 1.5967262983322144, 'reward_std': 0.06445299834012985, 'kl': 0.8984375, 'epoch': 0.91}
+ 91%|█████████▏| 3912/4286 [25:52:42<2:28:58, 23.90s/it] 91%|█████████▏| 3913/4286 [25:53:04<2:26:07, 23.50s/it]                                                        {'loss': 0.0167, 'grad_norm': 1.3004012599151398, 'learning_rate': 8.702753149790014e-08, 'completion_length': 343.5714569091797, 'rewards/only_full_func_accuracy_reward': 0.699404776096344, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6904762983322144, 'reward_std': 0.03952165972441435, 'kl': 0.41845703125, 'epoch': 0.91}
+ 91%|█████████▏| 3913/4286 [25:53:04<2:26:07, 23.50s/it] 91%|█████████▏| 3914/4286 [25:53:27<2:24:46, 23.35s/it]                                                        {'loss': 0.0032, 'grad_norm': 1.848971963754659, 'learning_rate': 8.67942137190854e-08, 'completion_length': 366.7857208251953, 'rewards/only_full_func_accuracy_reward': 0.8005952835083008, 'rewards/format_reward': 1.0, 'reward': 1.8005954027175903, 'reward_std': 0.07922976836562157, 'kl': 0.07958984375, 'epoch': 0.91}
+ 91%|█████████▏| 3914/4286 [25:53:27<2:24:46, 23.35s/it] 91%|█████████▏| 3915/4286 [25:53:51<2:25:29, 23.53s/it]                                                        {'loss': 0.0126, 'grad_norm': 0.6510582331458397, 'learning_rate': 8.656089594027065e-08, 'completion_length': 405.68751525878906, 'rewards/only_full_func_accuracy_reward': 0.7514881193637848, 'rewards/format_reward': 1.0, 'reward': 1.7514882683753967, 'reward_std': 0.030625218525528908, 'kl': 0.3134765625, 'epoch': 0.91}
+ 91%|█████████▏| 3915/4286 [25:53:51<2:25:29, 23.53s/it] 91%|█████████▏| 3916/4286 [25:54:13<2:21:56, 23.02s/it]                                                        {'loss': 0.0045, 'grad_norm': 2.064780093259844, 'learning_rate': 8.63275781614559e-08, 'completion_length': 387.58929443359375, 'rewards/only_full_func_accuracy_reward': 0.7136905193328857, 'rewards/format_reward': 1.0, 'reward': 1.7136905193328857, 'reward_std': 0.0349251814186573, 'kl': 0.11279296875, 'epoch': 0.91}
+ 91%|█████████▏| 3916/4286 [25:54:13<2:21:56, 23.02s/it] 91%|█████████▏| 3917/4286 [25:54:36<2:21:44, 23.05s/it]                                                        {'loss': 0.0666, 'grad_norm': 2.6485854652758327, 'learning_rate': 8.609426038264116e-08, 'completion_length': 383.4643096923828, 'rewards/only_full_func_accuracy_reward': 0.7433035969734192, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7254465222358704, 'reward_std': 0.17825095355510712, 'kl': 1.669921875, 'epoch': 0.91}
+ 91%|█████████▏| 3917/4286 [25:54:36<2:21:44, 23.05s/it] 91%|█████████▏| 3918/4286 [25:54:58<2:19:01, 22.67s/it]                                                        {'loss': 0.039, 'grad_norm': 1.4546621372968886, 'learning_rate': 8.586094260382641e-08, 'completion_length': 339.3928680419922, 'rewards/only_full_func_accuracy_reward': 0.6764881610870361, 'rewards/format_reward': 0.973214328289032, 'reward': 1.6497024893760681, 'reward_std': 0.10533954948186874, 'kl': 0.970703125, 'epoch': 0.91}
+ 91%|█████████▏| 3918/4286 [25:54:58<2:19:01, 22.67s/it] 91%|█████████▏| 3919/4286 [25:55:22<2:21:31, 23.14s/it]                                                        {'loss': 0.0245, 'grad_norm': 1.9694781805501937, 'learning_rate': 8.562762482501167e-08, 'completion_length': 377.66966247558594, 'rewards/only_full_func_accuracy_reward': 0.6718750298023224, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6629465818405151, 'reward_std': 0.09229966066777706, 'kl': 0.6107177734375, 'epoch': 0.91}
+ 91%|█████████▏| 3919/4286 [25:55:22<2:21:31, 23.14s/it] 91%|█████████▏| 3920/4286 [25:55:46<2:21:51, 23.25s/it]                                                        {'loss': 0.0155, 'grad_norm': 3.215722473910776, 'learning_rate': 8.539430704619692e-08, 'completion_length': 385.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.7611607313156128, 'rewards/format_reward': 1.0, 'reward': 1.7611607909202576, 'reward_std': 0.0456905122846365, 'kl': 0.3863525390625, 'epoch': 0.91}
+ 91%|█████████▏| 3920/4286 [25:55:46<2:21:51, 23.25s/it] 91%|█████████▏| 3921/4286 [25:56:09<2:21:06, 23.20s/it]                                                        {'loss': 0.0019, 'grad_norm': 0.45340083443505885, 'learning_rate': 8.516098926738218e-08, 'completion_length': 391.96429443359375, 'rewards/only_full_func_accuracy_reward': 0.580357164144516, 'rewards/format_reward': 1.0, 'reward': 1.5803571939468384, 'reward_std': 0.050094420090317726, 'kl': 0.0472412109375, 'epoch': 0.91}
+ 91%|█████████▏| 3921/4286 [25:56:09<2:21:06, 23.20s/it] 92%|█████████▏| 3922/4286 [25:56:32<2:20:20, 23.13s/it]                                                        {'loss': 0.0155, 'grad_norm': 0.3272461083366655, 'learning_rate': 8.492767148856743e-08, 'completion_length': 386.4732360839844, 'rewards/only_full_func_accuracy_reward': 0.8571429550647736, 'rewards/format_reward': 1.0, 'reward': 1.857142984867096, 'reward_std': 0.02638092450797558, 'kl': 0.38671875, 'epoch': 0.92}
+ 92%|█████████▏| 3922/4286 [25:56:32<2:20:20, 23.13s/it] 92%|█████████▏| 3923/4286 [25:56:54<2:17:22, 22.71s/it]                                                        {'loss': 0.0238, 'grad_norm': 12.69386761060783, 'learning_rate': 8.469435370975268e-08, 'completion_length': 333.2143096923828, 'rewards/only_full_func_accuracy_reward': 0.735119104385376, 'rewards/format_reward': 1.0, 'reward': 1.735119104385376, 'reward_std': 0.029158477671444416, 'kl': 0.5941162109375, 'epoch': 0.92}
+ 92%|█████████▏| 3923/4286 [25:56:54<2:17:22, 22.71s/it] 92%|█████████▏| 3924/4286 [25:57:16<2:16:47, 22.67s/it]                                                        {'loss': 0.008, 'grad_norm': 2.2539427523140803, 'learning_rate': 8.446103593093794e-08, 'completion_length': 358.6160888671875, 'rewards/only_full_func_accuracy_reward': 0.6800596117973328, 'rewards/format_reward': 1.0, 'reward': 1.6800596714019775, 'reward_std': 0.05911131948232651, 'kl': 0.1982421875, 'epoch': 0.92}
+ 92%|█████████▏| 3924/4286 [25:57:16<2:16:47, 22.67s/it] 92%|█████████▏| 3925/4286 [25:57:40<2:18:17, 22.99s/it]                                                        {'loss': 0.0592, 'grad_norm': 2.5604422398912123, 'learning_rate': 8.422771815212319e-08, 'completion_length': 420.6964569091797, 'rewards/only_full_func_accuracy_reward': 0.6569940447807312, 'rewards/format_reward': 1.0, 'reward': 1.656994104385376, 'reward_std': 0.06271817069500685, 'kl': 1.4765625, 'epoch': 0.92}
+ 92%|█████████▏| 3925/4286 [25:57:40<2:18:17, 22.99s/it] 92%|█████████▏| 3926/4286 [25:58:01<2:15:18, 22.55s/it]                                                        {'loss': 0.0084, 'grad_norm': 7.715060443564938, 'learning_rate': 8.399440037330845e-08, 'completion_length': 354.50001525878906, 'rewards/only_full_func_accuracy_reward': 0.7604167461395264, 'rewards/format_reward': 1.0, 'reward': 1.7604168057441711, 'reward_std': 0.06092161312699318, 'kl': 0.2115478515625, 'epoch': 0.92}
+ 92%|█████████▏| 3926/4286 [25:58:01<2:15:18, 22.55s/it] 92%|█████████▏| 3927/4286 [25:58:24<2:14:56, 22.55s/it]                                                        {'loss': 0.0272, 'grad_norm': 0.9388899258385744, 'learning_rate': 8.37610825944937e-08, 'completion_length': 375.0714569091797, 'rewards/only_full_func_accuracy_reward': 0.749256044626236, 'rewards/format_reward': 1.0, 'reward': 1.7492560744285583, 'reward_std': 0.06669919192790985, 'kl': 0.681640625, 'epoch': 0.92}
+ 92%|█████████▏| 3927/4286 [25:58:24<2:14:56, 22.55s/it] 92%|█████████▏| 3928/4286 [25:58:45<2:11:59, 22.12s/it]                                                        {'loss': 0.0351, 'grad_norm': 1.7336169702538629, 'learning_rate': 8.352776481567896e-08, 'completion_length': 359.6339416503906, 'rewards/only_full_func_accuracy_reward': 0.8734547197818756, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.8555975556373596, 'reward_std': 0.10102545842528343, 'kl': 0.8798828125, 'epoch': 0.92}
+ 92%|█████████▏| 3928/4286 [25:58:45<2:11:59, 22.12s/it] 92%|█████████▏| 3929/4286 [25:59:09<2:14:02, 22.53s/it]                                                        {'loss': 0.0204, 'grad_norm': 1.4985624238236153, 'learning_rate': 8.329444703686421e-08, 'completion_length': 423.4732360839844, 'rewards/only_full_func_accuracy_reward': 0.6956845223903656, 'rewards/format_reward': 1.0, 'reward': 1.6956846117973328, 'reward_std': 0.04844113811850548, 'kl': 0.511474609375, 'epoch': 0.92}
+ 92%|█████████▏| 3929/4286 [25:59:09<2:14:02, 22.53s/it] 92%|█████████▏| 3930/4286 [25:59:31<2:13:48, 22.55s/it]                                                        {'loss': 0.0161, 'grad_norm': 0.308927801922723, 'learning_rate': 8.306112925804947e-08, 'completion_length': 375.1607360839844, 'rewards/only_full_func_accuracy_reward': 0.7998512387275696, 'rewards/format_reward': 1.0, 'reward': 1.7998512983322144, 'reward_std': 0.01052242610603571, 'kl': 0.401611328125, 'epoch': 0.92}
+ 92%|█████████▏| 3930/4286 [25:59:31<2:13:48, 22.55s/it] 92%|█████████▏| 3931/4286 [25:59:54<2:14:29, 22.73s/it]                                                        {'loss': 0.013, 'grad_norm': 2.004064771909151, 'learning_rate': 8.282781147923472e-08, 'completion_length': 401.7589416503906, 'rewards/only_full_func_accuracy_reward': 0.6900298297405243, 'rewards/format_reward': 1.0, 'reward': 1.6900298595428467, 'reward_std': 0.04170742351561785, 'kl': 0.3251953125, 'epoch': 0.92}
+ 92%|█████████▏| 3931/4286 [25:59:54<2:14:29, 22.73s/it] 92%|█████████▏| 3932/4286 [26:00:18<2:14:58, 22.88s/it]                                                        {'loss': 0.0162, 'grad_norm': 8.7100734520837, 'learning_rate': 8.259449370041997e-08, 'completion_length': 356.31251525878906, 'rewards/only_full_func_accuracy_reward': 0.7552083730697632, 'rewards/format_reward': 1.0, 'reward': 1.755208432674408, 'reward_std': 0.09478823095560074, 'kl': 0.4033203125, 'epoch': 0.92}
+ 92%|█████████▏| 3932/4286 [26:00:18<2:14:58, 22.88s/it] 92%|█████████▏| 3933/4286 [26:00:41<2:16:14, 23.16s/it]                                                        {'loss': 0.0139, 'grad_norm': 1.5701711674011074, 'learning_rate': 8.236117592160523e-08, 'completion_length': 419.26788330078125, 'rewards/only_full_func_accuracy_reward': 0.7470238208770752, 'rewards/format_reward': 1.0, 'reward': 1.7470239400863647, 'reward_std': 0.09363430365920067, 'kl': 0.34716796875, 'epoch': 0.92}
+ 92%|█████████▏| 3933/4286 [26:00:41<2:16:14, 23.16s/it] 92%|█████████▏| 3934/4286 [26:01:05<2:16:11, 23.22s/it]                                                        {'loss': 0.004, 'grad_norm': 2.832006629494964, 'learning_rate': 8.212785814279048e-08, 'completion_length': 399.8482360839844, 'rewards/only_full_func_accuracy_reward': 0.5840774178504944, 'rewards/format_reward': 1.0, 'reward': 1.5840774774551392, 'reward_std': 0.044561728835105896, 'kl': 0.10107421875, 'epoch': 0.92}
+ 92%|█████████▏| 3934/4286 [26:01:05<2:16:11, 23.22s/it] 92%|█████████▏| 3935/4286 [26:01:26<2:12:56, 22.72s/it]                                                        {'loss': 0.0049, 'grad_norm': 2.2939818803961365, 'learning_rate': 8.189454036397574e-08, 'completion_length': 311.5268020629883, 'rewards/only_full_func_accuracy_reward': 0.808779776096344, 'rewards/format_reward': 1.0, 'reward': 1.8087799549102783, 'reward_std': 0.06028192117810249, 'kl': 0.122314453125, 'epoch': 0.92}
+ 92%|█████████▏| 3935/4286 [26:01:26<2:12:56, 22.72s/it] 92%|█████████▏| 3936/4286 [26:01:46<2:07:36, 21.87s/it]                                                        {'loss': 0.0027, 'grad_norm': 0.7666185475340109, 'learning_rate': 8.166122258516099e-08, 'completion_length': 308.8928680419922, 'rewards/only_full_func_accuracy_reward': 0.6324404776096344, 'rewards/format_reward': 1.0, 'reward': 1.6324405670166016, 'reward_std': 0.05703834630548954, 'kl': 0.0667724609375, 'epoch': 0.92}
+ 92%|█████████▏| 3936/4286 [26:01:46<2:07:36, 21.87s/it] 92%|█████████▏| 3937/4286 [26:02:09<2:09:04, 22.19s/it]                                                        {'loss': 0.0358, 'grad_norm': 3.591682164477101, 'learning_rate': 8.142790480634625e-08, 'completion_length': 379.76788330078125, 'rewards/only_full_func_accuracy_reward': 0.6279761791229248, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.61904776096344, 'reward_std': 0.09688693284988403, 'kl': 0.892578125, 'epoch': 0.92}
+ 92%|█████████▏| 3937/4286 [26:02:09<2:09:04, 22.19s/it] 92%|█████████▏| 3938/4286 [26:02:29<2:05:03, 21.56s/it]                                                        {'loss': 0.0289, 'grad_norm': 2.581921313146437, 'learning_rate': 8.11945870275315e-08, 'completion_length': 322.95538330078125, 'rewards/only_full_func_accuracy_reward': 0.6369048058986664, 'rewards/format_reward': 1.0, 'reward': 1.6369048953056335, 'reward_std': 0.07980544865131378, 'kl': 0.720703125, 'epoch': 0.92}
+ 92%|█████████▏| 3938/4286 [26:02:29<2:05:03, 21.56s/it] 92%|█████████▏| 3939/4286 [26:02:52<2:06:48, 21.93s/it]                                                        {'loss': 0.0089, 'grad_norm': 1.345952998692018, 'learning_rate': 8.096126924871675e-08, 'completion_length': 356.3839569091797, 'rewards/only_full_func_accuracy_reward': 0.7458333671092987, 'rewards/format_reward': 1.0, 'reward': 1.7458334565162659, 'reward_std': 0.03192409500479698, 'kl': 0.221923828125, 'epoch': 0.92}
+ 92%|█████████▏| 3939/4286 [26:02:52<2:06:48, 21.93s/it] 92%|█████████▏| 3940/4286 [26:03:14<2:06:42, 21.97s/it]                                                        {'loss': 0.0126, 'grad_norm': 2.178201778876054, 'learning_rate': 8.072795146990201e-08, 'completion_length': 356.5357360839844, 'rewards/only_full_func_accuracy_reward': 0.756696492433548, 'rewards/format_reward': 1.0, 'reward': 1.7566965222358704, 'reward_std': 0.07064001262187958, 'kl': 0.3162841796875, 'epoch': 0.92}
+ 92%|█████████▏| 3940/4286 [26:03:14<2:06:42, 21.97s/it] 92%|█████████▏| 3941/4286 [26:03:37<2:07:33, 22.18s/it]                                                        {'loss': 0.0313, 'grad_norm': 8.228830793818004, 'learning_rate': 8.049463369108726e-08, 'completion_length': 374.9107208251953, 'rewards/only_full_func_accuracy_reward': 0.6845238208770752, 'rewards/format_reward': 1.0, 'reward': 1.68452388048172, 'reward_std': 0.034252967685461044, 'kl': 0.7799072265625, 'epoch': 0.92}
+ 92%|█████████▏| 3941/4286 [26:03:37<2:07:33, 22.18s/it] 92%|█████████▏| 3942/4286 [26:03:59<2:07:44, 22.28s/it]                                                        {'loss': 0.0123, 'grad_norm': 3.0599708414601237, 'learning_rate': 8.026131591227252e-08, 'completion_length': 380.5535888671875, 'rewards/only_full_func_accuracy_reward': 0.6793155074119568, 'rewards/format_reward': 1.0, 'reward': 1.6793155670166016, 'reward_std': 0.040217526257038116, 'kl': 0.3079833984375, 'epoch': 0.92}
+ 92%|█████████▏| 3942/4286 [26:03:59<2:07:44, 22.28s/it] 92%|█████████▏| 3943/4286 [26:04:22<2:08:35, 22.50s/it]                                                        {'loss': 0.0148, 'grad_norm': 0.41459381444057397, 'learning_rate': 8.002799813345777e-08, 'completion_length': 366.3393096923828, 'rewards/only_full_func_accuracy_reward': 0.8430059850215912, 'rewards/format_reward': 1.0, 'reward': 1.8430061340332031, 'reward_std': 0.0510068703442812, 'kl': 0.37060546875, 'epoch': 0.92}
+ 92%|█████████▏| 3943/4286 [26:04:22<2:08:35, 22.50s/it] 92%|█████████▏| 3944/4286 [26:04:45<2:08:34, 22.56s/it]                                                        {'loss': 0.0171, 'grad_norm': 1.7710927063901531, 'learning_rate': 7.979468035464303e-08, 'completion_length': 377.66966247558594, 'rewards/only_full_func_accuracy_reward': 0.7886905372142792, 'rewards/format_reward': 1.0, 'reward': 1.7886905670166016, 'reward_std': 0.04752558283507824, 'kl': 0.4285888671875, 'epoch': 0.92}
+ 92%|█████████▏| 3944/4286 [26:04:45<2:08:34, 22.56s/it] 92%|█████████▏| 3945/4286 [26:05:08<2:09:06, 22.72s/it]                                                        {'loss': 0.0183, 'grad_norm': 0.6682472628017462, 'learning_rate': 7.956136257582828e-08, 'completion_length': 379.9107360839844, 'rewards/only_full_func_accuracy_reward': 0.7552084028720856, 'rewards/format_reward': 1.0, 'reward': 1.755208432674408, 'reward_std': 0.028524931520223618, 'kl': 0.45684814453125, 'epoch': 0.92}
+ 92%|█████████▏| 3945/4286 [26:05:08<2:09:06, 22.72s/it] 92%|█████████▏| 3946/4286 [26:05:31<2:09:48, 22.91s/it]                                                        {'loss': 0.0159, 'grad_norm': 1.395634385663095, 'learning_rate': 7.932804479701353e-08, 'completion_length': 366.2857360839844, 'rewards/only_full_func_accuracy_reward': 0.754464328289032, 'rewards/format_reward': 1.0, 'reward': 1.7544644474983215, 'reward_std': 0.05836066976189613, 'kl': 0.3948974609375, 'epoch': 0.92}
+ 92%|█████████▏| 3946/4286 [26:05:31<2:09:48, 22.91s/it] 92%|█████████▏| 3947/4286 [26:05:53<2:07:09, 22.51s/it]                                                        {'loss': 0.0059, 'grad_norm': 3.0454773214874242, 'learning_rate': 7.909472701819879e-08, 'completion_length': 375.5357360839844, 'rewards/only_full_func_accuracy_reward': 0.8190051019191742, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8100767135620117, 'reward_std': 0.08750389888882637, 'kl': 0.14697265625, 'epoch': 0.92}
+ 92%|█████████▏| 3947/4286 [26:05:53<2:07:09, 22.51s/it] 92%|█████████▏| 3948/4286 [26:06:16<2:07:58, 22.72s/it]                                                        {'loss': 0.0273, 'grad_norm': 1.1619927542334147, 'learning_rate': 7.886140923938404e-08, 'completion_length': 397.7053680419922, 'rewards/only_full_func_accuracy_reward': 0.7008929252624512, 'rewards/format_reward': 1.0, 'reward': 1.700892984867096, 'reward_std': 0.06426164321601391, 'kl': 0.685546875, 'epoch': 0.92}
+ 92%|█████████▏| 3948/4286 [26:06:16<2:07:58, 22.72s/it] 92%|█████████▏| 3949/4286 [26:06:38<2:06:27, 22.52s/it]                                                        {'loss': 0.0256, 'grad_norm': 3.3989888692810846, 'learning_rate': 7.86280914605693e-08, 'completion_length': 342.9910888671875, 'rewards/only_full_func_accuracy_reward': 0.7117559611797333, 'rewards/format_reward': 1.0, 'reward': 1.7117559909820557, 'reward_std': 0.04402689263224602, 'kl': 0.640625, 'epoch': 0.92}
+ 92%|█████████▏| 3949/4286 [26:06:38<2:06:27, 22.52s/it] 92%|█████████▏| 3950/4286 [26:07:03<2:09:23, 23.11s/it]                                                        {'loss': 0.0131, 'grad_norm': 3.1611062631000055, 'learning_rate': 7.839477368175455e-08, 'completion_length': 421.5357360839844, 'rewards/only_full_func_accuracy_reward': 0.636904776096344, 'rewards/format_reward': 1.0, 'reward': 1.6369048953056335, 'reward_std': 0.09435243159532547, 'kl': 0.3271484375, 'epoch': 0.92}
+ 92%|█████████▏| 3950/4286 [26:07:03<2:09:23, 23.11s/it] 92%|█████████▏| 3951/4286 [26:07:26<2:09:03, 23.11s/it]                                                        {'loss': 0.0607, 'grad_norm': 4.471799674518282, 'learning_rate': 7.816145590293981e-08, 'completion_length': 368.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.7247024178504944, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7068453431129456, 'reward_std': 0.16704071313142776, 'kl': 1.515625, 'epoch': 0.92}
+ 92%|█████████▏| 3951/4286 [26:07:26<2:09:03, 23.11s/it] 92%|█████████▏| 3952/4286 [26:07:50<2:10:48, 23.50s/it]                                                        {'loss': 0.0144, 'grad_norm': 0.712634816824949, 'learning_rate': 7.792813812412505e-08, 'completion_length': 428.4464569091797, 'rewards/only_full_func_accuracy_reward': 0.7142857611179352, 'rewards/format_reward': 1.0, 'reward': 1.7142857909202576, 'reward_std': 0.05182609334588051, 'kl': 0.3604736328125, 'epoch': 0.92}
+ 92%|█████████▏| 3952/4286 [26:07:50<2:10:48, 23.50s/it] 92%|█████████▏| 3953/4286 [26:08:14<2:10:27, 23.51s/it]                                                        {'loss': 0.0298, 'grad_norm': 1.0073494327451489, 'learning_rate': 7.76948203453103e-08, 'completion_length': 404.45538330078125, 'rewards/only_full_func_accuracy_reward': 0.7236607670783997, 'rewards/format_reward': 1.0, 'reward': 1.7236608266830444, 'reward_std': 0.1399647817015648, 'kl': 0.74609375, 'epoch': 0.92}
+ 92%|█████████▏| 3953/4286 [26:08:14<2:10:27, 23.51s/it] 92%|█████████▏| 3954/4286 [26:08:35<2:05:43, 22.72s/it]                                                        {'loss': 0.0285, 'grad_norm': 1.4357110681409233, 'learning_rate': 7.746150256649556e-08, 'completion_length': 324.1964416503906, 'rewards/only_full_func_accuracy_reward': 0.723214328289032, 'rewards/format_reward': 1.0, 'reward': 1.7232143878936768, 'reward_std': 0.05322984606027603, 'kl': 0.71484375, 'epoch': 0.92}
+ 92%|█████████▏| 3954/4286 [26:08:35<2:05:43, 22.72s/it] 92%|█████████▏| 3955/4286 [26:09:00<2:09:49, 23.53s/it]                                                        {'loss': 0.0276, 'grad_norm': 1.145135502247374, 'learning_rate': 7.722818478768081e-08, 'completion_length': 418.1518096923828, 'rewards/only_full_func_accuracy_reward': 0.7217262387275696, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7127977013587952, 'reward_std': 0.09738095104694366, 'kl': 0.689453125, 'epoch': 0.92}
+ 92%|█████████▏| 3955/4286 [26:09:00<2:09:49, 23.53s/it] 92%|█████████▏| 3956/4286 [26:09:23<2:07:52, 23.25s/it]                                                        {'loss': 0.0441, 'grad_norm': 2.414880537274848, 'learning_rate': 7.699486700886607e-08, 'completion_length': 364.81251525878906, 'rewards/only_full_func_accuracy_reward': 0.5932900309562683, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5843615531921387, 'reward_std': 0.07569382339715958, 'kl': 1.103515625, 'epoch': 0.92}
+ 92%|█████████▏| 3956/4286 [26:09:23<2:07:52, 23.25s/it] 92%|█████████▏| 3957/4286 [26:09:45<2:06:47, 23.12s/it]                                                        {'loss': 0.0314, 'grad_norm': 0.9670750011154672, 'learning_rate': 7.676154923005132e-08, 'completion_length': 377.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.5409226417541504, 'rewards/format_reward': 1.0, 'reward': 1.5409227013587952, 'reward_std': 0.06733223050832748, 'kl': 0.78759765625, 'epoch': 0.92}
+ 92%|█████████▏| 3957/4286 [26:09:46<2:06:47, 23.12s/it] 92%|█████████▏| 3958/4286 [26:10:07<2:03:54, 22.67s/it]                                                        {'loss': 0.0065, 'grad_norm': 3.9993620871033846, 'learning_rate': 7.652823145123658e-08, 'completion_length': 369.6964416503906, 'rewards/only_full_func_accuracy_reward': 0.6718750298023224, 'rewards/format_reward': 1.0, 'reward': 1.6718751192092896, 'reward_std': 0.030122021213173866, 'kl': 0.16357421875, 'epoch': 0.92}
+ 92%|█████████▏| 3958/4286 [26:10:07<2:03:54, 22.67s/it] 92%|█████████▏| 3959/4286 [26:10:29<2:02:38, 22.50s/it]                                                        {'loss': 0.0314, 'grad_norm': 1.2151673032422932, 'learning_rate': 7.629491367242183e-08, 'completion_length': 382.93751525878906, 'rewards/only_full_func_accuracy_reward': 0.6940476894378662, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6851191520690918, 'reward_std': 0.07495645619928837, 'kl': 0.78271484375, 'epoch': 0.92}
+ 92%|█████████▏| 3959/4286 [26:10:29<2:02:38, 22.50s/it] 92%|█████████▏| 3960/4286 [26:10:51<2:01:17, 22.32s/it]                                                        {'loss': 0.0336, 'grad_norm': 1.9556356822776335, 'learning_rate': 7.606159589360709e-08, 'completion_length': 376.9553680419922, 'rewards/only_full_func_accuracy_reward': 0.6897321343421936, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.680803656578064, 'reward_std': 0.10747384652495384, 'kl': 0.841064453125, 'epoch': 0.92}
+ 92%|█████████▏| 3960/4286 [26:10:51<2:01:17, 22.32s/it] 92%|█████████▏| 3961/4286 [26:11:15<2:02:53, 22.69s/it]                                                        {'loss': 0.0832, 'grad_norm': 2.441287373428372, 'learning_rate': 7.582827811479234e-08, 'completion_length': 395.1875305175781, 'rewards/only_full_func_accuracy_reward': 0.6138393580913544, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.595982313156128, 'reward_std': 0.15174546837806702, 'kl': 2.0869140625, 'epoch': 0.92}
+ 92%|█████████▏| 3961/4286 [26:11:15<2:02:53, 22.69s/it] 92%|█████████▏| 3962/4286 [26:11:38<2:03:05, 22.79s/it]                                                        {'loss': 0.043, 'grad_norm': 1.6731006314196704, 'learning_rate': 7.559496033597759e-08, 'completion_length': 396.2768096923828, 'rewards/only_full_func_accuracy_reward': 0.6197916865348816, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6019346714019775, 'reward_std': 0.13413531333208084, 'kl': 1.07861328125, 'epoch': 0.92}
+ 92%|█████████▏| 3962/4286 [26:11:38<2:03:05, 22.79s/it] 92%|█████████▏| 3963/4286 [26:12:01<2:02:43, 22.80s/it]                                                        {'loss': 0.0373, 'grad_norm': 4.337689708205479, 'learning_rate': 7.536164255716285e-08, 'completion_length': 383.5893096923828, 'rewards/only_full_func_accuracy_reward': 0.7403274178504944, 'rewards/format_reward': 1.0, 'reward': 1.7403274774551392, 'reward_std': 0.02190595306456089, 'kl': 0.93310546875, 'epoch': 0.92}
+ 92%|█████████▏| 3963/4286 [26:12:01<2:02:43, 22.80s/it] 92%|█████████▏| 3964/4286 [26:12:24<2:03:49, 23.07s/it]                                                        {'loss': 0.028, 'grad_norm': 1.4169523872605054, 'learning_rate': 7.51283247783481e-08, 'completion_length': 386.9107360839844, 'rewards/only_full_func_accuracy_reward': 0.8488095998764038, 'rewards/format_reward': 1.0, 'reward': 1.8488096594810486, 'reward_std': 0.056004930287599564, 'kl': 0.700927734375, 'epoch': 0.92}
+ 92%|█████████▏| 3964/4286 [26:12:24<2:03:49, 23.07s/it] 93%|█████████▎| 3965/4286 [26:12:46<2:01:57, 22.80s/it]                                                        {'loss': 0.0433, 'grad_norm': 1.4099192706335053, 'learning_rate': 7.489500699953336e-08, 'completion_length': 393.5714416503906, 'rewards/only_full_func_accuracy_reward': 0.7157738208770752, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7068453431129456, 'reward_std': 0.0955258160829544, 'kl': 1.08203125, 'epoch': 0.93}
+ 93%|█████████▎| 3965/4286 [26:12:46<2:01:57, 22.80s/it] 93%|█████████▎| 3966/4286 [26:13:09<2:01:39, 22.81s/it]                                                        {'loss': 0.0109, 'grad_norm': 0.43369082551136745, 'learning_rate': 7.466168922071861e-08, 'completion_length': 389.0357360839844, 'rewards/only_full_func_accuracy_reward': 0.7366071343421936, 'rewards/format_reward': 1.0, 'reward': 1.7366071939468384, 'reward_std': 0.03873978182673454, 'kl': 0.2725830078125, 'epoch': 0.93}
+ 93%|█████████▎| 3966/4286 [26:13:09<2:01:39, 22.81s/it] 93%|█████████▎| 3967/4286 [26:13:33<2:02:23, 23.02s/it]                                                        {'loss': 0.0377, 'grad_norm': 1.4466386790345513, 'learning_rate': 7.442837144190387e-08, 'completion_length': 388.0535888671875, 'rewards/only_full_func_accuracy_reward': 0.6220238506793976, 'rewards/format_reward': 1.0, 'reward': 1.6220239400863647, 'reward_std': 0.07890677452087402, 'kl': 0.943359375, 'epoch': 0.93}
+ 93%|█████████▎| 3967/4286 [26:13:33<2:02:23, 23.02s/it] 93%|█████████▎| 3968/4286 [26:13:56<2:01:38, 22.95s/it]                                                        {'loss': 0.0201, 'grad_norm': 5.312706544377762, 'learning_rate': 7.419505366308912e-08, 'completion_length': 327.2053680419922, 'rewards/only_full_func_accuracy_reward': 0.781994104385376, 'rewards/format_reward': 1.0, 'reward': 1.781994104385376, 'reward_std': 0.08504138886928558, 'kl': 0.49853515625, 'epoch': 0.93}
+ 93%|█████████▎| 3968/4286 [26:13:56<2:01:38, 22.95s/it] 93%|█████████▎| 3969/4286 [26:14:17<1:58:25, 22.41s/it]                                                        {'loss': 0.0479, 'grad_norm': 2.4576678531400566, 'learning_rate': 7.396173588427437e-08, 'completion_length': 343.52679443359375, 'rewards/only_full_func_accuracy_reward': 0.6523809731006622, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6434524655342102, 'reward_std': 0.06976986676454544, 'kl': 1.197265625, 'epoch': 0.93}
+ 93%|█████████▎| 3969/4286 [26:14:17<1:58:25, 22.41s/it] 93%|█████████▎| 3970/4286 [26:14:39<1:58:30, 22.50s/it]                                                        {'loss': 0.0418, 'grad_norm': 1.6945349406003627, 'learning_rate': 7.372841810545963e-08, 'completion_length': 396.3035888671875, 'rewards/only_full_func_accuracy_reward': 0.7111607491970062, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.6843750476837158, 'reward_std': 0.08630879409611225, 'kl': 1.04443359375, 'epoch': 0.93}
+ 93%|█████████▎| 3970/4286 [26:14:39<1:58:30, 22.50s/it] 93%|█████████▎| 3971/4286 [26:15:01<1:56:51, 22.26s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.3679035224201726, 'learning_rate': 7.349510032664488e-08, 'completion_length': 379.2232208251953, 'rewards/only_full_func_accuracy_reward': 0.7202381193637848, 'rewards/format_reward': 1.0, 'reward': 1.720238208770752, 'reward_std': 0.043282654136419296, 'kl': 0.0379638671875, 'epoch': 0.93}
+ 93%|█████████▎| 3971/4286 [26:15:01<1:56:51, 22.26s/it] 93%|█████████▎| 3972/4286 [26:15:25<1:58:30, 22.65s/it]                                                        {'loss': 0.0354, 'grad_norm': 2.9399179073272035, 'learning_rate': 7.326178254783014e-08, 'completion_length': 394.3928680419922, 'rewards/only_full_func_accuracy_reward': 0.7505952417850494, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7416667342185974, 'reward_std': 0.0757614434696734, 'kl': 0.884765625, 'epoch': 0.93}
+ 93%|█████████▎| 3972/4286 [26:15:25<1:58:30, 22.65s/it] 93%|█████████▎| 3973/4286 [26:15:47<1:58:24, 22.70s/it]                                                        {'loss': 0.0045, 'grad_norm': 0.5175722632494035, 'learning_rate': 7.302846476901539e-08, 'completion_length': 402.5803680419922, 'rewards/only_full_func_accuracy_reward': 0.7083333730697632, 'rewards/format_reward': 1.0, 'reward': 1.708333432674408, 'reward_std': 0.046970706433057785, 'kl': 0.11328125, 'epoch': 0.93}
+ 93%|█████████▎| 3973/4286 [26:15:47<1:58:24, 22.70s/it] 93%|█████████▎| 3974/4286 [26:16:10<1:58:09, 22.72s/it]                                                        {'loss': 0.033, 'grad_norm': 3.102191767173753, 'learning_rate': 7.279514699020065e-08, 'completion_length': 381.8482360839844, 'rewards/only_full_func_accuracy_reward': 0.6711309254169464, 'rewards/format_reward': 1.0, 'reward': 1.6711310744285583, 'reward_std': 0.05959593318402767, 'kl': 0.826171875, 'epoch': 0.93}
+ 93%|█████████▎| 3974/4286 [26:16:10<1:58:09, 22.72s/it] 93%|█████████▎| 3975/4286 [26:16:32<1:56:08, 22.41s/it]                                                        {'loss': 0.0017, 'grad_norm': 1.4408967798952916, 'learning_rate': 7.25618292113859e-08, 'completion_length': 358.6518096923828, 'rewards/only_full_func_accuracy_reward': 0.845982164144516, 'rewards/format_reward': 1.0, 'reward': 1.8459822535514832, 'reward_std': 0.031567259691655636, 'kl': 0.0428466796875, 'epoch': 0.93}
+ 93%|█████████▎| 3975/4286 [26:16:32<1:56:08, 22.41s/it] 93%|█████████▎| 3976/4286 [26:16:55<1:56:44, 22.60s/it]                                                        {'loss': 0.0759, 'grad_norm': 3.148777504187056, 'learning_rate': 7.232851143257115e-08, 'completion_length': 388.3393096923828, 'rewards/only_full_func_accuracy_reward': 0.8043831884860992, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.7775975465774536, 'reward_std': 0.129358334466815, 'kl': 1.8994140625, 'epoch': 0.93}
+ 93%|█████████▎| 3976/4286 [26:16:55<1:56:44, 22.60s/it] 93%|█████████▎| 3977/4286 [26:17:17<1:56:05, 22.54s/it]                                                        {'loss': 0.0013, 'grad_norm': 0.04366995934086899, 'learning_rate': 7.209519365375641e-08, 'completion_length': 373.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.8452381491661072, 'rewards/format_reward': 1.0, 'reward': 1.845238208770752, 'reward_std': 0.0, 'kl': 0.0333251953125, 'epoch': 0.93}
+ 93%|█████████▎| 3977/4286 [26:17:17<1:56:05, 22.54s/it] 93%|█████████▎| 3978/4286 [26:17:41<1:57:25, 22.87s/it]                                                        {'loss': 0.0143, 'grad_norm': 1.1694828490622022, 'learning_rate': 7.186187587494166e-08, 'completion_length': 378.0446472167969, 'rewards/only_full_func_accuracy_reward': 0.7358631193637848, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7269346117973328, 'reward_std': 0.11383013054728508, 'kl': 0.357421875, 'epoch': 0.93}
+ 93%|█████████▎| 3978/4286 [26:17:41<1:57:25, 22.87s/it] 93%|█████████▎| 3979/4286 [26:18:03<1:56:05, 22.69s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.485309827976586, 'learning_rate': 7.162855809612692e-08, 'completion_length': 410.0535888671875, 'rewards/only_full_func_accuracy_reward': 0.7239583730697632, 'rewards/format_reward': 1.0, 'reward': 1.723958432674408, 'reward_std': 0.0063134534284472466, 'kl': 0.0362548828125, 'epoch': 0.93}
+ 93%|█████████▎| 3979/4286 [26:18:03<1:56:05, 22.69s/it] 93%|█████████▎| 3980/4286 [26:18:27<1:58:02, 23.14s/it]                                                        {'loss': 0.0742, 'grad_norm': 1.8886698382443645, 'learning_rate': 7.139524031731217e-08, 'completion_length': 421.7053680419922, 'rewards/only_full_func_accuracy_reward': 0.6532738506793976, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6443453431129456, 'reward_std': 0.06886626407504082, 'kl': 1.85546875, 'epoch': 0.93}
+ 93%|█████████▎| 3980/4286 [26:18:27<1:58:02, 23.14s/it] 93%|█████████▎| 3981/4286 [26:18:49<1:54:56, 22.61s/it]                                                        {'loss': 0.0138, 'grad_norm': 0.6523392400127944, 'learning_rate': 7.116192253849743e-08, 'completion_length': 358.3839416503906, 'rewards/only_full_func_accuracy_reward': 0.9040179550647736, 'rewards/format_reward': 1.0, 'reward': 1.904017984867096, 'reward_std': 0.018940359354019165, 'kl': 0.345703125, 'epoch': 0.93}
+ 93%|█████████▎| 3981/4286 [26:18:49<1:54:56, 22.61s/it] 93%|█████████▎| 3982/4286 [26:19:12<1:55:20, 22.77s/it]                                                        {'loss': 0.0123, 'grad_norm': 11.218568898781298, 'learning_rate': 7.092860475968268e-08, 'completion_length': 360.0803680419922, 'rewards/only_full_func_accuracy_reward': 0.7604166865348816, 'rewards/format_reward': 1.0, 'reward': 1.7604168057441711, 'reward_std': 0.022611771710217, 'kl': 0.30712890625, 'epoch': 0.93}
+ 93%|█████████▎| 3982/4286 [26:19:12<1:55:20, 22.77s/it] 93%|█████████▎| 3983/4286 [26:19:34<1:54:00, 22.58s/it]                                                        {'loss': 0.0014, 'grad_norm': 1.5137775729113188, 'learning_rate': 7.069528698086793e-08, 'completion_length': 381.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.740327388048172, 'rewards/format_reward': 1.0, 'reward': 1.7403274774551392, 'reward_std': 0.02499942108988762, 'kl': 0.0361328125, 'epoch': 0.93}
+ 93%|█████████▎| 3983/4286 [26:19:34<1:54:00, 22.58s/it] 93%|█████████▎| 3984/4286 [26:19:58<1:55:18, 22.91s/it]                                                        {'loss': 0.0507, 'grad_norm': 1.470389556917101, 'learning_rate': 7.046196920205319e-08, 'completion_length': 378.4732360839844, 'rewards/only_full_func_accuracy_reward': 0.6517857611179352, 'rewards/format_reward': 1.0, 'reward': 1.6517857909202576, 'reward_std': 0.0958933662623167, 'kl': 1.26495361328125, 'epoch': 0.93}
+ 93%|█████████▎| 3984/4286 [26:19:58<1:55:18, 22.91s/it] 93%|█████████▎| 3985/4286 [26:20:17<1:49:36, 21.85s/it]                                                        {'loss': 0.0166, 'grad_norm': 0.67713138875581, 'learning_rate': 7.022865142323844e-08, 'completion_length': 303.4821472167969, 'rewards/only_full_func_accuracy_reward': 0.7797619700431824, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.770833432674408, 'reward_std': 0.08747542276978493, 'kl': 0.4146728515625, 'epoch': 0.93}
+ 93%|█████████▎| 3985/4286 [26:20:17<1:49:36, 21.85s/it] 93%|█████████▎| 3986/4286 [26:20:40<1:50:49, 22.17s/it]                                                        {'loss': 0.0065, 'grad_norm': 3.5603929522509445, 'learning_rate': 6.99953336444237e-08, 'completion_length': 392.4553680419922, 'rewards/only_full_func_accuracy_reward': 0.6752764284610748, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6663479208946228, 'reward_std': 0.06942669581621885, 'kl': 0.16119384765625, 'epoch': 0.93}
+ 93%|█████████▎| 3986/4286 [26:20:40<1:50:49, 22.17s/it] 93%|█████████▎| 3987/4286 [26:21:04<1:53:22, 22.75s/it]                                                        {'loss': 0.0709, 'grad_norm': 2.9012248184747835, 'learning_rate': 6.976201586560895e-08, 'completion_length': 444.4464569091797, 'rewards/only_full_func_accuracy_reward': 0.5714285671710968, 'rewards/format_reward': 0.973214328289032, 'reward': 1.5446430444717407, 'reward_std': 0.17684072256088257, 'kl': 1.76953125, 'epoch': 0.93}
+ 93%|█████████▎| 3987/4286 [26:21:04<1:53:22, 22.75s/it] 93%|█████████▎| 3988/4286 [26:21:26<1:52:21, 22.62s/it]                                                        {'loss': 0.0646, 'grad_norm': 2.6108284869461027, 'learning_rate': 6.952869808679421e-08, 'completion_length': 358.5089416503906, 'rewards/only_full_func_accuracy_reward': 0.791666716337204, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.782738208770752, 'reward_std': 0.07993647083640099, 'kl': 1.611328125, 'epoch': 0.93}
+ 93%|█████████▎| 3988/4286 [26:21:26<1:52:21, 22.62s/it] 93%|█████████▎| 3989/4286 [26:21:49<1:51:40, 22.56s/it]                                                        {'loss': 0.0318, 'grad_norm': 1.276451261747392, 'learning_rate': 6.929538030797946e-08, 'completion_length': 387.8214416503906, 'rewards/only_full_func_accuracy_reward': 0.7217262089252472, 'rewards/format_reward': 1.0, 'reward': 1.7217262983322144, 'reward_std': 0.10532639920711517, 'kl': 0.7958984375, 'epoch': 0.93}
+ 93%|█████████▎| 3989/4286 [26:21:49<1:51:40, 22.56s/it] 93%|█████████▎| 3990/4286 [26:22:12<1:52:18, 22.76s/it]                                                        {'loss': 0.0014, 'grad_norm': 0.18753807748770576, 'learning_rate': 6.906206252916472e-08, 'completion_length': 384.48216247558594, 'rewards/only_full_func_accuracy_reward': 0.7983631491661072, 'rewards/format_reward': 1.0, 'reward': 1.7983632683753967, 'reward_std': 0.018636051565408707, 'kl': 0.0357666015625, 'epoch': 0.93}
+ 93%|█████████▎| 3990/4286 [26:22:12<1:52:18, 22.76s/it] 93%|█████████▎| 3991/4286 [26:22:34<1:49:51, 22.35s/it]                                                        {'loss': 0.0026, 'grad_norm': 1.5181904481180692, 'learning_rate': 6.882874475034997e-08, 'completion_length': 337.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.723214328289032, 'rewards/format_reward': 1.0, 'reward': 1.7232143878936768, 'reward_std': 0.01943960040807724, 'kl': 0.0654296875, 'epoch': 0.93}
+ 93%|█████████▎| 3991/4286 [26:22:34<1:49:51, 22.35s/it] 93%|█████████▎| 3992/4286 [26:22:55<1:47:36, 21.96s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.4398063873553448, 'learning_rate': 6.859542697153522e-08, 'completion_length': 379.5178680419922, 'rewards/only_full_func_accuracy_reward': 0.6971726715564728, 'rewards/format_reward': 1.0, 'reward': 1.6971727013587952, 'reward_std': 0.0219059600494802, 'kl': 0.03857421875, 'epoch': 0.93}
+ 93%|█████████▎| 3992/4286 [26:22:55<1:47:36, 21.96s/it] 93%|█████████▎| 3993/4286 [26:23:17<1:48:22, 22.19s/it]                                                        {'loss': 0.0023, 'grad_norm': 0.4185929409904029, 'learning_rate': 6.836210919272048e-08, 'completion_length': 382.7857360839844, 'rewards/only_full_func_accuracy_reward': 0.7790178954601288, 'rewards/format_reward': 1.0, 'reward': 1.779017984867096, 'reward_std': 0.009241949766874313, 'kl': 0.0565185546875, 'epoch': 0.93}
+ 93%|█████████▎| 3993/4286 [26:23:17<1:48:22, 22.19s/it] 93%|█████████▎| 3994/4286 [26:23:40<1:48:46, 22.35s/it]                                                        {'loss': 0.0167, 'grad_norm': 1.8343424533261654, 'learning_rate': 6.812879141390573e-08, 'completion_length': 363.7410888671875, 'rewards/only_full_func_accuracy_reward': 0.6510416567325592, 'rewards/format_reward': 1.0, 'reward': 1.6510418057441711, 'reward_std': 0.04038985213264823, 'kl': 0.4189453125, 'epoch': 0.93}
+ 93%|█████████▎| 3994/4286 [26:23:40<1:48:46, 22.35s/it] 93%|█████████▎| 3995/4286 [26:24:01<1:46:53, 22.04s/it]                                                        {'loss': 0.062, 'grad_norm': 4.165330263091488, 'learning_rate': 6.789547363509099e-08, 'completion_length': 325.91966247558594, 'rewards/only_full_func_accuracy_reward': 0.6250000596046448, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.607142984867096, 'reward_std': 0.15394528955221176, 'kl': 1.55859375, 'epoch': 0.93}
+ 93%|█████████▎| 3995/4286 [26:24:01<1:46:53, 22.04s/it] 93%|█████████▎| 3996/4286 [26:24:24<1:46:53, 22.12s/it]                                                        {'loss': 0.0155, 'grad_norm': 2.6687387807557035, 'learning_rate': 6.766215585627624e-08, 'completion_length': 377.5893096923828, 'rewards/only_full_func_accuracy_reward': 0.6845238506793976, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6755954027175903, 'reward_std': 0.11666015535593033, 'kl': 0.390380859375, 'epoch': 0.93}
+ 93%|█████████▎| 3996/4286 [26:24:24<1:46:53, 22.12s/it] 93%|█████████▎| 3997/4286 [26:24:47<1:48:44, 22.58s/it]                                                        {'loss': 0.0312, 'grad_norm': 2.0325714201774905, 'learning_rate': 6.74288380774615e-08, 'completion_length': 369.2857208251953, 'rewards/only_full_func_accuracy_reward': 0.6644346117973328, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6465774774551392, 'reward_std': 0.10446612536907196, 'kl': 0.78125, 'epoch': 0.93}
+ 93%|█████████▎| 3997/4286 [26:24:47<1:48:44, 22.58s/it] 93%|█████████▎| 3998/4286 [26:25:09<1:47:38, 22.43s/it]                                                        {'loss': 0.0574, 'grad_norm': 1.6048483733919927, 'learning_rate': 6.719552029864675e-08, 'completion_length': 385.9107208251953, 'rewards/only_full_func_accuracy_reward': 0.7992560267448425, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7903274893760681, 'reward_std': 0.0944456122815609, 'kl': 1.431640625, 'epoch': 0.93}
+ 93%|█████████▎| 3998/4286 [26:25:09<1:47:38, 22.43s/it] 93%|█████████▎| 3999/4286 [26:25:32<1:48:02, 22.59s/it]                                                        {'loss': 0.0441, 'grad_norm': 1.1977677418490957, 'learning_rate': 6.6962202519832e-08, 'completion_length': 363.6160888671875, 'rewards/only_full_func_accuracy_reward': 0.7008928656578064, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6919644474983215, 'reward_std': 0.08540444076061249, 'kl': 1.103515625, 'epoch': 0.93}
+ 93%|█████████▎| 3999/4286 [26:25:32<1:48:02, 22.59s/it] 93%|█████████▎| 4000/4286 [26:25:55<1:48:19, 22.73s/it]                                                        {'loss': 0.0172, 'grad_norm': 16.180874105301417, 'learning_rate': 6.672888474101726e-08, 'completion_length': 376.4732360839844, 'rewards/only_full_func_accuracy_reward': 0.6250000298023224, 'rewards/format_reward': 1.0, 'reward': 1.6250001192092896, 'reward_std': 0.050507632084190845, 'kl': 0.43194580078125, 'epoch': 0.93}
+ 93%|█████████▎| 4000/4286 [26:25:55<1:48:19, 22.73s/it] 93%|█████████▎| 4001/4286 [26:27:22<3:19:11, 41.93s/it]                                                        {'loss': 0.054, 'grad_norm': 3.076681124790249, 'learning_rate': 6.649556696220251e-08, 'completion_length': 357.46429443359375, 'rewards/only_full_func_accuracy_reward': 0.8727678954601288, 'rewards/format_reward': 1.0, 'reward': 1.872767984867096, 'reward_std': 0.061038168147206306, 'kl': 1.34765625, 'epoch': 0.93}
+ 93%|█████████▎| 4001/4286 [26:27:22<3:19:11, 41.93s/it] 93%|█████████▎| 4002/4286 [26:27:42<2:47:24, 35.37s/it]                                                        {'loss': 0.0406, 'grad_norm': 2.343738881860636, 'learning_rate': 6.626224918338777e-08, 'completion_length': 383.9018096923828, 'rewards/only_full_func_accuracy_reward': 0.7388393580913544, 'rewards/format_reward': 1.0, 'reward': 1.7388393878936768, 'reward_std': 0.07564844936132431, 'kl': 1.0126953125, 'epoch': 0.93}
+ 93%|█████████▎| 4002/4286 [26:27:42<2:47:24, 35.37s/it] 93%|█████████▎| 4003/4286 [26:28:05<2:29:14, 31.64s/it]                                                        {'loss': 0.0413, 'grad_norm': 1.3862541222732854, 'learning_rate': 6.602893140457302e-08, 'completion_length': 371.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.7626488506793976, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7537203431129456, 'reward_std': 0.05632713437080383, 'kl': 1.033203125, 'epoch': 0.93}
+ 93%|█████████▎| 4003/4286 [26:28:05<2:29:14, 31.64s/it] 93%|█████████▎| 4004/4286 [26:28:29<2:17:48, 29.32s/it]                                                        {'loss': 0.0016, 'grad_norm': 2.294939584939377, 'learning_rate': 6.579561362575828e-08, 'completion_length': 416.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.8519346415996552, 'rewards/format_reward': 1.0, 'reward': 1.8519346714019775, 'reward_std': 0.07819603383541107, 'kl': 0.04052734375, 'epoch': 0.93}
+ 93%|█████████▎| 4004/4286 [26:28:29<2:17:48, 29.32s/it] 93%|█████████▎| 4005/4286 [26:28:52<2:08:51, 27.52s/it]                                                        {'loss': 0.0046, 'grad_norm': 10.146640105191501, 'learning_rate': 6.556229584694353e-08, 'completion_length': 419.3303680419922, 'rewards/only_full_func_accuracy_reward': 0.6797618865966797, 'rewards/format_reward': 1.0, 'reward': 1.679762065410614, 'reward_std': 0.04652970843017101, 'kl': 0.115478515625, 'epoch': 0.93}
+ 93%|█████████▎| 4005/4286 [26:28:52<2:08:51, 27.52s/it] 93%|█████████▎| 4006/4286 [26:29:15<2:02:14, 26.19s/it]                                                        {'loss': 0.0439, 'grad_norm': 1.8386222127077627, 'learning_rate': 6.532897806812878e-08, 'completion_length': 371.7143096923828, 'rewards/only_full_func_accuracy_reward': 0.7752977013587952, 'rewards/format_reward': 1.0, 'reward': 1.77529776096344, 'reward_std': 0.059924064204096794, 'kl': 1.09765625, 'epoch': 0.93}
+ 93%|█████████▎| 4006/4286 [26:29:15<2:02:14, 26.19s/it] 93%|█████████▎| 4007/4286 [26:29:37<1:55:25, 24.82s/it]                                                        {'loss': 0.0184, 'grad_norm': 1.69374590298015, 'learning_rate': 6.509566028931404e-08, 'completion_length': 344.3839416503906, 'rewards/only_full_func_accuracy_reward': 0.6465774178504944, 'rewards/format_reward': 1.0, 'reward': 1.6465774774551392, 'reward_std': 0.0784527026116848, 'kl': 0.458984375, 'epoch': 0.93}
+ 93%|█████████▎| 4007/4286 [26:29:37<1:55:25, 24.82s/it] 94%|█████████▎| 4008/4286 [26:30:00<1:52:30, 24.28s/it]                                                        {'loss': 0.0814, 'grad_norm': 3.6624891226887164, 'learning_rate': 6.486234251049929e-08, 'completion_length': 359.9107360839844, 'rewards/only_full_func_accuracy_reward': 0.6197916567325592, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6019346117973328, 'reward_std': 0.11608043313026428, 'kl': 2.0302734375, 'epoch': 0.94}
+ 94%|█████████▎| 4008/4286 [26:30:00<1:52:30, 24.28s/it] 94%|█████████▎| 4009/4286 [26:30:24<1:52:08, 24.29s/it]                                                        {'loss': 0.0422, 'grad_norm': 1.0304810616336173, 'learning_rate': 6.462902473168455e-08, 'completion_length': 450.4732360839844, 'rewards/only_full_func_accuracy_reward': 0.703869104385376, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6949405670166016, 'reward_std': 0.0801700558513403, 'kl': 1.05859375, 'epoch': 0.94}
+ 94%|█████████▎| 4009/4286 [26:30:24<1:52:08, 24.29s/it] 94%|█████████▎| 4010/4286 [26:30:47<1:49:49, 23.87s/it]                                                        {'loss': 0.0122, 'grad_norm': 4.088822380551197, 'learning_rate': 6.43957069528698e-08, 'completion_length': 401.8660888671875, 'rewards/only_full_func_accuracy_reward': 0.7968750298023224, 'rewards/format_reward': 1.0, 'reward': 1.7968751788139343, 'reward_std': 0.02887109201401472, 'kl': 0.30615234375, 'epoch': 0.94}
+ 94%|█████████▎| 4010/4286 [26:30:47<1:49:49, 23.87s/it] 94%|█████████▎| 4011/4286 [26:31:10<1:47:13, 23.39s/it]                                                        {'loss': 0.0235, 'grad_norm': 1.571276263466538, 'learning_rate': 6.416238917405506e-08, 'completion_length': 373.0803680419922, 'rewards/only_full_func_accuracy_reward': 0.783482164144516, 'rewards/format_reward': 1.0, 'reward': 1.7834822535514832, 'reward_std': 0.050724892877042294, 'kl': 0.5859375, 'epoch': 0.94}
+ 94%|█████████▎| 4011/4286 [26:31:10<1:47:13, 23.39s/it] 94%|█████████▎| 4012/4286 [26:31:33<1:46:54, 23.41s/it]                                                        {'loss': 0.0152, 'grad_norm': 0.48691104486133546, 'learning_rate': 6.392907139524031e-08, 'completion_length': 380.7857360839844, 'rewards/only_full_func_accuracy_reward': 0.7261905372142792, 'rewards/format_reward': 1.0, 'reward': 1.7261905670166016, 'reward_std': 0.012726726941764355, 'kl': 0.3809814453125, 'epoch': 0.94}
+ 94%|█████████▎| 4012/4286 [26:31:33<1:46:54, 23.41s/it] 94%|█████████▎| 4013/4286 [26:31:55<1:45:06, 23.10s/it]                                                        {'loss': 0.0114, 'grad_norm': 2.3739596120695885, 'learning_rate': 6.369575361642557e-08, 'completion_length': 371.9732360839844, 'rewards/only_full_func_accuracy_reward': 0.66964291036129, 'rewards/format_reward': 1.0, 'reward': 1.669642984867096, 'reward_std': 0.025253813713788986, 'kl': 0.2840576171875, 'epoch': 0.94}
+ 94%|█████████▎| 4013/4286 [26:31:55<1:45:06, 23.10s/it] 94%|█████████▎| 4014/4286 [26:32:18<1:43:29, 22.83s/it]                                                        {'loss': 0.0573, 'grad_norm': 1.5662717049401544, 'learning_rate': 6.346243583761082e-08, 'completion_length': 344.3839569091797, 'rewards/only_full_func_accuracy_reward': 0.7502976655960083, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7324406504631042, 'reward_std': 0.1345481090247631, 'kl': 1.435546875, 'epoch': 0.94}
+ 94%|█████████▎| 4014/4286 [26:32:18<1:43:29, 22.83s/it] 94%|█████████▎| 4015/4286 [26:32:41<1:43:41, 22.96s/it]                                                        {'loss': 0.0168, 'grad_norm': 1.1784105764641783, 'learning_rate': 6.322911805879607e-08, 'completion_length': 393.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.8572916984558105, 'rewards/format_reward': 1.0, 'reward': 1.8572917580604553, 'reward_std': 0.02676796354353428, 'kl': 0.4193115234375, 'epoch': 0.94}
+ 94%|█████████▎| 4015/4286 [26:32:41<1:43:41, 22.96s/it] 94%|█████████▎| 4016/4286 [26:33:05<1:44:27, 23.21s/it]                                                        {'loss': 0.0243, 'grad_norm': 1.3132516798343277, 'learning_rate': 6.299580027998133e-08, 'completion_length': 396.5357360839844, 'rewards/only_full_func_accuracy_reward': 0.6755953133106232, 'rewards/format_reward': 1.0, 'reward': 1.6755953431129456, 'reward_std': 0.06661567464470863, 'kl': 0.60546875, 'epoch': 0.94}
+ 94%|█████████▎| 4016/4286 [26:33:05<1:44:27, 23.21s/it] 94%|█████████▎| 4017/4286 [26:33:27<1:43:16, 23.03s/it]                                                        {'loss': 0.0083, 'grad_norm': 0.7739878402658805, 'learning_rate': 6.276248250116658e-08, 'completion_length': 374.7946472167969, 'rewards/only_full_func_accuracy_reward': 0.734375, 'rewards/format_reward': 1.0, 'reward': 1.7343751788139343, 'reward_std': 0.039680893532931805, 'kl': 0.20660400390625, 'epoch': 0.94}
+ 94%|█████████▎| 4017/4286 [26:33:27<1:43:16, 23.03s/it] 94%|█████████▎| 4018/4286 [26:33:52<1:44:52, 23.48s/it]                                                        {'loss': 0.0022, 'grad_norm': 2.8677504831948797, 'learning_rate': 6.252916472235184e-08, 'completion_length': 399.51788330078125, 'rewards/only_full_func_accuracy_reward': 0.68452388048172, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6755953431129456, 'reward_std': 0.06704013049602509, 'kl': 0.055419921875, 'epoch': 0.94}
+ 94%|█████████▎| 4018/4286 [26:33:52<1:44:52, 23.48s/it] 94%|█████████▍| 4019/4286 [26:34:15<1:44:02, 23.38s/it]                                                        {'loss': 0.03, 'grad_norm': 1.9608442387869616, 'learning_rate': 6.229584694353709e-08, 'completion_length': 407.3839416503906, 'rewards/only_full_func_accuracy_reward': 0.8113095760345459, 'rewards/format_reward': 1.0, 'reward': 1.8113096356391907, 'reward_std': 0.053046079352498055, 'kl': 0.751953125, 'epoch': 0.94}
+ 94%|█████████▍| 4019/4286 [26:34:15<1:44:02, 23.38s/it] 94%|█████████▍| 4020/4286 [26:34:39<1:45:00, 23.69s/it]                                                        {'loss': 0.0332, 'grad_norm': 1.3538511431596367, 'learning_rate': 6.206252916472235e-08, 'completion_length': 423.8303680419922, 'rewards/only_full_func_accuracy_reward': 0.690476268529892, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6726191639900208, 'reward_std': 0.1125540267676115, 'kl': 0.829833984375, 'epoch': 0.94}
+ 94%|█████████▍| 4020/4286 [26:34:39<1:45:00, 23.69s/it] 94%|█████████▍| 4021/4286 [26:35:02<1:43:32, 23.44s/it]                                                        {'loss': 0.0013, 'grad_norm': 0.9457578015198961, 'learning_rate': 6.18292113859076e-08, 'completion_length': 401.5446472167969, 'rewards/only_full_func_accuracy_reward': 0.816220223903656, 'rewards/format_reward': 1.0, 'reward': 1.8162203431129456, 'reward_std': 0.018636055290699005, 'kl': 0.03228759765625, 'epoch': 0.94}
+ 94%|█████████▍| 4021/4286 [26:35:02<1:43:32, 23.44s/it] 94%|█████████▍| 4022/4286 [26:35:25<1:42:34, 23.31s/it]                                                        {'loss': 0.0121, 'grad_norm': 2.9282500800647115, 'learning_rate': 6.159589360709285e-08, 'completion_length': 412.83038330078125, 'rewards/only_full_func_accuracy_reward': 0.7909226715564728, 'rewards/format_reward': 1.0, 'reward': 1.7909227013587952, 'reward_std': 0.03156726621091366, 'kl': 0.3026123046875, 'epoch': 0.94}
+ 94%|█████████▍| 4022/4286 [26:35:25<1:42:34, 23.31s/it] 94%|█████████▍| 4023/4286 [26:35:48<1:41:14, 23.10s/it]                                                        {'loss': 0.0021, 'grad_norm': 0.8804226176896779, 'learning_rate': 6.136257582827811e-08, 'completion_length': 387.5089416503906, 'rewards/only_full_func_accuracy_reward': 0.736607164144516, 'rewards/format_reward': 1.0, 'reward': 1.7366072535514832, 'reward_std': 0.03680690750479698, 'kl': 0.05224609375, 'epoch': 0.94}
+ 94%|█████████▍| 4023/4286 [26:35:48<1:41:14, 23.10s/it] 94%|█████████▍| 4024/4286 [26:36:12<1:42:06, 23.38s/it]                                                        {'loss': 0.0508, 'grad_norm': 3.8877953808684853, 'learning_rate': 6.112925804946336e-08, 'completion_length': 385.31251525878906, 'rewards/only_full_func_accuracy_reward': 0.7537202537059784, 'rewards/format_reward': 1.0, 'reward': 1.7537203431129456, 'reward_std': 0.1063985526561737, 'kl': 1.2666015625, 'epoch': 0.94}
+ 94%|█████████▍| 4024/4286 [26:36:12<1:42:06, 23.38s/it] 94%|█████████▍| 4025/4286 [26:36:31<1:36:00, 22.07s/it]                                                        {'loss': 0.0132, 'grad_norm': 1.8760099630303306, 'learning_rate': 6.089594027064862e-08, 'completion_length': 310.8839416503906, 'rewards/only_full_func_accuracy_reward': 0.8005953133106232, 'rewards/format_reward': 1.0, 'reward': 1.8005953431129456, 'reward_std': 0.02525381464511156, 'kl': 0.3289794921875, 'epoch': 0.94}
+ 94%|█████████▍| 4025/4286 [26:36:31<1:36:00, 22.07s/it] 94%|█████████▍| 4026/4286 [26:36:54<1:37:22, 22.47s/it]                                                        {'loss': 0.0483, 'grad_norm': 4.861265347553396, 'learning_rate': 6.066262249183387e-08, 'completion_length': 359.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.721875011920929, 'rewards/format_reward': 1.0, 'reward': 1.7218750715255737, 'reward_std': 0.10721985623240471, 'kl': 1.20703125, 'epoch': 0.94}
+ 94%|█████████▍| 4026/4286 [26:36:54<1:37:22, 22.47s/it] 94%|█████████▍| 4027/4286 [26:37:17<1:37:23, 22.56s/it]                                                        {'loss': 0.0124, 'grad_norm': 0.9743187188891975, 'learning_rate': 6.042930471301914e-08, 'completion_length': 396.0089416503906, 'rewards/only_full_func_accuracy_reward': 0.7507440745830536, 'rewards/format_reward': 1.0, 'reward': 1.7507442235946655, 'reward_std': 0.03136277850717306, 'kl': 0.3095703125, 'epoch': 0.94}
+ 94%|█████████▍| 4027/4286 [26:37:17<1:37:23, 22.56s/it] 94%|█████████▍| 4028/4286 [26:37:40<1:37:52, 22.76s/it]                                                        {'loss': 0.0224, 'grad_norm': 3.9039728172089876, 'learning_rate': 6.019598693420438e-08, 'completion_length': 387.5982208251953, 'rewards/only_full_func_accuracy_reward': 0.6822917461395264, 'rewards/format_reward': 1.0, 'reward': 1.6822917461395264, 'reward_std': 0.07330369390547276, 'kl': 0.5577392578125, 'epoch': 0.94}
+ 94%|█████████▍| 4028/4286 [26:37:40<1:37:52, 22.76s/it] 94%|█████████▍| 4029/4286 [26:38:03<1:38:03, 22.89s/it]                                                        {'loss': 0.0063, 'grad_norm': 3.153113547128501, 'learning_rate': 5.996266915538963e-08, 'completion_length': 354.86607360839844, 'rewards/only_full_func_accuracy_reward': 0.7232142984867096, 'rewards/format_reward': 1.0, 'reward': 1.7232143878936768, 'reward_std': 0.07145212218165398, 'kl': 0.158447265625, 'epoch': 0.94}
+ 94%|█████████▍| 4029/4286 [26:38:03<1:38:03, 22.89s/it] 94%|█████████▍| 4030/4286 [26:38:26<1:37:13, 22.79s/it]                                                        {'loss': 0.0227, 'grad_norm': 0.7089464768757664, 'learning_rate': 5.97293513765749e-08, 'completion_length': 366.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.8608631491661072, 'rewards/format_reward': 1.0, 'reward': 1.860863208770752, 'reward_std': 0.0344957634806633, 'kl': 0.56640625, 'epoch': 0.94}
+ 94%|█████████▍| 4030/4286 [26:38:26<1:37:13, 22.79s/it] 94%|█████████▍| 4031/4286 [26:38:50<1:37:43, 22.99s/it]                                                        {'loss': 0.0314, 'grad_norm': 1.4071422996730696, 'learning_rate': 5.949603359776015e-08, 'completion_length': 400.70538330078125, 'rewards/only_full_func_accuracy_reward': 0.6116071939468384, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6026787161827087, 'reward_std': 0.10328591242432594, 'kl': 0.78515625, 'epoch': 0.94}
+ 94%|█████████▍| 4031/4286 [26:38:50<1:37:43, 22.99s/it] 94%|█████████▍| 4032/4286 [26:39:12<1:36:35, 22.82s/it]                                                        {'loss': 0.0053, 'grad_norm': 0.9345058757461893, 'learning_rate': 5.9262715818945405e-08, 'completion_length': 379.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.6845238506793976, 'rewards/format_reward': 1.0, 'reward': 1.6845239400863647, 'reward_std': 0.021867645904421806, 'kl': 0.1317138671875, 'epoch': 0.94}
+ 94%|█████████▍| 4032/4286 [26:39:12<1:36:35, 22.82s/it] 94%|█████████▍| 4033/4286 [26:39:35<1:36:34, 22.90s/it]                                                        {'loss': 0.0659, 'grad_norm': 1.5307344791311381, 'learning_rate': 5.9029398040130654e-08, 'completion_length': 398.00001525878906, 'rewards/only_full_func_accuracy_reward': 0.6242559850215912, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6153274774551392, 'reward_std': 0.11227277666330338, 'kl': 1.642578125, 'epoch': 0.94}
+ 94%|█████████▍| 4033/4286 [26:39:35<1:36:34, 22.90s/it] 94%|█████████▍| 4034/4286 [26:39:56<1:33:31, 22.27s/it]                                                        {'loss': 0.0235, 'grad_norm': 3.1150890253627783, 'learning_rate': 5.879608026131591e-08, 'completion_length': 352.43751525878906, 'rewards/only_full_func_accuracy_reward': 0.7968750596046448, 'rewards/format_reward': 1.0, 'reward': 1.7968751192092896, 'reward_std': 0.10072699189186096, 'kl': 0.5859375, 'epoch': 0.94}
+ 94%|█████████▍| 4034/4286 [26:39:56<1:33:31, 22.27s/it] 94%|█████████▍| 4035/4286 [26:40:19<1:34:55, 22.69s/it]                                                        {'loss': 0.0016, 'grad_norm': 0.48122397445552495, 'learning_rate': 5.8562762482501165e-08, 'completion_length': 401.9643096923828, 'rewards/only_full_func_accuracy_reward': 0.5572916865348816, 'rewards/format_reward': 1.0, 'reward': 1.5572917461395264, 'reward_std': 0.030286792665719986, 'kl': 0.040771484375, 'epoch': 0.94}
+ 94%|█████████▍| 4035/4286 [26:40:19<1:34:55, 22.69s/it] 94%|█████████▍| 4036/4286 [26:40:41<1:32:55, 22.30s/it]                                                        {'loss': 0.0392, 'grad_norm': 1.1787317970691478, 'learning_rate': 5.832944470368642e-08, 'completion_length': 359.9285888671875, 'rewards/only_full_func_accuracy_reward': 0.815476268529892, 'rewards/format_reward': 1.0, 'reward': 1.8154762983322144, 'reward_std': 0.04990088567137718, 'kl': 0.9765625, 'epoch': 0.94}
+ 94%|█████████▍| 4036/4286 [26:40:41<1:32:55, 22.30s/it] 94%|█████████▍| 4037/4286 [26:41:03<1:32:07, 22.20s/it]                                                        {'loss': 0.0091, 'grad_norm': 3.057019652534098, 'learning_rate': 5.8096126924871675e-08, 'completion_length': 398.7589416503906, 'rewards/only_full_func_accuracy_reward': 0.843006044626236, 'rewards/format_reward': 1.0, 'reward': 1.8430060744285583, 'reward_std': 0.08812747523188591, 'kl': 0.227783203125, 'epoch': 0.94}
+ 94%|█████████▍| 4037/4286 [26:41:03<1:32:07, 22.20s/it] 94%|█████████▍| 4038/4286 [26:41:27<1:33:39, 22.66s/it]                                                        {'loss': 0.0353, 'grad_norm': 7.918198897900398, 'learning_rate': 5.786280914605693e-08, 'completion_length': 352.81251525878906, 'rewards/only_full_func_accuracy_reward': 0.6294642686843872, 'rewards/format_reward': 1.0, 'reward': 1.629464328289032, 'reward_std': 0.0294627882540226, 'kl': 0.8779296875, 'epoch': 0.94}
+ 94%|█████████▍| 4038/4286 [26:41:27<1:33:39, 22.66s/it] 94%|█████████▍| 4039/4286 [26:41:49<1:33:19, 22.67s/it]                                                        {'loss': 0.0145, 'grad_norm': 2.394895603378463, 'learning_rate': 5.7629491367242186e-08, 'completion_length': 393.1518096923828, 'rewards/only_full_func_accuracy_reward': 0.7202381193637848, 'rewards/format_reward': 1.0, 'reward': 1.7202382683753967, 'reward_std': 0.03963152784854174, 'kl': 0.3641357421875, 'epoch': 0.94}
+ 94%|█████████▍| 4039/4286 [26:41:49<1:33:19, 22.67s/it] 94%|█████████▍| 4040/4286 [26:42:11<1:32:12, 22.49s/it]                                                        {'loss': 0.0395, 'grad_norm': 3.1827734187672996, 'learning_rate': 5.739617358842744e-08, 'completion_length': 336.7410888671875, 'rewards/only_full_func_accuracy_reward': 0.7589285969734192, 'rewards/format_reward': 1.0, 'reward': 1.7589287161827087, 'reward_std': 0.09589523822069168, 'kl': 0.990234375, 'epoch': 0.94}
+ 94%|█████████▍| 4040/4286 [26:42:11<1:32:12, 22.49s/it] 94%|█████████▍| 4041/4286 [26:42:35<1:33:21, 22.86s/it]                                                        {'loss': 0.0424, 'grad_norm': 0.4532052538365156, 'learning_rate': 5.716285580961269e-08, 'completion_length': 402.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.8489583432674408, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.8311012983322144, 'reward_std': 0.1585860550403595, 'kl': 1.060546875, 'epoch': 0.94}
+ 94%|█████████▍| 4041/4286 [26:42:35<1:33:21, 22.86s/it] 94%|██���██████▍| 4042/4286 [26:42:57<1:31:45, 22.56s/it]                                                        {'loss': 0.0321, 'grad_norm': 4.643811718592947, 'learning_rate': 5.6929538030797945e-08, 'completion_length': 322.8660888671875, 'rewards/only_full_func_accuracy_reward': 0.5635417103767395, 'rewards/format_reward': 1.0, 'reward': 1.5635417699813843, 'reward_std': 0.08523843809962273, 'kl': 0.8046875, 'epoch': 0.94}
+ 94%|█████████▍| 4042/4286 [26:42:57<1:31:45, 22.56s/it] 94%|█████████▍| 4043/4286 [26:43:20<1:31:51, 22.68s/it]                                                        {'loss': 0.011, 'grad_norm': 2.5368536336726373, 'learning_rate': 5.66962202519832e-08, 'completion_length': 372.81251525878906, 'rewards/only_full_func_accuracy_reward': 0.7694941163063049, 'rewards/format_reward': 1.0, 'reward': 1.769494116306305, 'reward_std': 0.07811158895492554, 'kl': 0.2760009765625, 'epoch': 0.94}
+ 94%|█████████▍| 4043/4286 [26:43:20<1:31:51, 22.68s/it] 94%|█████████▍| 4044/4286 [26:43:42<1:30:45, 22.50s/it]                                                        {'loss': 0.0838, 'grad_norm': 3.5201682971409207, 'learning_rate': 5.6462902473168456e-08, 'completion_length': 366.5000305175781, 'rewards/only_full_func_accuracy_reward': 0.7034226357936859, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6855655908584595, 'reward_std': 0.09324951469898224, 'kl': 2.0997314453125, 'epoch': 0.94}
+ 94%|█████████▍| 4044/4286 [26:43:42<1:30:45, 22.50s/it] 94%|█████████▍| 4045/4286 [26:44:05<1:30:46, 22.60s/it]                                                        {'loss': 0.0131, 'grad_norm': 2.6312386588252274, 'learning_rate': 5.622958469435371e-08, 'completion_length': 394.5535888671875, 'rewards/only_full_func_accuracy_reward': 0.7581844925880432, 'rewards/format_reward': 1.0, 'reward': 1.7581846714019775, 'reward_std': 0.06604266911745071, 'kl': 0.328369140625, 'epoch': 0.94}
+ 94%|█████████▍| 4045/4286 [26:44:05<1:30:46, 22.60s/it] 94%|█████████▍| 4046/4286 [26:44:27<1:30:08, 22.54s/it]                                                        {'loss': 0.0127, 'grad_norm': 1.0885774632443534, 'learning_rate': 5.5996266915538966e-08, 'completion_length': 376.7143096923828, 'rewards/only_full_func_accuracy_reward': 0.6462797820568085, 'rewards/format_reward': 1.0, 'reward': 1.6462798714637756, 'reward_std': 0.07239239662885666, 'kl': 0.31756591796875, 'epoch': 0.94}
+ 94%|█████████▍| 4046/4286 [26:44:27<1:30:08, 22.54s/it] 94%|█████████▍| 4047/4286 [26:44:49<1:28:36, 22.24s/it]                                                        {'loss': 0.0473, 'grad_norm': 2.54561885833266, 'learning_rate': 5.576294913672422e-08, 'completion_length': 333.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.7090774476528168, 'rewards/format_reward': 1.0, 'reward': 1.7090774774551392, 'reward_std': 0.05040585622191429, 'kl': 1.18359375, 'epoch': 0.94}
+ 94%|█████████▍| 4047/4286 [26:44:49<1:28:36, 22.24s/it] 94%|█████████▍| 4048/4286 [26:45:11<1:27:41, 22.11s/it]                                                        {'loss': 0.0111, 'grad_norm': 2.140015113029886, 'learning_rate': 5.552963135790947e-08, 'completion_length': 361.5982360839844, 'rewards/only_full_func_accuracy_reward': 0.835342288017273, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8264138102531433, 'reward_std': 0.0665908120572567, 'kl': 0.27783203125, 'epoch': 0.94}
+ 94%|█████████▍| 4048/4286 [26:45:11<1:27:41, 22.11s/it] 94%|█████████▍| 4049/4286 [26:45:33<1:27:13, 22.08s/it]                                                        {'loss': 0.0127, 'grad_norm': 2.4713770419856433, 'learning_rate': 5.5296313579094726e-08, 'completion_length': 397.2589416503906, 'rewards/only_full_func_accuracy_reward': 0.6650297939777374, 'rewards/format_reward': 1.0, 'reward': 1.6650298237800598, 'reward_std': 0.06559571623802185, 'kl': 0.31689453125, 'epoch': 0.94}
+ 94%|█████████▍| 4049/4286 [26:45:33<1:27:13, 22.08s/it] 94%|█████████▍| 4050/4286 [26:45:56<1:27:55, 22.35s/it]                                                        {'loss': 0.0348, 'grad_norm': 2.7383528820181153, 'learning_rate': 5.506299580027998e-08, 'completion_length': 379.6428680419922, 'rewards/only_full_func_accuracy_reward': 0.6601934432983398, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.651265025138855, 'reward_std': 0.0839195903390646, 'kl': 0.87109375, 'epoch': 0.94}
+ 94%|█████████▍| 4050/4286 [26:45:56<1:27:55, 22.35s/it] 95%|█████████▍| 4051/4286 [26:46:19<1:28:25, 22.58s/it]                                                        {'loss': 0.0556, 'grad_norm': 5.25880882101336, 'learning_rate': 5.4829678021465236e-08, 'completion_length': 392.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.7369135916233063, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.719056487083435, 'reward_std': 0.18733441457152367, 'kl': 1.39453125, 'epoch': 0.95}
+ 95%|█████████▍| 4051/4286 [26:46:19<1:28:25, 22.58s/it] 95%|█████████▍| 4052/4286 [26:46:42<1:28:50, 22.78s/it]                                                        {'loss': 0.0164, 'grad_norm': 1.4262892643335168, 'learning_rate': 5.4596360242650485e-08, 'completion_length': 401.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.754464328289032, 'rewards/format_reward': 1.0, 'reward': 1.754464328289032, 'reward_std': 0.03700895048677921, 'kl': 0.4110107421875, 'epoch': 0.95}
+ 95%|█████████▍| 4052/4286 [26:46:42<1:28:50, 22.78s/it] 95%|█████████▍| 4053/4286 [26:47:03<1:26:27, 22.26s/it]                                                        {'loss': 0.0405, 'grad_norm': 1.0300915911140567, 'learning_rate': 5.436304246383574e-08, 'completion_length': 347.1607360839844, 'rewards/only_full_func_accuracy_reward': 0.7924107313156128, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.774553656578064, 'reward_std': 0.09431207925081253, 'kl': 1.01171875, 'epoch': 0.95}
+ 95%|█████████▍| 4053/4286 [26:47:03<1:26:27, 22.26s/it] 95%|█████████▍| 4054/4286 [26:47:27<1:27:43, 22.69s/it]                                                        {'loss': 0.002, 'grad_norm': 0.9103149733823223, 'learning_rate': 5.4129724685020995e-08, 'completion_length': 435.65179443359375, 'rewards/only_full_func_accuracy_reward': 0.862351268529892, 'rewards/format_reward': 1.0, 'reward': 1.8623513579368591, 'reward_std': 0.028871088288724422, 'kl': 0.0506591796875, 'epoch': 0.95}
+ 95%|█████████▍| 4054/4286 [26:47:27<1:27:43, 22.69s/it] 95%|█████████▍| 4055/4286 [26:47:50<1:28:28, 22.98s/it]                                                        {'loss': 0.0852, 'grad_norm': 3.2126821188929378, 'learning_rate': 5.3896406906206244e-08, 'completion_length': 392.5357208251953, 'rewards/only_full_func_accuracy_reward': 0.6443452835083008, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6354168057441711, 'reward_std': 0.08531251177191734, 'kl': 2.1328125, 'epoch': 0.95}
+ 95%|█████████▍| 4055/4286 [26:47:50<1:28:28, 22.98s/it] 95%|█████████▍| 4056/4286 [26:48:13<1:27:54, 22.93s/it]                                                        {'loss': 0.0318, 'grad_norm': 1.0974012271182532, 'learning_rate': 5.36630891273915e-08, 'completion_length': 342.8839416503906, 'rewards/only_full_func_accuracy_reward': 0.7306548058986664, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.71279776096344, 'reward_std': 0.054266748018562794, 'kl': 0.7974853515625, 'epoch': 0.95}
+ 95%|█████████▍| 4056/4286 [26:48:13<1:27:54, 22.93s/it] 95%|█████████▍| 4057/4286 [26:48:35<1:26:05, 22.55s/it]                                                        {'loss': 0.0333, 'grad_norm': 0.8222706934109844, 'learning_rate': 5.3429771348576755e-08, 'completion_length': 352.67857360839844, 'rewards/only_full_func_accuracy_reward': 0.7611607313156128, 'rewards/format_reward': 1.0, 'reward': 1.7611607909202576, 'reward_std': 0.06533884070813656, 'kl': 0.83203125, 'epoch': 0.95}
+ 95%|█████████▍| 4057/4286 [26:48:35<1:26:05, 22.55s/it] 95%|█████████▍| 4058/4286 [26:48:57<1:25:43, 22.56s/it]                                                        {'loss': 0.012, 'grad_norm': 2.1864740895558423, 'learning_rate': 5.319645356976201e-08, 'completion_length': 385.35716247558594, 'rewards/only_full_func_accuracy_reward': 0.8229166865348816, 'rewards/format_reward': 1.0, 'reward': 1.8229168057441711, 'reward_std': 0.05441322177648544, 'kl': 0.30029296875, 'epoch': 0.95}
+ 95%|█████████▍| 4058/4286 [26:48:57<1:25:43, 22.56s/it] 95%|█████████▍| 4059/4286 [26:49:21<1:26:56, 22.98s/it]                                                        {'loss': 0.0676, 'grad_norm': 7.90039297969498, 'learning_rate': 5.2963135790947265e-08, 'completion_length': 426.9732208251953, 'rewards/only_full_func_accuracy_reward': 0.5907738506793976, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5818453431129456, 'reward_std': 0.08886365219950676, 'kl': 1.6875, 'epoch': 0.95}
+ 95%|█████████▍| 4059/4286 [26:49:21<1:26:56, 22.98s/it] 95%|█████████▍| 4060/4286 [26:49:45<1:27:53, 23.33s/it]                                                        {'loss': 0.0874, 'grad_norm': 4.145526189287986, 'learning_rate': 5.272981801213252e-08, 'completion_length': 397.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.5985119342803955, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.589583396911621, 'reward_std': 0.12489324808120728, 'kl': 2.1875, 'epoch': 0.95}
+ 95%|█████████▍| 4060/4286 [26:49:45<1:27:53, 23.33s/it] 95%|█████████▍| 4061/4286 [26:50:08<1:26:46, 23.14s/it]                                                        {'loss': 0.0135, 'grad_norm': 5.427221096690944, 'learning_rate': 5.2496500233317776e-08, 'completion_length': 372.8928680419922, 'rewards/only_full_func_accuracy_reward': 0.711309552192688, 'rewards/format_reward': 1.0, 'reward': 1.7113096117973328, 'reward_std': 0.0701803620904684, 'kl': 0.336181640625, 'epoch': 0.95}
+ 95%|█████████▍| 4061/4286 [26:50:08<1:26:46, 23.14s/it] 95%|█████████▍| 4062/4286 [26:50:32<1:27:13, 23.37s/it]                                                        {'loss': 0.0162, 'grad_norm': 3.368283464777361, 'learning_rate': 5.226318245450303e-08, 'completion_length': 393.14288330078125, 'rewards/only_full_func_accuracy_reward': 0.6436012387275696, 'rewards/format_reward': 1.0, 'reward': 1.6436012983322144, 'reward_std': 0.02284595649689436, 'kl': 0.406982421875, 'epoch': 0.95}
+ 95%|█████████▍| 4062/4286 [26:50:32<1:27:13, 23.37s/it] 95%|█████████▍| 4063/4286 [26:50:54<1:25:28, 23.00s/it]                                                        {'loss': 0.0299, 'grad_norm': 4.505322330355907, 'learning_rate': 5.202986467568828e-08, 'completion_length': 366.9732208251953, 'rewards/only_full_func_accuracy_reward': 0.6822916567325592, 'rewards/format_reward': 1.0, 'reward': 1.6822917461395264, 'reward_std': 0.05117948818951845, 'kl': 0.7470703125, 'epoch': 0.95}
+ 95%|█████████▍| 4063/4286 [26:50:54<1:25:28, 23.00s/it] 95%|█████████▍| 4064/4286 [26:51:17<1:24:21, 22.80s/it]                                                        {'loss': 0.0545, 'grad_norm': 2.4896897910597326, 'learning_rate': 5.1796546896873535e-08, 'completion_length': 331.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.785714328289032, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.7589287161827087, 'reward_std': 0.05901113385334611, 'kl': 1.3583984375, 'epoch': 0.95}
+ 95%|█████████▍| 4064/4286 [26:51:17<1:24:21, 22.80s/it] 95%|█████████▍| 4065/4286 [26:51:39<1:23:46, 22.74s/it]                                                        {'loss': 0.0181, 'grad_norm': 1.3191232358774698, 'learning_rate': 5.156322911805879e-08, 'completion_length': 408.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.7378827035427094, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7289541363716125, 'reward_std': 0.07708795741200447, 'kl': 0.4521484375, 'epoch': 0.95}
+ 95%|█████████▍| 4065/4286 [26:51:39<1:23:46, 22.74s/it] 95%|█████████▍| 4066/4286 [26:52:01<1:22:06, 22.39s/it]                                                        {'loss': 0.0276, 'grad_norm': 1.5652180228526678, 'learning_rate': 5.1329911339244046e-08, 'completion_length': 310.3928756713867, 'rewards/only_full_func_accuracy_reward': 0.8264881074428558, 'rewards/format_reward': 1.0, 'reward': 1.826488196849823, 'reward_std': 0.052335474640131, 'kl': 0.689453125, 'epoch': 0.95}
+ 95%|█████████▍| 4066/4286 [26:52:01<1:22:06, 22.39s/it] 95%|█████████▍| 4067/4286 [26:52:25<1:23:57, 23.00s/it]                                                        {'loss': 0.028, 'grad_norm': 2.2691340918321528, 'learning_rate': 5.10965935604293e-08, 'completion_length': 427.5357360839844, 'rewards/only_full_func_accuracy_reward': 0.6733631491661072, 'rewards/format_reward': 1.0, 'reward': 1.673363208770752, 'reward_std': 0.08180682547390461, 'kl': 0.69873046875, 'epoch': 0.95}
+ 95%|█████████▍| 4067/4286 [26:52:25<1:23:57, 23.00s/it] 95%|█████████▍| 4068/4286 [26:52:49<1:24:08, 23.16s/it]                                                        {'loss': 0.061, 'grad_norm': 1.5939165559710449, 'learning_rate': 5.0863275781614556e-08, 'completion_length': 382.9018096923828, 'rewards/only_full_func_accuracy_reward': 0.6990575790405273, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6812005043029785, 'reward_std': 0.1017688699066639, 'kl': 1.5234375, 'epoch': 0.95}
+ 95%|█████████▍| 4068/4286 [26:52:49<1:24:08, 23.16s/it] 95%|█████████▍| 4069/4286 [26:53:10<1:22:15, 22.74s/it]                                                        {'loss': 0.0119, 'grad_norm': 1.4616413509677009, 'learning_rate': 5.062995800279981e-08, 'completion_length': 364.5535888671875, 'rewards/only_full_func_accuracy_reward': 0.6912202835083008, 'rewards/format_reward': 1.0, 'reward': 1.6912203431129456, 'reward_std': 0.0440616081468761, 'kl': 0.2958984375, 'epoch': 0.95}
+ 95%|█████████▍| 4069/4286 [26:53:10<1:22:15, 22.74s/it] 95%|█████████▍| 4070/4286 [26:53:32<1:20:45, 22.43s/it]                                                        {'loss': 0.0448, 'grad_norm': 3.0135767571813212, 'learning_rate': 5.039664022398507e-08, 'completion_length': 370.77679443359375, 'rewards/only_full_func_accuracy_reward': 0.6540178954601288, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6361608505249023, 'reward_std': 0.09061744529753923, 'kl': 1.1217041015625, 'epoch': 0.95}
+ 95%|█████████▍| 4070/4286 [26:53:32<1:20:45, 22.43s/it] 95%|█████████▍| 4071/4286 [26:53:55<1:20:45, 22.54s/it]                                                        {'loss': 0.0297, 'grad_norm': 2.2681447802654318, 'learning_rate': 5.0163322445170316e-08, 'completion_length': 358.7232360839844, 'rewards/only_full_func_accuracy_reward': 0.873883992433548, 'rewards/format_reward': 1.0, 'reward': 1.8738840818405151, 'reward_std': 0.0604661013931036, 'kl': 0.740234375, 'epoch': 0.95}
+ 95%|█████████▍| 4071/4286 [26:53:55<1:20:45, 22.54s/it] 95%|█████████▌| 4072/4286 [26:54:19<1:21:44, 22.92s/it]                                                        {'loss': 0.0592, 'grad_norm': 3.3088821980644796, 'learning_rate': 4.993000466635557e-08, 'completion_length': 386.27679443359375, 'rewards/only_full_func_accuracy_reward': 0.6472576856613159, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.620472013950348, 'reward_std': 0.22214103490114212, 'kl': 1.484375, 'epoch': 0.95}
+ 95%|█████████▌| 4072/4286 [26:54:19<1:21:44, 22.92s/it] 95%|█████████▌| 4073/4286 [26:54:41<1:21:00, 22.82s/it]                                                        {'loss': 0.0714, 'grad_norm': 2.115247743735689, 'learning_rate': 4.9696686887540826e-08, 'completion_length': 377.50001525878906, 'rewards/only_full_func_accuracy_reward': 0.676091343164444, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.667162835597992, 'reward_std': 0.1646985225379467, 'kl': 1.78515625, 'epoch': 0.95}
+ 95%|█████████▌| 4073/4286 [26:54:41<1:21:00, 22.82s/it] 95%|█████████▌| 4074/4286 [26:55:06<1:22:09, 23.25s/it]                                                        {'loss': 0.0326, 'grad_norm': 2.1649424271301965, 'learning_rate': 4.946336910872608e-08, 'completion_length': 380.3839416503906, 'rewards/only_full_func_accuracy_reward': 0.8200467824935913, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.8021896481513977, 'reward_std': 0.08019894734025002, 'kl': 0.81884765625, 'epoch': 0.95}
+ 95%|█████████▌| 4074/4286 [26:55:06<1:22:09, 23.25s/it] 95%|█████████▌| 4075/4286 [26:55:28<1:20:43, 22.96s/it]                                                        {'loss': 0.0135, 'grad_norm': 0.9486915853539227, 'learning_rate': 4.923005132991134e-08, 'completion_length': 372.3035888671875, 'rewards/only_full_func_accuracy_reward': 0.6800595223903656, 'rewards/format_reward': 1.0, 'reward': 1.6800596714019775, 'reward_std': 0.05215564742684364, 'kl': 0.336669921875, 'epoch': 0.95}
+ 95%|█████████▌| 4075/4286 [26:55:28<1:20:43, 22.96s/it] 95%|█████████▌| 4076/4286 [26:55:50<1:19:48, 22.80s/it]                                                        {'loss': 0.01, 'grad_norm': 23.42558111309451, 'learning_rate': 4.899673355109659e-08, 'completion_length': 371.96429443359375, 'rewards/only_full_func_accuracy_reward': 0.7909226715564728, 'rewards/format_reward': 1.0, 'reward': 1.7909227013587952, 'reward_std': 0.00741918571293354, 'kl': 0.250732421875, 'epoch': 0.95}
+ 95%|█████████▌| 4076/4286 [26:55:50<1:19:48, 22.80s/it] 95%|█████████▌| 4077/4286 [26:56:14<1:19:57, 22.95s/it]                                                        {'loss': 0.0289, 'grad_norm': 1.5077968219039564, 'learning_rate': 4.876341577228185e-08, 'completion_length': 416.5178680419922, 'rewards/only_full_func_accuracy_reward': 0.8139881193637848, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8050596714019775, 'reward_std': 0.07872152794152498, 'kl': 0.72119140625, 'epoch': 0.95}
+ 95%|█████████▌| 4077/4286 [26:56:14<1:19:57, 22.95s/it] 95%|█████████▌| 4078/4286 [26:56:36<1:18:29, 22.64s/it]                                                        {'loss': 0.0226, 'grad_norm': 1.4361649374887422, 'learning_rate': 4.8530097993467096e-08, 'completion_length': 337.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.8051948547363281, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7962663769721985, 'reward_std': 0.07116983830928802, 'kl': 0.56640625, 'epoch': 0.95}
+ 95%|█████████▌| 4078/4286 [26:56:36<1:18:29, 22.64s/it] 95%|█████████▌| 4079/4286 [26:56:57<1:16:51, 22.28s/it]                                                        {'loss': 0.0288, 'grad_norm': 3.2924975183168215, 'learning_rate': 4.829678021465235e-08, 'completion_length': 335.4643096923828, 'rewards/only_full_func_accuracy_reward': 0.7098214626312256, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.700892984867096, 'reward_std': 0.11847131326794624, 'kl': 0.7216796875, 'epoch': 0.95}
+ 95%|█████████▌| 4079/4286 [26:56:57<1:16:51, 22.28s/it] 95%|█████████▌| 4080/4286 [26:57:21<1:18:12, 22.78s/it]                                                        {'loss': 0.0223, 'grad_norm': 2.97374805658565, 'learning_rate': 4.806346243583761e-08, 'completion_length': 402.6250305175781, 'rewards/only_full_func_accuracy_reward': 0.781994104385376, 'rewards/format_reward': 1.0, 'reward': 1.7819941639900208, 'reward_std': 0.06625396572053432, 'kl': 0.5576171875, 'epoch': 0.95}
+ 95%|█████████▌| 4080/4286 [26:57:21<1:18:12, 22.78s/it] 95%|█████████▌| 4081/4286 [26:57:44<1:17:57, 22.82s/it]                                                        {'loss': 0.0226, 'grad_norm': 1.4819518218088086, 'learning_rate': 4.783014465702286e-08, 'completion_length': 402.43751525878906, 'rewards/only_full_func_accuracy_reward': 0.738839328289032, 'rewards/format_reward': 1.0, 'reward': 1.7388394474983215, 'reward_std': 0.10077746212482452, 'kl': 0.564208984375, 'epoch': 0.95}
+ 95%|█████████▌| 4081/4286 [26:57:44<1:17:57, 22.82s/it] 95%|█████████▌| 4082/4286 [26:58:06<1:17:20, 22.75s/it]                                                        {'loss': 0.0436, 'grad_norm': 1.770096846984506, 'learning_rate': 4.759682687820812e-08, 'completion_length': 383.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.8523810505867004, 'rewards/format_reward': 1.0, 'reward': 1.8523811101913452, 'reward_std': 0.09171200543642044, 'kl': 1.09375, 'epoch': 0.95}
+ 95%|█████████▌| 4082/4286 [26:58:06<1:17:20, 22.75s/it] 95%|█████████▌| 4083/4286 [26:58:28<1:15:46, 22.40s/it]                                                        {'loss': 0.0035, 'grad_norm': 0.9401370762540547, 'learning_rate': 4.736350909939337e-08, 'completion_length': 356.31251525878906, 'rewards/only_full_func_accuracy_reward': 0.7842262983322144, 'rewards/format_reward': 1.0, 'reward': 1.7842263579368591, 'reward_std': 0.025100446306169033, 'kl': 0.087646484375, 'epoch': 0.95}
+ 95%|█████████▌| 4083/4286 [26:58:28<1:15:46, 22.40s/it] 95%|█████████▌| 4084/4286 [26:58:50<1:15:29, 22.42s/it]                                                        {'loss': 0.0248, 'grad_norm': 1.5917544864780728, 'learning_rate': 4.713019132057863e-08, 'completion_length': 371.2232360839844, 'rewards/only_full_func_accuracy_reward': 0.7656250596046448, 'rewards/format_reward': 1.0, 'reward': 1.7656251192092896, 'reward_std': 0.06030379235744476, 'kl': 0.6201171875, 'epoch': 0.95}
+ 95%|█████████▌| 4084/4286 [26:58:50<1:15:29, 22.42s/it] 95%|█████████▌| 4085/4286 [26:59:13<1:15:12, 22.45s/it]                                                        {'loss': 0.0226, 'grad_norm': 6.351269384478986, 'learning_rate': 4.689687354176388e-08, 'completion_length': 347.5893096923828, 'rewards/only_full_func_accuracy_reward': 0.7413690686225891, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7324405908584595, 'reward_std': 0.07071609981358051, 'kl': 0.5625, 'epoch': 0.95}
+ 95%|█████████▌| 4085/4286 [26:59:13<1:15:12, 22.45s/it] 95%|█████████▌| 4086/4286 [26:59:36<1:15:09, 22.55s/it]                                                        {'loss': 0.0163, 'grad_norm': 0.8785260447775438, 'learning_rate': 4.666355576294913e-08, 'completion_length': 362.3393096923828, 'rewards/only_full_func_accuracy_reward': 0.6398809850215912, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6309524774551392, 'reward_std': 0.06113703269511461, 'kl': 0.4073486328125, 'epoch': 0.95}
+ 95%|█████████▌| 4086/4286 [26:59:36<1:15:09, 22.55s/it] 95%|█████████▌| 4087/4286 [27:00:00<1:16:06, 22.95s/it]                                                        {'loss': 0.0127, 'grad_norm': 3.1445434213177914, 'learning_rate': 4.643023798413439e-08, 'completion_length': 418.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.6316964626312256, 'rewards/format_reward': 1.0, 'reward': 1.6316965222358704, 'reward_std': 0.06594150513410568, 'kl': 0.318359375, 'epoch': 0.95}
+ 95%|█████████▌| 4087/4286 [27:00:00<1:16:06, 22.95s/it] 95%|█████████▌| 4088/4286 [27:00:22<1:15:25, 22.86s/it]                                                        {'loss': 0.0466, 'grad_norm': 1.8312460100193328, 'learning_rate': 4.619692020531964e-08, 'completion_length': 366.9285888671875, 'rewards/only_full_func_accuracy_reward': 0.7386267781257629, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7296981811523438, 'reward_std': 0.081794623285532, 'kl': 1.1650390625, 'epoch': 0.95}
+ 95%|█████████▌| 4088/4286 [27:00:22<1:15:25, 22.86s/it] 95%|█████████▌| 4089/4286 [27:00:45<1:14:52, 22.81s/it]                                                        {'loss': 0.0271, 'grad_norm': 3.5792130550566927, 'learning_rate': 4.59636024265049e-08, 'completion_length': 347.6607208251953, 'rewards/only_full_func_accuracy_reward': 0.6748512089252472, 'rewards/format_reward': 1.0, 'reward': 1.6748512983322144, 'reward_std': 0.0824129544198513, 'kl': 0.6787109375, 'epoch': 0.95}
+ 95%|█████████▌| 4089/4286 [27:00:45<1:14:52, 22.81s/it] 95%|█████████▌| 4090/4286 [27:01:09<1:15:27, 23.10s/it]                                                        {'loss': 0.0276, 'grad_norm': 3.7059010639527252, 'learning_rate': 4.573028464769015e-08, 'completion_length': 401.00001525878906, 'rewards/only_full_func_accuracy_reward': 0.7626488208770752, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7537204027175903, 'reward_std': 0.08148096315562725, 'kl': 0.691162109375, 'epoch': 0.95}
+ 95%|█████████▌| 4090/4286 [27:01:09<1:15:27, 23.10s/it] 95%|█████████▌| 4091/4286 [27:01:32<1:15:22, 23.19s/it]                                                        {'loss': 0.0075, 'grad_norm': 1.966907955223003, 'learning_rate': 4.549696686887541e-08, 'completion_length': 380.0625305175781, 'rewards/only_full_func_accuracy_reward': 0.8561012148857117, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8471726775169373, 'reward_std': 0.031680814921855927, 'kl': 0.1884765625, 'epoch': 0.95}
+ 95%|█████████▌| 4091/4286 [27:01:32<1:15:22, 23.19s/it] 95%|█████████▌| 4092/4286 [27:01:56<1:15:20, 23.30s/it]                                                        {'loss': 0.0133, 'grad_norm': 0.6950042847535981, 'learning_rate': 4.5263649090060664e-08, 'completion_length': 394.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.791666716337204, 'rewards/format_reward': 1.0, 'reward': 1.7916668057441711, 'reward_std': 0.033671749755740166, 'kl': 0.3323974609375, 'epoch': 0.95}
+ 95%|█████████▌| 4092/4286 [27:01:56<1:15:20, 23.30s/it] 95%|█████████▌| 4093/4286 [27:02:18<1:14:00, 23.01s/it]                                                        {'loss': 0.0221, 'grad_norm': 0.5728479302167717, 'learning_rate': 4.503033131124591e-08, 'completion_length': 337.33929443359375, 'rewards/only_full_func_accuracy_reward': 0.7968751192092896, 'rewards/format_reward': 1.0, 'reward': 1.7968751788139343, 'reward_std': 0.013286139816045761, 'kl': 0.552734375, 'epoch': 0.95}
+ 95%|█████████▌| 4093/4286 [27:02:18<1:14:00, 23.01s/it] 96%|█████████▌| 4094/4286 [27:02:41<1:13:49, 23.07s/it]                                                        {'loss': 0.0343, 'grad_norm': 2.5741277048999867, 'learning_rate': 4.479701353243117e-08, 'completion_length': 381.31251525878906, 'rewards/only_full_func_accuracy_reward': 0.7852678894996643, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7763394117355347, 'reward_std': 0.12038731947541237, 'kl': 0.8564453125, 'epoch': 0.96}
+ 96%|█████████▌| 4094/4286 [27:02:41<1:13:49, 23.07s/it] 96%|█████████▌| 4095/4286 [27:03:05<1:13:49, 23.19s/it]                                                        {'loss': 0.0307, 'grad_norm': 1.023860420601524, 'learning_rate': 4.456369575361642e-08, 'completion_length': 407.3303680419922, 'rewards/only_full_func_accuracy_reward': 0.6912202835083008, 'rewards/format_reward': 1.0, 'reward': 1.6912203431129456, 'reward_std': 0.04840314760804176, 'kl': 0.767578125, 'epoch': 0.96}
+ 96%|█████████▌| 4095/4286 [27:03:05<1:13:49, 23.19s/it] 96%|█████████▌| 4096/4286 [27:03:28<1:13:03, 23.07s/it]                                                        {'loss': 0.0156, 'grad_norm': 0.22509456708460573, 'learning_rate': 4.433037797480168e-08, 'completion_length': 402.0089416503906, 'rewards/only_full_func_accuracy_reward': 0.8898810148239136, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.880952537059784, 'reward_std': 0.0437408909201622, 'kl': 0.386962890625, 'epoch': 0.96}
+ 96%|█████████▌| 4096/4286 [27:03:28<1:13:03, 23.07s/it] 96%|█████████▌| 4097/4286 [27:03:50<1:12:07, 22.89s/it]                                                        {'loss': 0.0287, 'grad_norm': 1.4943200570495099, 'learning_rate': 4.4097060195986934e-08, 'completion_length': 397.01788330078125, 'rewards/only_full_func_accuracy_reward': 0.7306548058986664, 'rewards/format_reward': 1.0, 'reward': 1.7306548953056335, 'reward_std': 0.051548901945352554, 'kl': 0.719970703125, 'epoch': 0.96}
+ 96%|█████████▌| 4097/4286 [27:03:50<1:12:07, 22.89s/it] 96%|█████████▌| 4098/4286 [27:04:12<1:11:10, 22.72s/it]                                                        {'loss': 0.0158, 'grad_norm': 0.8293229238757033, 'learning_rate': 4.386374241717219e-08, 'completion_length': 350.43751525878906, 'rewards/only_full_func_accuracy_reward': 0.6398809552192688, 'rewards/format_reward': 1.0, 'reward': 1.6398810744285583, 'reward_std': 0.042089689522981644, 'kl': 0.3958740234375, 'epoch': 0.96}
+ 96%|█████████▌| 4098/4286 [27:04:12<1:11:10, 22.72s/it] 96%|█████████▌| 4099/4286 [27:04:35<1:10:51, 22.73s/it]                                                        {'loss': 0.013, 'grad_norm': 3.039950089087408, 'learning_rate': 4.3630424638357444e-08, 'completion_length': 389.3928680419922, 'rewards/only_full_func_accuracy_reward': 0.656994104385376, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6480655670166016, 'reward_std': 0.08935073763132095, 'kl': 0.3238525390625, 'epoch': 0.96}
+ 96%|█████████▌| 4099/4286 [27:04:35<1:10:51, 22.73s/it] 96%|█████████▌| 4100/4286 [27:04:57<1:10:09, 22.63s/it]                                                        {'loss': 0.0185, 'grad_norm': 18.936873325096023, 'learning_rate': 4.33971068595427e-08, 'completion_length': 342.9107360839844, 'rewards/only_full_func_accuracy_reward': 0.6971726417541504, 'rewards/format_reward': 1.0, 'reward': 1.69717276096344, 'reward_std': 0.03968183696269989, 'kl': 0.46337890625, 'epoch': 0.96}
+ 96%|█████████▌| 4100/4286 [27:04:57<1:10:09, 22.63s/it] 96%|█████████▌| 4101/4286 [27:06:35<2:18:48, 45.02s/it]                                                        {'loss': 0.0787, 'grad_norm': 7.294185775785981, 'learning_rate': 4.316378908072795e-08, 'completion_length': 400.7143096923828, 'rewards/only_full_func_accuracy_reward': 0.6287202537059784, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.610863208770752, 'reward_std': 0.18946871161460876, 'kl': 1.9609375, 'epoch': 0.96}
+ 96%|█████████▌| 4101/4286 [27:06:35<2:18:48, 45.02s/it] 96%|█████████▌| 4102/4286 [27:06:58<1:57:52, 38.44s/it]                                                        {'loss': 0.0167, 'grad_norm': 1.9079630567351218, 'learning_rate': 4.2930471301913204e-08, 'completion_length': 401.48216247558594, 'rewards/only_full_func_accuracy_reward': 0.6369047462940216, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6279762983322144, 'reward_std': 0.08532956521958113, 'kl': 0.41650390625, 'epoch': 0.96}
+ 96%|█████████▌| 4102/4286 [27:06:58<1:57:52, 38.44s/it] 96%|█████████▌| 4103/4286 [27:07:21<1:43:06, 33.81s/it]                                                        {'loss': 0.0291, 'grad_norm': 0.5933446743886024, 'learning_rate': 4.269715352309846e-08, 'completion_length': 392.6428680419922, 'rewards/only_full_func_accuracy_reward': 0.6578869223594666, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6400298476219177, 'reward_std': 0.1177406758069992, 'kl': 0.728759765625, 'epoch': 0.96}
+ 96%|█████████▌| 4103/4286 [27:07:21<1:43:06, 33.81s/it] 96%|█████████▌| 4104/4286 [27:07:43<1:32:25, 30.47s/it]                                                        {'loss': 0.0623, 'grad_norm': 3.9652797808360525, 'learning_rate': 4.2463835744283714e-08, 'completion_length': 371.6607208251953, 'rewards/only_full_func_accuracy_reward': 0.7459609508514404, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7281038761138916, 'reward_std': 0.07580742612481117, 'kl': 1.5625, 'epoch': 0.96}
+ 96%|█████████▌| 4104/4286 [27:07:43<1:32:25, 30.47s/it] 96%|█████████▌| 4105/4286 [27:08:06<1:25:01, 28.18s/it]                                                        {'loss': 0.0205, 'grad_norm': 3.166679068426622, 'learning_rate': 4.223051796546897e-08, 'completion_length': 369.0178680419922, 'rewards/only_full_func_accuracy_reward': 0.7796131670475006, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7706846594810486, 'reward_std': 0.06935712601989508, 'kl': 0.51123046875, 'epoch': 0.96}
+ 96%|█████████▌| 4105/4286 [27:08:06<1:25:01, 28.18s/it] 96%|█████████▌| 4106/4286 [27:08:29<1:19:34, 26.52s/it]                                                        {'loss': 0.0396, 'grad_norm': 4.217078392267692, 'learning_rate': 4.1997200186654225e-08, 'completion_length': 389.8125305175781, 'rewards/only_full_func_accuracy_reward': 0.5702381283044815, 'rewards/format_reward': 1.0, 'reward': 1.570238173007965, 'reward_std': 0.06440456723794341, 'kl': 0.99267578125, 'epoch': 0.96}
+ 96%|█████████▌| 4106/4286 [27:08:29<1:19:34, 26.52s/it] 96%|█████████▌| 4107/4286 [27:08:51<1:15:15, 25.23s/it]                                                        {'loss': 0.0337, 'grad_norm': 1.8846882741891184, 'learning_rate': 4.176388240783948e-08, 'completion_length': 374.4196472167969, 'rewards/only_full_func_accuracy_reward': 0.7626488506793976, 'rewards/format_reward': 1.0, 'reward': 1.7626489400863647, 'reward_std': 0.048403142020106316, 'kl': 0.8447265625, 'epoch': 0.96}
+ 96%|█████████▌| 4107/4286 [27:08:51<1:15:15, 25.23s/it] 96%|█████████▌| 4108/4286 [27:09:13<1:11:47, 24.20s/it]                                                        {'loss': 0.0758, 'grad_norm': 2.858710887602468, 'learning_rate': 4.1530564629024735e-08, 'completion_length': 370.0089416503906, 'rewards/only_full_func_accuracy_reward': 0.7433036267757416, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7343751192092896, 'reward_std': 0.10614755004644394, 'kl': 1.89453125, 'epoch': 0.96}
+ 96%|█████████▌| 4108/4286 [27:09:13<1:11:47, 24.20s/it] 96%|█████████▌| 4109/4286 [27:09:36<1:10:08, 23.77s/it]                                                        {'loss': 0.0155, 'grad_norm': 1.5913724717158821, 'learning_rate': 4.1297246850209984e-08, 'completion_length': 387.0089569091797, 'rewards/only_full_func_accuracy_reward': 0.7953869104385376, 'rewards/format_reward': 1.0, 'reward': 1.795387089252472, 'reward_std': 0.02653886191546917, 'kl': 0.389404296875, 'epoch': 0.96}
+ 96%|█████████▌| 4109/4286 [27:09:36<1:10:08, 23.77s/it] 96%|█████████▌| 4110/4286 [27:09:59<1:09:08, 23.57s/it]                                                        {'loss': 0.0126, 'grad_norm': 1.013477417780503, 'learning_rate': 4.106392907139524e-08, 'completion_length': 362.3482208251953, 'rewards/only_full_func_accuracy_reward': 0.8154762387275696, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.8065477013587952, 'reward_std': 0.06298284605145454, 'kl': 0.31591796875, 'epoch': 0.96}
+ 96%|█████████▌| 4110/4286 [27:09:59<1:09:08, 23.57s/it] 96%|█████████▌| 4111/4286 [27:10:22<1:08:05, 23.35s/it]                                                        {'loss': 0.0837, 'grad_norm': 7.181715489884059, 'learning_rate': 4.0830611292580495e-08, 'completion_length': 398.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.702381044626236, 'rewards/format_reward': 0.973214328289032, 'reward': 1.6755953431129456, 'reward_std': 0.11128666624426842, 'kl': 2.09765625, 'epoch': 0.96}
+ 96%|█████████▌| 4111/4286 [27:10:22<1:08:05, 23.35s/it] 96%|█████████▌| 4112/4286 [27:10:45<1:07:40, 23.34s/it]                                                        {'loss': 0.06, 'grad_norm': 2.2610334163109616, 'learning_rate': 4.059729351376575e-08, 'completion_length': 397.1785888671875, 'rewards/only_full_func_accuracy_reward': 0.6599702537059784, 'rewards/format_reward': 1.0, 'reward': 1.6599703431129456, 'reward_std': 0.04695789236575365, 'kl': 1.49609375, 'epoch': 0.96}
+ 96%|█████████▌| 4112/4286 [27:10:45<1:07:40, 23.34s/it] 96%|█████████▌| 4113/4286 [27:11:06<1:05:33, 22.74s/it]                                                        {'loss': 0.0015, 'grad_norm': 0.1117991244415247, 'learning_rate': 4.0363975734951005e-08, 'completion_length': 370.66966247558594, 'rewards/only_full_func_accuracy_reward': 0.8630953431129456, 'rewards/format_reward': 1.0, 'reward': 1.8630953431129456, 'reward_std': 0.033065006136894226, 'kl': 0.037353515625, 'epoch': 0.96}
+ 96%|█████████▌| 4113/4286 [27:11:06<1:05:33, 22.74s/it] 96%|█████████▌| 4114/4286 [27:11:28<1:04:10, 22.38s/it]                                                        {'loss': 0.0044, 'grad_norm': 0.4986666456148447, 'learning_rate': 4.013065795613626e-08, 'completion_length': 334.0803680419922, 'rewards/only_full_func_accuracy_reward': 0.767857164144516, 'rewards/format_reward': 1.0, 'reward': 1.767857313156128, 'reward_std': 0.033671751618385315, 'kl': 0.1103515625, 'epoch': 0.96}
+ 96%|█████████▌| 4114/4286 [27:11:28<1:04:10, 22.38s/it] 96%|█████████▌| 4115/4286 [27:11:53<1:05:51, 23.11s/it]                                                        {'loss': 0.0452, 'grad_norm': 3.170580027829669, 'learning_rate': 3.9897340177321516e-08, 'completion_length': 435.0982360839844, 'rewards/only_full_func_accuracy_reward': 0.6532738506793976, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6354167461395264, 'reward_std': 0.12607062608003616, 'kl': 1.13330078125, 'epoch': 0.96}
+ 96%|█████████▌| 4115/4286 [27:11:53<1:05:51, 23.11s/it] 96%|█████████▌| 4116/4286 [27:12:16<1:05:48, 23.23s/it]                                                        {'loss': 0.054, 'grad_norm': 1.5380890340548732, 'learning_rate': 3.9664022398506764e-08, 'completion_length': 369.7589416503906, 'rewards/only_full_func_accuracy_reward': 0.6659226715564728, 'rewards/format_reward': 1.0, 'reward': 1.6659227013587952, 'reward_std': 0.06271864287555218, 'kl': 1.345703125, 'epoch': 0.96}
+ 96%|█████████▌| 4116/4286 [27:12:16<1:05:48, 23.23s/it] 96%|█████████▌| 4117/4286 [27:12:38<1:04:33, 22.92s/it]                                                        {'loss': 0.0129, 'grad_norm': 1.2362481976142605, 'learning_rate': 3.943070461969202e-08, 'completion_length': 365.5803680419922, 'rewards/only_full_func_accuracy_reward': 0.7008928954601288, 'rewards/format_reward': 1.0, 'reward': 1.7008929252624512, 'reward_std': 0.06222441792488098, 'kl': 0.3226318359375, 'epoch': 0.96}
+ 96%|█████████▌| 4117/4286 [27:12:38<1:04:33, 22.92s/it] 96%|█████████▌| 4118/4286 [27:13:00<1:03:10, 22.56s/it]                                                        {'loss': 0.0049, 'grad_norm': 2.593280585771358, 'learning_rate': 3.9197386840877275e-08, 'completion_length': 364.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.6421131789684296, 'rewards/format_reward': 1.0, 'reward': 1.642113208770752, 'reward_std': 0.05200537433847785, 'kl': 0.121337890625, 'epoch': 0.96}
+ 96%|█████████▌| 4118/4286 [27:13:00<1:03:10, 22.56s/it] 96%|█████████▌| 4119/4286 [27:13:23<1:03:13, 22.72s/it]                                                        {'loss': 0.032, 'grad_norm': 3.356514057653674, 'learning_rate': 3.8964069062062524e-08, 'completion_length': 344.00001525878906, 'rewards/only_full_func_accuracy_reward': 0.7553997039794922, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7375426292419434, 'reward_std': 0.07876079808920622, 'kl': 0.80078125, 'epoch': 0.96}
+ 96%|█████████▌| 4119/4286 [27:13:23<1:03:13, 22.72s/it] 96%|█████████▌| 4120/4286 [27:13:45<1:02:07, 22.45s/it]                                                        {'loss': 0.0424, 'grad_norm': 1.2685312264072384, 'learning_rate': 3.873075128324778e-08, 'completion_length': 335.4464416503906, 'rewards/only_full_func_accuracy_reward': 0.7328869700431824, 'rewards/format_reward': 1.0, 'reward': 1.7328870296478271, 'reward_std': 0.10676474496722221, 'kl': 1.0625, 'epoch': 0.96}
+ 96%|█████████▌| 4120/4286 [27:13:45<1:02:07, 22.45s/it] 96%|█████████▌| 4121/4286 [27:14:08<1:02:10, 22.61s/it]                                                        {'loss': 0.0303, 'grad_norm': 0.620782645540963, 'learning_rate': 3.8497433504433034e-08, 'completion_length': 389.6518096923828, 'rewards/only_full_func_accuracy_reward': 0.6785714626312256, 'rewards/format_reward': 1.0, 'reward': 1.6785715222358704, 'reward_std': 0.08755029737949371, 'kl': 0.7552490234375, 'epoch': 0.96}
+ 96%|█████████▌| 4121/4286 [27:14:08<1:02:10, 22.61s/it] 96%|█████████▌| 4122/4286 [27:14:32<1:02:39, 22.92s/it]                                                        {'loss': 0.043, 'grad_norm': 1.7166946869791124, 'learning_rate': 3.826411572561829e-08, 'completion_length': 399.50001525878906, 'rewards/only_full_func_accuracy_reward': 0.5827752947807312, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5738469362258911, 'reward_std': 0.0754482178017497, 'kl': 1.07421875, 'epoch': 0.96}
+ 96%|█████████▌| 4122/4286 [27:14:32<1:02:39, 22.92s/it] 96%|█████████▌| 4123/4286 [27:14:54<1:01:56, 22.80s/it]                                                        {'loss': 0.0378, 'grad_norm': 1.9908921519283211, 'learning_rate': 3.8030797946803545e-08, 'completion_length': 376.4643096923828, 'rewards/only_full_func_accuracy_reward': 0.7161458730697632, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7072173953056335, 'reward_std': 0.09899313747882843, 'kl': 0.947265625, 'epoch': 0.96}
+ 96%|█████████▌| 4123/4286 [27:14:54<1:01:56, 22.80s/it] 96%|█████████▌| 4124/4286 [27:15:17<1:01:49, 22.90s/it]                                                        {'loss': 0.0243, 'grad_norm': 1.4867958231603857, 'learning_rate': 3.7797480167988794e-08, 'completion_length': 357.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.6502976417541504, 'rewards/format_reward': 1.0, 'reward': 1.65029776096344, 'reward_std': 0.036448562517762184, 'kl': 0.60546875, 'epoch': 0.96}
+ 96%|█████████▌| 4124/4286 [27:15:17<1:01:49, 22.90s/it] 96%|█████████▌| 4125/4286 [27:15:40<1:01:28, 22.91s/it]                                                        {'loss': 0.0497, 'grad_norm': 1.3065038771926412, 'learning_rate': 3.756416238917405e-08, 'completion_length': 377.14288330078125, 'rewards/only_full_func_accuracy_reward': 0.7569941282272339, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.739137053489685, 'reward_std': 0.10289653390645981, 'kl': 1.2421875, 'epoch': 0.96}
+ 96%|█████████▌| 4125/4286 [27:15:40<1:01:28, 22.91s/it] 96%|█████████▋| 4126/4286 [27:16:03<1:00:51, 22.82s/it]                                                        {'loss': 0.0856, 'grad_norm': 7.782074067379627, 'learning_rate': 3.7330844610359304e-08, 'completion_length': 373.0535888671875, 'rewards/only_full_func_accuracy_reward': 0.5957589447498322, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.5689732432365417, 'reward_std': 0.1080237478017807, 'kl': 2.142578125, 'epoch': 0.96}
+ 96%|█████████▋| 4126/4286 [27:16:03<1:00:51, 22.82s/it] 96%|█████████▋| 4127/4286 [27:16:25<59:40, 22.52s/it]                                                        {'loss': 0.0151, 'grad_norm': 0.6093067680951423, 'learning_rate': 3.709752683154456e-08, 'completion_length': 361.8303680419922, 'rewards/only_full_func_accuracy_reward': 0.7812500298023224, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7723215818405151, 'reward_std': 0.05874079652130604, 'kl': 0.37548828125, 'epoch': 0.96}
+ 96%|█████████▋| 4127/4286 [27:16:25<59:40, 22.52s/it] 96%|█████████▋| 4128/4286 [27:16:47<59:15, 22.50s/it]                                                      {'loss': 0.038, 'grad_norm': 3.074171190606744, 'learning_rate': 3.6864209052729815e-08, 'completion_length': 373.7232360839844, 'rewards/only_full_func_accuracy_reward': 0.787202388048172, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7782739400863647, 'reward_std': 0.1172434501349926, 'kl': 0.951171875, 'epoch': 0.96}
+ 96%|█████████▋| 4128/4286 [27:16:47<59:15, 22.50s/it] 96%|█████████▋| 4129/4286 [27:17:12<1:00:33, 23.14s/it]                                                        {'loss': 0.015, 'grad_norm': 1.5061263199683108, 'learning_rate': 3.663089127391507e-08, 'completion_length': 394.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.8266369700431824, 'rewards/format_reward': 1.0, 'reward': 1.8266370296478271, 'reward_std': 0.11240251362323761, 'kl': 0.376953125, 'epoch': 0.96}
+ 96%|█████████▋| 4129/4286 [27:17:12<1:00:33, 23.14s/it] 96%|█████████▋| 4130/4286 [27:17:34<59:50, 23.01s/it]                                                        {'loss': 0.0024, 'grad_norm': 9.589010760207797, 'learning_rate': 3.6397573495100325e-08, 'completion_length': 387.1428680419922, 'rewards/only_full_func_accuracy_reward': 0.8355655372142792, 'rewards/format_reward': 1.0, 'reward': 1.8355655670166016, 'reward_std': 0.05035398155450821, 'kl': 0.060791015625, 'epoch': 0.96}
+ 96%|█████████▋| 4130/4286 [27:17:34<59:50, 23.01s/it] 96%|█████████▋| 4131/4286 [27:17:55<57:29, 22.25s/it]                                                      {'loss': 0.0426, 'grad_norm': 0.8532703493778888, 'learning_rate': 3.6164255716285574e-08, 'completion_length': 323.5982360839844, 'rewards/only_full_func_accuracy_reward': 0.836309552192688, 'rewards/format_reward': 1.0, 'reward': 1.8363096117973328, 'reward_std': 0.04208969417959452, 'kl': 1.064453125, 'epoch': 0.96}
+ 96%|█████████▋| 4131/4286 [27:17:55<57:29, 22.25s/it] 96%|█████████▋| 4132/4286 [27:18:16<56:28, 22.00s/it]                                                      {'loss': 0.0308, 'grad_norm': 1.1620220028300465, 'learning_rate': 3.593093793747083e-08, 'completion_length': 370.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.7461309134960175, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.737202525138855, 'reward_std': 0.07259011082351208, 'kl': 0.7684326171875, 'epoch': 0.96}
+ 96%|█████████▋| 4132/4286 [27:18:16<56:28, 22.00s/it] 96%|█████████▋| 4133/4286 [27:18:40<57:14, 22.45s/it]                                                      {'loss': 0.0557, 'grad_norm': 2.1956695199035043, 'learning_rate': 3.5697620158656085e-08, 'completion_length': 391.0089416503906, 'rewards/only_full_func_accuracy_reward': 0.756696492433548, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7388393878936768, 'reward_std': 0.10914724506437778, 'kl': 1.392578125, 'epoch': 0.96}
+ 96%|█████████▋| 4133/4286 [27:18:40<57:14, 22.45s/it] 96%|█████████▋| 4134/4286 [27:19:02<56:53, 22.46s/it]                                                      {'loss': 0.0384, 'grad_norm': 1.3416147842506236, 'learning_rate': 3.546430237984134e-08, 'completion_length': 352.0178680419922, 'rewards/only_full_func_accuracy_reward': 0.7180059552192688, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.70014888048172, 'reward_std': 0.06756076961755753, 'kl': 0.962890625, 'epoch': 0.96}
+ 96%|█████████▋| 4134/4286 [27:19:02<56:53, 22.46s/it] 96%|█████████▋| 4135/4286 [27:19:27<58:13, 23.14s/it]                                                      {'loss': 0.0027, 'grad_norm': 1.3268802322823698, 'learning_rate': 3.5230984601026595e-08, 'completion_length': 391.8214416503906, 'rewards/only_full_func_accuracy_reward': 0.660714328289032, 'rewards/format_reward': 1.0, 'reward': 1.6607144474983215, 'reward_std': 0.04990088753402233, 'kl': 0.068115234375, 'epoch': 0.96}
+ 96%|█████████▋| 4135/4286 [27:19:27<58:13, 23.14s/it] 97%|█████████▋| 4136/4286 [27:19:51<58:07, 23.25s/it]                                                      {'loss': 0.0055, 'grad_norm': 0.8063191218928574, 'learning_rate': 3.499766682221185e-08, 'completion_length': 400.51788330078125, 'rewards/only_full_func_accuracy_reward': 0.6108631193637848, 'rewards/format_reward': 1.0, 'reward': 1.610863208770752, 'reward_std': 0.038629407063126564, 'kl': 0.1373291015625, 'epoch': 0.97}
+ 97%|█████████▋| 4136/4286 [27:19:51<58:07, 23.25s/it] 97%|█████████▋| 4137/4286 [27:20:13<57:24, 23.12s/it]                                                      {'loss': 0.0053, 'grad_norm': 3.0209881378795562, 'learning_rate': 3.4764349043397106e-08, 'completion_length': 408.1607360839844, 'rewards/only_full_func_accuracy_reward': 0.7946429252624512, 'rewards/format_reward': 1.0, 'reward': 1.7946430444717407, 'reward_std': 0.01555540319532156, 'kl': 0.132080078125, 'epoch': 0.97}
+ 97%|█████████▋| 4137/4286 [27:20:13<57:24, 23.12s/it] 97%|█████████▋| 4138/4286 [27:20:36<56:32, 22.92s/it]                                                      {'loss': 0.0122, 'grad_norm': 3.0580297953506124, 'learning_rate': 3.453103126458236e-08, 'completion_length': 371.4196472167969, 'rewards/only_full_func_accuracy_reward': 0.7797619700431824, 'rewards/format_reward': 1.0, 'reward': 1.7797620296478271, 'reward_std': 0.06899097189307213, 'kl': 0.3045654296875, 'epoch': 0.97}
+ 97%|█████████▋| 4138/4286 [27:20:36<56:32, 22.92s/it] 97%|█████████▋| 4139/4286 [27:21:00<56:45, 23.17s/it]                                                      {'loss': 0.0294, 'grad_norm': 6.267811965712307, 'learning_rate': 3.429771348576761e-08, 'completion_length': 408.3928680419922, 'rewards/only_full_func_accuracy_reward': 0.8974702656269073, 'rewards/format_reward': 1.0, 'reward': 1.8974703550338745, 'reward_std': 0.11178214475512505, 'kl': 0.73681640625, 'epoch': 0.97}
+ 97%|█████████▋| 4139/4286 [27:21:00<56:45, 23.17s/it] 97%|█████████▋| 4140/4286 [27:21:23<56:52, 23.37s/it]                                                      {'loss': 0.0019, 'grad_norm': 0.3599406614454488, 'learning_rate': 3.4064395706952865e-08, 'completion_length': 404.5089569091797, 'rewards/only_full_func_accuracy_reward': 0.6123512089252472, 'rewards/format_reward': 1.0, 'reward': 1.6123512983322144, 'reward_std': 0.0776019748300314, 'kl': 0.046630859375, 'epoch': 0.97}
+ 97%|█████████▋| 4140/4286 [27:21:23<56:52, 23.37s/it] 97%|█████████▋| 4141/4286 [27:21:47<56:15, 23.28s/it]                                                      {'loss': 0.0112, 'grad_norm': 2.1281344238627673, 'learning_rate': 3.383107792813812e-08, 'completion_length': 388.8214416503906, 'rewards/only_full_func_accuracy_reward': 0.7359693944454193, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.727040946483612, 'reward_std': 0.09778006002306938, 'kl': 0.2786865234375, 'epoch': 0.97}
+ 97%|█████████▋| 4141/4286 [27:21:47<56:15, 23.28s/it] 97%|█████████▋| 4142/4286 [27:22:08<54:36, 22.76s/it]                                                      {'loss': 0.0763, 'grad_norm': 4.717257014636845, 'learning_rate': 3.3597760149323376e-08, 'completion_length': 369.95538330078125, 'rewards/only_full_func_accuracy_reward': 0.7090774178504944, 'rewards/format_reward': 1.0, 'reward': 1.7090774774551392, 'reward_std': 0.05516611598432064, 'kl': 1.90234375, 'epoch': 0.97}
+ 97%|█████████▋| 4142/4286 [27:22:08<54:36, 22.76s/it] 97%|█████████▋| 4143/4286 [27:22:30<53:19, 22.37s/it]                                                      {'loss': 0.0236, 'grad_norm': 2.1884990501007207, 'learning_rate': 3.336444237050863e-08, 'completion_length': 354.46429443359375, 'rewards/only_full_func_accuracy_reward': 0.6190476417541504, 'rewards/format_reward': 1.0, 'reward': 1.6190477013587952, 'reward_std': 0.09720543026924133, 'kl': 0.58984375, 'epoch': 0.97}
+ 97%|█████████▋| 4143/4286 [27:22:30<53:19, 22.37s/it] 97%|█████████▋| 4144/4286 [27:22:54<54:41, 23.11s/it]                                                      {'loss': 0.0443, 'grad_norm': 1.025693466210285, 'learning_rate': 3.3131124591693886e-08, 'completion_length': 435.8214416503906, 'rewards/only_full_func_accuracy_reward': 0.8102678954601288, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.801339328289032, 'reward_std': 0.12552352249622345, 'kl': 1.11328125, 'epoch': 0.97}
+ 97%|█████████▋| 4144/4286 [27:22:54<54:41, 23.11s/it] 97%|█████████▋| 4145/4286 [27:23:16<53:04, 22.58s/it]                                                      {'loss': 0.0212, 'grad_norm': 2.843994407616368, 'learning_rate': 3.289780681287914e-08, 'completion_length': 319.52679443359375, 'rewards/only_full_func_accuracy_reward': 0.8068452775478363, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7979167699813843, 'reward_std': 0.09654790535569191, 'kl': 0.5283203125, 'epoch': 0.97}
+ 97%|█████████▋| 4145/4286 [27:23:16<53:04, 22.58s/it] 97%|█████████▋| 4146/4286 [27:23:39<53:01, 22.73s/it]                                                      {'loss': 0.0133, 'grad_norm': 0.6481606971260607, 'learning_rate': 3.266448903406439e-08, 'completion_length': 381.3839569091797, 'rewards/only_full_func_accuracy_reward': 0.676339328289032, 'rewards/format_reward': 1.0, 'reward': 1.6763393878936768, 'reward_std': 0.04429399035871029, 'kl': 0.331787109375, 'epoch': 0.97}
+ 97%|█████████▋| 4146/4286 [27:23:39<53:01, 22.73s/it] 97%|█████████▋| 4147/4286 [27:24:02<52:51, 22.82s/it]                                                      {'loss': 0.0294, 'grad_norm': 15.840438275598276, 'learning_rate': 3.2431171255249646e-08, 'completion_length': 380.7143096923828, 'rewards/only_full_func_accuracy_reward': 0.6808036267757416, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6718750596046448, 'reward_std': 0.07738779950886965, 'kl': 0.73486328125, 'epoch': 0.97}
+ 97%|█████████▋| 4147/4286 [27:24:02<52:51, 22.82s/it] 97%|█████████▋| 4148/4286 [27:24:25<53:01, 23.05s/it]                                                      {'loss': 0.0308, 'grad_norm': 2.085299580153643, 'learning_rate': 3.21978534764349e-08, 'completion_length': 387.90179443359375, 'rewards/only_full_func_accuracy_reward': 0.7678571939468384, 'rewards/format_reward': 1.0, 'reward': 1.7678572535514832, 'reward_std': 0.0330650033429265, 'kl': 0.7689208984375, 'epoch': 0.97}
+ 97%|█████████▋| 4148/4286 [27:24:25<53:01, 23.05s/it] 97%|█████████▋| 4149/4286 [27:24:47<51:40, 22.63s/it]                                                      {'loss': 0.0145, 'grad_norm': 2.287859675488122, 'learning_rate': 3.1964535697620156e-08, 'completion_length': 356.3482360839844, 'rewards/only_full_func_accuracy_reward': 0.7380952537059784, 'rewards/format_reward': 1.0, 'reward': 1.7380953431129456, 'reward_std': 0.03483853116631508, 'kl': 0.3607177734375, 'epoch': 0.97}
+ 97%|█████████▋| 4149/4286 [27:24:47<51:40, 22.63s/it] 97%|█████████▋| 4150/4286 [27:25:10<51:15, 22.62s/it]                                                      {'loss': 0.0361, 'grad_norm': 1.0948820756886135, 'learning_rate': 3.173121791880541e-08, 'completion_length': 351.21429443359375, 'rewards/only_full_func_accuracy_reward': 0.630952388048172, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6220239400863647, 'reward_std': 0.07868993282318115, 'kl': 0.900390625, 'epoch': 0.97}
+ 97%|█████████▋| 4150/4286 [27:25:10<51:15, 22.62s/it] 97%|█████████▋| 4151/4286 [27:25:33<51:34, 22.92s/it]                                                      {'loss': 0.0143, 'grad_norm': 3.420223330609002, 'learning_rate': 3.149790013999067e-08, 'completion_length': 404.12501525878906, 'rewards/only_full_func_accuracy_reward': 0.7752976715564728, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7663691639900208, 'reward_std': 0.09869130700826645, 'kl': 0.3560791015625, 'epoch': 0.97}
+ 97%|█████████▋| 4151/4286 [27:25:33<51:34, 22.92s/it] 97%|█████████▋| 4152/4286 [27:25:56<51:04, 22.87s/it]                                                      {'loss': 0.0115, 'grad_norm': 1.8993508007598827, 'learning_rate': 3.126458236117592e-08, 'completion_length': 354.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.6636905074119568, 'rewards/format_reward': 1.0, 'reward': 1.6636905670166016, 'reward_std': 0.008417940698564053, 'kl': 0.287109375, 'epoch': 0.97}
+ 97%|█████████▋| 4152/4286 [27:25:56<51:04, 22.87s/it] 97%|█████████▋| 4153/4286 [27:26:19<50:59, 23.00s/it]                                                      {'loss': 0.0393, 'grad_norm': 1.2766263047653446, 'learning_rate': 3.103126458236118e-08, 'completion_length': 360.8035888671875, 'rewards/only_full_func_accuracy_reward': 0.5974702835083008, 'rewards/format_reward': 1.0, 'reward': 1.5974703431129456, 'reward_std': 0.09543666988611221, 'kl': 0.978515625, 'epoch': 0.97}
+ 97%|█████████▋| 4153/4286 [27:26:19<50:59, 23.00s/it] 97%|█████████▋| 4154/4286 [27:26:42<50:08, 22.79s/it]                                                      {'loss': 0.0014, 'grad_norm': 0.8931966091877016, 'learning_rate': 3.0797946803546426e-08, 'completion_length': 381.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.7346726357936859, 'rewards/format_reward': 1.0, 'reward': 1.7346726655960083, 'reward_std': 0.01470588892698288, 'kl': 0.03564453125, 'epoch': 0.97}
+ 97%|█████████▋| 4154/4286 [27:26:42<50:08, 22.79s/it] 97%|█████████▋| 4155/4286 [27:27:03<48:51, 22.38s/it]                                                      {'loss': 0.0471, 'grad_norm': 14.277722987681049, 'learning_rate': 3.056462902473168e-08, 'completion_length': 348.70538330078125, 'rewards/only_full_func_accuracy_reward': 0.7626488506793976, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7537204027175903, 'reward_std': 0.08207490062341094, 'kl': 1.1796875, 'epoch': 0.97}
+ 97%|█████████▋| 4155/4286 [27:27:03<48:51, 22.38s/it] 97%|█████████▋| 4156/4286 [27:27:26<48:38, 22.45s/it]                                                      {'loss': 0.0035, 'grad_norm': 4.861084280682122, 'learning_rate': 3.033131124591694e-08, 'completion_length': 366.01788330078125, 'rewards/only_full_func_accuracy_reward': 0.7202381491661072, 'rewards/format_reward': 1.0, 'reward': 1.720238208770752, 'reward_std': 0.033065006136894226, 'kl': 0.0863037109375, 'epoch': 0.97}
+ 97%|█████████▋| 4156/4286 [27:27:26<48:38, 22.45s/it] 97%|█████████▋| 4157/4286 [27:27:49<49:06, 22.84s/it]                                                      {'loss': 0.0694, 'grad_norm': 1.0951098932516852, 'learning_rate': 3.009799346710219e-08, 'completion_length': 413.14288330078125, 'rewards/only_full_func_accuracy_reward': 0.6477678716182709, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.6209822297096252, 'reward_std': 0.10020834160968661, 'kl': 1.7392578125, 'epoch': 0.97}
+ 97%|█████████▋| 4157/4286 [27:27:49<49:06, 22.84s/it] 97%|█████████▋| 4158/4286 [27:28:12<48:33, 22.76s/it]                                                      {'loss': 0.0701, 'grad_norm': 1.8613177299754942, 'learning_rate': 2.986467568828745e-08, 'completion_length': 380.5089416503906, 'rewards/only_full_func_accuracy_reward': 0.784226268529892, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.7574405670166016, 'reward_std': 0.15118076279759407, 'kl': 1.745361328125, 'epoch': 0.97}
+ 97%|█████████▋| 4158/4286 [27:28:12<48:33, 22.76s/it] 97%|█████████▋| 4159/4286 [27:28:35<48:23, 22.86s/it]                                                      {'loss': 0.032, 'grad_norm': 3.7900147485339715, 'learning_rate': 2.9631357909472703e-08, 'completion_length': 393.0089416503906, 'rewards/only_full_func_accuracy_reward': 0.6703869104385376, 'rewards/format_reward': 1.0, 'reward': 1.6703869700431824, 'reward_std': 0.08721430599689484, 'kl': 0.798828125, 'epoch': 0.97}
+ 97%|█████████▋| 4159/4286 [27:28:35<48:23, 22.86s/it] 97%|█████████▋| 4160/4286 [27:28:57<47:39, 22.70s/it]                                                      {'loss': 0.0313, 'grad_norm': 1.107981584747157, 'learning_rate': 2.9398040130657955e-08, 'completion_length': 357.75001525878906, 'rewards/only_full_func_accuracy_reward': 0.7513393461704254, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.7334821820259094, 'reward_std': 0.10218261927366257, 'kl': 0.77734375, 'epoch': 0.97}
+ 97%|█████████▋| 4160/4286 [27:28:57<47:39, 22.70s/it] 97%|█████████▋| 4161/4286 [27:29:21<47:52, 22.98s/it]                                                      {'loss': 0.0381, 'grad_norm': 1.2562384602991512, 'learning_rate': 2.916472235184321e-08, 'completion_length': 368.8125305175781, 'rewards/only_full_func_accuracy_reward': 0.6651785969734192, 'rewards/format_reward': 1.0, 'reward': 1.6651787161827087, 'reward_std': 0.040906310081481934, 'kl': 0.955078125, 'epoch': 0.97}
+ 97%|█████████▋| 4161/4286 [27:29:21<47:52, 22.98s/it] 97%|█████████▋| 4162/4286 [27:29:44<47:39, 23.06s/it]                                                      {'loss': 0.0294, 'grad_norm': 2.1453695097268657, 'learning_rate': 2.8931404573028465e-08, 'completion_length': 391.6964416503906, 'rewards/only_full_func_accuracy_reward': 0.6220238506793976, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6041668057441711, 'reward_std': 0.10121489502489567, 'kl': 0.736328125, 'epoch': 0.97}
+ 97%|█████████▋| 4162/4286 [27:29:44<47:39, 23.06s/it] 97%|█████████▋| 4163/4286 [27:30:06<46:43, 22.79s/it]                                                      {'loss': 0.0014, 'grad_norm': 0.24421154685055846, 'learning_rate': 2.869808679421372e-08, 'completion_length': 371.0714416503906, 'rewards/only_full_func_accuracy_reward': 0.8511905372142792, 'rewards/format_reward': 1.0, 'reward': 1.8511906266212463, 'reward_std': 0.020740536972880363, 'kl': 0.0352783203125, 'epoch': 0.97}
+ 97%|█████████▋| 4163/4286 [27:30:06<46:43, 22.79s/it] 97%|█████████▋| 4164/4286 [27:30:30<47:02, 23.13s/it]                                                      {'loss': 0.0049, 'grad_norm': 0.4853638390641242, 'learning_rate': 2.8464769015398973e-08, 'completion_length': 424.8839416503906, 'rewards/only_full_func_accuracy_reward': 0.6666666865348816, 'rewards/format_reward': 1.0, 'reward': 1.6666668057441711, 'reward_std': 0.07649840973317623, 'kl': 0.123291015625, 'epoch': 0.97}
+ 97%|█████████▋| 4164/4286 [27:30:30<47:02, 23.13s/it] 97%|█████████▋| 4165/4286 [27:30:53<46:12, 22.91s/it]                                                      {'loss': 0.0493, 'grad_norm': 6.155633982686204, 'learning_rate': 2.8231451236584228e-08, 'completion_length': 354.3660888671875, 'rewards/only_full_func_accuracy_reward': 0.7514881789684296, 'rewards/format_reward': 1.0, 'reward': 1.751488208770752, 'reward_std': 0.10490607470273972, 'kl': 1.232421875, 'epoch': 0.97}
+ 97%|█████████▋| 4165/4286 [27:30:53<46:12, 22.91s/it] 97%|█████████▋| 4166/4286 [27:31:14<44:34, 22.28s/it]                                                      {'loss': 0.0346, 'grad_norm': 0.8539664585732106, 'learning_rate': 2.7998133457769483e-08, 'completion_length': 308.3928680419922, 'rewards/only_full_func_accuracy_reward': 0.785714328289032, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7767857909202576, 'reward_std': 0.06116710416972637, 'kl': 0.86328125, 'epoch': 0.97}
+ 97%|█████████▋| 4166/4286 [27:31:14<44:34, 22.28s/it] 97%|█████████▋| 4167/4286 [27:31:35<43:33, 21.97s/it]                                                      {'loss': 0.0294, 'grad_norm': 0.7376754233303943, 'learning_rate': 2.7764815678954735e-08, 'completion_length': 347.02679443359375, 'rewards/only_full_func_accuracy_reward': 0.7343750596046448, 'rewards/format_reward': 1.0, 'reward': 1.7343751192092896, 'reward_std': 0.06558611616492271, 'kl': 0.734375, 'epoch': 0.97}
+ 97%|█████████▋| 4167/4286 [27:31:35<43:33, 21.97s/it] 97%|█████████▋| 4168/4286 [27:31:57<43:35, 22.16s/it]                                                      {'loss': 0.0526, 'grad_norm': 2.7645851632772005, 'learning_rate': 2.753149790013999e-08, 'completion_length': 416.7410888671875, 'rewards/only_full_func_accuracy_reward': 0.5974702537059784, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5885417461395264, 'reward_std': 0.10498475935310125, 'kl': 1.3150634765625, 'epoch': 0.97}
+ 97%|█████████▋| 4168/4286 [27:31:57<43:35, 22.16s/it] 97%|█████████▋| 4169/4286 [27:32:19<43:02, 22.08s/it]                                                      {'loss': 0.0132, 'grad_norm': 0.5857749460403533, 'learning_rate': 2.7298180121325242e-08, 'completion_length': 394.1428680419922, 'rewards/only_full_func_accuracy_reward': 0.7120535969734192, 'rewards/format_reward': 1.0, 'reward': 1.7120537161827087, 'reward_std': 0.04003315698355436, 'kl': 0.33154296875, 'epoch': 0.97}
+ 97%|█████████▋| 4169/4286 [27:32:19<43:02, 22.08s/it] 97%|█████████▋| 4170/4286 [27:32:40<42:08, 21.80s/it]                                                      {'loss': 0.076, 'grad_norm': 6.3119602643415975, 'learning_rate': 2.7064862342510498e-08, 'completion_length': 342.6339416503906, 'rewards/only_full_func_accuracy_reward': 0.534970298409462, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5260417461395264, 'reward_std': 0.09055408835411072, 'kl': 1.89697265625, 'epoch': 0.97}
+ 97%|█████████▋| 4170/4286 [27:32:40<42:08, 21.80s/it] 97%|█████████▋| 4171/4286 [27:33:05<43:33, 22.72s/it]                                                      {'loss': 0.0149, 'grad_norm': 1.0901720534405335, 'learning_rate': 2.683154456369575e-08, 'completion_length': 404.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.6837798058986664, 'rewards/format_reward': 1.0, 'reward': 1.6837798357009888, 'reward_std': 0.06478395685553551, 'kl': 0.372802734375, 'epoch': 0.97}
+ 97%|█████████▋| 4171/4286 [27:33:05<43:33, 22.72s/it] 97%|█████████▋| 4172/4286 [27:33:30<44:07, 23.22s/it]                                                      {'loss': 0.0401, 'grad_norm': 3.628965020069173, 'learning_rate': 2.6598226784881005e-08, 'completion_length': 428.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.6629464626312256, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6540180444717407, 'reward_std': 0.12967954203486443, 'kl': 1.00244140625, 'epoch': 0.97}
+ 97%|█████████▋| 4172/4286 [27:33:30<44:07, 23.22s/it] 97%|█████████▋| 4173/4286 [27:33:53<43:47, 23.25s/it]                                                      {'loss': 0.0343, 'grad_norm': 8.80734740183187, 'learning_rate': 2.636490900606626e-08, 'completion_length': 334.7946472167969, 'rewards/only_full_func_accuracy_reward': 0.7403274476528168, 'rewards/format_reward': 1.0, 'reward': 1.740327537059784, 'reward_std': 0.01052242610603571, 'kl': 0.8564453125, 'epoch': 0.97}
+ 97%|█████████▋| 4173/4286 [27:33:53<43:47, 23.25s/it] 97%|█████████▋| 4174/4286 [27:34:17<43:41, 23.41s/it]                                                      {'loss': 0.061, 'grad_norm': 5.917453759496669, 'learning_rate': 2.6131591227251516e-08, 'completion_length': 366.01788330078125, 'rewards/only_full_func_accuracy_reward': 0.6339285969734192, 'rewards/format_reward': 1.0, 'reward': 1.633928656578064, 'reward_std': 0.12220177054405212, 'kl': 1.5234375, 'epoch': 0.97}
+ 97%|█████████▋| 4174/4286 [27:34:17<43:41, 23.41s/it] 97%|█████████▋| 4175/4286 [27:34:39<42:32, 22.99s/it]                                                      {'loss': 0.0453, 'grad_norm': 2.496383678496629, 'learning_rate': 2.5898273448436768e-08, 'completion_length': 376.7410888671875, 'rewards/only_full_func_accuracy_reward': 0.7639881372451782, 'rewards/format_reward': 1.0, 'reward': 1.7639882564544678, 'reward_std': 0.05946071073412895, 'kl': 1.132568359375, 'epoch': 0.97}
+ 97%|█████████▋| 4175/4286 [27:34:39<42:32, 22.99s/it] 97%|█████████▋| 4176/4286 [27:35:01<41:40, 22.73s/it]                                                      {'loss': 0.002, 'grad_norm': 0.12907675771529104, 'learning_rate': 2.5664955669622023e-08, 'completion_length': 366.7410888671875, 'rewards/only_full_func_accuracy_reward': 0.7500000894069672, 'rewards/format_reward': 1.0, 'reward': 1.7500001788139343, 'reward_std': 0.0, 'kl': 0.049072265625, 'epoch': 0.97}
+ 97%|█████████▋| 4176/4286 [27:35:01<41:40, 22.73s/it] 97%|█████████▋| 4177/4286 [27:35:25<41:54, 23.07s/it]                                                      {'loss': 0.0653, 'grad_norm': 3.193129457967751, 'learning_rate': 2.5431637890807278e-08, 'completion_length': 385.3839416503906, 'rewards/only_full_func_accuracy_reward': 0.6516368985176086, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.642708420753479, 'reward_std': 0.1102750226855278, 'kl': 1.634765625, 'epoch': 0.97}
+ 97%|█████████▋| 4177/4286 [27:35:25<41:54, 23.07s/it] 97%|█████████▋| 4178/4286 [27:35:48<41:21, 22.98s/it]                                                      {'loss': 0.0631, 'grad_norm': 0.6198152107534802, 'learning_rate': 2.5198320111992534e-08, 'completion_length': 358.7857360839844, 'rewards/only_full_func_accuracy_reward': 0.7336309850215912, 'rewards/format_reward': 1.0, 'reward': 1.7336310744285583, 'reward_std': 0.07384683936834335, 'kl': 1.5775146484375, 'epoch': 0.97}
+ 97%|█████████▋| 4178/4286 [27:35:48<41:21, 22.98s/it] 98%|█████████▊| 4179/4286 [27:36:10<40:29, 22.71s/it]                                                      {'loss': 0.0447, 'grad_norm': 2.5889253952873026, 'learning_rate': 2.4965002333177786e-08, 'completion_length': 357.5893096923828, 'rewards/only_full_func_accuracy_reward': 0.7261904776096344, 'rewards/format_reward': 1.0, 'reward': 1.7261906266212463, 'reward_std': 0.05005164071917534, 'kl': 1.115234375, 'epoch': 0.98}
+ 98%|█████████▊| 4179/4286 [27:36:10<40:29, 22.71s/it] 98%|█████████▊| 4180/4286 [27:36:34<41:09, 23.30s/it]                                                      {'loss': 0.0144, 'grad_norm': 1.1555883462358953, 'learning_rate': 2.473168455436304e-08, 'completion_length': 435.52679443359375, 'rewards/only_full_func_accuracy_reward': 0.73288694024086, 'rewards/format_reward': 1.0, 'reward': 1.7328870296478271, 'reward_std': 0.026077822782099247, 'kl': 0.359619140625, 'epoch': 0.98}
+ 98%|█████████▊| 4180/4286 [27:36:34<41:09, 23.30s/it] 98%|█████████▊| 4181/4286 [27:36:57<40:18, 23.03s/it]                                                      {'loss': 0.0108, 'grad_norm': 1.8555470316405027, 'learning_rate': 2.4498366775548296e-08, 'completion_length': 365.9910888671875, 'rewards/only_full_func_accuracy_reward': 0.6867559850215912, 'rewards/format_reward': 1.0, 'reward': 1.6867560744285583, 'reward_std': 0.06214701570570469, 'kl': 0.2716064453125, 'epoch': 0.98}
+ 98%|█████████▊| 4181/4286 [27:36:57<40:18, 23.03s/it] 98%|█████████▊| 4182/4286 [27:37:21<40:42, 23.49s/it]                                                      {'loss': 0.0283, 'grad_norm': 1.1451438830553264, 'learning_rate': 2.4265048996733548e-08, 'completion_length': 467.8482360839844, 'rewards/only_full_func_accuracy_reward': 0.786160796880722, 'rewards/format_reward': 1.0, 'reward': 1.7861608266830444, 'reward_std': 0.07313812524080276, 'kl': 0.7109375, 'epoch': 0.98}
+ 98%|█████████▊| 4182/4286 [27:37:21<40:42, 23.49s/it] 98%|█████████▊| 4183/4286 [27:37:45<40:30, 23.60s/it]                                                      {'loss': 0.0601, 'grad_norm': 1.2657324747385321, 'learning_rate': 2.4031731217918803e-08, 'completion_length': 376.9910888671875, 'rewards/only_full_func_accuracy_reward': 0.669642835855484, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6517859101295471, 'reward_std': 0.07576144486665726, 'kl': 1.5, 'epoch': 0.98}
+ 98%|█████████▊| 4183/4286 [27:37:45<40:30, 23.60s/it] 98%|█████████▊| 4184/4286 [27:38:09<40:20, 23.73s/it]                                                      {'loss': 0.0439, 'grad_norm': 3.05808892961706, 'learning_rate': 2.379841343910406e-08, 'completion_length': 410.54466247558594, 'rewards/only_full_func_accuracy_reward': 0.6815476417541504, 'rewards/format_reward': 1.0, 'reward': 1.6815477013587952, 'reward_std': 0.039983248338103294, 'kl': 1.0927734375, 'epoch': 0.98}
+ 98%|█████████▊| 4184/4286 [27:38:09<40:20, 23.73s/it] 98%|█████████▊| 4185/4286 [27:38:32<39:36, 23.53s/it]                                                      {'loss': 0.0173, 'grad_norm': 1.01161227388993, 'learning_rate': 2.3565095660289314e-08, 'completion_length': 386.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.7812500298023224, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7723214626312256, 'reward_std': 0.0673435116186738, 'kl': 0.431640625, 'epoch': 0.98}
+ 98%|█████████▊| 4185/4286 [27:38:32<39:36, 23.53s/it] 98%|█████████▊| 4186/4286 [27:38:56<39:13, 23.54s/it]                                                      {'loss': 0.0661, 'grad_norm': 5.8487624544114025, 'learning_rate': 2.3331777881474566e-08, 'completion_length': 384.3482208251953, 'rewards/only_full_func_accuracy_reward': 0.449404776096344, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.4404763579368591, 'reward_std': 0.05445409193634987, 'kl': 1.658203125, 'epoch': 0.98}
+ 98%|█████████▊| 4186/4286 [27:38:56<39:13, 23.54s/it] 98%|█████████▊| 4187/4286 [27:39:18<38:24, 23.27s/it]                                                      {'loss': 0.0305, 'grad_norm': 2.723295100026888, 'learning_rate': 2.309846010265982e-08, 'completion_length': 363.8303680419922, 'rewards/only_full_func_accuracy_reward': 0.8640873730182648, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.855158805847168, 'reward_std': 0.07489665783941746, 'kl': 0.763427734375, 'epoch': 0.98}
+ 98%|█████████▊| 4187/4286 [27:39:18<38:24, 23.27s/it] 98%|█████████▊| 4188/4286 [27:39:42<37:59, 23.26s/it]                                                      {'loss': 0.0262, 'grad_norm': 188.01923016401747, 'learning_rate': 2.2865142323845077e-08, 'completion_length': 401.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.6294642984867096, 'rewards/format_reward': 1.0, 'reward': 1.6294644474983215, 'reward_std': 0.07550247199833393, 'kl': 0.65625, 'epoch': 0.98}
+ 98%|█████████▊| 4188/4286 [27:39:42<37:59, 23.26s/it] 98%|█████████▊| 4189/4286 [27:40:06<37:53, 23.44s/it]                                                      {'loss': 0.013, 'grad_norm': 4.542619301067818, 'learning_rate': 2.2631824545030332e-08, 'completion_length': 394.10716247558594, 'rewards/only_full_func_accuracy_reward': 0.6443452835083008, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6354168057441711, 'reward_std': 0.1282651275396347, 'kl': 0.3251953125, 'epoch': 0.98}
+ 98%|█████████▊| 4189/4286 [27:40:06<37:53, 23.44s/it] 98%|█████████▊| 4190/4286 [27:40:27<36:44, 22.96s/it]                                                      {'loss': 0.0132, 'grad_norm': 0.2880040337841268, 'learning_rate': 2.2398506766215584e-08, 'completion_length': 358.2589569091797, 'rewards/only_full_func_accuracy_reward': 0.8281250298023224, 'rewards/format_reward': 1.0, 'reward': 1.8281251192092896, 'reward_std': 0.02514082007110119, 'kl': 0.3270263671875, 'epoch': 0.98}
+ 98%|█████████▊| 4190/4286 [27:40:27<36:44, 22.96s/it] 98%|█████████▊| 4191/4286 [27:40:50<36:04, 22.79s/it]                                                      {'loss': 0.0493, 'grad_norm': 3.416218166841307, 'learning_rate': 2.216518898740084e-08, 'completion_length': 360.0714569091797, 'rewards/only_full_func_accuracy_reward': 0.4858631491661072, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.4501489400863647, 'reward_std': 0.1746949627995491, 'kl': 1.23046875, 'epoch': 0.98}
+ 98%|█████████▊| 4191/4286 [27:40:50<36:04, 22.79s/it] 98%|█████████▊| 4192/4286 [27:41:12<35:30, 22.66s/it]                                                      {'loss': 0.0122, 'grad_norm': 3.384571351369592, 'learning_rate': 2.1931871208586094e-08, 'completion_length': 376.48216247558594, 'rewards/only_full_func_accuracy_reward': 0.7306548357009888, 'rewards/format_reward': 1.0, 'reward': 1.7306548953056335, 'reward_std': 0.05697081238031387, 'kl': 0.3074951171875, 'epoch': 0.98}
+ 98%|█████████▊| 4192/4286 [27:41:12<35:30, 22.66s/it] 98%|█████████▊| 4193/4286 [27:41:33<34:08, 22.03s/it]                                                      {'loss': 0.017, 'grad_norm': 0.6550821941583271, 'learning_rate': 2.169855342977135e-08, 'completion_length': 345.90179443359375, 'rewards/only_full_func_accuracy_reward': 0.696428656578064, 'rewards/format_reward': 1.0, 'reward': 1.6964287161827087, 'reward_std': 0.06781012937426567, 'kl': 0.425048828125, 'epoch': 0.98}
+ 98%|█████████▊| 4193/4286 [27:41:33<34:08, 22.03s/it] 98%|█████████▊| 4194/4286 [27:41:56<34:08, 22.27s/it]                                                      {'loss': 0.0656, 'grad_norm': 1.902857170529689, 'learning_rate': 2.1465235650956602e-08, 'completion_length': 374.35716247558594, 'rewards/only_full_func_accuracy_reward': 0.7946428954601288, 'rewards/format_reward': 1.0, 'reward': 1.794642984867096, 'reward_std': 0.051445040851831436, 'kl': 1.640625, 'epoch': 0.98}
+ 98%|█████████▊| 4194/4286 [27:41:56<34:08, 22.27s/it] 98%|█████████▊| 4195/4286 [27:42:18<33:57, 22.39s/it]                                                      {'loss': 0.0119, 'grad_norm': 0.7191066413581988, 'learning_rate': 2.1231917872141857e-08, 'completion_length': 374.7857208251953, 'rewards/only_full_func_accuracy_reward': 0.7373512089252472, 'rewards/format_reward': 1.0, 'reward': 1.7373512983322144, 'reward_std': 0.029962027445435524, 'kl': 0.2979736328125, 'epoch': 0.98}
+ 98%|█████████▊| 4195/4286 [27:42:18<33:57, 22.39s/it] 98%|█████████▊| 4196/4286 [27:42:40<33:24, 22.28s/it]                                                      {'loss': 0.0068, 'grad_norm': 8.853706295560125, 'learning_rate': 2.0998600093327112e-08, 'completion_length': 367.00001525878906, 'rewards/only_full_func_accuracy_reward': 0.677083432674408, 'rewards/format_reward': 1.0, 'reward': 1.677083432674408, 'reward_std': 0.05238510109484196, 'kl': 0.17041015625, 'epoch': 0.98}
+ 98%|█████████▊| 4196/4286 [27:42:40<33:24, 22.28s/it] 98%|█████████▊| 4197/4286 [27:43:04<33:42, 22.72s/it]                                                      {'loss': 0.0077, 'grad_norm': 1.4009066282425346, 'learning_rate': 2.0765282314512368e-08, 'completion_length': 376.56251525878906, 'rewards/only_full_func_accuracy_reward': 0.6726190745830536, 'rewards/format_reward': 1.0, 'reward': 1.6726191639900208, 'reward_std': 0.02089315839111805, 'kl': 0.19287109375, 'epoch': 0.98}
+ 98%|█████████▊| 4197/4286 [27:43:04<33:42, 22.72s/it] 98%|█████████▊| 4198/4286 [27:43:26<33:01, 22.52s/it]                                                      {'loss': 0.0354, 'grad_norm': 0.9905547074745273, 'learning_rate': 2.053196453569762e-08, 'completion_length': 363.1339416503906, 'rewards/only_full_func_accuracy_reward': 0.7291667461395264, 'rewards/format_reward': 1.0, 'reward': 1.7291668057441711, 'reward_std': 0.08222461864352226, 'kl': 0.88671875, 'epoch': 0.98}
+ 98%|█████████▊| 4198/4286 [27:43:26<33:01, 22.52s/it] 98%|█████████▊| 4199/4286 [27:43:49<32:57, 22.73s/it]                                                      {'loss': 0.0656, 'grad_norm': 2.368800328497264, 'learning_rate': 2.0298646756882875e-08, 'completion_length': 347.9285888671875, 'rewards/only_full_func_accuracy_reward': 0.7769345045089722, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.750148892402649, 'reward_std': 0.16039522178471088, 'kl': 1.6328125, 'epoch': 0.98}
+ 98%|█████████▊| 4199/4286 [27:43:49<32:57, 22.73s/it] 98%|█████████▊| 4200/4286 [27:44:12<32:41, 22.81s/it]                                                      {'loss': 0.0212, 'grad_norm': 1.497617445976986, 'learning_rate': 2.006532897806813e-08, 'completion_length': 385.6964416503906, 'rewards/only_full_func_accuracy_reward': 0.79389888048172, 'rewards/format_reward': 1.0, 'reward': 1.7938989400863647, 'reward_std': 0.06380136497318745, 'kl': 0.5302734375, 'epoch': 0.98}
+ 98%|█████████▊| 4200/4286 [27:44:12<32:41, 22.81s/it] 98%|█████████▊| 4201/4286 [27:45:46<1:02:21, 44.02s/it]                                                        {'loss': 0.0501, 'grad_norm': 6.671512073974405, 'learning_rate': 1.9832011199253382e-08, 'completion_length': 374.1071472167969, 'rewards/only_full_func_accuracy_reward': 0.5372024029493332, 'rewards/format_reward': 1.0, 'reward': 1.5372024774551392, 'reward_std': 0.10366356000304222, 'kl': 1.2548828125, 'epoch': 0.98}
+ 98%|█████████▊| 4201/4286 [27:45:46<1:02:21, 44.02s/it] 98%|█████████▊| 4202/4286 [27:46:09<53:01, 37.88s/it]                                                        {'loss': 0.0399, 'grad_norm': 1.212348200093237, 'learning_rate': 1.9598693420438638e-08, 'completion_length': 440.51788330078125, 'rewards/only_full_func_accuracy_reward': 0.6071428954601288, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.5892857909202576, 'reward_std': 0.12673974968492985, 'kl': 0.998046875, 'epoch': 0.98}
+ 98%|█████████▊| 4202/4286 [27:46:09<53:01, 37.88s/it] 98%|█████████▊| 4203/4286 [27:46:32<46:14, 33.43s/it]                                                      {'loss': 0.0022, 'grad_norm': 0.7213781537829372, 'learning_rate': 1.936537564162389e-08, 'completion_length': 350.00001525878906, 'rewards/only_full_func_accuracy_reward': 0.836309552192688, 'rewards/format_reward': 1.0, 'reward': 1.8363096714019775, 'reward_std': 0.03403930366039276, 'kl': 0.0555419921875, 'epoch': 0.98}
+ 98%|█████████▊| 4203/4286 [27:46:32<46:14, 33.43s/it] 98%|█████████▊| 4204/4286 [27:46:55<41:06, 30.08s/it]                                                      {'loss': 0.0017, 'grad_norm': 0.8656580181538558, 'learning_rate': 1.9132057862809145e-08, 'completion_length': 383.9910888671875, 'rewards/only_full_func_accuracy_reward': 0.7217262089252472, 'rewards/format_reward': 1.0, 'reward': 1.7217262983322144, 'reward_std': 0.028282131999731064, 'kl': 0.04345703125, 'epoch': 0.98}
+ 98%|█████████▊| 4204/4286 [27:46:55<41:06, 30.08s/it] 98%|█████████▊| 4205/4286 [27:47:19<38:10, 28.28s/it]                                                      {'loss': 0.0045, 'grad_norm': 7.483186173709819, 'learning_rate': 1.8898740083994397e-08, 'completion_length': 384.0089416503906, 'rewards/only_full_func_accuracy_reward': 0.7410714626312256, 'rewards/format_reward': 1.0, 'reward': 1.7410715818405151, 'reward_std': 0.057037413120269775, 'kl': 0.111328125, 'epoch': 0.98}
+ 98%|█████████▊| 4205/4286 [27:47:19<38:10, 28.28s/it] 98%|█████████▊| 4206/4286 [27:47:41<35:25, 26.57s/it]                                                      {'loss': 0.0156, 'grad_norm': 3.325801688463386, 'learning_rate': 1.8665422305179652e-08, 'completion_length': 394.8839416503906, 'rewards/only_full_func_accuracy_reward': 0.6345238089561462, 'rewards/format_reward': 1.0, 'reward': 1.6345239281654358, 'reward_std': 0.04741761274635792, 'kl': 0.388671875, 'epoch': 0.98}
+ 98%|█████████▊| 4206/4286 [27:47:41<35:25, 26.57s/it] 98%|█████████▊| 4207/4286 [27:48:05<33:57, 25.79s/it]                                                      {'loss': 0.0555, 'grad_norm': 6.008158456227091, 'learning_rate': 1.8432104526364907e-08, 'completion_length': 357.6339416503906, 'rewards/only_full_func_accuracy_reward': 0.8735119998455048, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.864583432674408, 'reward_std': 0.08011818304657936, 'kl': 1.388671875, 'epoch': 0.98}
+ 98%|█████████▊| 4207/4286 [27:48:05<33:57, 25.79s/it] 98%|█████████▊| 4208/4286 [27:48:28<32:13, 24.78s/it]                                                      {'loss': 0.0052, 'grad_norm': 7.073644928546243, 'learning_rate': 1.8198786747550163e-08, 'completion_length': 377.04466247558594, 'rewards/only_full_func_accuracy_reward': 0.7380952537059784, 'rewards/format_reward': 1.0, 'reward': 1.7380953431129456, 'reward_std': 0.02495044283568859, 'kl': 0.12969970703125, 'epoch': 0.98}
+ 98%|█████████▊| 4208/4286 [27:48:28<32:13, 24.78s/it] 98%|█████████▊| 4209/4286 [27:48:53<32:05, 25.01s/it]                                                      {'loss': 0.0726, 'grad_norm': 1.5474794487457826, 'learning_rate': 1.7965468968735415e-08, 'completion_length': 431.7053680419922, 'rewards/only_full_func_accuracy_reward': 0.6795635521411896, 'rewards/format_reward': 0.973214328289032, 'reward': 1.652777910232544, 'reward_std': 0.1709592267870903, 'kl': 1.80859375, 'epoch': 0.98}
+ 98%|█████████▊| 4209/4286 [27:48:53<32:05, 25.01s/it] 98%|█████████▊| 4210/4286 [27:49:15<30:30, 24.09s/it]                                                      {'loss': 0.0275, 'grad_norm': 5.070558595723694, 'learning_rate': 1.773215118992067e-08, 'completion_length': 356.7946472167969, 'rewards/only_full_func_accuracy_reward': 0.6630141139030457, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.654085636138916, 'reward_std': 0.11576951760798693, 'kl': 0.685546875, 'epoch': 0.98}
+ 98%|█████████▊| 4210/4286 [27:49:15<30:30, 24.09s/it] 98%|█████████▊| 4211/4286 [27:49:40<30:16, 24.21s/it]                                                      {'loss': 0.016, 'grad_norm': 0.5671183804470942, 'learning_rate': 1.7498833411105925e-08, 'completion_length': 403.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.8333333730697632, 'rewards/format_reward': 1.0, 'reward': 1.833333432674408, 'reward_std': 0.05050763115286827, 'kl': 0.3974609375, 'epoch': 0.98}
+ 98%|█████████▊| 4211/4286 [27:49:40<30:16, 24.21s/it] 98%|█████████▊| 4212/4286 [27:50:02<29:01, 23.53s/it]                                                      {'loss': 0.0058, 'grad_norm': 1.1945415315525114, 'learning_rate': 1.726551563229118e-08, 'completion_length': 369.6785888671875, 'rewards/only_full_func_accuracy_reward': 0.7455357611179352, 'rewards/format_reward': 1.0, 'reward': 1.7455357909202576, 'reward_std': 0.07237453013658524, 'kl': 0.1441650390625, 'epoch': 0.98}
+ 98%|█████████▊| 4212/4286 [27:50:02<29:01, 23.53s/it] 98%|█████████▊| 4213/4286 [27:50:24<28:18, 23.26s/it]                                                      {'loss': 0.0564, 'grad_norm': 1.598302403604062, 'learning_rate': 1.7032197853476433e-08, 'completion_length': 358.9018096923828, 'rewards/only_full_func_accuracy_reward': 0.7403274178504944, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7224703431129456, 'reward_std': 0.05571495369076729, 'kl': 1.40625, 'epoch': 0.98}
+ 98%|█████████▊| 4213/4286 [27:50:24<28:18, 23.26s/it] 98%|█████████▊| 4214/4286 [27:50:46<27:22, 22.81s/it]                                                      {'loss': 0.0353, 'grad_norm': 0.6667593274891678, 'learning_rate': 1.6798880074661688e-08, 'completion_length': 372.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.5610119551420212, 'rewards/format_reward': 1.0, 'reward': 1.5610120296478271, 'reward_std': 0.10010234080255032, 'kl': 0.880859375, 'epoch': 0.98}
+ 98%|█████████▊| 4214/4286 [27:50:46<27:22, 22.81s/it] 98%|█████████▊| 4215/4286 [27:51:09<27:04, 22.88s/it]                                                      {'loss': 0.0238, 'grad_norm': 2.0190447599513623, 'learning_rate': 1.6565562295846943e-08, 'completion_length': 398.4732360839844, 'rewards/only_full_func_accuracy_reward': 0.713541716337204, 'rewards/format_reward': 1.0, 'reward': 1.7135418057441711, 'reward_std': 0.06362569332122803, 'kl': 0.595703125, 'epoch': 0.98}
+ 98%|█████████▊| 4215/4286 [27:51:09<27:04, 22.88s/it] 98%|█████████▊| 4216/4286 [27:51:33<26:55, 23.08s/it]                                                      {'loss': 0.0676, 'grad_norm': 0.9448113845324838, 'learning_rate': 1.6332244517032195e-08, 'completion_length': 424.7857360839844, 'rewards/only_full_func_accuracy_reward': 0.6264881491661072, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6086310744285583, 'reward_std': 0.1288340836763382, 'kl': 1.6875, 'epoch': 0.98}
+ 98%|█████████▊| 4216/4286 [27:51:33<26:55, 23.08s/it] 98%|█████████▊| 4217/4286 [27:51:57<26:57, 23.44s/it]                                                      {'loss': 0.0103, 'grad_norm': 0.5626852480817364, 'learning_rate': 1.609892673821745e-08, 'completion_length': 406.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.7604166269302368, 'rewards/format_reward': 1.0, 'reward': 1.7604168057441711, 'reward_std': 0.05833448842167854, 'kl': 0.2578125, 'epoch': 0.98}
+ 98%|█████████▊| 4217/4286 [27:51:57<26:57, 23.44s/it] 98%|█████████▊| 4218/4286 [27:52:19<26:13, 23.14s/it]                                                      {'loss': 0.0426, 'grad_norm': 14.745579359713997, 'learning_rate': 1.5865608959402706e-08, 'completion_length': 350.1339416503906, 'rewards/only_full_func_accuracy_reward': 0.761904776096344, 'rewards/format_reward': 1.0, 'reward': 1.7619048953056335, 'reward_std': 0.10920437052845955, 'kl': 1.068359375, 'epoch': 0.98}
+ 98%|█████████▊| 4218/4286 [27:52:19<26:13, 23.14s/it] 98%|█████████▊| 4219/4286 [27:52:42<25:43, 23.03s/it]                                                      {'loss': 0.0037, 'grad_norm': 2.5966818769305586, 'learning_rate': 1.563229118058796e-08, 'completion_length': 357.52679443359375, 'rewards/only_full_func_accuracy_reward': 0.744791716337204, 'rewards/format_reward': 1.0, 'reward': 1.7447918057441711, 'reward_std': 0.04478401876986027, 'kl': 0.091552734375, 'epoch': 0.98}
+ 98%|█████████▊| 4219/4286 [27:52:42<25:43, 23.03s/it] 98%|█████████▊| 4220/4286 [27:53:05<25:11, 22.90s/it]                                                      {'loss': 0.0016, 'grad_norm': 0.7653777938072883, 'learning_rate': 1.5398973401773213e-08, 'completion_length': 396.65179443359375, 'rewards/only_full_func_accuracy_reward': 0.6674107611179352, 'rewards/format_reward': 1.0, 'reward': 1.6674108505249023, 'reward_std': 0.02999820001423359, 'kl': 0.03955078125, 'epoch': 0.98}
+ 98%|█████████▊| 4220/4286 [27:53:05<25:11, 22.90s/it] 98%|█████████▊| 4221/4286 [27:53:29<25:22, 23.42s/it]                                                      {'loss': 0.0325, 'grad_norm': 0.8445991711319097, 'learning_rate': 1.516565562295847e-08, 'completion_length': 431.96429443359375, 'rewards/only_full_func_accuracy_reward': 0.7151786088943481, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7062500715255737, 'reward_std': 0.08753494173288345, 'kl': 0.810546875, 'epoch': 0.98}
+ 98%|█████████▊| 4221/4286 [27:53:29<25:22, 23.42s/it] 99%|█████████▊| 4222/4286 [27:53:52<24:46, 23.22s/it]                                                      {'loss': 0.0471, 'grad_norm': 3.408464632804801, 'learning_rate': 1.4932337844143724e-08, 'completion_length': 379.8214416503906, 'rewards/only_full_func_accuracy_reward': 0.7258929014205933, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7169643640518188, 'reward_std': 0.07890692725777626, 'kl': 1.177734375, 'epoch': 0.99}
+ 99%|█████████▊| 4222/4286 [27:53:52<24:46, 23.22s/it] 99%|█████████▊| 4223/4286 [27:54:15<24:09, 23.01s/it]                                                      {'loss': 0.0098, 'grad_norm': 1.9110047242089763, 'learning_rate': 1.4699020065328977e-08, 'completion_length': 362.18751525878906, 'rewards/only_full_func_accuracy_reward': 0.754464328289032, 'rewards/format_reward': 1.0, 'reward': 1.754464328289032, 'reward_std': 0.06809530407190323, 'kl': 0.2452392578125, 'epoch': 0.99}
+ 99%|█████████▊| 4223/4286 [27:54:15<24:09, 23.01s/it] 99%|█████████▊| 4224/4286 [27:54:38<23:46, 23.01s/it]                                                      {'loss': 0.0339, 'grad_norm': 7.113871650651349, 'learning_rate': 1.4465702286514233e-08, 'completion_length': 370.0714416503906, 'rewards/only_full_func_accuracy_reward': 0.802083432674408, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7931548953056335, 'reward_std': 0.09735137782990932, 'kl': 0.84619140625, 'epoch': 0.99}
+ 99%|█████████▊| 4224/4286 [27:54:38<23:46, 23.01s/it] 99%|█████████▊| 4225/4286 [27:55:01<23:39, 23.26s/it]                                                      {'loss': 0.0283, 'grad_norm': 4.176242321585984, 'learning_rate': 1.4232384507699486e-08, 'completion_length': 380.1607360839844, 'rewards/only_full_func_accuracy_reward': 0.6391369700431824, 'rewards/format_reward': 1.0, 'reward': 1.6391370296478271, 'reward_std': 0.017696987837553024, 'kl': 0.705078125, 'epoch': 0.99}
+ 99%|█████████▊| 4225/4286 [27:55:01<23:39, 23.26s/it] 99%|█████████▊| 4226/4286 [27:55:24<22:56, 22.94s/it]                                                      {'loss': 0.0249, 'grad_norm': 1.4114148246038984, 'learning_rate': 1.3999066728884742e-08, 'completion_length': 367.9018096923828, 'rewards/only_full_func_accuracy_reward': 0.7276785373687744, 'rewards/format_reward': 1.0, 'reward': 1.7276787161827087, 'reward_std': 0.08847672492265701, 'kl': 0.620849609375, 'epoch': 0.99}
+ 99%|█████████▊| 4226/4286 [27:55:24<22:56, 22.94s/it] 99%|█████████▊| 4227/4286 [27:55:46<22:31, 22.90s/it]                                                      {'loss': 0.0013, 'grad_norm': 2.1149325287431138, 'learning_rate': 1.3765748950069995e-08, 'completion_length': 391.1518096923828, 'rewards/only_full_func_accuracy_reward': 0.7254464626312256, 'rewards/format_reward': 1.0, 'reward': 1.7254465818405151, 'reward_std': 0.015858497470617294, 'kl': 0.033203125, 'epoch': 0.99}
+ 99%|█████████▊| 4227/4286 [27:55:46<22:31, 22.90s/it] 99%|█████████▊| 4228/4286 [27:56:10<22:18, 23.08s/it]                                                      {'loss': 0.0502, 'grad_norm': 2.01970963249598, 'learning_rate': 1.3532431171255249e-08, 'completion_length': 411.8482360839844, 'rewards/only_full_func_accuracy_reward': 0.6840986907482147, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6751701831817627, 'reward_std': 0.06923034973442554, 'kl': 1.249755859375, 'epoch': 0.99}
+ 99%|█████████▊| 4228/4286 [27:56:10<22:18, 23.08s/it] 99%|█████████▊| 4229/4286 [27:56:32<21:38, 22.78s/it]                                                      {'loss': 0.0186, 'grad_norm': 2.7254964361751157, 'learning_rate': 1.3299113392440503e-08, 'completion_length': 339.12501525878906, 'rewards/only_full_func_accuracy_reward': 0.6494048237800598, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6404762864112854, 'reward_std': 0.05499145109206438, 'kl': 0.4658203125, 'epoch': 0.99}
+ 99%|█████████▊| 4229/4286 [27:56:32<21:38, 22.78s/it] 99%|█████████▊| 4230/4286 [27:56:56<21:29, 23.03s/it]                                                      {'loss': 0.041, 'grad_norm': 1.9008246670725288, 'learning_rate': 1.3065795613625758e-08, 'completion_length': 418.6964416503906, 'rewards/only_full_func_accuracy_reward': 0.7047619223594666, 'rewards/format_reward': 1.0, 'reward': 1.704762041568756, 'reward_std': 0.08063364028930664, 'kl': 1.01953125, 'epoch': 0.99}
+ 99%|█████████▊| 4230/4286 [27:56:56<21:29, 23.03s/it] 99%|█████████▊| 4231/4286 [27:57:17<20:33, 22.42s/it]                                                      {'loss': 0.0146, 'grad_norm': 8.936275236569822, 'learning_rate': 1.2832477834811011e-08, 'completion_length': 323.7589416503906, 'rewards/only_full_func_accuracy_reward': 0.6636905670166016, 'rewards/format_reward': 1.0, 'reward': 1.6636905670166016, 'reward_std': 0.037729036062955856, 'kl': 0.365234375, 'epoch': 0.99}
+ 99%|█████████▊| 4231/4286 [27:57:17<20:33, 22.42s/it] 99%|█████████▊| 4232/4286 [27:57:40<20:24, 22.68s/it]                                                      {'loss': 0.0143, 'grad_norm': 3.7253089253036773, 'learning_rate': 1.2599160055996267e-08, 'completion_length': 409.1964569091797, 'rewards/only_full_func_accuracy_reward': 0.7830356955528259, 'rewards/format_reward': 1.0, 'reward': 1.783035933971405, 'reward_std': 0.030271191149950027, 'kl': 0.356689453125, 'epoch': 0.99}
+ 99%|█████████▊| 4232/4286 [27:57:40<20:24, 22.68s/it] 99%|█████████▉| 4233/4286 [27:58:02<19:44, 22.35s/it]                                                      {'loss': 0.0399, 'grad_norm': 2.740724387483677, 'learning_rate': 1.236584227718152e-08, 'completion_length': 344.98216247558594, 'rewards/only_full_func_accuracy_reward': 0.7462798058986664, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7284227013587952, 'reward_std': 0.07698426023125648, 'kl': 1.00048828125, 'epoch': 0.99}
+ 99%|█████████▉| 4233/4286 [27:58:02<19:44, 22.35s/it] 99%|█████████▉| 4234/4286 [27:58:26<19:53, 22.94s/it]                                                      {'loss': 0.0495, 'grad_norm': 6.025169804371215, 'learning_rate': 1.2132524498366774e-08, 'completion_length': 408.2232360839844, 'rewards/only_full_func_accuracy_reward': 0.6735119521617889, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6645835041999817, 'reward_std': 0.14380019530653954, 'kl': 1.23828125, 'epoch': 0.99}
+ 99%|█████████▉| 4234/4286 [27:58:26<19:53, 22.94s/it] 99%|█████████▉| 4235/4286 [27:58:50<19:52, 23.38s/it]                                                      {'loss': 0.0086, 'grad_norm': 3.356554135305822, 'learning_rate': 1.189920671955203e-08, 'completion_length': 429.58038330078125, 'rewards/only_full_func_accuracy_reward': 0.5438988506793976, 'rewards/format_reward': 1.0, 'reward': 1.5438989400863647, 'reward_std': 0.06354989856481552, 'kl': 0.2142333984375, 'epoch': 0.99}
+ 99%|█████████▉| 4235/4286 [27:58:50<19:52, 23.38s/it] 99%|█████████▉| 4236/4286 [27:59:14<19:30, 23.41s/it]                                                      {'loss': 0.0152, 'grad_norm': 0.4214973455778495, 'learning_rate': 1.1665888940737283e-08, 'completion_length': 372.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.6636905074119568, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6547619700431824, 'reward_std': 0.049258749932050705, 'kl': 0.3792724609375, 'epoch': 0.99}
+ 99%|█████████▉| 4236/4286 [27:59:14<19:30, 23.41s/it] 99%|█████████▉| 4237/4286 [27:59:37<19:03, 23.34s/it]                                                      {'loss': 0.0308, 'grad_norm': 0.8385068016602111, 'learning_rate': 1.1432571161922538e-08, 'completion_length': 395.7321472167969, 'rewards/only_full_func_accuracy_reward': 0.7217262387275696, 'rewards/format_reward': 1.0, 'reward': 1.7217262983322144, 'reward_std': 0.0686127059161663, 'kl': 0.767578125, 'epoch': 0.99}
+ 99%|█████████▉| 4237/4286 [27:59:37<19:03, 23.34s/it] 99%|█████████▉| 4238/4286 [28:00:00<18:41, 23.37s/it]                                                      {'loss': 0.0015, 'grad_norm': 0.7191770434587451, 'learning_rate': 1.1199253383107792e-08, 'completion_length': 362.8839569091797, 'rewards/only_full_func_accuracy_reward': 0.807291716337204, 'rewards/format_reward': 1.0, 'reward': 1.8072918057441711, 'reward_std': 0.02592613734304905, 'kl': 0.0364990234375, 'epoch': 0.99}
+ 99%|█████████▉| 4238/4286 [28:00:00<18:41, 23.37s/it] 99%|█████████▉| 4239/4286 [28:00:23<18:04, 23.07s/it]                                                      {'loss': 0.0071, 'grad_norm': 5.052100521788835, 'learning_rate': 1.0965935604293047e-08, 'completion_length': 391.2053680419922, 'rewards/only_full_func_accuracy_reward': 0.611607164144516, 'rewards/format_reward': 1.0, 'reward': 1.611607313156128, 'reward_std': 0.022557645104825497, 'kl': 0.1773681640625, 'epoch': 0.99}
+ 99%|█████████▉| 4239/4286 [28:00:23<18:04, 23.07s/it] 99%|█████████▉| 4240/4286 [28:00:46<17:39, 23.04s/it]                                                      {'loss': 0.0225, 'grad_norm': 1.9709717632664778, 'learning_rate': 1.0732617825478301e-08, 'completion_length': 359.4732360839844, 'rewards/only_full_func_accuracy_reward': 0.6688988506793976, 'rewards/format_reward': 1.0, 'reward': 1.6688989400863647, 'reward_std': 0.02998423483222723, 'kl': 0.56005859375, 'epoch': 0.99}
+ 99%|█████████▉| 4240/4286 [28:00:46<17:39, 23.04s/it] 99%|█████████▉| 4241/4286 [28:01:08<17:07, 22.83s/it]                                                      {'loss': 0.0176, 'grad_norm': 0.3417969055241257, 'learning_rate': 1.0499300046663556e-08, 'completion_length': 352.7678680419922, 'rewards/only_full_func_accuracy_reward': 0.6949405074119568, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6860120296478271, 'reward_std': 0.06553651951253414, 'kl': 0.440673828125, 'epoch': 0.99}
+ 99%|█████████���| 4241/4286 [28:01:08<17:07, 22.83s/it] 99%|█████████▉| 4242/4286 [28:01:32<16:57, 23.11s/it]                                                      {'loss': 0.0506, 'grad_norm': 1.912027833728285, 'learning_rate': 1.026598226784881e-08, 'completion_length': 374.4732208251953, 'rewards/only_full_func_accuracy_reward': 0.6925595700740814, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.6747024059295654, 'reward_std': 0.09242714568972588, 'kl': 1.263671875, 'epoch': 0.99}
+ 99%|█████████▉| 4242/4286 [28:01:32<16:57, 23.11s/it] 99%|█████████▉| 4243/4286 [28:01:54<16:27, 22.96s/it]                                                      {'loss': 0.022, 'grad_norm': 1.0363392741713444, 'learning_rate': 1.0032664489034065e-08, 'completion_length': 380.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.785714328289032, 'rewards/format_reward': 1.0, 'reward': 1.785714328289032, 'reward_std': 0.0685801263898611, 'kl': 0.5498046875, 'epoch': 0.99}
+ 99%|█████████▉| 4243/4286 [28:01:54<16:27, 22.96s/it] 99%|█████████▉| 4244/4286 [28:02:19<16:22, 23.40s/it]                                                      {'loss': 0.0157, 'grad_norm': 0.8821299855311582, 'learning_rate': 9.799346710219319e-09, 'completion_length': 414.2946472167969, 'rewards/only_full_func_accuracy_reward': 0.6561355590820312, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6472070217132568, 'reward_std': 0.09057432971894741, 'kl': 0.3935546875, 'epoch': 0.99}
+ 99%|█████████▉| 4244/4286 [28:02:19<16:22, 23.40s/it] 99%|█████████▉| 4245/4286 [28:02:43<16:05, 23.55s/it]                                                      {'loss': 0.0427, 'grad_norm': 3.559324091546727, 'learning_rate': 9.566028931404572e-09, 'completion_length': 413.60716247558594, 'rewards/only_full_func_accuracy_reward': 0.6494048237800598, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6404762864112854, 'reward_std': 0.06101505644619465, 'kl': 1.0699462890625, 'epoch': 0.99}
+ 99%|█████████▉| 4245/4286 [28:02:43<16:05, 23.55s/it] 99%|█████████▉| 4246/4286 [28:03:05<15:31, 23.28s/it]                                                      {'loss': 0.0272, 'grad_norm': 5.115222872065235, 'learning_rate': 9.332711152589826e-09, 'completion_length': 362.1428680419922, 'rewards/only_full_func_accuracy_reward': 0.8087053298950195, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7997769117355347, 'reward_std': 0.10551942512392998, 'kl': 0.67724609375, 'epoch': 0.99}
+ 99%|█████████▉| 4246/4286 [28:03:05<15:31, 23.28s/it] 99%|█████████▉| 4247/4286 [28:03:30<15:25, 23.72s/it]                                                      {'loss': 0.0546, 'grad_norm': 3.7894067983108197, 'learning_rate': 9.099393373775081e-09, 'completion_length': 431.29466247558594, 'rewards/only_full_func_accuracy_reward': 0.7194940447807312, 'rewards/format_reward': 1.0, 'reward': 1.7194941639900208, 'reward_std': 0.10139763355255127, 'kl': 1.359375, 'epoch': 0.99}
+ 99%|█████████▉| 4247/4286 [28:03:30<15:25, 23.72s/it] 99%|█████████▉| 4248/4286 [28:03:54<15:03, 23.76s/it]                                                      {'loss': 0.06, 'grad_norm': 2.692998559251824, 'learning_rate': 8.866075594960335e-09, 'completion_length': 399.23216247558594, 'rewards/only_full_func_accuracy_reward': 0.7790178954601288, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7611609101295471, 'reward_std': 0.15109405294060707, 'kl': 1.4921875, 'epoch': 0.99}
+ 99%|█████████▉| 4248/4286 [28:03:54<15:03, 23.76s/it] 99%|█████████▉| 4249/4286 [28:04:17<14:30, 23.53s/it]                                                      {'loss': 0.0161, 'grad_norm': 0.8973690543353535, 'learning_rate': 8.63275781614559e-09, 'completion_length': 375.62501525878906, 'rewards/only_full_func_accuracy_reward': 0.6681548357009888, 'rewards/format_reward': 1.0, 'reward': 1.6681548953056335, 'reward_std': 0.06801387295126915, 'kl': 0.40478515625, 'epoch': 0.99}
+ 99%|█████████▉| 4249/4286 [28:04:17<14:30, 23.53s/it] 99%|█████████▉| 4250/4286 [28:04:40<14:04, 23.44s/it]                                                      {'loss': 0.0401, 'grad_norm': 4.567120959623451, 'learning_rate': 8.399440037330844e-09, 'completion_length': 397.0982208251953, 'rewards/only_full_func_accuracy_reward': 0.7687500715255737, 'rewards/format_reward': 0.9821428656578064, 'reward': 1.7508929371833801, 'reward_std': 0.08463669382035732, 'kl': 1.0009765625, 'epoch': 0.99}
+ 99%|█████████▉| 4250/4286 [28:04:40<14:04, 23.44s/it] 99%|█████████▉| 4251/4286 [28:05:02<13:22, 22.92s/it]                                                      {'loss': 0.0579, 'grad_norm': 5.007020823371581, 'learning_rate': 8.166122258516098e-09, 'completion_length': 379.08929443359375, 'rewards/only_full_func_accuracy_reward': 0.508928582072258, 'rewards/format_reward': 0.9732142984867096, 'reward': 1.4821429252624512, 'reward_std': 0.12112357746809721, 'kl': 1.4453125, 'epoch': 0.99}
+ 99%|█████████▉| 4251/4286 [28:05:02<13:22, 22.92s/it] 99%|█████████▉| 4252/4286 [28:05:24<12:51, 22.71s/it]                                                      {'loss': 0.0641, 'grad_norm': 2.542608822419216, 'learning_rate': 7.932804479701353e-09, 'completion_length': 380.81251525878906, 'rewards/only_full_func_accuracy_reward': 0.7090774178504944, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7001489400863647, 'reward_std': 0.07252809405326843, 'kl': 1.599609375, 'epoch': 0.99}
+ 99%|█████████▉| 4252/4286 [28:05:24<12:51, 22.71s/it] 99%|█████████▉| 4253/4286 [28:05:48<12:37, 22.95s/it]                                                      {'loss': 0.0893, 'grad_norm': 3.2141056734113755, 'learning_rate': 7.699486700886607e-09, 'completion_length': 388.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.5558035671710968, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.5468751788139343, 'reward_std': 0.09953838214278221, 'kl': 2.23046875, 'epoch': 0.99}
+ 99%|█████████▉| 4253/4286 [28:05:48<12:37, 22.95s/it] 99%|█████████▉| 4254/4286 [28:06:12<12:28, 23.39s/it]                                                      {'loss': 0.0475, 'grad_norm': 3.6475226692943137, 'learning_rate': 7.466168922071862e-09, 'completion_length': 400.7857360839844, 'rewards/only_full_func_accuracy_reward': 0.7663690745830536, 'rewards/format_reward': 1.0, 'reward': 1.7663691639900208, 'reward_std': 0.07495114207267761, 'kl': 1.191162109375, 'epoch': 0.99}
+ 99%|█████████▉| 4254/4286 [28:06:12<12:28, 23.39s/it] 99%|█████████▉| 4255/4286 [28:06:37<12:21, 23.93s/it]                                                      {'loss': 0.0648, 'grad_norm': 2.820528176308457, 'learning_rate': 7.232851143257116e-09, 'completion_length': 448.43751525878906, 'rewards/only_full_func_accuracy_reward': 0.6508291065692902, 'rewards/format_reward': 0.9553571939468384, 'reward': 1.606186330318451, 'reward_std': 0.14732851088047028, 'kl': 1.626953125, 'epoch': 0.99}
+ 99%|█████████▉| 4255/4286 [28:06:37<12:21, 23.93s/it] 99%|█████████▉| 4256/4286 [28:06:59<11:34, 23.16s/it]                                                      {'loss': 0.0187, 'grad_norm': 0.4319818246086972, 'learning_rate': 6.999533364442371e-09, 'completion_length': 338.9107208251953, 'rewards/only_full_func_accuracy_reward': 0.74702388048172, 'rewards/format_reward': 1.0, 'reward': 1.7470239400863647, 'reward_std': 0.017123677767813206, 'kl': 0.466064453125, 'epoch': 0.99}
+ 99%|█████████▉| 4256/4286 [28:06:59<11:34, 23.16s/it] 99%|█████████▉| 4257/4286 [28:07:20<10:57, 22.68s/it]                                                      {'loss': 0.0632, 'grad_norm': 1.3876359276637544, 'learning_rate': 6.7662155856276244e-09, 'completion_length': 356.8125305175781, 'rewards/only_full_func_accuracy_reward': 0.6392857432365417, 'rewards/format_reward': 1.0, 'reward': 1.6392858028411865, 'reward_std': 0.057725715450942516, 'kl': 1.580078125, 'epoch': 0.99}
+ 99%|█████████▉| 4257/4286 [28:07:20<10:57, 22.68s/it] 99%|█████████▉| 4258/4286 [28:07:43<10:35, 22.69s/it]                                                      {'loss': 0.0022, 'grad_norm': 1.5913359165932393, 'learning_rate': 6.532897806812879e-09, 'completion_length': 381.9910888671875, 'rewards/only_full_func_accuracy_reward': 0.7328869104385376, 'rewards/format_reward': 1.0, 'reward': 1.7328870296478271, 'reward_std': 0.04479840584099293, 'kl': 0.0556640625, 'epoch': 0.99}
+ 99%|█████████▉| 4258/4286 [28:07:43<10:35, 22.69s/it] 99%|█████████▉| 4259/4286 [28:08:04<09:56, 22.08s/it]                                                      {'loss': 0.0202, 'grad_norm': 3.2615020100015992, 'learning_rate': 6.299580027998133e-09, 'completion_length': 336.2678680419922, 'rewards/only_full_func_accuracy_reward': 0.6927083730697632, 'rewards/format_reward': 1.0, 'reward': 1.692708432674408, 'reward_std': 0.03837996628135443, 'kl': 0.5048828125, 'epoch': 0.99}
+ 99%|█████████▉| 4259/4286 [28:08:04<09:56, 22.08s/it] 99%|█████████▉| 4260/4286 [28:08:25<09:27, 21.85s/it]                                                      {'loss': 0.018, 'grad_norm': 3.2853241988103754, 'learning_rate': 6.066262249183387e-09, 'completion_length': 336.1160888671875, 'rewards/only_full_func_accuracy_reward': 0.6879960894584656, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6790675520896912, 'reward_std': 0.06353219598531723, 'kl': 0.44775390625, 'epoch': 0.99}
+ 99%|█████████▉| 4260/4286 [28:08:25<09:27, 21.85s/it] 99%|█████████▉| 4261/4286 [28:08:48<09:18, 22.34s/it]                                                      {'loss': 0.0039, 'grad_norm': 4.258318562729351, 'learning_rate': 5.8329444703686415e-09, 'completion_length': 408.4910888671875, 'rewards/only_full_func_accuracy_reward': 0.6302084028720856, 'rewards/format_reward': 1.0, 'reward': 1.630208432674408, 'reward_std': 0.040006596595048904, 'kl': 0.097900390625, 'epoch': 0.99}
+ 99%|█████████▉| 4261/4286 [28:08:48<09:18, 22.34s/it] 99%|█████████▉| 4262/4286 [28:09:11<08:58, 22.45s/it]                                                      {'loss': 0.0578, 'grad_norm': 0.8968727033482601, 'learning_rate': 5.599626691553896e-09, 'completion_length': 394.66966247558594, 'rewards/only_full_func_accuracy_reward': 0.6235119104385376, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6056548357009888, 'reward_std': 0.11459727212786674, 'kl': 1.4453125, 'epoch': 0.99}
+ 99%|█████████▉| 4262/4286 [28:09:11<08:58, 22.45s/it] 99%|█████████▉| 4263/4286 [28:09:35<08:45, 22.84s/it]                                                      {'loss': 0.09, 'grad_norm': 1.8613402698664518, 'learning_rate': 5.3663089127391504e-09, 'completion_length': 365.0714416503906, 'rewards/only_full_func_accuracy_reward': 0.6171131432056427, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.5992560386657715, 'reward_std': 0.19806097447872162, 'kl': 2.25390625, 'epoch': 0.99}
+ 99%|█████████▉| 4263/4286 [28:09:35<08:45, 22.84s/it] 99%|█████████▉| 4264/4286 [28:09:56<08:13, 22.44s/it]                                                      {'loss': 0.0581, 'grad_norm': 2.8438070961501847, 'learning_rate': 5.132991133924405e-09, 'completion_length': 351.2857360839844, 'rewards/only_full_func_accuracy_reward': 0.6540179252624512, 'rewards/format_reward': 1.0, 'reward': 1.654017984867096, 'reward_std': 0.12076378241181374, 'kl': 1.453125, 'epoch': 0.99}
+ 99%|█████████▉| 4264/4286 [28:09:56<08:13, 22.44s/it]100%|█████████▉| 4265/4286 [28:10:19<07:55, 22.63s/it]                                                      {'loss': 0.0027, 'grad_norm': 2.29181418580678, 'learning_rate': 4.899673355109659e-09, 'completion_length': 374.9732360839844, 'rewards/only_full_func_accuracy_reward': 0.7983631193637848, 'rewards/format_reward': 1.0, 'reward': 1.798363208770752, 'reward_std': 0.038819458335638046, 'kl': 0.0679931640625, 'epoch': 1.0}
+100%|█████████▉| 4265/4286 [28:10:19<07:55, 22.63s/it]100%|█████████▉| 4266/4286 [28:10:43<07:36, 22.82s/it]                                                      {'loss': 0.0612, 'grad_norm': 3.038085804487222, 'learning_rate': 4.666355576294913e-09, 'completion_length': 389.39288330078125, 'rewards/only_full_func_accuracy_reward': 0.73288694024086, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.723958432674408, 'reward_std': 0.052093688398599625, 'kl': 1.5322265625, 'epoch': 1.0}
+100%|█████████▉| 4266/4286 [28:10:43<07:36, 22.82s/it]100%|█████████▉| 4267/4286 [28:11:04<07:06, 22.45s/it]                                                      {'loss': 0.0038, 'grad_norm': 0.7132834682203517, 'learning_rate': 4.4330377974801675e-09, 'completion_length': 331.41966247558594, 'rewards/only_full_func_accuracy_reward': 0.7395833134651184, 'rewards/format_reward': 1.0, 'reward': 1.739583432674408, 'reward_std': 0.015706343576312065, 'kl': 0.0943603515625, 'epoch': 1.0}
+100%|█████████▉| 4267/4286 [28:11:04<07:06, 22.45s/it]100%|█████████▉| 4268/4286 [28:11:28<06:49, 22.72s/it]                                                      {'loss': 0.0589, 'grad_norm': 2.4176689922386667, 'learning_rate': 4.199720018665422e-09, 'completion_length': 388.1339416503906, 'rewards/only_full_func_accuracy_reward': 0.7061012089252472, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.69717276096344, 'reward_std': 0.14193984866142273, 'kl': 1.47265625, 'epoch': 1.0}
+100%|█████████▉| 4268/4286 [28:11:28<06:49, 22.72s/it]100%|█████████▉| 4269/4286 [28:11:51<06:31, 23.01s/it]                                                      {'loss': 0.0339, 'grad_norm': 7.45150159077368, 'learning_rate': 3.9664022398506764e-09, 'completion_length': 369.85716247558594, 'rewards/only_full_func_accuracy_reward': 0.7090774178504944, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7001489400863647, 'reward_std': 0.13946089148521423, 'kl': 0.8505859375, 'epoch': 1.0}
+100%|█████████▉| 4269/4286 [28:11:51<06:31, 23.01s/it]100%|█████████▉| 4270/4286 [28:12:14<06:05, 22.83s/it]                                                      {'loss': 0.0825, 'grad_norm': 3.439202085420645, 'learning_rate': 3.733084461035931e-09, 'completion_length': 367.3214416503906, 'rewards/only_full_func_accuracy_reward': 0.6589286625385284, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6500000357627869, 'reward_std': 0.10306587815284729, 'kl': 2.05859375, 'epoch': 1.0}
+100%|█████████▉| 4270/4286 [28:12:14<06:05, 22.83s/it]100%|█████████▉| 4271/4286 [28:12:37<05:42, 22.86s/it]                                                      {'loss': 0.0249, 'grad_norm': 3.722995078793777, 'learning_rate': 3.4997666822211854e-09, 'completion_length': 352.9018096923828, 'rewards/only_full_func_accuracy_reward': 0.7931548357009888, 'rewards/format_reward': 1.0, 'reward': 1.7931548357009888, 'reward_std': 0.051273844204843044, 'kl': 0.62158203125, 'epoch': 1.0}
+100%|█████████▉| 4271/4286 [28:12:37<05:42, 22.86s/it]100%|█████████▉| 4272/4286 [28:13:00<05:20, 22.87s/it]                                                      {'loss': 0.0017, 'grad_norm': 0.17862835442899355, 'learning_rate': 3.2664489034064395e-09, 'completion_length': 351.73216247558594, 'rewards/only_full_func_accuracy_reward': 0.7142857313156128, 'rewards/format_reward': 1.0, 'reward': 1.7142859101295471, 'reward_std': 0.018483899533748627, 'kl': 0.041748046875, 'epoch': 1.0}
+100%|█████████▉| 4272/4286 [28:13:00<05:20, 22.87s/it]100%|█████████▉| 4273/4286 [28:13:23<04:58, 22.99s/it]                                                      {'loss': 0.0478, 'grad_norm': 1.3772115479314906, 'learning_rate': 3.0331311245916935e-09, 'completion_length': 366.37501525878906, 'rewards/only_full_func_accuracy_reward': 0.664434552192688, 'rewards/format_reward': 0.9642857611179352, 'reward': 1.6287203431129456, 'reward_std': 0.12414895743131638, 'kl': 1.1943359375, 'epoch': 1.0}
+100%|█████████▉| 4273/4286 [28:13:23<04:58, 22.99s/it]100%|█████████▉| 4274/4286 [28:13:45<04:33, 22.81s/it]                                                      {'loss': 0.0087, 'grad_norm': 1.6158050622493176, 'learning_rate': 2.799813345776948e-09, 'completion_length': 373.79466247558594, 'rewards/only_full_func_accuracy_reward': 0.8318452537059784, 'rewards/format_reward': 1.0, 'reward': 1.8318453431129456, 'reward_std': 0.04452747479081154, 'kl': 0.21728515625, 'epoch': 1.0}
+100%|█████████▉| 4274/4286 [28:13:45<04:33, 22.81s/it]100%|█████████▉| 4275/4286 [28:14:06<04:05, 22.36s/it]                                                      {'loss': 0.0202, 'grad_norm': 1.575596944399646, 'learning_rate': 2.5664955669622025e-09, 'completion_length': 360.87501525878906, 'rewards/only_full_func_accuracy_reward': 0.7061012387275696, 'rewards/format_reward': 1.0, 'reward': 1.7061012983322144, 'reward_std': 0.045842199586331844, 'kl': 0.506103515625, 'epoch': 1.0}
+100%|█████████▉| 4275/4286 [28:14:06<04:05, 22.36s/it]100%|█████████▉| 4276/4286 [28:14:28<03:42, 22.23s/it]                                                      {'loss': 0.0414, 'grad_norm': 11.264504298715082, 'learning_rate': 2.3331777881474565e-09, 'completion_length': 374.8928680419922, 'rewards/only_full_func_accuracy_reward': 0.6964286267757416, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.6785715222358704, 'reward_std': 0.0839540995657444, 'kl': 1.03515625, 'epoch': 1.0}
+100%|█████████▉| 4276/4286 [28:14:28<03:42, 22.23s/it]100%|█████████▉| 4277/4286 [28:14:51<03:22, 22.46s/it]                                                      {'loss': 0.02, 'grad_norm': 10.764707504048497, 'learning_rate': 2.099860009332711e-09, 'completion_length': 418.35716247558594, 'rewards/only_full_func_accuracy_reward': 0.7366072237491608, 'rewards/format_reward': 1.0, 'reward': 1.7366072535514832, 'reward_std': 0.025102127343416214, 'kl': 0.4991455078125, 'epoch': 1.0}
+100%|█████████▉| 4277/4286 [28:14:51<03:22, 22.46s/it]100%|█████████▉| 4278/4286 [28:15:15<03:02, 22.82s/it]                                                      {'loss': 0.0258, 'grad_norm': 4.089062196193839, 'learning_rate': 1.8665422305179655e-09, 'completion_length': 403.0357360839844, 'rewards/only_full_func_accuracy_reward': 0.5327381491661072, 'rewards/format_reward': 1.0, 'reward': 1.532738208770752, 'reward_std': 0.04266529716551304, 'kl': 0.6435546875, 'epoch': 1.0}
+100%|█████████▉| 4278/4286 [28:15:15<03:02, 22.82s/it]100%|█████████▉| 4279/4286 [28:15:37<02:37, 22.54s/it]                                                      {'loss': 0.0079, 'grad_norm': 3.569890910707103, 'learning_rate': 1.6332244517032197e-09, 'completion_length': 350.06251525878906, 'rewards/only_full_func_accuracy_reward': 0.6556548178195953, 'rewards/format_reward': 1.0, 'reward': 1.6556548476219177, 'reward_std': 0.03461328707635403, 'kl': 0.1978759765625, 'epoch': 1.0}
+100%|█████████▉| 4279/4286 [28:15:37<02:37, 22.54s/it]100%|█████████▉| 4280/4286 [28:16:01<02:17, 22.89s/it]                                                      {'loss': 0.0365, 'grad_norm': 2.1112268370283567, 'learning_rate': 1.399906672888474e-09, 'completion_length': 355.6964416503906, 'rewards/only_full_func_accuracy_reward': 0.5984127223491669, 'rewards/format_reward': 0.9821429252624512, 'reward': 1.5805556178092957, 'reward_std': 0.14614330977201462, 'kl': 0.912109375, 'epoch': 1.0}
+100%|█████████▉| 4280/4286 [28:16:01<02:17, 22.89s/it]100%|█████████▉| 4281/4286 [28:16:25<01:56, 23.31s/it]                                                      {'loss': 0.0108, 'grad_norm': 3.2409760375933256, 'learning_rate': 1.1665888940737283e-09, 'completion_length': 406.9018096923828, 'rewards/only_full_func_accuracy_reward': 0.6854167580604553, 'rewards/format_reward': 1.0, 'reward': 1.6854168176651, 'reward_std': 0.04025503061711788, 'kl': 0.26904296875, 'epoch': 1.0}
+100%|█████████▉| 4281/4286 [28:16:25<01:56, 23.31s/it]100%|█████████▉| 4282/4286 [28:16:48<01:32, 23.21s/it]                                                      {'loss': 0.0162, 'grad_norm': 3.479372029843764, 'learning_rate': 9.332711152589827e-10, 'completion_length': 409.00001525878906, 'rewards/only_full_func_accuracy_reward': 0.7462798058986664, 'rewards/format_reward': 1.0, 'reward': 1.7462798953056335, 'reward_std': 0.04439694806933403, 'kl': 0.404296875, 'epoch': 1.0}
+100%|█████████▉| 4282/4286 [28:16:48<01:32, 23.21s/it]100%|█████████▉| 4283/4286 [28:17:12<01:10, 23.54s/it]                                                      {'loss': 0.0391, 'grad_norm': 2.8664999512645086, 'learning_rate': 6.99953336444237e-10, 'completion_length': 389.8839416503906, 'rewards/only_full_func_accuracy_reward': 0.7730655372142792, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.7641369700431824, 'reward_std': 0.06816751509904861, 'kl': 0.978515625, 'epoch': 1.0}
+100%|█████████▉| 4283/4286 [28:17:12<01:10, 23.54s/it]100%|█████████▉| 4284/4286 [28:17:35<00:46, 23.36s/it]                                                      {'loss': 0.0194, 'grad_norm': 1.4060742081858024, 'learning_rate': 4.666355576294914e-10, 'completion_length': 343.4285888671875, 'rewards/only_full_func_accuracy_reward': 0.6026786267757416, 'rewards/format_reward': 1.0, 'reward': 1.602678656578064, 'reward_std': 0.038834771141409874, 'kl': 0.4833984375, 'epoch': 1.0}
+100%|█████████▉| 4284/4286 [28:17:35<00:46, 23.36s/it]100%|█████████▉| 4285/4286 [28:17:58<00:23, 23.35s/it]                                                      {'loss': 0.0853, 'grad_norm': 4.540413560203092, 'learning_rate': 2.333177788147457e-10, 'completion_length': 362.0089416503906, 'rewards/only_full_func_accuracy_reward': 0.6220238506793976, 'rewards/format_reward': 0.9910714626312256, 'reward': 1.6130953431129456, 'reward_std': 0.12909279018640518, 'kl': 2.1328125, 'epoch': 1.0}
+100%|█████████▉| 4285/4286 [28:17:58<00:23, 23.35s/it]100%|██████████| 4286/4286 [28:18:21<00:00, 23.11s/it]                                                      {'loss': 0.0091, 'grad_norm': 0.7412466972525228, 'learning_rate': 0.0, 'completion_length': 424.3333435058594, 'rewards/only_full_func_accuracy_reward': 0.722222238779068, 'rewards/format_reward': 1.0, 'reward': 1.7222223281860352, 'reward_std': 0.117851123213768, 'kl': 0.48101806640625, 'epoch': 1.0}
+100%|██████████| 4286/4286 [28:18:21<00:00, 23.11s/it]                                                      {'train_runtime': 102031.5034, 'train_samples_per_second': 0.588, 'train_steps_per_second': 0.042, 'train_loss': 0.02881716727699929, 'epoch': 1.0}
+100%|██████████| 4286/4286 [28:19:12<00:00, 23.11s/it]100%|██████████| 4286/4286 [28:19:12<00:00, 23.79s/it]
+[1;34mwandb[0m: 
+[1;34mwandb[0m: 🚀 View run [33mONLY-FULL-SHUFFLE-BEST-HIGH-POINT-R1-RESUME-COT-VLLM-Correct-Qwen2-VL-2B-GRPO-TRANCE-60k-2025-02-27-02-21-28[0m at: [34mhttps://wandb.ai/tanhuajie264-peking-university/vison-open-r1/runs/yb6e4h3m[0m
+[1;34mwandb[0m: Find logs at: [1;35mwandb/run-20250227_022312-yb6e4h3m/logs[0m