RyanYr
/

ppo-dapo-llama3.2-3B-it-lr-mbs64_critic

RyanYr commited on May 29

Commit

66b2aa9

verified ·

1 Parent(s): 798c136

Save model at global step 40

Files changed (13) hide show

config.yaml CHANGED Viewed

@@ -28,6 +28,7 @@ actor_rollout_ref:
     use_remove_padding: true
     use_liger: false
     save_hf_repo_id: RyanYr/ppo-dapo-llama3.2-3B-it-lr-mbs64_actor
   actor:
     strategy: fsdp
     ppo_mini_batch_size: 64
@@ -60,7 +61,7 @@ actor_rollout_ref:
       lr_warmup_steps_ratio: 0.0
       min_lr_ratio: null
       warmup_style: constant
-      total_training_steps: 1620
       weight_decay: 0.01
     fsdp_config:
       wrap_policy:
@@ -94,7 +95,7 @@ actor_rollout_ref:
     free_cache_engine: false
     load_format: dummy_dtensor
     tensor_model_parallel_size: 4
-    max_num_batched_tokens: 4864
     max_model_len: null
     max_num_seqs: 1024
     log_prob_micro_batch_size: null
@@ -121,7 +122,7 @@ critic:
     lr_warmup_steps_ratio: 0.0
     min_lr_ratio: null
     warmup_style: constant
-    total_training_steps: 1620
     weight_decay: 0.01
   model:
     path: meta-llama/Llama-3.2-3B-Instruct
@@ -191,8 +192,8 @@ algorithm:
     target_kl: 0.1
 trainer:
   balance_batch: true
-  total_epochs: 12
-  total_training_steps: null
   project_name: value-LLM
   experiment_name: ppo-dapo-llama3.2-3B-it_lr-mbs64
   logger:

     use_remove_padding: true
     use_liger: false
     save_hf_repo_id: RyanYr/ppo-dapo-llama3.2-3B-it-lr-mbs64_actor
+    tokenizer_chat_template: null
   actor:
     strategy: fsdp
     ppo_mini_batch_size: 64
       lr_warmup_steps_ratio: 0.0
       min_lr_ratio: null
       warmup_style: constant
+      total_training_steps: 800
       weight_decay: 0.01
     fsdp_config:
       wrap_policy:
     free_cache_engine: false
     load_format: dummy_dtensor
     tensor_model_parallel_size: 4
+    max_num_batched_tokens: 5864
     max_model_len: null
     max_num_seqs: 1024
     log_prob_micro_batch_size: null
     lr_warmup_steps_ratio: 0.0
     min_lr_ratio: null
     warmup_style: constant
+    total_training_steps: 800
     weight_decay: 0.01
   model:
     path: meta-llama/Llama-3.2-3B-Instruct
     target_kl: 0.1
 trainer:
   balance_batch: true
+  total_epochs: 100
+  total_training_steps: 800
   project_name: value-LLM
   experiment_name: ppo-dapo-llama3.2-3B-it_lr-mbs64
   logger:

extra_state_world_size_4_rank_0.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ce985955afb375595a798d4408ef3bd0b25994c2d8e843dc1dd6aff61fa8250
 size 14632

 version https://git-lfs.github.com/spec/v1
+oid sha256:c8bab196b2c5d02d4582802762f8a925afc5068b4745c8f7c70b3a48eadf4199
 size 14632

extra_state_world_size_4_rank_1.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:77a20414f86e7920d1019c1ec9238de19472260848f3fcba6597f1c94a3dd5b7
 size 14632

 version https://git-lfs.github.com/spec/v1
+oid sha256:630bc6c4950574d0f46d2a887ff124f6b7442bc520533f77cb6d7d4672d13e02
 size 14632

extra_state_world_size_4_rank_2.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:28c0b40aeeba98b90a130ac6ebcb75615ce47bd91a4ab4ec722519d12a8650f3
 size 14632

 version https://git-lfs.github.com/spec/v1
+oid sha256:0080c2297d874cbc32ba8e72176db3ac211b0a4f46c8b23a748c9dedd14c22cd
 size 14632

extra_state_world_size_4_rank_3.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8f8fbbba43d24a55f7a92c8eb56e483536361e71c8cf8262837dd5953a4d212f
 size 14632

 version https://git-lfs.github.com/spec/v1
+oid sha256:0537117720ae4b428d42b66da5a91c3c469d92881a161b08933d3ff43c447c19
 size 14632

model_world_size_4_rank_0.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6a76271a1c5fb577fb3f6f2f632f4be0e02fde635b524b31f2c3177d71c240c
 size 3212915290

 version https://git-lfs.github.com/spec/v1
+oid sha256:0f6af562edc8047476c9200dbc3d81206ca66e9f62de0e202572bb87f7743eca
 size 3212915290

model_world_size_4_rank_1.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac4cffaa0cb6867e15a2598c8625f5226c68d7c192f4d6fefe9c7e6190ef0841
 size 3212903002

 version https://git-lfs.github.com/spec/v1
+oid sha256:10b7d629ae91e828b044bb7a03f851dbc6037b07c8ae7247dd9707c597281126
 size 3212903002

model_world_size_4_rank_2.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc691dfbe4c2167b6f460009309e4c12fc8795974f34e2c193fcf34bb75c588d
 size 3212903002

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4fa2c959c0f7ea7efc5961eecfaad1770357b971e4be104167a020e1115c4ff
 size 3212903002

model_world_size_4_rank_3.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24b99a707d6b2eeec059b029130eafd506447bb7c0b8b36c3fc03f9c1622800e
 size 3212903002

 version https://git-lfs.github.com/spec/v1
+oid sha256:5bf4c26389309fa8e78bd79dbcdcf7e442eaab779e828f178a8c0e1a05de1ea2
 size 3212903002

optim_world_size_4_rank_0.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dcdbe8c36f412db6f8e0a144250e7f8fe0499a22009d172ebae4ff053a5e9b9c
 size 6425532375

 version https://git-lfs.github.com/spec/v1
+oid sha256:86d09621da6ff4f909770333e223c8a8a9362b6ef2d5f93cdeddd9c02659d99d
 size 6425532375

optim_world_size_4_rank_1.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:18e7c9b419789ab26db52a4c4827419669200f0d2edeb36913e7170969ab7ef8
 size 6425532375

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b877f6efc223a50cba7c915a3fd2a7c0d8624560ed30c5df7f0a4ce40eb4099
 size 6425532375

optim_world_size_4_rank_2.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:014eb67b2c0450c08a3695f3e5f70f97e44ac3a9fc8451e6d4a74a3c1482f3f2
 size 6425532375

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ff9ba4d66224b1a6c6eb68cdb837f039e2955eae4d9469f9ef7859fe715114e
 size 6425532375

optim_world_size_4_rank_3.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e03650170c0b87ca38734773e9be23308546150b990228597698a35cbb84402a
 size 6425532375

 version https://git-lfs.github.com/spec/v1
+oid sha256:1078c66783e247ae70c5290b6fc33c69f4c3e195226295b9262f26d332df3ada
 size 6425532375