Adam Yanxiao Zhao's picture

1 13 8

Adam Yanxiao Zhao

sdpkjc

·

https://sdpkjc.com

AI & ML interests

Reinforcement Learning

Recent Activity

new activity about 2 months ago

Qwen/Qwen3-1.7B:Fix chat template in case of multiple assistant messages and no thinking

updated a model 2 months ago

sdpkjc/Qwen2.5-0.5B-SFT-24quiz-checkpoint-800

published a model 2 months ago

sdpkjc/Qwen2.5-0.5B-SFT-24quiz-checkpoint-800

View all activity

Organizations

sdpkjc 's models 100

sdpkjc/Hopper-v4-ppo_fix_continuous_action-seed5

Reinforcement Learning • Updated Jan 20, 2024

sdpkjc/Hopper-v4-ppo_fix_continuous_action-seed3

Reinforcement Learning • Updated Jan 20, 2024

sdpkjc/Hopper-v4-ppo_fix_continuous_action-seed4

Reinforcement Learning • Updated Jan 20, 2024

sdpkjc/Hopper-v4-ppo_fix_continuous_action-seed2

Reinforcement Learning • Updated Jan 20, 2024

sdpkjc/Hopper-v4-ppo_fix_continuous_action-seed1

Reinforcement Learning • Updated Jan 20, 2024

sdpkjc/Ant-v4-sac_continuous_action-seed4

Reinforcement Learning • Updated Dec 19, 2023

sdpkjc/Humanoid-v4-sac_continuous_action-seed3

Reinforcement Learning • Updated Dec 19, 2023

sdpkjc/Humanoid-v4-sac_continuous_action-seed5

Reinforcement Learning • Updated Dec 19, 2023

sdpkjc/Humanoid-v4-sac_continuous_action-seed4

Reinforcement Learning • Updated Dec 19, 2023

sdpkjc/Ant-v4-sac_continuous_action-seed5

Reinforcement Learning • Updated Dec 19, 2023

sdpkjc/Walker2d-v4-sac_continuous_action-seed5

Reinforcement Learning • Updated Dec 19, 2023

sdpkjc/Walker2d-v4-sac_continuous_action-seed3

Reinforcement Learning • Updated Dec 19, 2023

sdpkjc/Ant-v4-sac_continuous_action-seed3

Reinforcement Learning • Updated Dec 19, 2023

sdpkjc/Walker2d-v4-sac_continuous_action-seed4

Reinforcement Learning • Updated Dec 19, 2023

sdpkjc/HalfCheetah-v4-sac_continuous_action-seed4

Reinforcement Learning • Updated Dec 19, 2023

sdpkjc/Ant-v4-sac_continuous_action-seed2

Reinforcement Learning • Updated Dec 19, 2023

sdpkjc/Walker2d-v4-sac_continuous_action-seed2

Reinforcement Learning • Updated Dec 19, 2023

sdpkjc/HalfCheetah-v4-sac_continuous_action-seed5

Reinforcement Learning • Updated Dec 19, 2023

sdpkjc/HalfCheetah-v4-sac_continuous_action-seed3

Reinforcement Learning • Updated Dec 19, 2023

sdpkjc/Hopper-v4-sac_continuous_action-seed4

Reinforcement Learning • Updated Dec 19, 2023

sdpkjc/Hopper-v4-sac_continuous_action-seed3

Reinforcement Learning • Updated Dec 19, 2023

sdpkjc/Hopper-v4-sac_continuous_action-seed2

Reinforcement Learning • Updated Dec 19, 2023

sdpkjc/Hopper-v4-sac_continuous_action-seed5

Reinforcement Learning • Updated Dec 19, 2023

sdpkjc/Humanoid-v4-sac_continuous_action-seed2

Reinforcement Learning • Updated Dec 19, 2023

sdpkjc/Swimmer-v4-sac_continuous_action-seed4

Reinforcement Learning • Updated Dec 19, 2023

sdpkjc/Swimmer-v4-sac_continuous_action-seed3

Reinforcement Learning • Updated Dec 19, 2023

sdpkjc/Swimmer-v4-sac_continuous_action-seed5

Reinforcement Learning • Updated Dec 19, 2023

sdpkjc/Swimmer-v4-sac_continuous_action-seed2

Reinforcement Learning • Updated Dec 19, 2023

sdpkjc/HalfCheetah-v4-sac_continuous_action-seed2

Reinforcement Learning • Updated Dec 19, 2023

sdpkjc/Humanoid-v4-td3_continuous_action-seed5

Reinforcement Learning • Updated Dec 19, 2023