3 7 1

Mingyang Song

hitsmy

AI & ML interests

LVLMs

Recent Activity

upvoted a paper 24 days ago

Learning to Reason under Off-Policy Guidance

upvoted a paper about 2 months ago

A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond

commented on a paper about 2 months ago

FastCuRL: Curriculum Reinforcement Learning with Progressive Context Extension for Efficient Training R1-like Reasoning Models

View all activity

Organizations

hitsmy's activity

upvoted a paper 24 days ago

Learning to Reason under Off-Policy Guidance

Paper • 2504.14945 • Published 25 days ago • 82

upvoted a paper about 2 months ago

A Survey of Efficient Reasoning for Large Reasoning Models: Language, Multimodality, and Beyond

Paper • 2503.21614 • Published Mar 27 • 39

commented a paper about 2 months ago

FastCuRL: Curriculum Reinforcement Learning with Progressive Context Extension for Efficient Training R1-like Reasoning Models

Paper • 2503.17287 • Published Mar 21 • 10 •

authored a paper about 2 months ago

From Head to Tail: Towards Balanced Representation in Large Vision-Language Models through Adaptive Data Calibration

Paper • 2503.12821 • Published Mar 17 • 9

upvoted a paper about 2 months ago

From Head to Tail: Towards Balanced Representation in Large Vision-Language Models through Adaptive Data Calibration

Paper • 2503.12821 • Published Mar 17 • 9

commented a paper about 2 months ago

From Head to Tail: Towards Balanced Representation in Large Vision-Language Models through Adaptive Data Calibration

Paper • 2503.12821 • Published Mar 17 • 9 •

updated a model 2 months ago

hitsmy/Qwen2-VL-2B-Instruct-SFT

Image-Text-to-Text • Updated Mar 3 • 2

published a model 3 months ago

hitsmy/Qwen2-VL-2B-Instruct-SFT

Image-Text-to-Text • Updated Mar 3 • 2

upvoted a paper 3 months ago

MoM: Linear Sequence Modeling with Mixture-of-Memories

Paper • 2502.13685 • Published Feb 19 • 36

upvoted a paper 4 months ago

Test-Time Preference Optimization: On-the-Fly Alignment via Iterative Textual Feedback

Paper • 2501.12895 • Published Jan 22 • 61

commented a paper 4 months ago

PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models

Paper • 2501.03124 • Published Jan 6 • 14 •

authored a paper 4 months ago

PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models

Paper • 2501.03124 • Published Jan 6 • 14

upvoted a paper 4 months ago

PRMBench: A Fine-grained and Challenging Benchmark for Process-Level Reward Models

Paper • 2501.03124 • Published Jan 6 • 14

liked a dataset 4 months ago

hitsmy/PRMBench_Preview

Viewer • Updated Jan 7 • 6.22k • 66 • 4

updated a dataset 4 months ago

hitsmy/PRMBench_Preview

Viewer • Updated Jan 7 • 6.22k • 66 • 4

upvoted a paper 7 months ago

CLIP-MoE: Towards Building Mixture of Experts for CLIP with Diversified Multiplet Upcycling

Paper • 2409.19291 • Published Sep 28, 2024 • 20