Shizhe Diao's picture

Shizhe Diao

shizhediao2

·

https://shizhediao.github.io/

AI & ML interests

LLM pre-training and reasoning

Recent Activity

published a dataset less than a minute ago

nvidia/ClimbLab

new activity less than a minute ago

nvidia/ClimbLab:Create README.md

upvoted a paper 21 minutes ago

CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training

View all activity

Organizations

shizhediao2's activity

upvoted a paper 21 minutes ago

CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training

Paper • 2504.13161 • Published about 11 hours ago • 12

upvoted a paper 23 days ago

Scaling Vision Pre-Training to 4K Resolution

Paper • 2503.19903 • Published 23 days ago • 39

upvoted a paper about 2 months ago

Predictive Data Selection: The Data That Predicts Is the Data That Teaches

Paper • 2503.00808 • Published Mar 2 • 57

upvoted a paper 4 months ago

NVILA: Efficient Frontier Visual Language Models

Paper • 2412.04468 • Published Dec 5, 2024 • 60

upvoted a paper 5 months ago

Hymba: A Hybrid-head Architecture for Small Language Models

Paper • 2411.13676 • Published Nov 20, 2024 • 45

upvoted 3 papers 6 months ago

MM-Ego: Towards Building Egocentric Multimodal LLMs

Paper • 2410.07177 • Published Oct 9, 2024 • 22

Personalized Visual Instruction Tuning

Paper • 2410.07113 • Published Oct 9, 2024 • 71

3DGS-DET: Empower 3D Gaussian Splatting with Boundary Guidance and Box-Focused Sampling for 3D Object Detection

Paper • 2410.01647 • Published Oct 2, 2024 • 30

upvoted 4 papers 7 months ago

PHI-S: Distribution Balancing for Label-Free Multi-Teacher Distillation

Paper • 2410.01680 • Published Oct 2, 2024 • 36

Law of the Weakest Link: Cross Capabilities of Large Language Models

Paper • 2409.19951 • Published Sep 30, 2024 • 55

MaskLLM: Learnable Semi-Structured Sparsity for Large Language Models

Paper • 2409.17481 • Published Sep 26, 2024 • 48

Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers

Paper • 2409.04109 • Published Sep 6, 2024 • 48