2 72

Shaobai Jiang

shaobaij

AI & ML interests

None yet

Recent Activity

upvoted a paper 22 minutes ago

DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents

upvoted a paper 2 days ago

Reasoning with Exploration: An Entropy Perspective

upvoted a paper 4 days ago

MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention

View all activity

Organizations

None yet

shaobaij's activity

upvoted a paper 22 minutes ago

DeepResearch Bench: A Comprehensive Benchmark for Deep Research Agents

Paper • 2506.11763 • Published 8 days ago • 54

upvoted a paper 2 days ago

Reasoning with Exploration: An Entropy Perspective

Paper • 2506.14758 • Published 4 days ago • 24

upvoted 2 papers 4 days ago

MiniMax-M1: Scaling Test-Time Compute Efficiently with Lightning Attention

Paper • 2506.13585 • Published 5 days ago • 218

The Diffusion Duality

Paper • 2506.10892 • Published 9 days ago • 35

upvoted a paper 5 days ago

Magistral

Paper • 2506.10910 • Published 9 days ago • 58

upvoted 2 papers 6 days ago

MiniCPM4: Ultra-Efficient LLMs on End Devices

Paper • 2506.07900 • Published 12 days ago • 81

Confidence Is All You Need: Few-Shot RL Fine-Tuning of Language Models

Paper • 2506.06395 • Published 16 days ago • 120

upvoted a paper 7 days ago

Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models

Paper • 2506.05176 • Published 16 days ago • 61

upvoted a paper 8 days ago

AReaL: A Large-Scale Asynchronous Reinforcement Learning System for Language Reasoning

Paper • 2505.24298 • Published 22 days ago • 24

upvoted a paper 9 days ago

AlphaOne: Reasoning Models Thinking Slow and Fast at Test Time

Paper • 2505.24863 • Published 22 days ago • 92

upvoted a paper 10 days ago

OpenThoughts: Data Recipes for Reasoning Models

Paper • 2506.04178 • Published 17 days ago • 39

upvoted 6 papers 11 days ago

Fast-dLLM: Training-free Acceleration of Diffusion LLM by Enabling KV Cache and Parallel Decoding

Paper • 2505.22618 • Published 24 days ago • 42

QwenLong-CPRS: Towards infty-LLMs with Dynamic Context Optimization

Paper • 2505.18092 • Published 29 days ago • 43

Reinforcement Pre-Training

Paper • 2506.08007 • Published 12 days ago • 218

The Climb Carves Wisdom Deeper Than the Summit: On the Noisy Rewards in Learning to Reason

Paper • 2505.22653 • Published 24 days ago • 66

Learning to Reason without External Rewards

Paper • 2505.19590 • Published 26 days ago • 29

Table-R1: Inference-Time Scaling for Table Reasoning

Paper • 2505.23621 • Published 23 days ago • 92

upvoted a paper 12 days ago

SmolVLA: A Vision-Language-Action Model for Affordable and Efficient Robotics

Paper • 2506.01844 • Published 19 days ago • 97

upvoted 2 papers 13 days ago

Beyond the 80/20 Rule: High-Entropy Minority Tokens Drive Effective Reinforcement Learning for LLM Reasoning

Paper • 2506.01939 • Published 19 days ago • 158

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

Paper • 2505.24864 • Published 22 days ago • 127