Xing Yun's picture

Xing Yun

xing0047

·

xing0047

AI & ML interests

Computer Vision

Recent Activity

published a model 1 day ago

xing0047/wheel

updated a model 1 day ago

xing0047/wheel

upvoted a paper 10 days ago

MMaDA: Multimodal Large Diffusion Language Models

View all activity

Organizations

upvoted a paper 10 days ago

MMaDA: Multimodal Large Diffusion Language Models

Paper • 2505.15809 • Published May 21 • 92

upvoted a paper 30 days ago

Discrete Diffusion in Large Language and Multimodal Models: A Survey

Paper • 2506.13759 • Published about 1 month ago • 41

upvoted 3 papers about 1 month ago

Lingshu: A Generalist Foundation Model for Unified Multimodal Medical Understanding and Reasoning

Paper • 2506.07044 • Published Jun 8 • 108

MiniCPM4: Ultra-Efficient LLMs on End Devices

Paper • 2506.07900 • Published Jun 9 • 84

Reinforcement Pre-Training

Paper • 2506.08007 • Published Jun 9 • 246

upvoted a paper about 2 months ago

Pixel Reasoner: Incentivizing Pixel-Space Reasoning with Curiosity-Driven Reinforcement Learning

Paper • 2505.15966 • Published May 21 • 53

upvoted 3 papers 2 months ago

Beyond 'Aha!': Toward Systematic Meta-Abilities Alignment in Large Reasoning Models

Paper • 2505.10554 • Published May 15 • 120

TTRL: Test-Time Reinforcement Learning

Paper • 2504.16084 • Published Apr 22 • 118

Perception, Reason, Think, and Plan: A Survey on Large Multimodal Reasoning Models

Paper • 2505.04921 • Published May 8 • 179

upvoted 7 papers 3 months ago

VideoMind: A Chain-of-LoRA Agent for Long Video Reasoning

Paper • 2503.13444 • Published Mar 17 • 17

VisuLogic: A Benchmark for Evaluating Visual Reasoning in Multi-modal Large Language Models

Paper • 2504.15279 • Published Apr 21 • 75

Packing Input Frame Context in Next-Frame Prediction Models for Video Generation

Paper • 2504.12626 • Published Apr 17 • 52

PRIMA.CPP: Speeding Up 70B-Scale LLM Inference on Low-Resource Everyday Home Clusters

Paper • 2504.08791 • Published Apr 7 • 133

Kimi-VL Technical Report

Paper • 2504.07491 • Published Apr 10 • 131

One-Minute Video Generation with Test-Time Training

Paper • 2504.05298 • Published Apr 7 • 106

URECA: Unique Region Caption Anything

Paper • 2504.05305 • Published Apr 7 • 36

upvoted 4 papers 4 months ago

Multimodal Chain-of-Thought Reasoning: A Comprehensive Survey

Paper • 2503.12605 • Published Mar 16 • 36

Edit Transfer: Learning Image Editing via Vision In-Context Relations

Paper • 2503.13327 • Published Mar 17 • 29

DreamRenderer: Taming Multi-Instance Attribute Control in Large-Scale Text-to-Image Models

Paper • 2503.12885 • Published Mar 17 • 44

EasyControl: Adding Efficient and Flexible Control for Diffusion Transformer

Paper • 2503.07027 • Published Mar 10 • 29