new

Get trending papers in your email inbox once a day!

Get trending papers in your email inbox!

Daily Papers

byAK and the research community

Jun 4

Submitted by

taesiri

Audio Interaction Model

NationalUniversityofSingapore

National University of Singapore

Submitted by

taesiri

Cosmos 3: Omnimodal World Models for Physical AI

nvidia

Submitted by

CheeryLJH

Where Do Deep-Research Agents Go Wrong? Span-Level Error Localization in Agent Trajectories

NJU-LINK

Submitted by

larry2210

Reproducing, Analyzing, and Detecting Reward Hacking in Rubric-Based Reinforcement Learning

·
6 authors

Submitted by

JoeLeelyf

OVO-S-Bench: A Hierarchical Benchmark for Streaming Spatial Intelligence in Multimodal LLMs

internlm

Intern Large Models

Submitted by

TianheWu

Qwen-Image-Flash: Beyond Objective Design

Qwen

3

Submitted by

JadeHuang

M^3Eval: Multi-Modal Memory Evaluation through Cognitively-Grounded Video Tasks

PKU-VaLuE-Lab

Submitted by

vanilla1116

ThoughtFold: Folding Reasoning Chains via Introspective Preference Learning

internlm

Intern Large Models

Submitted by

BianYx

Echo-Infinity: Learning Evolving Memory for Real-Time Infinite Video Generation

·
12 authors

Submitted by

YZCS

Streaming Communication in Multi-Agent Reasoning

·
6 authors

Submitted by

Fernandez-Owen

Benchmarks are Not Enough: RAMP for Runtime Assessing of Agentic Models in Production Systems

SunYatsen

Sun Yat-Sen University

Submitted by

Lewis-Lau

Self-Distilled Policy Gradient

UCLA

University of California, Los Angeles

Submitted by

Z-MU-Z

Eliciting Complex Spatial Reasoning in MLLMs through Wide-Baseline Matching

zju

Zhejiang University

Submitted by

ChillingDream

MemTrain: Self-Supervised Context Memory Training

·
5 authors

1

Submitted by

CheeryLJH

MMG2Skill: Can Agents Distill In-the-Wild Guides into Self-Evolving Skills?

NJU-LINK

Submitted by

PPrimo

MapAgent: An Industrial-Grade Agentic Framework for City-scale Lane-level Map Generation

baidu

Submitted by

yantaiyang05

AAD-1: Asymmetric Adversarial Distillation for One-Step Autoregressive Video Generation

Submitted by

JacobYuan

Filter, Then Reweight: Rethinking Optimization Granularity in On-Policy Distillation

Tsinghua University

Submitted by

hongsunghwan

ZipSplat: Fewer Gaussians, Better Splats

ethz

Submitted by

taesiri

AutoLab: Can Frontier Models Solve Long-Horizon Auto Research and Engineering Tasks?

·
19 authors

Submitted by

RuHae

KletterMix: Climbing Toward High-Quality German Pretraining Data

AIML-TUDA

Artificial Intelligence & Machine Learning Lab at TU Darmstadt

5

Submitted by

yuxin-meng

WebRISE: Requirement-Induced State Evaluation for MLLM-Generated Web Artifacts

IIGroup

Tsinghua IIGroup

Submitted by

YanAdjeNole

AUDITFLOW: Executable Symbolic Environments for Structured Financial Reporting Verification

TheFinAI

1

Submitted by

taesiri

GRAIL: Generating Humanoid Loco-Manipulation from 3D Assets and Video Priors

nvidia

Submitted by

Yunhao-Feng

BraveGuard: From Open-World Threats to Safer Computer-Use Agents

antgroup

Submitted by

yzw04

BenchEvolver: Frontier Task Synthesis via Solution-Centric Evolution

UCBerkeley

University of California, Berkeley

Submitted by

wyy-code

Access Sets Matter: Budgeting Expert Reads for Scalable Weight-Space Model Merging

PolyUHK

The Hong Kong Polytechnic University

Submitted by

rishitdagli

STRIDE: Training Data Attribution via Sparse Recovery from Subset Perturbations

·
7 authors

1

Submitted by

byrLLCC

Evaluating Large Language Models in Dynamic Clinical Decision-Making with Standardized Patient Cases

·
6 authors

Submitted by

zhenting

Economy of Minds: Emerging Multi-Agent Intelligence with Economic Interactions

Harvard

Harvard University

Submitted by

zhaoyx39

OpenSTBench: Beyond Semantic Evaluation for Speech Translation

·
8 authors

Submitted by

gydou

DAR: Deontic Reasoning with Agentic Harnesses

jhu-clsp

Center for Language and Speech Processing @ JHU

Submitted by

Lewis-Lau

Unlocking Feature Learning in Gated Delta Networks at Scale

UCLA

University of California, Los Angeles

Submitted by

yingqi-z20

Agent libOS: A Library-OS-Inspired Runtime for Long-Running, Capability-Controlled LLM Agents

Tsinghua University

Submitted by

JJ-TMT

SpatialAct: Probing Spatial Reasoning-to-Action Capabilities of VLM Agents in 3D Scenes

·
9 authors

Submitted by

ellisbrown

PaintBench: Deterministic Evaluation of Precise Visual Editing

nyu-visionx

Submitted by

CiaraRowles

Stable-Layers: Fine-Tuning Image Layer Decomposition Models with VLM-Scored Reinforcement Learning

stabilityai

Submitted by

brucelyu

Probing Outcome-Level Resemblance and Mechanism-Level Alignment in LLM Risk Decisions: Evidence from the St. Petersburg Game

·
6 authors

Submitted by

NBoulle

Deep Embedded Multiplicative DMD for Algebra-Preserving Koopman Learning

ImperialCollegeLondon

Imperial College London

Submitted by

taesiri

MeshWeaver: Sparse-Voxel-Guided Surface Weaving for Autoregressive Mesh Generation

·
3 authors

Submitted by

AikyamLab

When Graph Tokens Sink: A Mechanistic Analysis of Graph Language Models

Aikyam-Lab

Submitted by

yyyaoyuan

Semi-Supervised Noise Adaptation: Transferring Knowledge from Noise Domain

·
6 authors

Submitted by

mbhosale

Score-Control for Hallucination Reduction in Diffusion Models

·
6 authors

Submitted by

sajjadanwar0

Token Budgets: An Empirical Catalog of 63 LLM-Agent Budget-Overrun Incidents, with an Affine-Typed Rust Mitigation as a Case Study

·
1 authors

Submitted by

gktsoump

Training-Free Multi-Concept LoRA Composition with Prompt-Aware Weighting

·
3 authors

Submitted by

dpenaherrera

Scalable Inference-Time Annealing with Surrogate Likelihood Estimators

·
3 authors

1

Submitted by

gxx27

Do Text Edits Generalize to Visual Generation? Benchmarking Cross-Modal Knowledge Editing in UMMs

UCSanDiego

University of California at San Diego

Submitted by

SimonWeber

Functional Attention: From Pairwise Affinities to Functional Correspondences

TUM

Technical University of Munich