Yilun Zhao's picture

Yilun Zhao PRO

yilunzhao

·

AI & ML interests

None yet

Recent Activity

updated a dataset 2 days ago

yale-nlp/SciArena-Eval

published a dataset 2 days ago

yale-nlp/SciArena-Eval

new activity 2 days ago

yale-nlp/SciArena:Improve dataset card: Add metadata and paper link

View all activity

Organizations

upvoted 2 papers 4 days ago

SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension

Paper • 2508.01959 • Published 5 days ago • 49

CellForge: Agentic Design of Virtual Cell Models

Paper • 2508.02276 • Published 5 days ago • 36

upvoted 3 papers 8 days ago

"PhyWorldBench": A Comprehensive Evaluation of Physical Realism in Text-to-Video Models

Paper • 2507.13428 • Published 23 days ago • 15

ScreenCoder: Advancing Visual-to-Code Generation for Front-End Automation via Modular Multimodal Agents

Paper • 2507.22827 • Published 10 days ago • 88

Deep Researcher with Test-Time Diffusion

Paper • 2507.16075 • Published 18 days ago • 57

upvoted a paper 17 days ago

MegaScience: Pushing the Frontiers of Post-Training Datasets for Science Reasoning

Paper • 2507.16812 • Published 18 days ago • 58

upvoted a paper 22 days ago

AbGen: Evaluating Large Language Models in Ablation Study Design and Evaluation for Scientific Research

Paper • 2507.13300 • Published 23 days ago • 16

upvoted 2 papers 24 days ago

Can Multimodal Foundation Models Understand Schematic Diagrams? An Empirical Study on Information-Seeking QA over Scientific Papers

Paper • 2507.10787 • Published 25 days ago • 11

DreamPoster: A Unified Framework for Image-Conditioned Generative Poster Design

Paper • 2507.04218 • Published Jul 6 • 12

upvoted 6 papers about 1 month ago

Agent KB: Leveraging Cross-Domain Experience for Agentic Problem Solving

Paper • 2507.06229 • Published Jul 8 • 72

Efficiency-Effectiveness Reranking FLOPs for LLM-based Rerankers

Paper • 2507.06223 • Published Jul 8 • 13

MLR-Bench: Evaluating AI Agents on Open-Ended Machine Learning Research

Paper • 2505.19955 • Published May 26 • 12

Can LLMs Identify Critical Limitations within Scientific Research? A Systematic Evaluation on AI Research Papers

Paper • 2507.02694 • Published Jul 3 • 18

SciArena: An Open Evaluation Platform for Foundation Models in Scientific Literature Tasks

Paper • 2507.01001 • Published Jul 1 • 44

MMSearch-R1: Incentivizing LMMs to Search

Paper • 2506.20670 • Published Jun 25 • 61

upvoted 5 papers about 2 months ago

SciVer: Evaluating Foundation Models for Multimodal Scientific Claim Verification

Paper • 2506.15569 • Published Jun 18 • 13

LongLLaDA: Unlocking Long Context Capabilities in Diffusion LLMs

Paper • 2506.14429 • Published Jun 17 • 45

MultiFinBen: A Multilingual, Multimodal, and Difficulty-Aware Benchmark for Financial LLM Evaluation

Paper • 2506.14028 • Published Jun 16 • 91

Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications

Paper • 2408.11878 • Published Aug 20, 2024 • 63

Can LLMs Generate High-Quality Test Cases for Algorithm Problems? TestCase-Eval: A Systematic Evaluation of Fault Coverage and Exposure

Paper • 2506.12278 • Published Jun 13 • 17