1 13 3

Yuhui Zhang

yuhuizhang

https://cs.stanford.edu/~yuhuiz/

AI & ML interests

ML, CV, NLP

Recent Activity

updated a dataset about 2 months ago

yuhuizhang/NegVQA

published a dataset about 2 months ago

yuhuizhang/NegVQA

authored a paper 3 months ago

Video Action Differencing

View all activity

Organizations

updated a dataset about 2 months ago

yuhuizhang/NegVQA

Viewer • Updated Jun 9 • 7.38k • 35

published a dataset about 2 months ago

yuhuizhang/NegVQA

Viewer • Updated Jun 9 • 7.38k • 35

authored a paper 3 months ago

Video Action Differencing

Paper • 2503.07860 • Published Mar 10 • 34

upvoted 2 papers 4 months ago

SmolVLM: Redefining small and efficient multimodal models

Paper • 2504.05299 • Published Apr 7 • 196

CodeARC: Benchmarking Reasoning Capabilities of LLM Agents for Inductive Program Synthesis

Paper • 2503.23145 • Published Mar 29 • 36

authored a paper 4 months ago

MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research

Paper • 2503.13399 • Published Mar 17 • 22

liked a dataset 5 months ago

jmhb/microvqa

Viewer • Updated May 5 • 1.04k • 148 • 13

upvoted 2 papers 5 months ago

MicroVQA: A Multimodal Reasoning Benchmark for Microscopy-Based Scientific Research

Paper • 2503.13399 • Published Mar 17 • 22

Video Action Differencing

Paper • 2503.07860 • Published Mar 10 • 34

liked a dataset 6 months ago

suyc21/VMCBench

Viewer • Updated Mar 3 • 9.02k • 339 • 4

upvoted a paper 6 months ago

Temporal Preference Optimization for Long-Form Video Understanding

Paper • 2501.13919 • Published Jan 23 • 23

authored a paper 6 months ago

Temporal Preference Optimization for Long-Form Video Understanding

Paper • 2501.13919 • Published Jan 23 • 23

upvoted a paper 7 months ago

BIOMEDICA: An Open Biomedical Image-Caption Archive, Dataset, and Vision-Language Models Derived from Scientific Literature

Paper • 2501.07171 • Published Jan 13 • 56

authored 2 papers 7 months ago

Why are Visually-Grounded Language Models Bad at Image Classification?

Paper • 2405.18415 • Published May 28, 2024

Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation

Paper • 2501.03225 • Published Jan 6 • 7

upvoted a paper 7 months ago

Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation

Paper • 2501.03225 • Published Jan 6 • 7

commented a paper 7 months ago

Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation

Paper • 2501.03225 • Published Jan 6 • 7 •

updated a Space 7 months ago

AutoConverter

🚀

Generate multiple-choice questions from an image and text

upvoted a paper 8 months ago

Apollo: An Exploration of Video Understanding in Large Multimodal Models

Paper • 2412.10360 • Published Dec 13, 2024 • 147

updated a Space 10 months ago

TMLRReview

🚀

Yuhui Zhang

AI & ML interests

Recent Activity

Organizations

yuhuizhang's activity

AutoConverter

TMLRReview