11 18 14

Wenqi Zhang

zwq2018

zwq2018

AI & ML interests

LLM, Multimodal, Robotics

Recent Activity

updated a dataset 1 day ago

zwq2018/Multi-modal-Self-instruct

upvoted a paper 4 days ago

Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos

upvoted a paper 4 days ago

Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step

View all activity

Organizations

zwq2018's activity

updated a dataset 1 day ago

zwq2018/Multi-modal-Self-instruct

Viewer • Updated 1 day ago • 76k • 444 • 25

upvoted 2 papers 4 days ago

Video-MMMU: Evaluating Knowledge Acquisition from Multi-Discipline Professional Videos

Paper • 2501.13826 • Published 5 days ago • 21

Can We Generate Images with CoT? Let's Verify and Reinforce Image Generation Step by Step

Paper • 2501.13926 • Published 5 days ago • 27

upvoted 2 papers 5 days ago

Kimi k1.5: Scaling Reinforcement Learning with LLMs

Paper • 2501.12599 • Published 7 days ago • 70

DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

Paper • 2501.12948 • Published 6 days ago • 245

upvoted a paper 6 days ago

VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding

Paper • 2501.13106 • Published 6 days ago • 71

liked a model 6 days ago

DAMO-NLP-SG/VideoLLaMA3-7B

Visual Question Answering • Updated 1 day ago • 1.68k • 20

upvoted a paper 7 days ago

GameFactory: Creating New Games with Generative Interactive Videos

Paper • 2501.08325 • Published 14 days ago • 60

New activity in DAMO-NLP-SG/multimodal_textbook 15 days ago

Re-upload as multiple independant TAR files instead of one big TAR file split into chunks

#1 opened 15 days ago by

lhoestq

updated a dataset 17 days ago

DAMO-NLP-SG/multimodal_textbook

Updated 17 days ago • 13.8k • 131

upvoted a collection 18 days ago

Jan 10 Releases 🌨️

Collection

38 items • Updated 18 days ago • 12

authored a paper 22 days ago

2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

Paper • 2501.00958 • Published 27 days ago • 98

commented 2 papers 25 days ago

2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

Paper • 2501.00958 • Published 27 days ago • 98 •

2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

Paper • 2501.00958 • Published 27 days ago • 98 •

upvoted a paper 26 days ago

VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM

Paper • 2501.00599 • Published 28 days ago • 41

commented a paper 26 days ago

2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

Paper • 2501.00958 • Published 27 days ago • 98 •

upvoted a paper 26 days ago

2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

Paper • 2501.00958 • Published 27 days ago • 98

commented a paper 26 days ago

2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

Paper • 2501.00958 • Published 27 days ago • 98 •

liked a dataset 27 days ago

DAMO-NLP-SG/multimodal_textbook

Updated 17 days ago • 13.8k • 131

updated a dataset 27 days ago

DAMO-NLP-SG/multimodal_textbook

Updated 17 days ago • 13.8k • 131