Boqiang Zhang

Cyril666

·

https://cyrilsterling.github.io/

CyrilSterling

AI & ML interests

Multi-modal Large Language Models Vision-Language-Action Models

Organizations

upvoted 2 papers 3 months ago

Tstars-Tryon 1.0: Robust and Realistic Virtual Try-On for Diverse Fashion Items

Paper • 2604.19748 • Published Apr 21 • 252

AIBench: Evaluating Visual-Logical Consistency in Academic Illustration Generation

Paper • 2603.28068 • Published Mar 31 • 13

upvoted a collection 4 months ago

Penguin-VL

7 items • Updated 4 days ago • 14

upvoted a paper 4 months ago

Penguin-VL: Exploring the Efficiency Limits of VLM with LLM-based Vision Encoders

Paper • 2603.06569 • Published Mar 6 • 120

upvoted 3 papers 7 months ago

N3D-VLM: Native 3D Grounding Enables Accurate Spatial Reasoning in Vision-Language Models

Paper • 2512.16561 • Published Dec 18, 2025 • 20

RePlan: Reasoning-guided Region Planning for Complex Instruction-based Image Editing

Paper • 2512.16864 • Published Dec 18, 2025 • 11

ShowTable: Unlocking Creative Table Visualization with Collaborative Reflection and Refinement

Paper • 2512.13303 • Published Dec 15, 2025 • 17

upvoted a paper over 1 year ago

LongPO: Long Context Self-Evolution of Large Language Models through Short-to-Long Preference Optimization

Paper • 2502.13922 • Published Feb 19, 2025 • 27

upvoted a collection over 1 year ago

VideoLLaMA3

Frontier Multimodal Foundation Models for Video Understanding • 9 items • Updated Mar 2 • 16

upvoted 4 papers over 1 year ago

VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding

Paper • 2501.13106 • Published Jan 22, 2025 • 91

2.5 Years in Class: A Multimodal Textbook for Vision-Language Pretraining

Paper • 2501.00958 • Published Jan 1, 2025 • 110

VideoRefer Suite: Advancing Spatial-Temporal Object Understanding with Video LLM

Paper • 2501.00599 • Published Dec 31, 2024 • 45

Breaking the Memory Barrier: Near Infinite Batch Size Scaling for Contrastive Loss

Paper • 2410.17243 • Published Oct 22, 2024 • 93

upvoted a paper almost 2 years ago

SeaLLMs 3: Open Foundation and Chat Multilingual Large Language Models for Southeast Asian Languages

Paper • 2407.19672 • Published Jul 29, 2024 • 57