VLM2Vec - a TIGER-Lab Collection

TIGER-Lab 's Collections

MoCha

General-Reasoner

Vamba

ABC

VisualWebInstruct

CritiqueFineTuning

VISTA

VLM2Vec

MAmmoTH

UniIR

Science

Mantis

VLM2Vec

updated Jul 8, 2025

The VLM2Vec embedding models.

TIGER-Lab/VLM2Vec-LoRA

Text Generation • Updated Jul 13, 2025 • 25 • 11
TIGER-Lab/VLM2Vec-Full

Text Generation • 4B • Updated Apr 7, 2025 • 42.6k • 28
TIGER-Lab/MMEB-train

Viewer • Updated Jan 28, 2025 • 2.14M • 10.5k • 16
TIGER-Lab/MMEB-eval

Viewer • Updated Oct 28, 2024 • 37k • 2.98k • 11
TIGER-Lab/VLM2Vec-LLaVa-Next

Image-to-Text • 8B • Updated Dec 20, 2024 • 46 • 1
TIGER-Lab/VLM2Vec-Qwen2VL-7B

Image-to-Text • Updated May 3, 2025 • 5.34k • 10

Note The current best version VLM2Vec model.
TIGER-Lab/VLM2Vec-Qwen2VL-2B

Image-to-Text • Updated Mar 13, 2025 • 2.16k • 1
Y-J-Ju/MMEB-eval

Viewer • Updated Jul 6, 2025 • 37k • 144
Running

78

MMEB Leaderboard

📊

78

The massive multimodal embedding benchmark
VLM2Vec-V2: Advancing Multimodal Embedding for Videos, Images, and Visual Documents

Paper • 2507.04590 • Published Jul 7, 2025 • 16
VLM2Vec: Training Vision-Language Models for Massive Multimodal Embedding Tasks

Paper • 2410.05160 • Published Oct 7, 2024 • 4