Model Card for NABLA-VL
This is a Japanese Vision-Language Model (VLM) developed by NABLAS. It supports inputs of images, multiple images, and videos.
Model Details
Model Description
This model is a Japanese Vision-Language Model (VLM) developed by NABLAS, designed to understand and generate text based on visual inputs. It supports a wide range of input formats, including single images, multiple images, and video, enabling versatile applications across various multimodal tasks.
- Developed by: NABLAS
- Funded by: GENIAC
- Shared by: NABLAS
- Model type: VLM (Image/Multi-images/Video)
- Language(s) (NLP): Japanese
- License: Apache License 2.0
- Finetuned from model: microsoft/phi-4, HuggingFaceM4/siglip-so400m-14-980-flash-attn2-navit
Model Sources
- Repository: https://github.com/nablas-inc/NABLA-VL
- Paper: WIP
How to Get Started with the Model
Use the code below to get started with the model.
import requests
from PIL import Image
import numpy as np
import torch
from transformers import AutoModel, AutoTokenizer
from nabla_vl.constants import CHAT_TEMPLATE_WITHOUT_SYSTEM_MESSAGE
from nabla_vl.inference import run_model_with_stream
from nabla_vl.io import load_image
from nabla_vl.model import NablaVLForCausalLM
from nabla_vl.transforms import build_data_pipeline
MODEL = "nablasinc/NABLA-VL"
DEVICE = "cuda"
model = NablaVLForCausalLM.from_pretrained(MODEL, torch_dtype=torch.bfloat16)
model.to(DEVICE)
model.eval()
tokenizer = AutoTokenizer.from_pretrained(MODEL, use_fast=False)
tokenizer.chat_template = CHAT_TEMPLATE_WITHOUT_SYSTEM_MESSAGE
data_pipeline = build_data_pipeline(model.config, tokenizer)
instruction = "この画像について教えてください!"
images = []
urls = [
"https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg",
]
for url in urls:
images.append(
np.array(
Image.open(
requests.get(
url,
stream=True,
).raw,
).convert("RGB"),
)[np.newaxis, :, :, :],
)
run_model_with_stream(
model,
tokenizer,
data_pipeline,
instruction,
images=images,
device=DEVICE,
)
Examples
Single Image Input
Q
この画像が撮影された会社を推論した上で画像について説明してください
A
この画像は、ナブラス(Nablas)という会社のオフィスまたは会議室の内部を撮影したものであると推測されます。会議室には、多くの椅子とデスクが整然と並べられており、プレゼンテーションや会議に使用されることが想定されます。壁には「NABLAS」というロゴが大きく表示され
ており、会社のブランドを強調しています。また、天井にはモダンなデザインの照明が取り付けられており、全体的に明るく開放的な雰囲気を醸し出しています。このような環境は、クリエイティブな作業やチームミーティングに適していると考えられます。
Multi-Image Input
![]() |
![]() |
Q
これらの画像で表される業種の違いを説明してください
A
これらの画像は、異なる業種の特徴を示しています。最初の画像では、工場内でオレンジ色のロボットが作業を行っている様子が見られます。このロボットは、製造業や自動化の分野で使用されることが多く、効率的な生産ラインを支える役割を果たしています。一方、2番目の画像は
眼鏡のディスプレイを示しており、小売業やファッション業界に関連しています。ここでは、さまざまなスタイルの眼鏡が並べられており、顧客が選ぶことができる商品が展示されています。このように、最初の画像は製造業の自動化を象徴し、2番目の画像は小売業の商品展示を示し
ており、それぞれの業種が異なる目的と機能を持っていることがわかります。
Video Input
The video used in our demo is sourced from Pexels and was created by Magda Ehlers.
Q
この動画について時系列順にざっくり説明してください!
A
このビデオは、犬がフリスビーを追いかける様子を捉えています。最初のフレームでは、犬がフリスビーを追いかけて走っています。次のフレームでは、犬がフリスビーをキャッチしようとしています。その後、犬はフリスビーを口にくわえて戻ってきます。最後のフレームでは、犬が
フリスビーを持って走っている様子が見られます。
Training Details
See the paper. (WIP)
Developers (Alphabetical Order)
- Haoxiang Shi
- Maxime Alvarez
- Takuya Shintate
- Yudai Mine
- Zijie Jiang
Acknowledgement
The development of this model was supported by the "GENIAC (Generative AI Accelerator Challenge)" project, conducted by Japan's Ministry of Economy, Trade and Industry (METI) and the New Energy and Industrial Technology Development Organization (NEDO), aimed at strengthening domestic capabilities in generative AI development.
- Downloads last month
- 1,422
Model tree for nablasinc/NABLA-VL
Base model
microsoft/phi-4