SentenceTransformer

このモデルは実験的なモデルです。
詳細はブログ記事を、関連するソースコードはリポジトリを参照してください。

前回のバージョンoshizo/japanese-clip-qwen2_vl-exp-0101との差分

  • テキスト埋め込みモデルをpkshatech/GLuCoSE-base-ja-v2に変更
  • 学習データを公開しました
    • oshizo/japanese-text-image-retrieval-train
    • OCRテキストをもとにQwen2.5-14B質問を生成し、質問-ページ画像のペアによる学習を行いました
    • ドキュメント画像の解像度(長いほうの辺)は588px、700px、896pxの三種類で学習を行いました(前回は588pxのみ)

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers fugashi SentencePiece 

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer
model = SentenceTransformer("oshizo/japanese-clip-qwen2_vl-exp-0126", trust_remote_code=True)

import io
import requests
from PIL import Image

sentences = [
    'モノクロの男性の肖像写真。軍服を着て石の階段に座っている。',
    "庭で茶色の犬がこちらを向いて座っている。"
]
text_embeddings = model.encode(sentences)
text_embeddings.shape
# (2, 1024)

image_urls = [
    'https://upload.wikimedia.org/wikipedia/commons/7/73/Shigenobu_Okuma_5.jpg',
    'https://upload.wikimedia.org/wikipedia/commons/7/78/Akita_inu.jpeg'
]
images = [
     Image.open(io.BytesIO(requests.get(image_urls[0]).content)).resize((150, 240)),
     Image.open(io.BytesIO(requests.get(image_urls[1]).content)).resize((240, 150))
]

image_embeddings = model.encode(images)
image_embeddings.shape
# (2, 1024)

similarities = model.similarity(text_embeddings, image_embeddings)
similarities
# tensor([[ 2.6399e-01,  8.1531e-02],
#         [-2.4970e-04,  3.1410e-01]])
Downloads last month
53
Safetensors
Model size
800M params
Tensor type
BF16
·
Inference Providers NEW
This model is not currently available via any of the supported third-party Inference Providers, and the model is not deployed on the HF Inference API.