Japanese CLIP Model with Full Tuning

日本語画像・テキスト対応CLIPモデル(STAIR Captions v1.2で学習、両エンコーダー学習)

モデル概要 / Model Overview

このモデルは、STAIR Captions v1.2データセットで画像エンコーダーとテキストエンコーダーの両方をファインチューニングして学習された日本語対応のCLIPモデルです。

特徴 / Features

  • Full Tuning: 画像エンコーダーとテキストエンコーダーの両方を学習
  • 高品質な日本語理解: BERT-base-japanese-v3をファインチューニング
  • 温度付きコントラスト損失: InfoNCE損失による効果的な学習

モデル詳細 / Model Details

  • テキストエンコーダー: tohoku-nlp/bert-base-japanese-v3 (ファインチューニング)
  • 画像エンコーダー: ResNet50 (ImageNet事前学習済み、ファインチューニング) # 説明を更新
  • 学習手法: Full Tuning (両エンコーダーの同時学習) # 説明を更新
  • 共通埋め込み次元: 512
  • 画像サイズ: 224x224
  • 最大テキスト長: 128
  • 学習率: 1e-05
  • 損失関数: 温度付きコントラスト損失 (InfoNCE)

使用方法 / How to Use

from transformers import AutoTokenizer, AutoModel
import torch
import torch.nn.functional as F

# モデルとトークナイザーのロード
tokenizer = AutoTokenizer.from_pretrained("AoiNoGeso/japanese-clip-stair-v3")
model = AutoModel.from_pretrained("AoiNoGeso/japanese-clip-stair-v3")

# 推論例
text = "猫が座っている"
tokens = tokenizer(text, return_tensors="pt", padding=True, truncation=True)

# テキスト埋め込みを取得
with torch.no_grad():
    text_embeddings = model.text_encoder(tokens["input_ids"], tokens["attention_mask"])

学習データ / Training Data

  • データセット: STAIR Captions v1.2
  • 言語: 日本語
  • ドメイン: 一般的な画像キャプション

ライセンス / License

Apache License 2.0

Downloads last month
18
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support