Japanese CLIP Model with Full Tuning
日本語画像・テキスト対応CLIPモデル(STAIR Captions v1.2で学習、両エンコーダー学習)
モデル概要 / Model Overview
このモデルは、STAIR Captions v1.2データセットで画像エンコーダーとテキストエンコーダーの両方をファインチューニングして学習された日本語対応のCLIPモデルです。
特徴 / Features
- Full Tuning: 画像エンコーダーとテキストエンコーダーの両方を学習
- 高品質な日本語理解: BERT-base-japanese-v3をファインチューニング
- 温度付きコントラスト損失: InfoNCE損失による効果的な学習
モデル詳細 / Model Details
- テキストエンコーダー: tohoku-nlp/bert-base-japanese-v3 (ファインチューニング)
- 画像エンコーダー: ResNet50 (ImageNet事前学習済み、ファインチューニング) # 説明を更新
- 学習手法: Full Tuning (両エンコーダーの同時学習) # 説明を更新
- 共通埋め込み次元: 512
- 画像サイズ: 224x224
- 最大テキスト長: 128
- 学習率: 1e-05
- 損失関数: 温度付きコントラスト損失 (InfoNCE)
使用方法 / How to Use
from transformers import AutoTokenizer, AutoModel
import torch
import torch.nn.functional as F
# モデルとトークナイザーのロード
tokenizer = AutoTokenizer.from_pretrained("AoiNoGeso/japanese-clip-stair-v3")
model = AutoModel.from_pretrained("AoiNoGeso/japanese-clip-stair-v3")
# 推論例
text = "猫が座っている"
tokens = tokenizer(text, return_tensors="pt", padding=True, truncation=True)
# テキスト埋め込みを取得
with torch.no_grad():
text_embeddings = model.text_encoder(tokens["input_ids"], tokens["attention_mask"])
学習データ / Training Data
- データセット: STAIR Captions v1.2
- 言語: 日本語
- ドメイン: 一般的な画像キャプション
ライセンス / License
Apache License 2.0
- Downloads last month
- 18
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support