YAML Metadata Warning: empty or missing yaml metadata in repo card (https://huggingface.co/docs/hub/model-cards#model-card-metadata)

CultureCLIP模型(LoRA微调)

此模型是使用LoRA方法微调的CLIP模型,已合并LoRA权重到基础模型中。

模型详情

  • 基础模型: openai/clip-vit-base-patch32
  • 任务: 对比学习图像-文本匹配
  • 训练参数:
    • 批次大小: 128
    • 学习率: 3e-06
    • 训练轮数: 10.0
    • 梯度累积步数: 16
    • 损失函数: cultureclip
    • Caption损失权重: 0.7
    • Context损失权重: 0.3

LoRA配置

  • LoRA秩(r): 4
  • LoRA Alpha: 16
  • LoRA Dropout: 0.1
  • 应用到视觉模型: True
  • 应用到文本模型: True
  • 目标位置: all
  • 目标参数: qv
  • 骨干网络: ViT-B/32

冻结设置

  • 冻结视觉模型: False
  • 冻结文本模型: False

数据集信息

  • 训练文件: /data/yuchen/CultureCLIP_data/pos_neg_crope/train_100k.jsonl
  • 验证文件: /data/yuchen/CultureCLIP_data/pos_neg_crope/val_100k.jsonl
  • 最大序列长度: 77
  • 使用多输入对比学习: True

使用方法

from transformers import CLIPModel, CLIPProcessor

# 加载模型和处理器
model = CLIPModel.from_pretrained("None")
processor = CLIPProcessor.from_pretrained("None")

# 处理文本和图像
inputs = processor(
    text=["一张猫的照片", "一张狗的照片"], 
    images=image, 
    return_tensors="pt", 
    padding=True
)

# 获取输出
outputs = model(**inputs)
Downloads last month
4
Safetensors
Model size
151M params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support