YAML Metadata
Warning:
empty or missing yaml metadata in repo card
(https://huggingface.co/docs/hub/model-cards#model-card-metadata)
CultureCLIP模型(LoRA微调)
此模型是使用LoRA方法微调的CLIP模型,已合并LoRA权重到基础模型中。
模型详情
- 基础模型: openai/clip-vit-base-patch32
- 任务: 对比学习图像-文本匹配
- 训练参数:
- 批次大小: 128
- 学习率: 3e-06
- 训练轮数: 10.0
- 梯度累积步数: 16
- 损失函数: cultureclip
- Caption损失权重: 0.7
- Context损失权重: 0.3
LoRA配置
- LoRA秩(r): 4
- LoRA Alpha: 16
- LoRA Dropout: 0.1
- 应用到视觉模型: True
- 应用到文本模型: True
- 目标位置: all
- 目标参数: qv
- 骨干网络: ViT-B/32
冻结设置
- 冻结视觉模型: False
- 冻结文本模型: False
数据集信息
- 训练文件: /data/yuchen/CultureCLIP_data/pos_neg_crope/train_100k.jsonl
- 验证文件: /data/yuchen/CultureCLIP_data/pos_neg_crope/val_100k.jsonl
- 最大序列长度: 77
- 使用多输入对比学习: True
使用方法
from transformers import CLIPModel, CLIPProcessor
# 加载模型和处理器
model = CLIPModel.from_pretrained("None")
processor = CLIPProcessor.from_pretrained("None")
# 处理文本和图像
inputs = processor(
text=["一张猫的照片", "一张狗的照片"],
images=image,
return_tensors="pt",
padding=True
)
# 获取输出
outputs = model(**inputs)
- Downloads last month
- 4
Inference Providers
NEW
This model isn't deployed by any Inference Provider.
🙋
Ask for provider support
HF Inference deployability: The model has no library tag.