CLIP使用教程

news2025/12/28 17:49:10

文章目录

前言
注意
使用
其他示例

原理篇

前言

本文主要介绍如何调用Hugging Face中openai提供的CLIP API.

注意

如果碰到模型无法自动下载，可手动下载到本地，注意本地调用路径后缀加/。

下载config.json、preprocessor_config.json、pytorch_model.bin、tokenizer.json

在这里插入图片描述
2. 其中processor中
text表示待检索文本，支持多语句搜索
images表示输入图片，支持多张图片搜索
return_tensors表示返回结果格式，
- 'tf': Return TensorFlow tf.constant objects.
- 'pt': Return PyTorch torch.Tensor objects.
- 'np': Return NumPy np.ndarray objects.
- 'jax': Return JAX jnp.ndarray objects.

使用

准备一张图片，本示例中图片000000039769.jpg如下，
在这里插入图片描述

from PIL import Image
import requests

from transformers import CLIPProcessor, CLIPModel

model = CLIPModel.from_pretrained("openai/clip-vit-base-patch32")
# model = CLIPModel.from_pretrained("./clip-vit-base-patch32/")
processor = CLIPProcessor.from_pretrained("openai/clip-vit-base-patch32")
#  processor = CLIPProcessor.from_pretrained("./clip-vit-base-patch32/")

img_path = "./data/clip/000000039769.jpg"
image = Image.open(img_path)

inputs = processor(text=["a photo of a cat", "a photo of a dog"], images=image, return_tensors="pt", padding=True)

outputs = model(**inputs)
logits_per_image = outputs.logits_per_image  # this is the image-text similarity score
print(logits_per_image )
probs = logits_per_image.softmax(dim=1)  # we can take the softmax to get the label probabilities
print(probs)

打印结果如下，

tensor([[24.5701, 19.3049]], grad_fn=<PermuteBackward0>)
tensor([[0.9949, 0.0051]], grad_fn=<SoftmaxBackward0>)

返回logits_per_image 并非[0,1]，对于多条语句比对时，可通过softmax归一化；
但当输入一条语句（“a photo of a cat”）及一张图片时，无法获得[0,1]之间相似度，难以设定阈值过滤

tensor([[24.5701]], grad_fn=<PermuteBackward0>)
tensor([[1.]], grad_fn=<SoftmaxBackward0>)

outputs结构如下，

return CLIPOutput(
            loss=loss,
            logits_per_image=logits_per_image,
            logits_per_text=logits_per_text,
            text_embeds=text_embeds,
            image_embeds=image_embeds,
            text_model_output=text_outputs,
            vision_model_output=vision_outputs,
        )

此时可通过本地计算text_embeds与image_embeds之间余弦相似度，完整代码如下，


from PIL import Image
import torch
from transformers import CLIPProcessor, CLIPModel

model = CLIPModel.from_pretrained("./clip-vit-base-patch32/")
processor = CLIPProcessor.from_pretrained("./clip-vit-base-patch32/")

img_path = "./data/clip/000000039769.jpg"
image = Image.open(img_path)

# inputs = processor(text=["a photo of a cat"], images=image, return_tensors="pt", padding=True)
inputs = processor(text=["a photo of a cat","a photo of a dog"], images=image, return_tensors="pt", padding=True)

outputs = model(**inputs)
# logits_per_image = outputs.logits_per_image  # this is the image-text similarity score
# print(logits_per_image)
# probs = logits_per_image.softmax(dim=1)  # we can take the softmax to get the label probabilities
# print(probs)

similarity = torch.cosine_similarity(outputs.text_embeds, outputs.image_embeds, dim=1)
print(similarity)

输出结果如下，

tensor([0.2457, 0.1930], grad_fn=<SumBackward1>)

猫相似度为0.2457，狗相似度为0.1930

其他示例

“a photo of iron man”
以下靓图similarity分别为：[0.3081, 0.2685]
在这里插入图片描述

可能电影相关任务，所有第二张图相似度比较高。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/560902.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！

CLIP使用教程

文章目录

前言

注意

使用

其他示例

相关文章

热乎的过万字GameFramework讲解笔记文档

YOLOv5改进系列（5）——替换主干网络之 MobileNetV3

【数据结构与算法篇】栈与队列（详解）附加Leetcode经典笔试题

C++中的函数模板

STM32的SPI外设

语义分割实战项目（从原理到代码环境配置）

安卓基础巩固（三）多线程、IO操作、数据存储

day09 MyBatis基础操作

PowerShell系列（四）：PowerShell进入交互环境的三种方式

IMX6ULL裸机篇之DDR3实验-更新 imxdownload.h

C Primer Plus第二章编程练习答案

【Linux系列P3】Linux的权限有什么重点？一文带你理清！

[Ext JS3.9] 标签面板（TabPanel ）介绍与开发

【教学类-34-05】拼图（数字学号0X-长方块拼图-双色深灰浅灰）3*3格子（中班主题《个别化拼图》偏艺术-美术）

【Java-Crawler】一文学会使用WebMagic爬虫框架

MySQL主从复制配置

一、尚医通排班管理

Net跨平台UI框架Avalonia入门-DataGrid的使用

android/ios 一键抽取硬编码字符串

搭建stm32电机控制代码框架（一）