超越语言界限,ChatGPT进化之路——Visual ChatGPT

news2025/7/19 4:58:17

❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️

👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博相关......)👈

ChatGPT

(封面图由ERNIE-ViLG AI 作画大模型生成)

超越语言界限,ChatGPT进化之路

微软德国公司的首席技术官Andreas Braun在一场名为“AI in Focus - Digital Kickoff”的活动中活动中透露了这一消息,并表示下周将展示GPT的下一次迭代,它将是一个多模态模型,会提供完全不同的可能性——例如视频,这将允许用户创建新型的AI生成内容。他还表示,这项技术已经发展到基本上“适用于所有语言”,因此用户可以用一种语言提问,然后用另一种语言得到答案。这个消息迅速引起了全球科技界、投资者和普通用户的关注,他们都迫不及待地想知道新的GPT有多强大。

当前版本的ChatGPT仅限于基于文本的答案,并使用GPT-3.5。然而,在下一次迭代中,这个限制将被消除。据称,GPT-4将是一项重大更新,具备多模态模型能力,这将显着提升其能力,支持AI生成的视频和其他内容。

此外,就在昨天微软官方在Github开源了一个重量级的ChatGPT AI交互应用Visual ChatGPT。该应用短短一天在Github就达到了7000星。Visual ChatGPT调用ChatGPT以及一系列视觉基础模型来以实现在聊天过程中发送和接收图像,以及动态对图像进行处理。下面让我们一起来看看Visual ChatGPT有多强大吧。

1. Visual ChatGPT 原理(内容还在整理,后续更新中…)

具体内容参见:Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models https://arxiv.org/abs/2303.04671
图2

下面是本人的一些理解:

近年来,大型语言模型(LLM)的发展取得了惊人的进展,如T5,BLOOM和GPT-3。其中最重要的突破之一是ChatGPT,它建立在Instruct-GPT的基础上,专门训练用于与用户进行真正对话,从而使其能够维持当前对话的上下文,处理后续问题,并纠正其自身产生的答案。

然而,由于ChatGPT是单一语言模态训练的,因此在处理视觉信息方面存在局限性,而视觉基础模型(VFMs)在计算机视觉方面具有巨大的潜力,具有理解和生成复杂图像的能力。因此,该文章提出了一个名为Visual ChatGPT的系统,通过将ChatGPT与不同的VFMs集成,使用户能够通过除了语言格式之外的其他方式与ChatGPT进行交互,以解决复杂的视觉问题。Prompt Manager是该系统的关键组成部分,用于协调ChatGPT和VFMs之间的交互,并支持不同视觉格式之间的转换。

通过大量的实验和案例,文章证明了Visual ChatGPT在不同任务中的巨大潜力和能力。同时,该系统也存在一些局限性和问题,如VFMs的不稳定性和自我纠正模块对推理时间的影响,但作者表示将在未来解决这些问题。

虽然ChatGPT在处理自然语言上具有出色的对话能力和推理能力,但它无法处理或生成来自视觉世界的图像。同时,Visual Foundation Models(例如Visual Transformers或Stable Diffusion)虽然在视觉理解和生成方面表现出色,但它们只是特定任务的专家,并且只能接受一次固定输入和输出。为此,作者们创建了一个名为Visual ChatGPT的系统,结合了不同的Visual Foundation Models,使用户能够通过1)发送和接收语言和图像;2)提供需要多个AI模型协作多个步骤的复杂视觉问题或视觉编辑指令;3)提供反馈并要求纠正结果。作者们设计了一系列提示,将视觉模型信息注入ChatGPT,考虑到多个输入/输出模型和需要视觉反馈的模型。实验表明,Visual ChatGPT为研究ChatGPT在视觉角色方面的作用打开了大门。

图1

如图所示,用户上传了一张黄色花朵的图像,并输入了一个复杂的语言指令“请根据预测的深度生成一朵红色花朵,并将其变成卡通风格逐步完成”。在Prompt Manager的帮助下,Visual ChatGPT开始执行相关的Visual Foundation Models。在这种情况下,它首先应用深度估计模型来检测深度信息,然后利用深度到图像模型生成具有深度信息的红花图像,最后利用基于Stable Diffusion模型的风格转移VFM将该图像的样式改变为卡通形式。在上述管道过程中,Prompt Manager通过提供视觉格式的类型并记录信息转换的过程,作为ChatGPT的调度程序。最后,当Visual ChatGPT从Prompt Manager获得“卡通”提示时,它将结束执行管道并显示最终结果。

这篇文章的贡献如下:

  • 提出了Visual ChatGPT,打开了将ChatGPT和视觉基础模型相结合的大门,使ChatGPT能够处理复杂的视觉任务;
  • 设计了Prompt Manager,在其中涉及了22个不同的VFMs,并定义了它们之间的内部相关性,以更好地进行交互和组合;
  • 进行了大量的零样本实验,并展示了Visual ChatGPT的理解和生成能力。

Visual ChatGPT架构由用户查询部分(User Query)、交互管理部分(Prompt Manger)、视觉基础模型(Visual Foundation Models,VFM)、调用ChatGpt API和迭代交互部分(Iterative Reasoning),最后是用户输出(Outputs)部分。

整个系统流程是:

  • 明确告诉 ChatGPT 每个 VFM 的能力并指定输入输出格式;
  • 将不同的视觉信息,例如pngimages,深度图像和mask矩阵,转换为语言格式以帮助ChatGPT理解;
  • 处理不同视觉基础模型的历史、优先级和冲突。

在交互管理器的帮助下,ChatGPT可以利用这些VFMs并以迭代的方式接收他们的反馈,直到它满足用户的要求或达到结束条件。

2. Visual ChatGPT部署流程(Ubuntu系统按照以下流程本人亲试没问题)

(1) 首先安装git

Ubuntu环境下运行以下命令下载安装git git简介及常用命令介绍

apt-get install git

(2) 然后clone官方开源的Visual ChatGPT源码

运行以下代码下载官方源码:

git clone https://github.com/microsoft/visual-chatgpt.git

(3)按照源码说明安装运行环境

进入visual-chatgpt目录

cd visual-chatgpt

然后运行下面命令安装运行环境:

conda create -n visgpt python=3.8
conda activate visgpt
pip install -r requirement.txt

注意,安装运行环境的时候如果需要GPU的话需要手动安装PyTorch的GPU版本。

(4) 下载必要的模型文件

bash download.sh

(5)设置ChatGPT的密钥

然后运行下面命令设置密钥

export OPENAI_API_KEY=Your_Private_Openai_Key

把Your_Private_Openai_Key替换成你的OpenAI账号里面生成的密钥就可以。
可以在这个网址获取Api_key:https://platform.openai.com/account/api-keys

这块一定要注意,官方给的说明里面Your_Private_Openai_Key带有{},这个不要放到命令里面,只需要按照我的说明替换一下即可。

(6)运行程序

创建一个文件夹接收图像文件:

mkdir ./image

在visual_chatgpt.py文件中,修改以下内容:

GPU的序号:
在visual_chatgpt.py中,用到了8个GPU,ID分别是0,1,2,3,4,5,6,7:
本人亲测并不需要这么多显卡,3个GPU已经非常富裕了。
GPU
官方给的每个模型的GPU占用情况:
GPU占用
我按照顺序分别将GPU占用修改成0,1,2,这样只需要三个GPU就能完成部署。
GPU
部署的IP
修改最后一行的server_name和server_port为自己想要设定的即可,本地部署的话可以将server_name设定为127.0.0.1。
在这里插入图片描述

最后,运行下面的脚本运行程序

python visual_chatgpt.py

常见运行报错

如果出现:

ImportError: libSM.so.6: cannot open shared object file: No such file or directory

则运行下面脚本解决:

apt-get install build-essential libglib2.0-0 libsm6 libxext6 libxrender-dev

如果在docker环境中部署,在import cv2的时候会出现如下错误:

Importerror: libgl.so.1: cannot open shared object file: no such file or directory

使用下面命令解决:

apt-get install ffmpeg libsm6 libxext6  -y

参考文献

[1] Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models https://arxiv.org/abs/2303.04671
[2] visual-chatgpt https://github.com/microsoft/visual-chatgpt


❤️觉得内容不错的话,欢迎点赞收藏加关注😊😊😊,后续会继续输入更多优质内容❤️

👉有问题欢迎大家加关注私戳或者评论(包括但不限于NLP算法相关,linux学习相关,读研读博相关......)👈

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/404895.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

操作系统复习

熟练掌握操作系统的定义,操作系统的特征,操作系统的功能熟练掌握多道程序设计的概念,单道程序设计和多道程序设计的区别,多道程序设计的优点熟悉操作系统接口的主要功能,系统调用的基本概念、类型、实现。操作系统接口…

【Mysql】库的操作

一、sql分类 1.DDL(Data Defination Language)数据定义语言 定义数据时候使用的sql语言 creat:建表、drop:删表、alter:改变 2.DML(Data Manipulation Language)数据操纵语言 对数据进行操作的sql语言 insert:插入、delet…

【打造家庭服务器系列03】Frp 实现内网穿透

一、概述 为什么要搞frp,因为我们的服务器处于家里面的网络,是没有公网IP的,所以直接通过ssh连接服务器,此时就需要一个中转来实现转发。 二、服务端配置 - Frp Server 以腾讯云为例,阿里云也一样。Frp 官方文档 -…

chatPDF | 别再自己读文献了!让chatGPT来帮你读吧!~

1写在前面 自从chatGPT开放API以后,相关基于此的app也是层出不穷。🤪 ChatGPT API是基于OpenAI的自然语言处理模型的API。🧐 基于这个API,开发人员可以通过程序调用和使用ChatGPT模型来解决各种文本相关的任务。😉 其实…

Ubuntu软件包管理之apt与apt-get的区别

目录apt和apt-get发展史apt和apt-get命令对比常用命令举例更新存储库索引升级已安装的包列出所有可用安装包关键字搜索安装包安装软件卸载软件查看安装包信息清理没用的依赖包清理下载的缓存包清理残余的配置文件查看安装包的依赖参考apt和apt-get发展史 Debian 使用一套名为 …

STM32—LCD1602

LCD1602(Liquid Crystal Display)是一种工业字符型液晶,能够同时显示 1602 即 32 字符(16列两行) 第 1 脚: VSS 为电源地 第 2 脚: VDD 接 5V 正电源 第 3 脚: VL 为液晶显示器对比度调整端,接正电源时对比度最弱,接地时对比度最…

C语言实现快速排序(hoare法、挖坑法、前后指针法与非递归实现)——不看后悔系列

目录 1. hoare法 方法与步骤 代码实现 2. 挖坑法 方法与步骤 代码实现 3. 前后指针法 方法与步骤 代码实现 4. 快速排序的缺点与优化 1.快速排序的缺点 2.快速排序的优化 ① 三数取中法选 key 代码实现 ② 小区间优化 代码实现 5. 快速排序的非递归实现 附录…

数据结构与算法基础(王卓)(16):KMP算法详解(代码实现)

实现代码的过程中 具体细节、问题: (1):关于写Get_next函数的标题: 现象: PPT上写的是: void get_next(SString T, int &next[]) 然而并不能运行,而当我们去掉了引用符号&…

记录踩过的坑-Git

Git命令克隆很慢原命令:git clone -b r1.13.0 https://github.com/tensorflow/models.git现在替换为:git clone -b r1.13.0 https://github.com.cnpmjs.org/tensorflow/models.git也就是把原 URL 中的 github.com 替换为 github.com.cnpmjs.org&#xff…

设计模式第9式:迭代器模式

前言 我们有很多种方法可以把对象集中到一个集合中,比如列表、堆栈、散列表中。每种集合都有自己的特点和使用时机,但都有一个共同的需求:用户想要遍历这些对象。同时我们并不想用户看到集合的实现,本文将讲解如何让用户遍历对象…

JVM垃圾回收器详解

垃圾收集器没有在规范中进行过多的规定,可以由不同的厂商、不同版本的JVM来实现。由于JDK的版本处于高速迭代过程中,因此Java发展至今已经衍生了众多的GC版本。从不同角度分析垃圾收集器,可以将GC分为不同的类型。1、垃圾回收器分类1.1、按线…

国际安全领域顶会NDSS 2023录稿整理 (下)

隐私计算研习社 NDSS是网络和系统安全领域的四大顶级国际学术会议(BIG4)之一,第三十届会议于2023年2月27日到3月3日,在美国圣迭戈举办。本文将接着整理剩余论文,并对论文进行分类,感兴趣的小伙伴可以访问论…

【Linux】信号+再谈进程地址空间

目录 一、Linux中的信号 1、Linux中的信号 2、进程对信号的处理 3、信号的释义 二、信号的捕捉 1、信号的捕捉signal() 2、信号的捕捉sigaction() 三、信号如何产生? 1、kill()用户调用kill向操作系统发送信号 通过命令行参数模仿写一个kill命令 2、rais…

pinctrl和gpio子系统

一、pinctrl子系统简介Linux驱动讲究驱动分离与分层,pinctrl和gpio子系统就是驱动分离与分层思想下的产物,pinctrl子系统主要工作内容如下:获取设备树中的pin信息根据获取到的pin信息来设置pin的复用功能根据获取到的pin信息来设置pin的电气属…

Day914.安全认证架构演进:单块阶段 -SpringBoot与K8s云原生微服务实践

安全认证架构演进:单块阶段 Hi,我是阿昌,今天学习记录的是关于安全认证架构演进:单块阶段的内容。 讲到安全认证的内容,就必然会提到两个点:认证 和 授权。 认证:我是谁授权:我能…

Spring中的事务@Transactional

Transactional可以添加在方法上 添加在方法上时,表示该方法出现了异常或者报错,而导致之前数据库没有进行回滚事件,也就是说如果在方法中,有报错,但是添加了Transactional 则会开始回滚。 Transactional 在异常被捕获…

剑指 Offer 29. 顺时针打印矩阵

剑指 Offer 29. 顺时针打印矩阵 难度:middle\color{orange}{middle}middle 题目描述 输入一个矩阵,按照从外向里以顺时针的顺序依次打印出每一个数字。 示例 1: 输入:matrix [[1,2,3],[4,5,6],[7,8,9]] 输出:[1,2…

【OpenCV技能树】——OpenCV基础

前言: 😊😊😊欢迎来到本博客😊😊😊 目前正在进行 OpenCV技能树的学习,OpenCV是学习图像处理理论知识比较好的一个途径,至少比看书本来得实在。本专栏文章主要记录学习Op…

Apache apisix默认密钥漏洞(CVE-2020-13945)

目录漏洞描述影响版本漏洞复现声明:本文仅供学习参考,其中涉及的一切资源均来源于网络,请勿用于任何非法行为,否则您将自行承担相应后果,本人不承担任何法律及连带责任。漏洞描述 Apache APISIX 是一个动态、实时、高…

LearnOpenGL-模型加载-3.渲染模型

本人刚学OpenGL不久且自学,文中定有代码、术语等错误,欢迎指正 我写的项目地址:https://github.com/liujianjie/LearnOpenGLProject 文章目录模型加载重要代码读取3D模型递归处理结点的网格加载纹理优化程序代码Model类加载模型流程例子1&…