2024 年最新 Python 调用 OpenAi 详细教程实现问答、图像合成、图像理解、语音合成、语音识别(详细教程)

news2025/6/28 10:20:27

OpenAi 环境安装

首先确保您的计算机上已经安装了 Python。您可以从 Python 官方网站下载并安装最新版本 Python。安装时,请确保勾选 “Add Python to PATH” (添加环境变量)选项,以便在 cmd 命令行中直接使用 Python。

安装 OpenAI Python 库

打开命令行或终端窗口安装 OpenAI Python 库

pip install openai

OpenAi Platform 教程

平台官网:https://platform.openai.com/

在这里插入图片描述

http API 调用方式文档:https://platform.openai.com/docs/api-reference/introduction

文本生成 GPT-4

GPT-4 模型概述

GPT-4是一个大型多模态模型(接受文本或图像输入和输出文本),由于其更广泛的一般知识和先进的推理能力,它可以比我们以前的任何模型都更准确地解决难题。付费客户可以在OpenAI API中使用GPT-4。与gpt-3.5 turbo一样,GPT-4针对聊天功能进行了优化,但在使用聊天完井API的传统完井任务中表现良好。在我们的文本生成指南中学习如何使用GPT-4。

测试案例

聊天模型将消息列表作为输入,并返回模型生成的消息作为输出。虽然聊天格式的设计是为了使多回合的对话变得容易,但它对于没有任何对话的单回合任务同样有用。

一个聊天完成API调用的例子如下:

from openai import OpenAI
client = OpenAI()

response = client.chat.completions.create(
    model="gpt-4",
    messages=[
        {"role": "system", "content": "You are a helpful assistant."},
        {"role": "user", "content": "Who won the world series in 2020?"},
        {"role": "assistant", "content": "The Los Angeles Dodgers won the World Series in 2020."},
        {"role": "user", "content": "Where was it played?"}
    ]
)

print(response)

数据结构

{
    "choices": [
        {
            "finish_reason": "stop",
            "index": 0,
            "message": {
                "content": "The 2020 World Series was played in Texas at Globe Life Field in Arlington.",
                "role": "assistant"
            },
            "logprobs": null
        }
    ],
    "created": 1677664795,
    "id": "chatcmpl-7QyqpwdfhqwajicIEznoc6Q47XAyW",
    "model": "gpt-3.5-turbo-0613",
    "object": "chat.completion",
    "usage": {
        "completion_tokens": 17,
        "prompt_tokens": 57,
        "total_tokens": 74
    }
}

图像合成 DALL·E

DALL·E 模型概述

DALL·E是一个人工智能系统,可以通过自然语言的描述创造逼真的图像和艺术。DALL·e3目前支持在提示下创建具有特定大小的新映像的功能。DALL·e2还支持编辑现有映像,或创建用户提供的映像的变体。

测试案例

图像生成端点允许您在给定文本提示的情况下创建原始图像。当使用DALL·e3时,图像的大小可以是1024x1024、1024x1792或1792x1024像素。

默认情况下,图像以标准质量生成,但当使用DALL·e3时,您可以将质量设置为“hd”以增强细节。正方形的、标准质量的图像是最快生成的。您可以使用DALL·e3一次请求1个图像(通过并行请求请求更多),或者使用带n参数的DALL·e2一次至多请求10个图像。

from openai import OpenAI

client = OpenAI()

response = client.images.generate(
    model="dall-e-3",
    prompt="a white siamese cat",
    size="1024x1024",
    quality="standard",
    n=1,
)

image_url = response.data[0].url

语音合成 TTS

TTS 模型概述

TTS是一种人工智能模型,可以将文本转换为自然发音的口语文本。我们提供了两种不同的模型变量,ts-1针对实时文本到语音的用例进行了优化,而ts-1-hd针对质量进行了优化。这些模型可以与Audio API中的Speech端点一起使用。

测试案例

语音端点接受三个关键输入:模型、应该转换为音频的文本和用于音频生成的语音。简单的请求如下所示:

from pathlib import Path
from openai import OpenAI

client = OpenAI()

speech_file_path = Path(__file__).parent / "speech.mp3"
response = client.audio.speech.create(
    model="tts-1",
    voice="alloy",
    input="Today is a wonderful day to build something people love!"
)

response.stream_to_file(speech_file_path)

音色选择

尝试不同的声音(alloy, echo, fable, onyx, nova, and shimmer),找到一个符合你想要的语气和听众。当前的声音是针对英语优化的。

语音识别 Whisper

Whisper 概述

Whisper 是一个通用的语音识别模型。它是在不同音频的大型数据集上训练的,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。Whisper v2大型模型目前可通过我们的API使用Whisper -1模型名称。

目前,Whisper的开源版本和通过我们的API提供的版本之间没有区别。然而,通过我们的API,我们提供了一个优化的推理过程,这使得通过我们的API运行Whisper比执行它要快得多。

测试案例

语音识别 API 将要识别的音频文件和所需的音频转录输出文件格式作为输入。我们目前支持多种输入和输出文件格式。文件上传目前限制为 25mb,支持 mp3、mp4、mpeg、mpga、m4a、wav、webm 等文件类型的输入。

from openai import OpenAI

client = OpenAI()

audio_file = open("/path/to/file/audio.mp3", "rb")
transcription = client.audio.transcriptions.create(
    model="whisper-1",
    file=audio_file
)
print(transcription.text)

数据结构

{
  "text": "Imagine the wildest idea that you've ever had, and you're curious about how it might scale to something that's a 100, a 1,000 times bigger.
....
}

配置 OPENAI_API_KEY

查看 class OpenAI(SyncAPIClient) 类实现的源码片段发现,关于 api_keybase_url 会读取本地环境变量中 OPENAI_API_KEYOPENAI_BASE_URL 变量。

if api_key is None:
    api_key = os.environ.get("OPENAI_API_KEY")
if api_key is None:
    raise OpenAIError(
        "The api_key client option must be set either by passing api_key to the client or by setting the OPENAI_API_KEY environment variable"
    )
self.api_key = api_key
if base_url is None:
    base_url = os.environ.get("OPENAI_BASE_URL")
if base_url is None:
    base_url = f"https://api.openai.com/v1"

dotenv 加载 .env 环境变量

dotenv是一个Python库(虽然也适用于其他编程语言,如JavaScript),它的主要功能是从.env文件中读取环境变量,并将这些变量加载到操作系统的环境变量中,使得Python应用程序可以轻松地访问这些变量。.env文件是一个纯文本文件,其中包含键值对(key-value pairs),每个键值对占据一行,格式为KEY=VALUE。

pip install python-dotenv

将敏感信息(如API密钥、数据库密码等)存储在环境变量中,而不是硬编码在代码中,是一种良好的安全实践。这样可以减少敏感信息泄露的风险,因为这些值不会存储在代码库中,也不会在部署时暴露出来。

在 Python 代码中,使用 python-dotenv 库加载 .env 文件,并访问其中的环境变量。这通常通过 from dotenv import load_dotenvload_dotenv() 函数实现。访问环境变量:加载.env文件后,可以使用 os.getenv('KEY') 的方式访问环境变量。

from dotenv import load_dotenv
load_dotenv()

图像理解 GPT-4o

gpt - 40和GPT-4 Turbo都具有视觉功能,这意味着这些模型可以接收图像并回答有关图像的问题。从历史上看,语言模型系统一直受到单一输入形式文本的限制。

模型可以通过两种主要方式使用图像:通过传递到图像的链接或在请求中直接传递base64编码的图像。图像可以在用户消息中传递。

from openai import OpenAI

client = OpenAI()

response = client.chat.completions.create(
    model="gpt-4o",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "What’s in this image?"},
                {
                    "type": "image_url",
                    "image_url": {
                        "url": "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg",
                    },
                },
            ],
        }
    ],
    max_tokens=300,
)

print(response.choices[0])

上传base64编码的图像如果你在本地有一张或一组图像,你可以将它们以base64编码的格式传递给模型,下面是一个实际的例子

import base64
import requests

api_key = "YOUR_OPENAI_API_KEY"


def encode_image(image_path):
    with open(image_path, "rb") as image_file:
        return base64.b64encode(image_file.read()).decode('utf-8')


image_path = "path_to_your_image.jpg"

base64_image = encode_image(image_path)

headers = {
    "Content-Type": "application/json",
    "Authorization": f"Bearer {api_key}"
}

payload = {
    "model": "gpt-4o",
    "messages": [
        {
            "role": "user",
            "content": [
                {
                    "type": "text",
                    "text": "What’s in this image?"
                },
                {
                    "type": "image_url",
                    "image_url": {
                        "url": f"data:image/jpeg;base64,{base64_image}"
                    }
                }
            ]
        }
    ],
    "max_tokens": 300
}

response = requests.post("https://api.openai.com/v1/chat/completions", headers=headers, json=payload)

print(response.json())

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1822473.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

如何将ai集成到项目中,方法二

上一篇文章:如何将ai集成到radsystems项目中,在项目中引入ai-CSDN博客 上一篇文章内容主要针对于未实现权限分离的项目,这篇文章主要来说一下权限分离的项目怎么做,以及注意的细节。 一、编写前端router.js 二、编写前端askai.vu…

qemu microvm 测试运行记录

[v3] Introduce the microvm machine type | Patchew 下载获取rootfs wget http://dl-cdn.alpinelinux.org/alpine/v3.10/releases/x86_64/alpine-minirootfs-3.10.2-x86_64.tar.gz qemu-img create -f raw alpine-rootfs-x86_64.raw 1G losetup /dev/loop0 alpine-rootfs-x86…

服务器哪些因素会影响到网站SEO优化?

您是否曾想过,您的 SEO 性能下降,可能是网站服务器出了问题?鉴于此,在本文中,我们将探讨哪些服务器因素会影响您网站的 SEO,并提供可行的建议。 页面速度 搜索引擎非常看重您网站的加载速度。加载缓慢的网站会给用户体…

jenkins使用注意问题

1.在编写流水线时并不知道当前处在哪个目录,导致名使用不当,以及文件位置不清楚 流水线任务默认路径是,test4_mvn为jenkins任务名 [Pipeline] sh (hide)pwd /var/jenkins_home/workspace/test4_mvn maven任务也是,看来是一样的…

SY7304DBC 丝印VI DFN-10 33V,4A,1MHz升压稳压器芯片

在智能手机中,SY7304DBC 这类升压调节器可以有以下一些具体的使用案例: 1. 显示屏背光控制: 智能手机的显示屏背光需要一个稳定的电流来保持亮度均匀。SY7304DBC 可以在此应用场景中用于提供恒定的电流,确保屏幕清晰可见而不受电池电压波动的…

除了ps我们还可以使用什么方法来处理图片?

照片模糊了怎么办?当照片拍的不好时,容易出现模糊的状况,其实照片模糊了可以通过后期软件加工处理,但是ps操作很复杂,对我们有一定的技术基础要求,那么有没有别的图片处理工具呢? ps它的图片处理功能较为全…

【论文阅读笔记】LeSAM: Adapt Segment Anything Model for medical lesion segmentation

1.论文介绍 LeSAM: Adapt Segment Anything Model for medical lesion segmentation LeSAM:适用于医学病变分割的任意分割模型 2024年发表于 JBHI Paper 无code 2.摘要 Segment Anything Model,SAM是自然图像分割领域的一个基础性模型,取得…

计算机网络(6) TCP协议

TCP(Transmission Control Protocol,传输控制协议)是互联网协议套件中一种核心协议。它提供面向连接的、可靠的字节流传输服务,确保数据从一端正确无误地传输到另一端。TCP的主要特点包括: 可靠性:TCP使用…

怎么脚本ai创作?分享三个方法

怎么脚本ai创作?在数字化时代,AI技术正逐渐渗透到我们生活的方方面面,其中AI脚本创作软件的出现,极大地提高了创作效率,降低了创作门槛。今天,就为大家推荐三款备受好评的AI脚本创作软件,其中聪…

MyBatis 获取参数的两种方式

${paramName} 使用这种方式的结果是直接替换。 #{paramName} 使用这种方式的实现是占位符。(?)

昂辉科技EasySAR-BootLoader上位机产品

近年来,硬件标准化、同质化和软件差异化、复杂化成为了汽车产品研发的重要趋势。与此同时,大量的智能化功能和快速上车的节奏,对软件开发提出了更高的要求。在软硬件解耦的大背景下,建立统一的软件体系和开发工具以紧跟硬件更新迭…

UE4中性能优化工具合集

UE4中性能优化工具合集 简述CPUUnreal InsightUnreal ProfilerSimpleperfAndroid StudioPerfettoXCode TimeprofilerBest Practice GPUAdreno GPUMali GPUAndroid GPU Inspector (AGI) 内存堆内存分析Android StudioLoliProfilerUE5 Memory InsightsUnity Mono 内存MemreportRH…

JavaScript 基础 - 第2天【函数】

文章目录 前言一、声明和调用1、声明(定义)2、调用 二、参数三、返回值四、作用域1、全局作用域2、局部作用域 五、匿名函数1、函数表达式2、立即执行函数 前言 理解封装的意义,能够通过函数的声明实现逻辑的封装,知道对象数据类…

基于pytorch的LSTM模型训练与预测(附源码)

1.LSTM模型 关于这个模型的基本概念长短时记忆网络(LSTM)(超详细 |附训练代码)_lstm代码-CSDN博客可以查看这篇文章,写得很详细,我觉得能大概看明白反向传递各个部分的推导就行了。 2.pytorch的安装 我使用的是conda环境,在参照网上的安装过程…

EndNote 专业的文献管理软件下载,强大的引用和参考文献生成功能

EndNote,它以其强大的功能和便捷的操作赢得了广大学术工作者的青睐,成为了他们不可或缺的研究助手。 EndNote软件的出现,极大地简化了学术文献的管理和组织工作。用户只需将收集到的文献导入软件,便可轻松实现对文献的分类、排序和…

【APP移动端自动化测试】第四节.元素操作的API

文章目录 前言一、点击&输入&清空操作 1.1 点击元素 1.2 输入&清空元素二、获取文本内容&位置&大小操作 2.1 获取文本内容 2.2 获取位置&大小三、根据属性名获取属性值操作四、滑动和拖拽操作 4.1 _swipe 4.2 _scroll …

20240613确认飞凌的OK3588-C的核心板的HDMI IN功能

20240613确认飞凌的OK3588-C的核心板的HDMI IN功能 2024/6/13 16:09 v4l2-ctl --list-devices v4l2-ctl --list-formats-ext -d /dev/video8 【这里必须拿到HDMI OUT机芯的分辨率。如果拿不到,肯定硬件异常/线没有接好】 v4l2-ctl -V -d /dev/video8 gst-launch-1.…

宏电“灌区哨兵”助力灌区信息化建设,开启灌区“智水”时代

灌区是保障国家粮食安全的重要水利设施。“十四五”提出,要推进大中型灌区节水改造和精细化管理。灌区信息化是建设智慧水利、深化行业监管、提升灌区科学管理水平的基础支撑,也是“十四五”期间灌区现代化改造的重点内容之一。 宏电智慧灌区信息化解决方…

探秘扩散模型:训练算法与采样算法的双重解读

很早之前就新建了一个专栏从0开始弃坑扩散模型,但发了一篇文章就没有继续这一系列,在这个AIGC的时代,于是我准备重启这个专栏。 整个专栏的学习顺序可以见这篇汇总文章 很多时候我们看到一篇文章很长,难免会心生胆怯,所以我将这些…

docker的教程长亭

把我的常用docker写在这里 之前用 vul - hub 靶场经常用 现在docker不知道为什么挂了 开启 docker-compose up -d 关闭 docker-compose down docker ps 只是运行 docker ps -a 所有 包括停止 docker ps -q 只看id docker stop <container_name_or_id> docker 的容器…