各种类的模型OpenAI格式
各类模型的OpenAI格式支持程度差异很大下面逐一详细说明一、有官方OpenAI格式标准的模型类型1. Chat / Text Completion ✅ 最完整已如前述/v1/chat/completions是最成熟的标准。2. Embedding ✅ 有标准POST /v1/embeddings// 请求 { model: text-embedding-ada-002, input: 要向量化的文本, encoding_format: float // 或 base64 } // 响应 { object: list, data: [ { object: embedding, index: 0, embedding: [0.0023, -0.0089, ...] // 向量数组 } ], model: text-embedding-ada-002, usage: { prompt_tokens: 8, total_tokens: 8 } }Ollama、LocalAI、Jina、智谱等都兼容此格式。3. TTS文字转语音✅ 有标准POST /v1/audio/speech// 请求 { model: tts-1, input: 要朗读的文字, voice: alloy, // 音色 response_format: mp3, // mp3/opus/aac/flac speed: 1.0 } // 响应直接返回二进制音频流不是JSON4. ASR语音转文字/Whisper✅ 有标准POST /v1/audio/transcriptions POST /v1/audio/translations // 翻译成英文// 请求multipart/form-data file音频文件 modelwhisper-1 languagezh // 可选指定语言 response_formatjson // json/text/srt/vtt/verbose_json timestamp_granularities[]word // 词级时间戳 // 响应 { text: 转录出来的文字内容, // verbose_json时还有 segments、words 等详细信息 }faster-whisper、Whisper.cpp的服务端都兼容此格式。5. 多模态图文理解✅ 融合在Chat格式中不是独立端点而是在messages的content字段中扩展{ model: gpt-4o, messages: [ { role: user, content: [ { type: text, text: 这张图里有什么 }, { type: image_url, image_url: { url: https://example.com/image.jpg, // 或 base64: data:image/jpeg;base64,/9j/... detail: high // low/high/auto } } ] } ] }6. 文生图 ✅ 有标准POST /v1/images/generations// 请求 { model: dall-e-3, prompt: 一只宇航员猫咪, n: 1, // 生成数量 size: 1024x1024, quality: standard, // standard/hd style: vivid, // vivid/natural response_format: url // url 或 b64_json } // 响应 { created: 1713000000, data: [ { url: https://...生成图片的URL..., revised_prompt: OpenAI修改后的实际prompt } ] }也有图片编辑端点/v1/images/edits和变体端点/v1/images/variations二、没有官方OpenAI标准、各家自行定义的类型7. Rerank ❌ 无统一标准OpenAI本身没有Rerank端点各家实现不同服务商端点特点CoherePOST /v1/rerank业界最常见的参考格式Jina AIPOST /v1/rerank兼容Cohere格式智谱、硅基流动各自定义大体类似Cohere格式事实标准// 请求 { model: rerank-english-v3.0, query: 什么是机器学习, documents: [文档1内容, 文档2内容, 文档3内容], top_n: 3 } // 响应 { results: [ { index: 2, relevance_score: 0.98 }, { index: 0, relevance_score: 0.76 }, { index: 1, relevance_score: 0.21 } ] }8. OCR ❌ 无统一标准OpenAI没有专用OCR端点通常有两种路径走多模态Chat接口GPT-4o可以做OCR但走的是/v1/chat/completions专用OCR服务如 Mistral OCR、Mathpix、百度OCR各自有专属API格式完全不同// Mistral OCR 示例非OpenAI格式 POST /v1/ocr { model: mistral-ocr-latest, document: { type: image_url, image_url: https://... } }9. 文生视频 ❌ 无统一标准OpenAI的Sora API目前格式仍在变化中各家完全不同服务商备注Sora (OpenAI)/v1/video/generations但未广泛开放Kling (快手)自有格式Wan (阿里)自有格式Runway, Pika各自REST API目前没有任何事实标准。三、总结对照表模型类型OpenAI标准端点标准化程度备注Chat/LLM/v1/chat/completions⭐⭐⭐⭐⭐最完善的事实标准Embedding/v1/embeddings⭐⭐⭐⭐⭐高度统一ASR/v1/audio/transcriptions⭐⭐⭐⭐Whisper格式广泛兼容TTS/v1/audio/speech⭐⭐⭐有标准但兼容不多多模态理解/v1/chat/completions扩展⭐⭐⭐⭐融合在Chat格式中文生图/v1/images/generations⭐⭐⭐有标准兼容服务较少Rerank❌ 无⭐⭐Cohere格式是非官方标准OCR❌ 无⭐各家自定义文生视频❌ 无⭐完全碎片化核心结论OpenAI格式在文本类任务Chat、Embedding上已是无可争议的行业标准在音频、图像生成上有官方规范但兼容生态较弱在Rerank、OCR、文生视频等领域OpenAI要么没有涉及要么尚未形成标准各家实现各行其是。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2516042.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!