大语言模型，视觉模型，全模态模型，语音模型和向量模型的区别和使用

news2026/3/30 12:48:19

1. 大语言模型Large Language Model, LLM定义以文本为输入生成文本的模型。特点输入输出都是自然语言或包含少量结构化的 prompt。擅长对话、写作、推理、代码生成等任务。在 LangChain 中LLM 是核心组件用于构建链Chain、代理Agent等。LangChain 中使用方式from langchain_community.chat_models import ChatTongyi llm ChatTongyi(modelqwen-max) # 可选 qwen-plus, qwen-turbo 等 response llm.invoke(用一句话介绍 Python) print(response.content)2. 视觉模型Vision Model定义能够处理图像输入的模型。特点输入可以是图像或图像文本输出为文本。常用于图像描述、视觉问答、目标检测等。LangChain 中使用方式from langchain_community.chat_models import ChatTongyi from langchain.schema import HumanMessage llm ChatTongyi(modelqwen-vl-plus) # 视觉语言模型 message HumanMessage( content[ {type: text, text: 描述这张图片}, {type: image_url, image_url: https://example.com/cat.jpg} ] ) response llm.invoke([message]) print(response.content)3. 全模态模型Omni-Modal Model定义能够处理多种模态文本、图像、音频、视频等的模型且往往能输出多种模态。特点输入和输出都可以是多种模态的组合。能够进行图像生成、音频识别等跨模态任务。目前多数商业模型已向全模态发展。LangChain 中使用方式from langchain_community.chat_models import ChatTongyi from langchain.schema import HumanMessage llm ChatTongyi(modelqwen-omni-turbo) message HumanMessage( content[ {type: text, text: 请分析这段视频的内容}, {type: video_url, video_url: https://example.com/demo.mp4} ] ) response llm.invoke([message]) print(response.content)4. 语音模型Speech Model定义专门处理语音信号的模型。包括语音识别ASR将语音转为文本如 Whisper。语音合成TTS将文本转为语音。语音理解直接对语音进行意图识别等。特点输入输出可能是音频文件或流。与 LLM 结合可用于语音对话系统。LangChain 中使用方式import dashscope dashscope.api_key os.getenv(DASHSCOPE_API_KEY) # 使用 paraformer-v1 模型识别音频文件 response dashscope.audio.asr.Transcription.call( modelparaformer-v1, file_urls[https://example.com/audio.wav] ) print(response.output[results][0][transcription])5. 向量模型Embedding Model定义将文本、图像等非结构化数据转换为固定长度的向量embedding。特点输入是文本或图像输出是向量数组如 1536 维。不生成自然语言而是用于相似度计算、检索、聚类等。与 LLM 最本质的区别LLM 生成文本向量模型不生成文本。LangChain 中使用方式from langchain_community.embeddings import DashScopeEmbeddings embeddings DashScopeEmbeddings(modeltext-embedding-v1) vector embeddings.embed_query(这是一个测试文本) print(len(vector)) # 输出向量维度如 1536 # 批量嵌入 vectors embeddings.embed_documents([文本1, 文本2])

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2465001.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！