【大模型】-名词手册-扫盲

news2026/3/27 15:46:56

写在前面本篇文章用来记录在了解学习大模型的过程中遇到的一些名词缩写好记性不如烂笔头记录下来也供大家参考。如有不正确的欢迎指正。目录写在前面名词扫盲写在后面名词扫盲分类缩写英文全程中文备注-----智能体通信协议A2AAgent to Agent智能体间的点对点协作AAMSAttention-aware Multi-stroke Style Transfer任意风格图像风格转移的[注意力感知]多笔触模型计算机视觉模型ADBAndroid Debug Bridge是一种命令行工具用于在开发者电脑与 Android 设备之间建立通信AgentADKAgent Development Kit智能体开发工具AgentAgent智能体让大模型“代理/模拟”「人」的行为使用某些“工具/功能”来完成某些“任务”的能力AIAGIartificial general intelligence强人工智能通用人工智能是具备与人类同等智能、或超越人类的人工智能AIAIArtificial Intelligence人工智能AIAI HallucinationsAI幻觉AIGCAIGCArtificial Intelligence Generated Content人工智能生成内容AIMEAmerican Invitational Mathematics Examination美国数学邀请赛AIANIArtificial Narrow Intelligence弱人工智能智能体通信协议ANPAgent Network Protocol智能体网络协议用于构建大规模智能体网络PEAPEAutomatic Prompt Engineering自动提示工程AIASIArtificial Super Intelligence超人工智能AZRAbsolute Zero Reasoner绝对零点推理器能够训练大型语言模型而无需任何外部人工标注数据TransformerBAAI General EmbeddingBeijing Academy of Artificial Intelligence北京智源人工智能研究院稠密向量LLMBase Model基座模型基座模型是一个通用的语言模型通常经过大量文本数据的预训练LLMBase LLM基础语言模型RAGBasic semantic similarity基本语义相似度检索技术Evaluationbenchmark基准测试TransformerBERTBidirectional Encoder Representation from Transformers双向编码器表示在2018年提出的一种预训练语言表示的方法BLEUBilingual Evaluation Understudy双语评估替换BLEU是一种用于评估机器翻译结果质量的指标。它主要侧重于衡量机器翻译输出与参考翻译之间的相似程度着重于句子的准确性和精确匹配。BPEByte Pair Encoding基于字节对编码主流的子词切分算法用于进行tokennization将输入文本拆分为tokenCBOWcontinuous bag of words连续词袋模型给定上下文来预测input wordChat Model聊天模型聊天模型是在基座模型的基础上特别针对对话生成进行了优化ClaudeAnthropic 开发的一系列高性能且智能的AI 模型。强调模型行为的安全性和可控性CECompaction压缩整合当对话接近上下文上限时对其进行高保真总结并用该摘要重启一个新的上下文窗口以维持长程连贯性。适合需要长对话连续性的任务强调上下文的“接力”。CLIPContrastive Language-Image Pretraining图文对比学习预训练多模态模型CNNConvolutional Neural Network卷积神经网络codeforces一个提供在线评测系统的俄罗斯网站COTChain Of Thought链式思维CPUCentral Processing Unit中央处理器处理器dify是一个开源的LLM 应用开发平台画布、工作流DAPODecoupled Clip and Dynamic Sampling Policy Optimization解耦裁剪与动态采样TransformerDecoder解码器塔#3.解码器单层N层堆叠通常N6同样由 N 个堆叠层组成比编码器多了一层掩码多头自注意力Masked Multi-Head Attention。作用是基于上下文向量已生成序列逐词生成目标文本DOMDocument Object Model文档对象模型DPUDeep learning Processing Unit深度学习处理器处理器DSLDomain Specific Language领域特定语言DPODirect Preference Optimization直接偏好优化跳过RM直接对齐人类喜好TransformerEncoder编码器塔#2.编码器单层N层堆叠通常N6由 N 个相同的堆叠层组成每层包含 “多头自注意力残差连接层归一化前馈神经网络”。作用是对输入序列进行特征提取输出包含全局语义信息的上下文向量ETLExtract-Transform-Load提取、转换和加载AIEmbodied AI具身智能Few-shot小样本少样本提示应至少使用三到五个示例Function Calling函数调用TransformerFFNFeed-Forward Neural Network前馈神经网络编码器和解码器每层都包含是独立的两层全连接网络作用是对注意力输出的特征做进一步非线性变换增强模型的拟合能力。FRCRNfrequency recurrence Convolutional Recurrent Network频率递归卷积循环网络语音模型用于降噪GeminiGoogle开发的生成式人工智能聊天机器人GGUFGPT-Generated Unified FormatGeorgi Gerganov定义发布的一种大模型文件格式(预训练结果的二进制格式)GLUEGeneral Language Understanding Evaluation通用语言理解评估基于已有的 9 种英文语言理解任务涵盖多种数据集大小/文本类型和难度。终极目标是推动研究开发通用和强大的自然语言理解系统GLMGeneralized Linear Model广义线性模型是一种用于描述响应变量与一组解释变量之间关系的统计模型Goal-Based Agent基于目标的智能体比如导航GoTGraph of Thoughts思维图将思维链构建成图结构支持循环、分支和整合GPUGraphics Processing Unit图形处理器处理器GPTGenerative Pre-trained Transformer生成式预训练变换器GPQAGrade-Level Problems in Question Answering专家级推理能力的问答基准GQAGrouped-Query Attention分组查询注意力GRPOGroup Relative Policy Optimization组相关策略优化是一种强化学习算法CEGSSCGather-Select-Structure-Compress1.【Gathe】r: 从多源收集候选信息历史、记忆、RAG、工具结果2. 【Select】: 基于优先级、相关性、多样性筛选 3. 【Structure】: 组织成结构化上下文模板 4. 【Compress】: 在预算内压缩与规范化上下文构建流程LLMGRUGate Recurrent Unit门控循环单元GSPOGroup Sequence Policy Optimization群组序列策略优化在序列级别进行裁剪优化比 PPO 更稳HITLHuman-in-the-loop人机交互是一种将人类判断和监督整合到AI系统决策过程中的设计理念RAGHyDEHypothetical Document Embeddings假设性文档嵌入它的核心思想是用答案找答案。HyDE通过让LLM先生成一个假设性的答案段落然后用这个答案段落去检索真实文档从而缩小了查询和文档之间的语义鸿沟。Including Metadata使用元数据检索技术Instruction Model指令模型指令模型是在基座模型上进行进一步训练以理解和执行用户的具体指令Instruction Tunned指令微调通过专门的训练可以更好地理解并遵循指令KLKullback-Leibler DivergenceKL散度约束训练模型不偏离原始模型LCELLangChain Core Execution LayerlangChain的新实现层Learning Agent学习型智能体LIMELocal Interpretable Model-agnostic Explanations局部可解释性模型诊断解释LoRALow-Rank Adaptation of Large Language Models大语言模型的低阶自适应LLMLarge Language Model大语言模型TransformerLayer Normalization层归一化层归一化是对单个样本的某一层所有神经元输出做 “标准化”LLM Aided RetrievalLLM辅助检索检索技术llamaLarge Language Model Meta AIMeta AI公司于2023年2月发布的大型语言模型TransformerLSTMLong-Short Term Memory长短时记忆网络解决RNN的梯度消失和爆炸问题添加了门控遗忘门/输入门/输出门TransformerMHAMulti-Head Attention多头注意力并行捕捉多重语义关联。这是自注意力机制的升级版把注意力拆分成多个 “头”每个头专注捕捉不同维度的语义关联比如语法关系、指代关系最后拼接结果让模型更全面地理解文本。MASMulti-Agent System多智能体系统MBRAModel-Based Reflex Agent基于模型的反射智能体智能体通信协议MCPModel Context Protocol模型上下文协议由Anthropic 推出的一种开放标准旨在统一大型语言模型LLM与外部数据源和工具之间的通信协议。CEMVTSMinimum Viable Tool Set最小可行工具集RAGmqeMulti-Query Expansion多查询扩展是一种通过生成语义等价的多样化查询来提高检索召回率的技术MLAMulti-Head Latent Attention多头潜在注意力架构TransformerMMHAMasked Multi-Head Attention掩码多头自注意力防止模型在生成时 “偷看” 未来的词MLMMasked Language Model掩码语言模型是一种自监督学习任务主要用于训练基于Transformer架构的模型如BERT、RoBERTa等MMLUMassive Multitask Language Understanding大规模的多任务测试MMRMaximum marginal relevance最大边际相关性是一种用于优化信息检索、推荐系统和文本摘要生成的算法。它通过在“相关性”和“多样性”之间取得平衡选择既与查询相关又不重复的内容从而提升结果的质量和实用性。MMR 的核心目标是同时优化两个关键因素【相关性】和【多样性】。相关性确保结果与用户查询高度匹配而多样性避免内容重复提供更全面的信息。MLEMaximum Likelihood Estimation最大似然估计用于计算词对的概率MoEMixture of Experts混合专家模型架构MQAMulti-Query Attention多查询注意力共享KV头加速推理省显存MSEMicroservices Engine微服务引擎MSEMTPMulti-Token Prediction多Token预测技术NLPNLPNatural Language Processing自然语言处理Neo4jGraph图存储NPUNeural network Processing Unit神经网络处理器处理器ollamaOllama是大语言模型便捷的管理和运维工具one-hot独热码将离散的分类标签转换为二进制向量One-shot单样本ORAObjective(目标)-Requirements(要求)-Actions(关键动作)长期计划的核心方法示例第一轮提问【目标】你希望这个情报分析伙伴主要关注哪个领域或主题比如特定行业、技术趋势、市场竞争、投资机会等【要求】你期望的交付频率是怎样的是每天、每周还是按需生成你偏好深度分析报告还是简洁的要点摘要【关键动作】除了常规的信息收集你希望分析报告包含哪些特定元素比如趋势预测、竞争对标、风险预警、机会识别等Transformer#4.输出层Output Layer功能线性层Softmax → 输出每个词的概率分布 → 选概率最高词输出Paraformer达摩院语音团队提出的一种高效的非自回归端到端语音识别框架语音模型PDDLPlanning Domain Deﬁnition Language规划领域定义语言PEASPerformance性能、Environment环境、Actuators执行器、Sensors传感器用于描述一个任务环境的规约TransformerPositional Encoding位置编码#1.输入层位置编码会给每个词向量添加位置信息让模型知道词语在句子中的先后顺序保证语义理解的准确性Prompt提示词即给大模型的输入将大模型返回的输出称为CompletionPEPEPrompt Engineering提示工程PPOProximal Policy Optimization近端策略优化主流的强化学习微调算法Prompt Rejection提示词注入Precision精确率又叫查准率但不等同于准确率精准率代表对正样本结果中的预测准确程度而准确率则代表整体的预测准确程度既包括正样本也包括负样本TransformerPretrain-Finetune预训练-微调Prompt Stuffing提示词填充QdrantquadrantRust编写的开源向量数据库与相似度搜索引擎同类产品Milvus/Go,C编写FAISS/适合离线批量处理RAGRAGRetrieval-Augmented Generation检索增强生成ReActReasoning and Action融合了Reasoning和Acting的一种范式推理过程是浅显易懂仅仅包含thought-action-observation步骤Recall召回率实际为正的样本中被预测为正样本的概率TransformerResidual Connection残差连接梯度可以通过这条「捷径」直接反向传播到前层避免梯度消失Retrieval检索指根据用户的问题去向量数据库中搜索与问题相关的文档内容RLReinforcement Learning强化学习RLRLAIFReinforcement Learning from AI FeedbackAI 反馈强化学习用强 AI 代替人类给模型打分降低成本RLRLHFReinforcement Learning from Human Feedback基于人类反馈对语言模型进行强化学习RMReward Model奖励模型模拟人类偏好给回答打分ROUGERecall-Oriented Understudy for Gisting Evaluation面向召回的要点评估替补主要关注机器生成的摘要中是否捕捉到了参考摘要的信息ROPERotary Positional Embeddings旋转位置编码它旨在解决 Transformer 模型如何理解序列中 token 顺序位置信息的问题RPARobotic Process Automation机器人流程自动化RRFReciprocal Rank Fusion倒数排名融合RWKVRecurrent Weighted Key Value基于RNN的加权键值LLMRNNRecurrent Neural Network循环神经网络【特点】具有“记忆”功能。在处理当前输入时它不仅考虑当前时刻的信息还结合了上一时刻的隐藏状态即之前的记忆像人阅读一样逐字逐词地按顺序处理信息。【局限】1、无法并行计算因为必须等上一步计算完才能算这一步速度较慢2、长距离依赖问题当序列很长时开头的记忆很容易在后面丢失即“梯度消失/爆炸”问题。【代表模型】LSTM, GRULLMSASelf-Attention自注意力机制它允许模型在处理序列中的某个元素时同时关注序列中的其他所有元素以计算它们之间的相关性。【特点】1、并行计算可以一次性处理整个序列速度极快2、捕捉长距离依赖无论两个词距离多远它们之间的计算路径长度都是 1能够完美捕捉长距离的上下文关系。【代表模型】Transformer, BERT, GPTSAEServerless App EngineServerless 应用引擎SAMSelf-Attention-Mechanism用于文本到语音的生成SCself consistency自我一致性SDDSpec-Driven Development (SDD) for AI coding assistants规约驱动开发SFTSupervised Fine-Tuning监督微调SHAPSHapley Additive exPlanations沙普利加和解释比较全能的模型可解释性的方法Skip-Gram给定input word来预测上下文Softmax归一化指数函数应用于多分类问题spaCy工业级自然语言处理 NLP功能的Python软件包SPLADESparse Lexical and Expansion Model for First Stage Ranking是一个基于BERT的稀疏编码模型SRASimple Reflex Agent反射智能体condition action rule达到条件触发规则SSEServer Sent Events服务器发送事件是Cline和MCP Server之间的一种通信方式,仅支持服务器 → 客户端消息SSMState Space Model状态空间模型Mamba 的核心架构推理速度快长文本强STDIOStandard Input Output标准输入/输出是Cline和MCP Server之间的一种通信方式CESub-agent architectures子代理架构由主代理负责高层规划与综合多个专长子代理在“干净的上下文窗口”中各自深挖、调用工具并探索最后仅回传凝练摘要。适合复杂研究与分析能从并行探索中获益。CEStructured note-taking结构化笔记也称“智能体记忆”。智能体以固定频率将关键信息写入上下文外的持久化存储在后续阶段按需拉回。以极低的上下文开销维持持久状态与依赖关系。例如维护 TODO 列表、项目 NOTES.md关键结论/依赖/阻塞项的索引。适合有里程碑/阶段性成果的迭代式开发与研究。SuperGLUESuper General-Purpose Language Understanding Evaluation超级通用语言理解评估SVMSupport Vector Machine支持向量机SWE-bench VerifiedSoftware Engineering软件工程基准测试SWIFTScalable lightWeight Infrastructure for Fine-Tuning轻量级训练和推理框架旨在帮助开发者高效地微调和部署大模型TAOThought思考-Action行动-观察Observationtemperature温度系数用于控制文本生成的随机性和多样性。值越大多样性越大值越小输出约倾向高概率文本TF-IDFTerm Frequency-Inverse Document Frequency词频逆文档频率评估一个词对整篇文档的重要程度。1.TF(t,d)理解一个词在文档中出现的越多理论上越重要。 2.IDF(t,D)某个词在整个文档集中的罕见程度。一个词在所有文档里出现得越少区分度越高 3.TF-IDFTF(t,d) x IDF(t,D): 词在文档中越常见在全库中越罕见 - TF-IDF越高 - 该文档越重要tiktokentiktoken 是一个为 OpenAI 模型设计的高性能 BPEByte Pair Encoding分词器。它能够快速将文本转换为模型可以理解的数字序列称为 tokens并且支持多种编码方式。ToTTree Of Thoughs思维树Tokenizer分词器TPOTTime Per Output Token平均每个输出Token的生成时间解码阶段衡量内容生成流畅度机器学习TPUTensor Processing Unit张量处理器处理器Transformer变换器架构TTFTTime To First Token从请求发送到收到第一个输出Token的时间衡量系统初始响应速度TTSText To Speech文本转语音Utility-Based Agent基于效用的智能体机器学习Vertex AIVertex AI 是一个机器学习 (ML) 平台可让您训练和部署机器学习模型和人工智能应用LLMvLLMVectorized Large Language Model serving engine/Virtual LLM向量/虚拟大模型伯克利大学LMSYS组织开源的大语言模型高速推理框架。引入了PagedAttention技术类似于操作系统的虚拟内存管理VLMVLMVision-Language Models视觉语言模型VQAVisual Question Answering视觉问答理解图像内容回答文本问题WAFWeb Application Firewall防火墙Word2Vec用于生成词嵌入word embeddings的高效方法YOLOYou Only Look OnceYOLO是一种基于深度学习的实时目标检测算法其核心理念是将目标检测任务转化为一个单一的回归问题。Zero-shot零样本----写在后面如果本文内容对您有价值或者有启发的话欢迎点赞、关注、评论和转发。您的反馈和陪伴将促进我们共同进步和成长。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.coloradmin.cn/o/2451297.html

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈，一经查实，立即删除！