LLMs可以进行任务规划吗?如果不行,LLMs+GNN可以吗?

news2025/5/26 6:27:47

深度图学习与大模型LLM(小编): 大家好,今天向大家介绍一篇最新发布的研究论文(20240530)。这篇论文探讨了如何通过引入GNN来提高大模型在任务规划(task planning)中的性能。*论文分析了LLMs在任务规划上的局限性,并提出了一种简单而有效的解决方案。*

img

1. 基本信息

论文题目:Can Graph Learning Improve Task Planning?

作者:Xixi Wu, Yifei Shen, Caihua Shan, Kaitao Song, Siwei Wang, Bohang Zhang, Jiarui Feng, Hong Cheng, Wei Chen, Yun Xiong, Dongsheng Li

作者研究单位:

  • Fudan University
  • Microsoft Research Asia
  • Peking University
  • Washington University, Saint Louis
  • The Chinese University of Hong Kong
  • 论文代码:https://github.com/WxxShirley/GNN4TaskPlan

2. 研究背景

任务规划旨在将用户的请求分解为可解决的子任务,进而完成原始请求。

在任务规划中,子任务可以表示为一个图(graph),其中节点代表子任务,边表示子任务之间的关系。因此,任务规划本质上是在图上选择一条连通路径或子图并执行的决策问题。 基于这一视角,本文分析了LLMs在任务规划中的能力。研究发现,LLMs在识别任务结构方面存在一定的局限性。

本文首先调研了Transformer在处理序列化图输入(如边列表表示)的图任务时的能力。实验发现,尽管边列表输入并不能直接反映图的几何结构,但可以通过模拟边列表上的动态规划算法来解决图决策问题。但是,本文也发现LLMs的解决方案缺乏图同构不变性。 此外,如果注意力(attention)是稀疏的,表达能力会被削弱。 除了表达能力外,本文还考察了自回归损失(auto-regressive loss)的影响,证明其引入了可能有害于图决策任务的虚假相关性。 这些insight揭示了LLMs在任务规划以及更广泛的图相关问题中的固有局限性。

为了解决这些局限性,本文用LLMs将模糊的用户请求分解为详细的步骤。然后,利用GNN根据这些详细步骤和对应的子任务描述来检索相关的子任务。值得注意的是,如果采用无参数的GNN模型(如SGC),该方法可以在无需训练的情况下实现。对于基于训练的方法,本文应用贝叶斯个性化排序(Bayesian Personalized Ranking, BPR)损失来促进从隐式子任务排序中学习。

3. 方法

与LLMs不同,*GNNs可以严格地在任务图上操作,从而避免产生幻觉(hallucination)。*此外,*GNNs利用图结构作为输入,而不是将图展平为序列,从而克服了前面讨论的理论局限性。*

具体来说,本文考虑了training-free和基于training-based两种方法。

对于training-free的方法,本文采用了参数无关的GNN,即简化图卷积(Simplified Graph Convolution, SGC):

在为步骤选择任务节点时,使用e5-355M嵌入LLMs生成的步骤为。给定先前选择的任务节点序列,根据以下公式选择下一个节点:

其中是节点嵌入。特别地,可以从整个图中选择。这种逐个节点选择的方法受到GNNs用于组合优化等决策问题的传统研究的启发。

对于training-based的方法,推理过程与无需训练的方法类似,不同之处在于用参数化的GNN(如GAT或GraphSAGE)替代了无参数的GNN。训练损失采用贝叶斯个性化排序(BPR)损失:

其中表示由e5-355M生成的步骤的文本描述的嵌入,是正样本(ground-truth)任务,是负样本任务。本文选择与正样本在文本上相似的任务作为负样本,并为每个正样本限制选择2个负样本以提高计算效率。可训练参数可能仅包括GNNs,也可能同时包括GNNs和e5-355M。

4. 实验发现

本文在4个数据集上进行了广泛的实验,包括:

  • HuggingFace tasks
  • Multimedia tasks
  • Daily Life API tasks (来自TaskBench)
  • TMDB API tasks (来自RestBench)

实验结果表明:

  1. 与直接使用LLMs相比,引入SGC始终可以提高性能,突出了所提出方法的有效性。 尽管GraphSearch类型的方法可以通过更长的处理时间获得更好的结果,但本文提出的方法可以在计算代价减少5-10倍的情况下实现相当或更好的性能。
  2. 与无需训练的方法相比,采用基于训练的GraphSAGE方法可以显著提高性能。 值得注意的是,GNNs与e5-355M的联合训练并没有带来显著的改进,这表明消息传递(message passing)是提高性能的关键因素。
  3. 所提出的方法与改进的提示(prompt)以及微调(fine-tuning)技术正交。 将GNN应用于改进的提示模板或微调后的LLMs,可以进一步提高性能。
  4. 训练成本非常低 因为本文使用e5-355M作为GNNs的文本嵌入模型。如果可训练参数仅限于GNNs,训练通常在3分钟内完成。此外,当GNNs与e5-355M模型联合训练时,训练时长也仅为15分钟。这与微调开源LLMs所需的10-20小时形成鲜明对比。

5. 结论

本文探讨了基于图学习的任务规划方法。通过理论分析,揭示了注意力机制的归纳偏差和自回归损失的效用阻碍了LLMs在任务规划中的有效性。 为了解决这些局限性,本文提出了将GNNs引入任务图分析,在不同的LLMs和数据集上均取得了性能提升。

尽管取得了令人鼓舞的性能,但仍存在一些值得进一步探索的局限性和机遇:

  1. 本文提出的方法虽然有效,但仍然比较简单。更复杂的基于GNN的决策算法有望进一步改进性能。

  2. 目前的框架中,GNNs作为一个外部模块,与LLMs的交互有限。探索GNNs和LLMs的协同作用,特别是将GNN输出作为LLMs中的Token,是一个有趣的研究方向。

  3. 当前任务图的构建仍需要人工努力。研究用于此应用的自动图生成技术是另一个有前景的未来工作方向。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/1917679.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

【面试题】防火墙的部署模式有哪些?

防火墙的部署模式多种多样,每种模式都有其特定的应用场景和优缺点。以下是防火墙的主要部署模式: 一、按工作模式分类 路由模式 定义:当防火墙位于内部网络和外部网络之间时,需要将防火墙与内部网络、外部网络以及DMZ&#xff0…

昇思学习打卡-17-热门LLM及其他AI应用/基于MobileNetv2的垃圾分类

文章目录 网络介绍读取数据集训练训练策略模型保存损失函数优化器模型训练 网络介绍 MobileNetv2专注于移动端、嵌入式或IoT设备的轻量级CNN网络。MobileNet网络使用深度可分离卷积(Depthwise Separable Convolution)的思想在准确率小幅度降低的前提下&…

九.核心动画 - 显式动画

引言 本篇博客紧接着上一篇的隐式动画开始介绍显式动画。隐式动画是创建动态页面的一种简单的直接的方式,也是UIKit的动画机制基础。但是它并不能涵盖所有的动画类型。 显式动画 接下来我们就来研究另外一种动画显式动画,它能够对一些属性做指定的动画…

北斗GPS天线使用技巧与性能对比

北斗GPS天线使用中注意的问题 多系统兼容性:确保天线不仅能接收北斗信号,还能同时接收其他GNSS系统(如GPS、GLONASS、Galileo)的信号,以提高定位精度和可靠性。 信号频率选择:根据应用需求选择合适的信号…

【RHCE】实验(HTTP,DNS,SELinux,firewalld的运用)

一、题目 二、主服务器配置 1.下载HTTP服务,DNS服务 [rootlocalhost ~]# yum install -y httpd bind 2.开启防火墙,放行服务 # 开启防火墙 [rootlocalhost ~]# systemctl start firewalld # 放行服务 [rootlocalhost ~]# firewall-cmd --add-service…

【linux服务器】大语言模型实战教程:LLMS大模型快速部署到个人服务器

🎬 鸽芷咕:个人主页 🔥 个人专栏: 《C干货基地》《粉丝福利》 ⛺️生活的理想,就是为了理想的生活! 引言 说到大语言模型相信大家都不会陌生,大型语言模型(LLMs)是人工智能文本处理的主要类型,也现在最流行的人工智能…

市场趋势的智能预测:Kompas.ai如何洞察未来市场动向

在商业领域,市场趋势预测是企业制定战略规划和做出明智决策的关键。准确把握市场动向能够帮助企业及时调整战略,抓住机遇,规避风险。Kompas.ai,一款先进的人工智能市场分析工具,正通过其深度学习和数据分析能力&#x…

漏洞中有三分之一具有严重且高风险

首发公众号网络研究观,微信搜索关注每日获取更多内容。 在大多数项目中,发现了低复杂度(38%)和中等复杂度(50%)的攻击向量,即使是低技能的黑客也可以执行这些攻击向量。 Positive Technologie…

变量和常量(局部变量和全局变量)

常变的值叫变量,不变的值叫常量 变量分为局部变量和全局变量 在同一范围内,变量只能定义一次,否则就会报错 全部变量和局部变量是可以同时存在的,不过使用的时候是局部优先 变量如果你不给他初始化,那么他放得就是一…

ICC2:如何检查input floating

我正在「拾陆楼」和朋友们讨论有趣的话题,你⼀起来吧? 拾陆楼知识星球入口 input floating分为两种情况: input没接net的情况: get_flat_pins -f "direction ==in && undefined(net)" input接net…

解决fidder小黑怪倒出JMeter文件缺失域名、请求头

解决fidder小黑怪倒出JMeter文件缺失域名、请求头 1、目录结构: 2、代码 coding:utf-8 Software:PyCharm Time:2024/7/10 14:02 Author:Dr.zxyimport zipfile import os import xml.etree.ElementTree as ET import re#定义信息头 headers_to_extract [Host, Conn…

springboot轻松音乐-计算机毕业设计源码48092

目 录 摘要 1 绪论 1.1研究背景与意义 1.2研究现状 1.3论文结构与章节安排 2 基于微信小程序的轻松音乐系统分析 2.1 可行性分析 2.1.1 技术可行性分析 2.1.2 经济可行性分析 2.1.3 法律可行性分析 2.2 系统功能分析 2.2.1 功能性分析 2.3 系统用例分析 2.4 系统…

将charles证书放置根文件夹目录下

一:证书导出重命名 先将charles证书导出,然后使用下列命令将charles证书文件重命名 openssl x509 -inform DER -subject_hash_old -in FiddlerRoot.cer 将文件命名为e5472ab9.0 二:文件移动 我在一台pixcel 5尝试将charles证书移动到安卓跟文件目录下,即显示文件只可读不可…

知识链:知识图谱提升大模型的推理能力,解决多个知识点结合推理时出错

知识链:知识图谱提升大模型的推理能力,解决多个知识点结合推理时出错 提出背景解法拆解逻辑链 CoK 框架hop 步骤处理肺炎疑似病例2-hop规则的应用3-hop规则的应用4-hop规则的应用CoK(T&E)方法的优势 CoK 算法步骤数据集构建 知…

什么是工业4.0?

在当今这个日新月异的时代,科技的每一次飞跃都深刻地改变着我们的生活与工作方式。而在这场全球性的变革中,工业4.0不仅代表了制造业的未来趋势,更是全球经济发展的新引擎。那么,究竟什么是工业4.0?它如何重塑我们的工…

nginx正向代理、反向代理、负载均衡

nginx.conf nginx首要处理静态页面 反向代理 动态请求 全局模块 work processes 1; 设置成服务器内核数的两倍(一般不不超过8个超过8个反而会降低性能一般4个 1-2个也可以) netstat -antp | grep 80 查端口号 *1、events块:* 配置影响ngi…

赛迪顾问ITSS服务经理发布多项2024年IT趋势报告

在深入探讨算力、工业控制系统、网络安全、数据治理、人工智能、数字化转型、5G通信等12大IT关键领域的基础上,赛迪顾问ITSS服务经理于1月16日以“乘势而上,及锋而试”为主题,成功举办了2024年IT趋势发布会。 会议聚焦IT行业的新技术、新模式…

p14数组(2)

数组作为函数的参数 冒泡排序 两两比较 void bubble_sort(int arr[],int sz) {int i0;for(i0;i<sz-1;i){//每一趟冒泡排序int j0;for(j0;j<sz-1-i;j){if(arr[j]>arr[j1]){int tmparr[j];arr[j]arr[j1];arr[j1]tmp;}}} } int main(){int arr[]{9,8,7,6,5,4,3,2,1,0}…

镜像加速方法

参考&#xff1a; https://github.com/DaoCloud/public-image-mirror 使用DaoCloud加速&#xff1a; 比如我想在dockerhub下载这个镜像&#xff1a; 本来的命令是&#xff1a; docker pull openjdk:11.0-jdk-slim-buster在要拉取的镜像前&#xff0c;添加前缀&#xff1a;m.…

网络安全从业人员必知的ClamAV工具(非常详细)零基础入门到精通,收藏这一篇就够了

一、引言 ClamAV&#xff08;Clam AntiVirus&#xff09;是一个开源的防病毒工具&#xff0c;广泛应用于网络安全领域。它的主要功能包括病毒扫描、恶意软件检测、以及电子邮件网关的病毒防护。ClamAV以其高效的性能和灵活的配置选项&#xff0c;成为网络安全从业人员的重要工…