GraphRAG大模型在药物发现中玩出新花样!揭秘潜在知识图谱的惊人能力!

news2026/4/3 0:18:12
本文深入探讨了Microsoft GraphRAG在药物发现领域的应用通过构建科学文献的潜在知识图谱测试了其检索和合成能力。实验揭示了LLM在处理复杂查询中的优势与局限强调了语料质量和LLM选择的重要性。GraphRAG展现了高效从非结构化数据中提取洞见的能力为企业、研究机构和投资者提供了优化AI驱动研发流程的实用洞见。摘要本文探讨了潜在知识图谱的概念并通过实验评估Microsoft GraphRAG在药物发现领域的应用。从科学文献中构建隐式关系图测试其检索和合成能力揭示LLM在复杂查询中的优势与局限。适合AI与药物研发专业人士参考。在人工智能与药物发现的交叉领域知识图谱作为一种强大的工具能够从海量非结构化数据中提取隐含关系帮助研究者快速识别潜在药物靶点。近年来Microsoft推出的GraphRAG系统以其动态构建潜在知识图谱的能力备受关注。本文基于一篇Medium文章的实验内容详细阐述潜在知识图谱的核心原理并通过实际实施案例评估GraphRAG在处理科学文献时的效能。该实验聚焦于药物发现靶点识别旨在为企业、研究机构和投资者提供实用洞见帮助优化AI驱动的研发流程。潜在知识图谱隐式关系的强大表示知识图谱传统上依赖预定义的结构如本体ontologies来捕捉实体间的明确关系。然而在复杂的数据环境中许多关系是隐含的无法通过固定框架完全表达。这时潜在知识图谱Latent Knowledge Graphs应运而生。这些图谱是通过学习数据中的隐式模式生成的图表示形式无需预设结构就能捕捉实体间的潜在连接。具体而言潜在图谱通过以下机制推断隐藏连接解耦嵌入Disentangled Embeddings将对象特征分离例如在医学图像中区分手术工具与器官。这种方法打破了传统图谱的本体约束实现更灵活的表示。图神经网络Graph Neural Networks利用链接预测link prediction技术预测未观察到的边际关系。多尺度关系编码Multi-scale Relation Encoding结合局部对象位置与全局场景上下文提供全面的语义理解。这些技术使得潜在图谱特别适用于非结构化数据如科学论文或临床报告。Microsoft的GraphRAG便是这一理念的典型应用。它是一种基于文本的潜在图谱系统通过大型语言模型LLM动态提取和总结内容以增强检索增强生成RAG式的检索与推理能力。GraphRAG的核心在于“即时”构建知识图谱避免了传统方法中手动标注的繁琐过程。然而一个显著挑战是依赖LLM可能引入幻觉hallucinations和语义漂移semantic drift特别是在特征提取和社区报告生成阶段。GraphRAG不涉及知识图谱嵌入的深入讨论如距离匹配与语义匹配的 grounding 问题感兴趣读者可参考相关文献。本文重点通过实验验证其在 grounding 方面的表现。实验设计从科学文献构建潜在知识图谱为评估GraphRAG在药物发现中的潜力本实验的主要目标包括从科学文章中构建潜在知识图谱。测试系统检索和合成信息的能力针对多种科学问题。观察不同LLM在聊天/合成组件中的影响对查询成功率和答案质量的影响。未来计划包括将事实 grounding 到流行生物医学本体并重新评估结果。实验语料通过Perplexity.AI辅助收集聚焦药物发现靶点识别的高质量开放访问资源如PubMed Central (PMC)、Europe PMC、bioRxiv等。最终选定6篇相关PDF文章并使用Microsoft的MarkItDown库转换为Markdown格式便于处理。使用的文章包括A comprehensive map of molecular drug targets (PMC6314433)Therapeutic target database update 2022 (bioRxiv/TTD)Leveraging big data to transform target selection (PMC4785018)Comprehensive Survey of Recent Drug Discovery Using Big Data (Europe PMC)Discovering protein drug targets using knowledge graph (bioRxiv)Utilizing graph machine learning within drug discovery (bioRxiv)这些文章覆盖了分子靶点映射、大数据应用、知识图谱在靶点发现中的作用等主题提供了一个代表性的药物发现语料库。实验环境搭建在M1-Max Mac Studio上使用Ollama运行本地模型进行索引通过Openrouter.ai的模型进行查询。LLM选择考虑成本与性能平衡例如OpenAI的gpt-4o-mini在科学任务中表现突出。示例查询测试GraphRAG的科学推理能力为全面评估系统设计了以下10个针对药物发现的查询。这些问题涵盖新兴靶点识别、蛋白质验证、多组学整合等专业主题旨在模拟研究者和投资者的实际需求“What are emerging therapeutic targets for non-small cell lung cancer identified in the last five years?”过去五年内非小细胞肺癌的新兴治疗靶点是什么“Which proteins have been implicated as druggable targets in CRISPR screens for metabolic diseases?”在代谢疾病的CRISPR筛选中哪些蛋白被暗示为可药物化靶点“List novel kinase targets associated with resistance to current melanoma therapies.”列出与当前黑色素瘤疗法耐药相关的 novel 激酶靶点。“Summarize recent advances in computational methods for target identification in rare genetic disorders.”总结罕见遗传障碍中靶点识别的计算方法最新进展。“What are the most frequently validated targets in published high-throughput screening studies for neurodegenerative diseases?”在已发表的高通量筛选研究中神经退行性疾病的最常验证靶点是什么“Which disease pathways have newly identified protein targets with available structural data?”哪些疾病通路中新识别的蛋白靶点具有可用结构数据“Find articles reporting on target deconvolution methods in phenotypic drug discovery.”查找报道表型药物发现中靶点解卷积方法的文章。“Summarize the use of knowledge graphs for predicting novel drug-target interactions.”总结知识图谱在预测新型药物-靶点相互作用中的应用。“What are the most cited targets for immuno-oncology drug development in the last three years?”过去三年免疫肿瘤药物开发中最被引用的靶点是什么“Which targets have been identified using multi-omics integration in cardiovascular disease research?”在心血管疾病研究中使用多组学整合识别的靶点有哪些这些查询强调了GraphRAG在处理特定领域、时间敏感和综合性问题时的能力。此处插入图像GraphRAG由Midjourney生成展示系统架构的视觉化表示包括文本提取、图构建和查询响应流程。实验结果性能分析与洞见在实验中OpenAI的gpt-4o-mini展现出最佳的性能与成本平衡。它成功处理了大多数复杂总结和信息提取查询并在Openrouter.ai的科学排行榜上位居第一。GraphRAG的合成能力依赖于索引文档中的信息。如果关键事实缺失再强的提示工程或模型也无法生成准确答案。这在高度特定的查询中尤为明显例如要求排名列表如“最被引用”或量化细节时系统表现欠佳。除非输入数据结构化或明确提及否则本地搜索也难以优化。这可能源于语料规模有限。同一模型和数据下不同运行对Query 5的变异结果突显了LLM的概率性质即幻觉风险以及文档块检索和映射步骤的变异性。对于需要高确定性的应用这是一个关键考虑因素。总体而言GraphRAG结合gpt-4o-mini在索引科学文章语料并提供详细、综合答案方面表现出色。它能处理领域特定复杂问题生成连贯的合成报告。小型模型如gpt-4o-nano适合简单查询或极端成本限制但在大规模综合中可能力不从心。对于因信息缺失失败的查询如Query 2、9、10解决方案在于 curation 更全面的输入文档。这强调了语料质量对系统效能的重要性。图统计与社区分析深入GraphRAG的内部机制作为Graph爱好者的额外福利实验生成的图统计显示从6篇文章中提取了3224个实体、2242个关系并生成了约167个社区报告。知识图谱以“人”节点作为参考起点个人链接到其出版物并进一步扩展。默认提取提示使用组织、姓名、地理作为实体示例因此这些类型被优先识别。修改实体提取特征的细节可参考官方文档系统还支持使用NLTK工具包进行特征提取。这些图随后被分组为社区每个社区生成总结报告。例如前两个社区的总结可能涵盖药物靶点数据库更新与大数据在靶点选择中的作用。社区报告被向量化与其他数据一同搜索它们拥有独立嵌入。GraphRAG虽不直接使用知识嵌入但通过多层嵌入详见第7节的三层嵌入描述缓解了边际和关系绑定问题。值得一提的是所有提示均为默认但提示调优指南可进一步提升性能。其中Auto Tune工具类似于基于能力问题的实体生成方法能自动优化提取过程。结论与未来方向GraphRAG在药物发现中的应用令人印象深刻。它不仅简化了从非结构化科学文献中提取洞见的过程还为靶点识别提供了高效的推理框架。对于企业研发团队和投资者而言这意味着更快的创新周期和更精准的投资决策。实验代码由Google Gemini 2.5 Pro与Cursor生成完整项目可在GitHub上获取01什么是AI大模型应用开发工程师如果说AI大模型是蕴藏着巨大能量的“后台超级能力”那么AI大模型应用开发工程师就是将这种能量转化为实用工具的执行者。AI大模型应用开发工程师是基于AI大模型设计开发落地业务的应用工程师。这个职业的核心价值在于打破技术与用户之间的壁垒把普通人难以理解的算法逻辑、模型参数转化为人人都能轻松操作的产品形态。无论是日常写作时用到的AI文案生成器、修图软件里的智能美化功能还是办公场景中的自动记账工具、会议记录用的语音转文字APP这些看似简单的应用背后都是应用开发工程师在默默搭建技术与需求之间的桥梁。他们不追求创造全新的大模型而是专注于让已有的大模型“听懂”业务需求“学会”解决具体问题最终形成可落地、可使用的产品。CSDN粉丝独家福利给大家整理了一份AI大模型全套学习资料这份完整版的 AI 大模型学习资料已经上传CSDN朋友们如果需要可以扫描下方二维码点击下方CSDN官方认证链接免费领取【保证100%免费】02AI大模型应用开发工程师的核心职责需求分析与拆解是工作的起点也是确保开发不偏离方向的关键。应用开发工程师需要直接对接业务方深入理解其核心诉求——不仅要明确“要做什么”更要厘清“为什么要做”以及“做到什么程度算合格”。在此基础上他们会将模糊的业务需求拆解为具体的技术任务明确每个环节的执行标准并评估技术实现的可行性同时定义清晰的核心指标为后续开发、测试提供依据。这一步就像建筑前的图纸设计若出现偏差后续所有工作都可能白费。技术选型与适配是衔接需求与开发的核心环节。工程师需要根据业务场景的特点选择合适的基础大模型、开发框架和工具——不同的业务对模型的响应速度、精度、成本要求不同选型的合理性直接影响最终产品的表现。同时他们还要对行业相关数据进行预处理通过提示词工程优化模型输出或在必要时进行轻量化微调让基础模型更好地适配具体业务。此外设计合理的上下文管理规则确保模型理解连贯需求建立敏感信息过滤机制保障数据安全也是这一环节的重要内容。应用开发与对接则是将方案转化为产品的实操阶段。工程师会利用选定的开发框架构建应用的核心功能同时联动各类外部系统——比如将AI模型与企业现有的客户管理系统、数据存储系统打通确保数据流转顺畅。在这一过程中他们还需要配合设计团队打磨前端交互界面让技术功能以简洁易懂的方式呈现给用户实现从技术方案到产品形态的转化。测试与优化是保障产品质量的关键步骤。工程师会开展全面的功能测试找出并修复开发过程中出现的漏洞同时针对模型的响应速度、稳定性等性能指标进行优化。安全合规性也是测试的重点需要确保应用符合数据保护、隐私安全等相关规定。此外他们还会收集用户反馈通过调整模型参数、优化提示词等方式持续提升产品体验让应用更贴合用户实际使用需求。部署运维与迭代则贯穿产品的整个生命周期。工程师会通过云服务器或私有服务器将应用部署上线并实时监控运行状态及时处理突发故障确保应用稳定运行。随着业务需求的变化他们还需要对应用功能进行迭代更新同时编写完善的开发文档和使用手册为后续的维护和交接提供支持。03薪资情况与职业价值市场对这一职业的高度认可直接体现在薪资待遇上。据猎聘最新在招岗位数据显示AI大模型应用开发工程师的月薪最高可达60k。在AI技术加速落地的当下这种“技术业务”的复合型能力尤为稀缺让该职业成为当下极具吸引力的就业选择。AI大模型应用开发工程师是AI技术落地的关键桥梁。他们用专业能力将抽象的技术转化为具体的产品让大模型的价值真正渗透到各行各业。随着AI场景化应用的不断深化这一职业的重要性将更加凸显也必将吸引更多人才投身其中推动AI技术更好地服务于社会发展。CSDN粉丝独家福利给大家整理了一份AI大模型全套学习资料这份完整版的 AI 大模型学习资料已经上传CSDN朋友们如果需要可以扫描下方二维码点击下方CSDN官方认证链接免费领取【保证100%免费】

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2477079.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

SpringBoot-17-MyBatis动态SQL标签之常用标签

文章目录 1 代码1.1 实体User.java1.2 接口UserMapper.java1.3 映射UserMapper.xml1.3.1 标签if1.3.2 标签if和where1.3.3 标签choose和when和otherwise1.4 UserController.java2 常用动态SQL标签2.1 标签set2.1.1 UserMapper.java2.1.2 UserMapper.xml2.1.3 UserController.ja…

wordpress后台更新后 前端没变化的解决方法

使用siteground主机的wordpress网站,会出现更新了网站内容和修改了php模板文件、js文件、css文件、图片文件后,网站没有变化的情况。 不熟悉siteground主机的新手,遇到这个问题,就很抓狂,明明是哪都没操作错误&#x…

网络编程(Modbus进阶)

思维导图 Modbus RTU(先学一点理论) 概念 Modbus RTU 是工业自动化领域 最广泛应用的串行通信协议,由 Modicon 公司(现施耐德电气)于 1979 年推出。它以 高效率、强健性、易实现的特点成为工业控制系统的通信标准。 包…

UE5 学习系列(二)用户操作界面及介绍

这篇博客是 UE5 学习系列博客的第二篇,在第一篇的基础上展开这篇内容。博客参考的 B 站视频资料和第一篇的链接如下: 【Note】:如果你已经完成安装等操作,可以只执行第一篇博客中 2. 新建一个空白游戏项目 章节操作,重…

IDEA运行Tomcat出现乱码问题解决汇总

最近正值期末周,有很多同学在写期末Java web作业时,运行tomcat出现乱码问题,经过多次解决与研究,我做了如下整理: 原因: IDEA本身编码与tomcat的编码与Windows编码不同导致,Windows 系统控制台…

利用最小二乘法找圆心和半径

#include <iostream> #include <vector> #include <cmath> #include <Eigen/Dense> // 需安装Eigen库用于矩阵运算 // 定义点结构 struct Point { double x, y; Point(double x_, double y_) : x(x_), y(y_) {} }; // 最小二乘法求圆心和半径 …

使用docker在3台服务器上搭建基于redis 6.x的一主两从三台均是哨兵模式

一、环境及版本说明 如果服务器已经安装了docker,则忽略此步骤,如果没有安装,则可以按照一下方式安装: 1. 在线安装(有互联网环境): 请看我这篇文章 传送阵>> 点我查看 2. 离线安装(内网环境):请看我这篇文章 传送阵>> 点我查看 说明&#xff1a;假设每台服务器已…

XML Group端口详解

在XML数据映射过程中&#xff0c;经常需要对数据进行分组聚合操作。例如&#xff0c;当处理包含多个物料明细的XML文件时&#xff0c;可能需要将相同物料号的明细归为一组&#xff0c;或对相同物料号的数量进行求和计算。传统实现方式通常需要编写脚本代码&#xff0c;增加了开…

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器的上位机配置操作说明

LBE-LEX系列工业语音播放器|预警播报器|喇叭蜂鸣器专为工业环境精心打造&#xff0c;完美适配AGV和无人叉车。同时&#xff0c;集成以太网与语音合成技术&#xff0c;为各类高级系统&#xff08;如MES、调度系统、库位管理、立库等&#xff09;提供高效便捷的语音交互体验。 L…

(LeetCode 每日一题) 3442. 奇偶频次间的最大差值 I (哈希、字符串)

题目&#xff1a;3442. 奇偶频次间的最大差值 I 思路 &#xff1a;哈希&#xff0c;时间复杂度0(n)。 用哈希表来记录每个字符串中字符的分布情况&#xff0c;哈希表这里用数组即可实现。 C版本&#xff1a; class Solution { public:int maxDifference(string s) {int a[26]…

【大模型RAG】拍照搜题技术架构速览:三层管道、两级检索、兜底大模型

摘要 拍照搜题系统采用“三层管道&#xff08;多模态 OCR → 语义检索 → 答案渲染&#xff09;、两级检索&#xff08;倒排 BM25 向量 HNSW&#xff09;并以大语言模型兜底”的整体框架&#xff1a; 多模态 OCR 层 将题目图片经过超分、去噪、倾斜校正后&#xff0c;分别用…

【Axure高保真原型】引导弹窗

今天和大家中分享引导弹窗的原型模板&#xff0c;载入页面后&#xff0c;会显示引导弹窗&#xff0c;适用于引导用户使用页面&#xff0c;点击完成后&#xff0c;会显示下一个引导弹窗&#xff0c;直至最后一个引导弹窗完成后进入首页。具体效果可以点击下方视频观看或打开下方…

接口测试中缓存处理策略

在接口测试中&#xff0c;缓存处理策略是一个关键环节&#xff0c;直接影响测试结果的准确性和可靠性。合理的缓存处理策略能够确保测试环境的一致性&#xff0c;避免因缓存数据导致的测试偏差。以下是接口测试中常见的缓存处理策略及其详细说明&#xff1a; 一、缓存处理的核…

龙虎榜——20250610

上证指数放量收阴线&#xff0c;个股多数下跌&#xff0c;盘中受消息影响大幅波动。 深证指数放量收阴线形成顶分型&#xff0c;指数短线有调整的需求&#xff0c;大概需要一两天。 2025年6月10日龙虎榜行业方向分析 1. 金融科技 代表标的&#xff1a;御银股份、雄帝科技 驱动…

观成科技:隐蔽隧道工具Ligolo-ng加密流量分析

1.工具介绍 Ligolo-ng是一款由go编写的高效隧道工具&#xff0c;该工具基于TUN接口实现其功能&#xff0c;利用反向TCP/TLS连接建立一条隐蔽的通信信道&#xff0c;支持使用Let’s Encrypt自动生成证书。Ligolo-ng的通信隐蔽性体现在其支持多种连接方式&#xff0c;适应复杂网…

铭豹扩展坞 USB转网口 突然无法识别解决方法

当 USB 转网口扩展坞在一台笔记本上无法识别,但在其他电脑上正常工作时,问题通常出在笔记本自身或其与扩展坞的兼容性上。以下是系统化的定位思路和排查步骤,帮助你快速找到故障原因: 背景: 一个M-pard(铭豹)扩展坞的网卡突然无法识别了,扩展出来的三个USB接口正常。…

未来机器人的大脑:如何用神经网络模拟器实现更智能的决策?

编辑&#xff1a;陈萍萍的公主一点人工一点智能 未来机器人的大脑&#xff1a;如何用神经网络模拟器实现更智能的决策&#xff1f;RWM通过双自回归机制有效解决了复合误差、部分可观测性和随机动力学等关键挑战&#xff0c;在不依赖领域特定归纳偏见的条件下实现了卓越的预测准…

Linux应用开发之网络套接字编程(实例篇)

服务端与客户端单连接 服务端代码 #include <sys/socket.h> #include <sys/types.h> #include <netinet/in.h> #include <stdio.h> #include <stdlib.h> #include <string.h> #include <arpa/inet.h> #include <pthread.h> …

华为云AI开发平台ModelArts

华为云ModelArts&#xff1a;重塑AI开发流程的“智能引擎”与“创新加速器”&#xff01; 在人工智能浪潮席卷全球的2025年&#xff0c;企业拥抱AI的意愿空前高涨&#xff0c;但技术门槛高、流程复杂、资源投入巨大的现实&#xff0c;却让许多创新构想止步于实验室。数据科学家…

深度学习在微纳光子学中的应用

深度学习在微纳光子学中的主要应用方向 深度学习与微纳光子学的结合主要集中在以下几个方向&#xff1a; 逆向设计 通过神经网络快速预测微纳结构的光学响应&#xff0c;替代传统耗时的数值模拟方法。例如设计超表面、光子晶体等结构。 特征提取与优化 从复杂的光学数据中自…