用 n8n 提取静态网页内容:从 HTTP Request 到 HTML 节点全解析

news2025/6/9 23:05:23

n8n 的 HTTP Request + HTML 节点组合是个实用又高效的工具。这篇文章就带你一步步搞懂如何用它们提取静态网页内容,重点解析 HTML 节点参数和 CSS 选择器,让你轻松上手 。

一、整体流程概览

我们的目标是从静态网页中提取特定内容,流程分两步:

  1. HTTP Request 节点:负责获取网页的完整 HTML 源码,相当于模拟浏览器访问网页并拿到原始内容。
  2. HTML 节点:对获取到的 HTML 源码进行解析,通过 CSS 选择器精准提取我们需要的内容,比如标题、正文、图片链接等。

二、HTTP Request 节点使用(简单铺垫)

在 n8n 里,添加 HTTP Request 节点后,只需填入目标网页的 URL,请求方法选 GET ,就能获取到网页的 HTML 数据啦。获取到的数据会以 JSON 形式输出,后续 HTML 节点要基于这些数据进一步处理,这里重点在后面的 HTML 节点,所以这部分简单设置即可 。

三、HTML 节点深度解析

(一)参数配置核心逻辑

HTML 节点的作用是从 HTTP Request 拿到的 HTML 内容里“挑出”我们想要的部分,关键就在参数设置,下面逐个说:

  1. Source Data:选 JSON ,因为 HTTP Request 节点输出的是 JSON 格式数据,里面的 data 字段存着网页 HTML 源码。
  2. JSON Property:填 data ,告诉 HTML 节点从 JSON 数据的 data 字段里取 HTML 内容来解析 。

(二)Extraction Values 参数详解(重点!)

这部分是提取内容的关键配置,包含 KeyCSS SelectorReturn Value 等参数,结合实际例子讲:

1. Key:提取结果的“标识名”

你可以把它理解成给提取出来的内容起个变量名,方便后续节点使用。比如要提取文章标题,Key 就填 article_title ;提取正文,就填 article_content ,名字自己定,语义化、好识别就行 。

2. CSS Selector:精准定位元素的“地图”

这是前端选元素的语法,但别慌,后端同学记住核心规则也能轻松用:

  • . (句点):匹配 HTML 元素的 class 属性。比如网页里有 <h1 class="title">文章标题</h1> ,要选这个 h1 ,CSS 选择器就填 .title ,意思是“找所有 class 为 title 的元素” 。
  • # (井号):匹配 HTML 元素的 id 属性。要是有 <div id="content">正文内容</div> ,选它就用 #content ,代表“找 id 为 content 的元素” 。
  • 层级选择(后代、直接子元素)
    • 后代选择(空格):比如网页结构是
      <div id="title">
          <div class="article-title">
              <h1 class="title">用完的票根不要扔 小小票根帮你玩转整座城!</h1>
          </div>
      </div>
      
      想选到最里层的 h1 ,可以用 #title .title (意思是“在 id 为 title 的元素内部,找所有 class 为 title 的元素” ,这里的空格表示后代关系,不管中间隔多少层嵌套 )。
    • 直接子元素(>:如果想严格找直接子元素,比如 <div id="parent"> <div class="child">...</div> </div> ,选直接子元素用 #parent > .child ,但实际提取网页内容时,后代选择(空格)用得更多,没那么严格限制层级 。

举个完整例子,假设网页结构如下(静态 HTML ,内容明确):

<!DOCTYPE html>
<html>
<body>
    <div id="title">
        <div class="article-title">
            <h1 class="title">这是文章标题</h1>
        </div>
        <div class="article-src-time">
            <span class="src">2025-06-05 11:07 来源:测试网</span>
        </div>
    </div>
    <div id="content" class="article-content">
        <p class="section txt">这是正文第一段</p>
        <p class="section txt">这是正文第二段</p>
    </div>
</body>
</html>
  • 提取标题(h1 里的文本):
    • Keyarticle_title
    • CSS Selector#title .title (或者更简单的 .title ,只要页面里 class 为 title 的就这一个 h1
    • Return ValueText (只要文本内容)
  • 提取正文(所有 p 标签内容):
    • Keyarticle_content
    • CSS Selector.section.txt (找所有 class 同时包含 section 和 txt 的 p 元素 )
    • Return ValueText ,要是想保留 HTML 标签结构,就选 HTML ,根据需求来 。
3. Return Value:决定提取内容的形式
  • Text:只提取元素里的文本内容,会去掉 HTML 标签。比如 <p class="txt">正文内容</p> ,选 Text 就拿到“正文内容” 。
  • HTML:提取元素及内部完整的 HTML 结构。还是上面的 p 标签,选 HTML 就拿到 <p class="txt">正文内容</p>
  • Attribute:提取元素的某个属性值,比如想拿图片的 src 属性,CSS 选择器选 imgReturn ValueAttribute ,再在额外参数里填 src ,就会提取出图片链接 。
4. Return Array:处理多个匹配结果

如果 CSS 选择器匹配到多个元素(比如页面里有多个 p 标签都符合 .section.txt ),把 Return Array 设为 ON ,提取结果就会以数组形式输出,方便后续遍历处理;设为 OFF ,则只返回第一个匹配到的元素内容 。

四、实际操作演示(闭环例子)

(一)准备工作

找一个静态网页(比如自己本地写个简单 HTML 文件,或者找个公开的静态内容网页,像上面例子里的结构 ),用 HTTP Request 节点获取它的 HTML 内容 。

(二)HTML 节点配置

  1. 提取标题:
    • Keyarticle_title
    • CSS Selector#title .title
    • Return ValueText
    • Return ArrayOFF(因为标题一般就一个 )
  2. 提取正文段落:
    • Keyarticle_paragraphs
    • CSS Selector.section.txt
    • Return ValueText
    • Return ArrayON(因为有多个段落 )

(三)运行与验证

把 HTTP Request 节点和 HTML 节点连起来,执行工作流。在 HTML 节点输出里,就能看到提取的标题文本和正文段落数组啦,形成一个从“获取网页内容”到“提取指定内容”的完整闭环 。

五、常见问题 & 避坑指南

  1. CSS 选择器不生效
    • 先去浏览器开发者工具(按 F12 )里,用“元素”面板的搜索框,把 CSS 选择器粘进去,看看能不能选中目标元素。能选中,n8n 里才可能提取到;选不中,就调整选择器语法 。
    • 注意区分 classid ,别把 .# 用混,比如该用 #content 选 id 为 content 的元素,结果用成 .content ,就可能选不到 。
  2. 提取内容为空
    • 检查 Source DataJSON Property 是否正确,确保从 HTTP Request 节点拿到了 HTML 内容 。
    • 看看网页是不是动态加载内容(不过咱们这篇讲静态网页,动态的后续再拓展 ),静态网页的话,内容肯定在初始 HTML 里 。

掌握 n8n 里 HTTP Request + HTML 节点提取静态网页内容的方法,能轻松应对一些轻量的网页数据采集需求。重点记住 HTML 节点里 CSS Selector.# 用法,以及 KeyReturn Value 这些参数的配置逻辑,多实操几次,就能熟练运用啦,遇到问题多借助浏览器开发者工具排查,问题就迎刃而解咯 !

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2405947.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Android Camera Hal中通过Neon指令优化数据拷贝

背景描述&#xff1a; Camera apk普通相机模式录像操作时&#xff0c;一般是同时请求两个流&#xff0c;即预览流和录像流。对于两个流输出图像格式和分辨率相同的情况下&#xff0c;是不是可以通过一个流拷贝得到另一个流的数据&#xff0c;进而节省掉一个Sensor输出处理两次…

C# winform教程(二)----button

一、button的使用方法 主要使用方法几乎都在属性内&#xff0c;我们操作也在这个界面 二、作用 用户点击时触发事件&#xff0c;事件有很多种&#xff0c;可以根据需要选择。 三、常用属性 虽然属性很多&#xff0c;但是常用的并不多 3.常用属性 名称内容含义AutoSize自动调…

Python编码格式化之PEP8编码规范

文章目录 概要PEP8编码风格py文本组织规范命名规范编码风格 PEP8编码检查工具pylintflake8PyCharm中配置检查工具 PEP8编码格式化工具blackautopep8PyCharm配置格式化工具本地git配置hook 总结 概要 在Python项目开发过程中&#xff0c;代码的可读性和一致性对于项目的长期维护…

【Zephyr 系列 14】使用 MCUboot 实现 BLE OTA 升级机制:构建安全可靠的固件分发系统

🧠关键词:Zephyr、MCUboot、OTA 升级、BLE DFU、双分区、Bootloader、安全固件管理 📌面向读者:希望基于 Zephyr 为 BLE 设备加入安全 OTA 升级功能的开发者 📊预计字数:5200+ 字 🧭 前言:为什么你需要 OTA? 随着设备部署数量增多与产品生命周期延长,远程升级(…

K8S认证|CKS题库+答案| 8. 沙箱运行容器 gVisor

目录 8. 沙箱运行容器 gVisor 免费获取并激活 CKA_v1.31_模拟系统 题目 开始操作&#xff1a; 1&#xff09;、切换集群 2&#xff09;、官网找模板 3&#xff09;、创建 RuntimeClass 4&#xff09;、 将命名空间为 server 下的 Pod 引用 RuntimeClass 5&#xff09…

Selenium4+Python的web自动化测试框架

一、什么是Selenium&#xff1f; Selenium是一个基于浏览器的自动化测试工具&#xff0c;它提供了一种跨平台、跨浏览器的端到端的web自动化解决方案。Selenium主要包括三部分&#xff1a;Selenium IDE、Selenium WebDriver 和Selenium Grid。 Selenium IDE&#xff1a;Firefo…

【论文解读】MemGPT: 迈向为操作系统的LLM

1st author: Charles Packer paper MemGPT[2310.08560] MemGPT: Towards LLMs as Operating Systems code: letta-ai/letta: Letta (formerly MemGPT) is the stateful agents framework with memory, reasoning, and context management. 这个项目现在已经转化为 Letta &a…

vb监测Excel两个单元格变化,达到阈值响铃

需求 在Excel中实现监控两个单元格之间的变化范围&#xff0c;当达到某个设定的值的范围内时&#xff0c;实现自动响铃提示。 实现&#xff1a; 首先设置Excel&#xff0c;开启宏、打开开发者工具&#xff0c;点击visual Basic按钮&#xff0c;然后在左侧双击需要监测的shee…

node 进程管理工具 pm2 的详细说明 —— 一步一步配置 Ubuntu Server 的 NodeJS 服务器详细实录 7

前言 我以 Ubuntu Server 打造的 NodeJS 服务器为主题的系列文章&#xff0c;经过五篇博客&#xff0c;我们顺利的 安装了 ubuntu server 服务器&#xff0c;并且配置好了 ssh 免密登录服务器&#xff0c;安装好了 服务器常用软件安装, 配置好了 zsh 和 vim 以及 通过 NVM 安装…

Flask与Celery 项目应用(shared_task使用)

目录 1. 项目概述主要功能技术栈 2. 项目结构3. 环境设置创建虚拟环境并安装依赖主要依赖 4. 应用配置Flask应用初始化 (__init__.py)Celery应用初始化 (make_celery.py) 5. 定义Celery任务 (tasks.py)任务说明 6. 创建API端点 (views.py)API端点说明 7. 前端界面 (index.html)…

二叉树-226.翻转链表-力扣(LeetCode)

一、题目解析 翻转可以理解为树的左右子树交换&#xff0c;从根到叶子节点&#xff0c;但是这里交换的是链接的指针&#xff0c;而不是单纯的交换值&#xff0c;当出现nullptr时&#xff0c;也是可以交换链接的&#xff0c;交换值的话就不行了。 二、算法原理 依旧的递归&…

HarmonyOS Next 弹窗系列教程(3)

HarmonyOS Next 弹窗系列教程&#xff08;3&#xff09; 选择器弹窗 (PickerDialog) 介绍 选择器弹窗通常用于在用户进行某些操作&#xff08;如点击按钮&#xff09;时显示特定的信息或选项。让用户可以进行选择提供的固定的内容。 以下内容都属于选择器弹窗&#xff1a; …

【docker】Windows安装docker

环境及工具&#xff08;点击下载&#xff09; Docker Desktop Installer.exe &#xff08;windows 环境下运行docker的一款产品&#xff09; wsl_update_x64 &#xff08;Linux 内核包&#xff09; 前期准备 系统要求2&#xff1a; Windows 11&#xff1a;64 位系统&am…

无人机避障——感知部分(Ubuntu 20.04 复现Vins Fusion跑数据集)胎教级教程

硬件环境&#xff1a;NVIDIA Jeston Orin nx 系统&#xff1a;Ubuntu 20.04 任务&#xff1a;跑通 EuRoC MAV Dataset 数据集 展示结果&#xff1a; 编译Vins Fusion 创建工作空间vins_ws # 创建目录结构 mkdir -p ~/vins_ws/srccd ~/vins_ws/src# 初始化工作空间&#xf…

如何安装并使用RustDesk

参考&#xff1a; 搭建 RustDesk Server&#xff1a;打造属于自己的远程控制系统&#xff0c;替代 TeamViewer 和 ToDesk&#xff01; 向日葵、ToDesk再见&#xff01;自己动手&#xff0c;自建RustDesk远程服务器真香&#xff01; 通俗易懂&#xff1a;RustDesk Server的搭…

机器学习——随机森林算法

随机森林算法是一种强大的树集成算法&#xff0c;比使用单个决策树效果要好得多。 以下是生成树集成的方法&#xff1a;假设有一个大小为m的训练集&#xff0c;然后对于b1到B&#xff0c;所以执行B次&#xff0c;可以使用有放回抽样来创建一个大小为m的训练集。所以如果有10个…

【从零学习JVM|第二篇】字节码文件

前言&#xff1a; 通过了解字节码文件可以帮助我们更容易的理解JVM的工作原理&#xff0c;所以接下来&#xff0c;我们来介绍一下字节码文件。 目录 前言&#xff1a; 正确的打开字节码文件 字节码文件组成 1. 魔数&#xff08;Magic Number&#xff09; 2. 版本号&…

Fractal Generative Models论文阅读笔记与代码分析

何恺明分型模型这篇文章在二月底上传到arXiv预出版网站到现在已经过了三个月&#xff0c;当时我也听说这篇文章时感觉是大有可为&#xff0c;但是几个月不知道忙啥了&#xff0c;可能错过很多机会&#xff0c;但是亡羊补牢嘛&#xff0c;而且截至目前&#xff0c;该文章应该也还…

OGG-01635 OGG-15149 centos服务器远程抽取AIX oracle11.2.0.4版本

背景描述 有一套ogg远程抽取的环境&#xff0c;源端是AIX7.1环境的oracle 11.2.0.4版本的数据库&#xff0c;中间是OGG抽取服务器&#xff0c;目标端是centos 7.9环境的oracle 19c。 采用集成模式远程抽取源端数据正常&#xff0c;但是经典模式远程抽取源数据的时候抽取进程启…

Kotlin REPL初探

文章目录 1. Kotlin REPL 简介2. 在命令行中玩Kotlin REPL2.1 下载Kotlin编译器压缩包2.2 安装配置Kotlin编译器2.3 启动Kotlin交互式环境2.4 在命令行玩Kotlin REPL 3. 在IDEA里玩Kotlin REPL3.1 打开Kotlin REPL窗口3.2 在Kotlin REPL窗口玩代码 4. Kotlin REPL 的优势 1. Ko…