利用 Java 爬虫根据关键词获取某手商品列表

news2025/5/22 21:36:15

在电商领域,根据关键词获取商品列表是常见的需求。某手作为国内知名的电商平台,提供了丰富的商品资源。通过 Java 爬虫技术,我们可以高效地根据关键词获取某手商品列表,并提取商品的基本信息。本文将详细介绍如何利用 Java 爬虫根据关键词获取某手商品列表,并提供完整的代码示例。

一、准备工作

(一)安装必要的库

确保你的开发环境中已经安装了以下库:

  • Jsoup:用于解析 HTML 文档。

  • Apache HttpClient:用于发送 HTTP 请求。

可以通过 Maven 来管理这些依赖。以下是 Maven 的依赖配置示例:

xml

<dependencies>
    <dependency>
        <groupId>org.jsoup</groupId>
        <artifactId>jsoup</artifactId>
        <version>1.14.3</version>
    </dependency>
    <dependency>
        <groupId>org.apache.httpcomponents</groupId>
        <artifactId>httpclient</artifactId>
        <version>4.5.13</version>
    </dependency>
</dependencies>

(二)注册平台账号

如果目标平台提供 API 接口,需要注册相应平台的开发者账号,获取 App KeyApp Secret。这些凭证将用于后续的 API 调用。

二、编写爬虫代码

(一)发送 HTTP 请求

使用 Apache HttpClient 库发送 GET 请求,获取商品列表页面的 HTML 内容。

java

import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;

public class ProductListCrawler {
    public static String getHtml(String url) {
        try (CloseableHttpClient client = HttpClients.createDefault()) {
            HttpGet request = new HttpGet(url);
            request.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36");
            return EntityUtils.toString(client.execute(request).getEntity());
        } catch (Exception e) {
            e.printStackTrace();
            return null;
        }
    }
}

(二)解析 HTML 内容

使用 Jsoup 解析 HTML 内容,提取商品列表中的商品信息。

java

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.util.ArrayList;
import java.util.List;
import java.util.Map;
import java.util.HashMap;

public class HtmlParser {
    public static List<Map<String, String>> parseHtml(String html) {
        List<Map<String, String>> products = new ArrayList<>();
        Document document = Jsoup.parse(html);
        Elements productItems = document.select("div.product-item");

        for (Element item : productItems) {
            Map<String, String> product = new HashMap<>();
            product.put("title", item.select("h2.product-title").first().text());
            product.put("price", item.select("span.product-price").first().text());
            product.put("description", item.select("div.product-description").first().text());
            product.put("image_url", item.select("img.product-image").first().attr("src"));
            products.add(product);
        }

        return products;
    }
}

(三)根据关键词获取商品列表

根据关键词构建商品列表页面的 URL,并获取其 HTML 内容。

java

public class ProductListCrawler {
    public static List<Map<String, String>> getProductListByKeyword(String baseUrl, String keyword, int page) {
        String url = baseUrl + "?keyword=" + keyword + "&page=" + page;
        String html = getHtml(url);
        if (html != null) {
            return HtmlParser.parseHtml(html);
        }
        return new ArrayList<>();
    }

    public static void main(String[] args) {
        String baseUrl = "https://example.com/search"; // 替换为目标平台的商品列表页面 URL
        String keyword = "耳机"; // 替换为实际关键词
        int page = 1; // 替换为实际页码

        List<Map<String, String>> products = getProductListByKeyword(baseUrl, keyword, page);
        for (Map<String, String> product : products) {
            System.out.println("商品名称: " + product.get("title"));
            System.out.println("商品价格: " + product.get("price"));
            System.out.println("商品描述: " + product.get("description"));
            System.out.println("商品图片URL: " + product.get("image_url"));
            System.out.println("----------------------------");
        }
    }
}

三、保存解析后的商品信息

(一)保存到文件

将商品信息保存到文件中,方便后续处理和分析。

java

import java.io.FileWriter;
import java.io.IOException;
import java.util.List;
import java.util.Map;
import com.opencsv.CSVWriter;

public class SaveToFile {
    public static void saveAsCsv(List<Map<String, String>> products, String filePath) {
        try (CSVWriter writer = new CSVWriter(new FileWriter(filePath))) {
            String[] headers = {"title", "price", "description", "image_url"};
            writer.writeNext(headers);

            for (Map<String, String> product : products) {
                String[] data = {
                    product.get("title"),
                    product.get("price"),
                    product.get("description"),
                    product.get("image_url")
                };
                writer.writeNext(data);
            }
            System.out.println("数据已保存到 CSV 文件:" + filePath);
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

(二)保存到数据库

将商品信息保存到数据库中,方便后续查询和分析。

java

import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.PreparedStatement;
import java.sql.SQLException;
import java.util.List;
import java.util.Map;

public class SaveToDatabase {
    public static void saveToMySQL(List<Map<String, String>> products, String url, String user, String password) {
        String insertSQL = "INSERT INTO products (title, price, description, image_url) VALUES (?, ?, ?, ?)";
        try (Connection conn = DriverManager.getConnection(url, user, password);
             PreparedStatement pstmt = conn.prepareStatement(insertSQL)) {
            for (Map<String, String> product : products) {
                pstmt.setString(1, product.get("title"));
                pstmt.setString(2, product.get("price"));
                pstmt.setString(3, product.get("description"));
                pstmt.setString(4, product.get("image_url"));
                pstmt.addBatch();
            }
            pstmt.executeBatch();
            System.out.println("数据已保存到 MySQL 数据库");
        } catch (SQLException e) {
            e.printStackTrace();
        }
    }
}

四、注意事项和建议

(一)遵守平台规则

在编写爬虫时,必须严格遵守目标平台的使用协议,避免触发反爬机制。

(二)合理设置请求频率

避免过高的请求频率,以免对平台服务器造成压力。建议在请求之间添加适当的延时:

java

Thread.sleep(1000); // 每次请求间隔1秒

(三)数据安全

妥善保管爬取的数据,避免泄露用户隐私和商业机密。

(四)处理异常情况

在爬虫代码中添加异常处理机制,确保在遇到错误时能够及时记录并处理。

java

try {
    List<Map<String, String>> products = getProductListByKeyword(baseUrl, keyword, page);
    if (!products.isEmpty()) {
        for (Map<String, String> product : products) {
            System.out.println("商品名称: " + product.get("title"));
            System.out.println("商品价格: " + product.get("price"));
            System.out.println("商品描述: " + product.get("description"));
            System.out.println("商品图片URL: " + product.get("image_url"));
            System.out.println("----------------------------");
        }
    } else {
        System.out.println("未能获取商品列表。");
    }
} catch (Exception e) {
    e.printStackTrace();
}

五、总结

通过上述方法,可以高效地利用 Java 爬虫技术根据关键词获取某手商品列表。希望本文能为你提供有价值的参考,帮助你更好地利用爬虫技术获取电商平台数据。在开发过程中,务必注意遵守平台规则,合理设置请求频率,并妥善处理异常情况,以确保爬虫的稳定运行。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2383398.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

篇章五 项目创建

目录 1.创建一个SpringBoot项目 2.创建核心类 2.1 Exchange类 2.2 MessageQueue类 2.3 Binding类 2.4 Message类 1.Message的组成 2.逻辑删除 3.工厂方法 4.序列化与反序列化 5.offsetBeg和offsetEnd 1.创建一个SpringBoot项目 1.点击 2.填写表单 3.添加依赖 2.创建…

aws平台s3存储桶夸域问题处理

当我们收到开发反馈s3存在跨域问题 解决步骤&#xff1a; 配置 S3 存储桶的 CORS 设置&#xff1a; 登录到 AWS 管理控制台。转到 S3 服务。选择你存储文件的 存储桶。点击 权限 标签页。在 跨域资源共享&#xff08;CORS&#xff09;配置 部分&#xff0c;点击 编辑。 登陆…

【vue-text-highlight】在vue2的使用教程

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言一、下载二、使用步骤1.引入库2.用法 效果速通 前言 提示&#xff1a;这里可以添加本文要记录的大概内容&#xff1a; 例如&#xff1a;随着人工智能的不断发…

pycharm无法正常调试问题

pycharm无法正常调试问题 1.错误代码 已连接到 pydev 调试器(内部版本号 231.8109.197)Traceback (most recent call last):File "E:\Python\pycharm\PyCharm 2023.1\plugins\python\helpers\pydev\_pydevd_bundle\pydevd_comm.py", line 304, in _on_runr r.deco…

Leetcode百题斩-哈希

看来面试前还是要老老实实刷leetcode为好&#xff0c;今天看到一个题库&#xff0c;leetcode百题斩&#xff0c;刚好最近面试的这两题全在里面。瞄了一眼&#xff0c;也有不少题之前居然也刷过。那么&#xff0c;冲冲冲&#xff0c;看多久能把这百题刷完。 第一天&#xff0c;先…

EXIST与JOIN连表比较

结论 1&#xff1a;EXIST可以用于链表&#xff0c;且可以利用到索引2&#xff1a;当join无法合理利用到索引&#xff0c;可以尝试EXIST链表3&#xff1a;EXIST在某些情况下可以更好地利用到索引4&#xff1a;大数据量时&#xff0c;要考虑EXIST的使用 EXIST SQL: EXPLAN JOIN…

【Linux】利用多路转接epoll机制、ET模式,基于Reactor设计模式实现

&#x1f4da; 博主的专栏 &#x1f427; Linux | &#x1f5a5;️ C | &#x1f4ca; 数据结构 | &#x1f4a1;C 算法 | &#x1f152; C 语言 | &#x1f310; 计算机网络 上篇文章&#xff1a;多路转接epoll&#xff0c;实现echoserver 至此&#xff0c;Linux与…

react中运行 npm run dev 报错,提示vite.config.js出现错误 @esbuild/win32-x64

在React项目中运行npm run dev时&#xff0c;如果遇到vite.config.js报错&#xff0c;提示esbuild/win32-x64在另一个平台中被使用&#xff0c;通常是由于依赖冲突或缓存问题导致的。解决方法是删除node_modules文件夹&#xff0c;并重新安装依赖。 如下图&#xff1a; 解决办…

鸿蒙UI开发——Builder与LocalBuilder对比

1、概 述 在ArkUI中&#xff0c;有的朋友应该接触过Builder和LocalBuilder。其中有了LocalBuilder的存在&#xff0c;是为了解决组件的父子关系和状态管理的父子关系保持一致的问题。 这里面最直观的表现则是this的指向问题与组件刷新问题&#xff0c;本文对Builder与LocalBu…

关于光谱相机的灵敏度

一、‌灵敏度的核心定义‌ ‌光谱灵敏度&#xff08;单色灵敏度&#xff09;‌ 描述光谱相机对单色辐射光的响应能力&#xff0c;即探测器对特定波长入射光的输出信号强度与入射光功率的比值。 例如&#xff0c;若在680nm波长下的光谱灵敏度较高&#xff0c;则表示该相机对此…

Model 速通系列(一)nanoGPT

这个是新开的一个系列用来手把手复现一些模型工程&#xff0c;之所以开这个系列是因为有人留言说看到一个工程不知道从哪里读起&#xff0c;出于对自身能力的提升与兴趣&#xff0c;故新开了这个系列。由于主要动机是顺一遍代码并提供注释。 该系列第一篇博客是 nanoGPT &…

MySQL--day4--排序与分页

&#xff08;以下内容全部来自上述课程&#xff09; 1. 排序数据 1.1 排序基本使用 #1.排序 #如果没有使用排序操作&#xff0c;默认情况下查询返回的数据是按照添加数据的顺序显示的 SELECT * FROM employees;# 练习:按照salary从高到低的顺序显示员工信息 # 使用 ORDER …

系分论文《论软件系统安全分析和应用》

系统分析师论文范文系列 【摘要】 2023年3月&#xff0c;我司承接了某知名电商企业“智能化供应链管理系统”的开发任务&#xff0c;我作为系统分析师负责全面的安全分析与设计工作。该系统以提升电商供应链效率为核心&#xff0c;整合仓储、物流、支付等模块&#xff0c;并需应…

Mac安装redis

1、 去往网址 http://​编download.​编redis.io/releases/ 找到任意 结尾为* .tar.gz的文件下载下来 2、使用终端进入下载下来的redis文件 3、直接执行redis-server 如果出现redis标志性的图代表成功 如果显示command not found :redis-server 则在终端再进入src文件夹下&…

srs-7.0 支持obs推webrtc流

demo演示 官方教程: https://ossrs.net/lts/zh-cn/blog/Experience-Ultra-Low-Latency-Live-Streaming-with-OBS-WHIP 实现原理就是通过WHIP协议来传输 SDP信息 1、运行 ./objs/srs -c conf/rtc.conf 2、obs推流 3、web端播放webrtc流 打开web:ht

Babylon.js学习之路《七、用户交互:鼠标点击、拖拽与射线检测》

文章目录 1. 引言&#xff1a;用户交互的核心作用1.1 材质与纹理的核心作用 2. 基础交互&#xff1a;鼠标与触摸事件2.1 绑定鼠标点击事件2.2 触摸事件适配 3. 射线检测&#xff08;Ray Casting&#xff09;3.1 射线检测的原理3.2 高级射线检测技巧 4. 拖拽物体的实现4.1 拖拽基…

星际争霸小程序:用Java实现策略模式的星际大战

在游戏开发的世界里&#xff0c;策略模式是一种非常实用的设计模式&#xff0c;它允许我们在运行时动态地选择算法或行为。今天&#xff0c;我将带你走进一场星际争霸的奇幻之旅&#xff0c;用Java实现一个简单的星际争霸小程序&#xff0c;通过策略模式来模拟不同种族单位的战…

Python数据可视化高级实战之一——绘制GE矩阵图

目录 一、课程概述 二、GE矩阵? 三、GE 矩阵图的适用范围 五、GE 矩阵的评估方法 (一)市场吸引力的评估要素 二、企业竞争实力的评估要素 三、评估方法与实践应用 1. 定量与定性结合法 2. 数据来源 六、GE矩阵的图形化实现 七、总结:GE 矩阵与 BCG 矩阵的对比分析 (一)GE…

StreamSaver实现大文件下载解决方案

StreamSaver实现大文件下载解决方案 web端 安装 StreamSaver.js npm install streamsaver # 或 yarn add streamsaver在 Vue 组件中导入 import streamSaver from "streamsaver"; // 确保导入名称正确完整代码修正 <!--* projectName: * desc: * author: dua…

CSS【详解】弹性布局 flex

适用场景 一维&#xff08;行或列&#xff09;布局 基本概念 包裹所有被布局元素的父元素为容器 所有被布局的元素为项目 项目的排列方向&#xff08;垂直/水平&#xff09;为主轴 与主轴垂直的方向交交叉轴 容器上启用 flex 布局 将容器的 display 样式设置为 flex 或 i…