使用 chromedriver 实现网络爬虫【手抄】

news2025/7/6 0:09:56

1、引用 selenium 包

<dependency>
  <groupId>org.seleniumhq.selenium</groupId>
  <artifactId>selenium-java</artifactId>
  <version>4.29.0</version>
</dependency>
<dependency>
  <groupId>org.seleniumhq.selenium</groupId>
  <artifactId>selenium-chrome-driver</artifactId>
  <version>4.29.0</version>
</dependency>
<dependency>
  <groupId>org.openqa.selenium</groupId>
  <artifactId>selenium-support</artifactId>
  <version>4.29.0</version>
</dependency>

2、下载 chromedriver

下载地址:https://chromedriver.storage.googleapis.com/index.html

这里引用包支持版本为 114,我下载使用的是 114.0.5734.0,分为 windows版本以及 linux 版本。

114这个版本的 chromedriver 软件将放在源码中供大家学习使用。

3、对应的浏览器下载

由于chromedriver 最新版本为 114所以,最新的 chrome浏览器无法使用只能下载114这个版本chrome浏览器。

linux 下载地址:

https://www.googleapis.com/download/storage/v1/b/chromium-browser-snapshots/o/Linux%2F114059%2Fchrome-linux.zip?generation=1&alt=media

windows下载地址:

https://www.googleapis.com/download/storage/v1/b/chromium-browser-snapshots/o/Win_x64%2F1140629%2Fchrome-win.zip?generation=1683480562257014&alt=media

4、具体现实代码

public static void main(String[] args) throws IOException {

    // 设置 ChromeDriver 路径
    System.setProperty("webdriver.chrome.driver", "D:\\Project\\web-crawler\\chromedriver\\chromedriver.exe");

    // 配置 Chrome 浏览器
    ChromeOptions options = new ChromeOptions();
    // 如果不想显示浏览器界面
//    options.addArguments("--headless");
    // 设置启动时最大化浏览器窗口
    options.addArguments("--start-maximized");
    // 指定浏览器位置
    options.setBinary("D:\\Project\\web-crawler\\chrome-windows\\chrome.exe");
    WebDriver driver = new ChromeDriver(options);
    driver.get("http://182.131.3.xxx:8000/noticerpt/user/popup_login");

    // 显式等待,确保登录页面加载完成
    WebDriverWait loginWait = new WebDriverWait(driver, Duration.ofSeconds(30));
    // 获取背景图和拼图块
    // 拼图背景图
    WebElement button = loginWait.until(ExpectedConditions.presenceOfElementLocated(By.className("button4")));
    button.click();
    WebElement automv = loginWait.until(ExpectedConditions.presenceOfElementLocated(By.id("automv_1")));
    WebElement aBtn = automv.findElement(By.tagName("a"));
    aBtn.click();

    // 拼图块
    WebElement nav = driver.findElement(By.id("nav"));
    List<WebElement> elementList = nav.findElements(By.tagName("li"));
    WebElement navLi = elementList.get(1);
    WebElement navLiA = navLi.findElement(By.tagName("a"));
    navLiA.click();

    WebElement smsLoginFormsc = driver.findElement(By.id("smsLoginFormsc"));
    WebElement embedCaptchaSms = smsLoginFormsc.findElement(By.id("embed-captcha-sms"));
    WebElement gtSlider = embedCaptchaSms.findElement(By.className("gt_slider"));
    WebElement gtSliderKnob = gtSlider.findElement(By.className("gt_slider_knob"));
    new Actions(driver).moveToElement(gtSliderKnob).perform();


//    WebElement gtWidget = smsLoginFormsc.findElement(By.className("gt_widget"));
//    WebElement gtWidget = smsLoginFormsc.findElement(By.className("gt_widget"));
//    WebElement gtWidget = smsLoginFormsc.findElement(By.className("gt_widget"));

    // 获取拼图块的位置
//    Point sliderPosition = slider.getLocation();
//    System.out.println("拼图块的初始位置: " + sliderPosition);

//    // 计算缺失的拼图块位置(假设通过图像处理得出:x = 200, y = 0)
//    int targetX = 200;
//    int targetY = 0;
//    String imageUrl = backgroundElement.getAttribute("src");
//    BufferedImage background = ImageIO.read(new URL(imageUrl));
//    imageUrl = puzzlePieceElement.getAttribute("src");
//    BufferedImage puzzlePiece = ImageIO.read(new URL(imageUrl));
//
//    // 比较两张图片的差异
//    int diffX = 0;
//    int diffY = 0;
//
//    for (int y = 0; y < background.getHeight(); y++) {
//      for (int x = 0; x < background.getWidth(); x++) {
//        int bgPixel = background.getRGB(x, y);
//        int puzzlePixel = puzzlePiece.getRGB(x, y);
//
//        if (bgPixel != puzzlePixel) {
//          diffX = x;
//          diffY = y;
//          break;
//        }
//      }
//    }

    // 获取拼图块的当前位置
//    Point start = slider.getLocation();

//    // 模拟滑动拼图块
//    Actions actions = new Actions(driver);
//    actions.clickAndHold(slider)
//        .moveByOffset(targetX - start.getX(), targetY - start.getY())
//        .release()
//        .perform();

    // 等待拼图验证完成
//    WebDriverWait wait = new WebDriverWait(driver, Duration.ofSeconds(10));
//    wait.until(ExpectedConditions.visibilityOfElementLocated(By.id("success-message")));
//
//    System.out.println("拼图解锁成功!");

    // 关闭浏览器
//    driver.quit();

  }

以上代码主要就是实现关闭弹窗、显示滑动拼图验证码。其中代码 

http://182.131.3.xxx:8000/noticerpt/user/popup_login  xxx 为了安逸将最后一段修改为了XXX根据逻辑可以修改为自己的业务需求

5、总结

只是个人作为研究的手抄还是有很多不足,而且具体逻辑也没有写(但是会持续的更新)

6、代码

爬虫代码:维基框架/wiki-web-crawler

如果觉得还不错误,请支持一下作者开源框架 维基框架  维基代理

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2337355.html

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!

相关文章

Linux之 grep、find、ls、wc 命令

Linux之 grep、find、ls、wc 命令 “ 在 Linux 世界中&#xff0c;命令行是不可或缺的一部分&#xff0c;而掌握一些常用的命令可以帮助你更有效率地管理文件和系统。本文将为你介绍四個基礎而强大的 Linux 命令&#xff1a;grep、find、ls 和 wc&#xff0c;带你开启高效文件…

AI 模型高效化:推理加速与训练优化的技术原理与理论解析

AI 模型高效化&#xff1a;推理加速与训练优化的技术原理与理论解析 文章目录 AI 模型高效化&#xff1a;推理加速与训练优化的技术原理与理论解析一、推理加速&#xff1a;让模型跑得更快的“程序员魔法”&#xff08;一&#xff09;动态结构自适应推理&#xff1a;像人类一样…

c++STL——vector的使用和模拟实现

文章目录 vector的使用和模拟实现vector的使用vector介绍重点接口的讲解迭代器部分默认成员函数空间操作增删查改操作迭代器失效问题(重要)调整迭代器 vector的模拟实现实现的版本模拟实现结构预先处理的函数尾插函数push_backswap函数赋值重载size函数reserve函数 迭代器默认成…

git更新的bug

文章目录 1. 问题2. 分析 1. 问题 拉取了一个项目后遇到了这个问题&#xff0c; nvocation failed Server returned invalid Response. java.lang.RuntimeException: Invocation failed Server returned invalid Response. at git4idea.GitAppUtil.sendXmlRequest(GitAppUtil…

github | 仓库权限管理 | 开权限

省流版总结&#xff1a; github 给别人开权限&#xff1a;仓库 -> Setting -> Cllaborate -> Add people GitHub中 将公开仓库改为私有&#xff1a;仓库 -> Setting -> Danger Zone&#xff08;危险区&#xff09; ->Change repository visibility( 更改仓…

uniapp自定义底部导航栏,解决下拉时候顶部空白的问题

一、背景 最近使用uniapp开发微信小程序&#xff0c;因为使用了自定义的顶部导航栏&#xff0c;所以在ios平台上&#xff08;Android未测试&#xff09;测试的时候&#xff0c;下拉的时候会出现整个页面下拉并且顶部留下大片空白的问题 二、任务&#xff1a;解决这个问题 经…

C++学习之密码学知识

目录 1.文档介绍 2.知识点概述 3.项目准备 4.序列化介绍 5.项目中基础组件介绍 6.基础模块在项目中作用 7.项目中其他模块介绍 8.加密三要素 9.对称加密和非堆成加密 10.对称和非对称加密特点 11.堆成加密算法des 12.des对称加密算法 13.对称加密算法aes 14.知识点…

力扣 797. 所有可能的路径

题目 给你一个有 n 个节点的 有向无环图&#xff08;DAG&#xff09;&#xff0c;请你找出所有从节点 0 到节点 n-1 的路径并输出&#xff08;不要求按特定顺序&#xff09; graph[i] 是一个从节点 i 可以访问的所有节点的列表&#xff08;即从节点 i 到节点 graph[i][j]存在一…

第二篇:linux之Xshell使用及相关linux操作

第二篇&#xff1a;linux之Xshell使用及相关linux操作 文章目录 第二篇&#xff1a;linux之Xshell使用及相关linux操作一、Xshell使用1、Xshell安装2、Xshell使用 二、Bash Shell介绍与使用1、什么是Bash Shell(壳)&#xff1f;2、Bash Shell能干什么&#xff1f;3、平时如何使…

一种改进的CFAR算法用于目标检测(解决多目标掩蔽)

摘要 恒虚警率&#xff08;CFAR&#xff09;技术在雷达自动检测过程中起着关键作用。单元平均&#xff08;CA&#xff09;CFAR算法在几乎所有的多目标情况下都会受到掩蔽效应的影响。最小单元平均&#xff08;SOCA&#xff09;CFAR算法仅当干扰目标位于参考窗口的前后方时才具有…

无人机+智能监控:石油管道巡检迈入“空中智慧时代”

引言&#xff1a;安全与效率的双重革命 在广袤的沙漠、崎岖的山脉或人迹罕至的冻土带&#xff0c;石油管道的安全巡检曾是一项耗时耗力且风险极高的任务。如今&#xff0c;随着无人机巡检技术与视频监控管理平台的深度融合&#xff0c;石油行业正迎来一场智能化变革——从“人巡…

三层交换机SVI功能(交换机虚拟接口)实现各个实训室电脑网络可互通,原本是独立局域网

三层交换机 SVI功能&#xff08;交换机虚拟接口&#xff09; 实现VLAN路由 需求 &#xff1a;各实训室使用独立局域网&#xff0c;即每个实训有自己的IP网段&#xff0c; 每个实训室只有内部互相访问。 需求&#xff1a;为了加强各实训室学生的交流&#xff0c;学校要求我们…

vue入门:路由 router

文章目录 介绍安装配置路由模式嵌套路由路由传参编程式导航路由懒加载 底层原理 介绍 vue2 vue router API vue3 vue router API Vue Router 是 Vue.js 的官方路由管理器&#xff0c;它允许你通过不同的 URL 显示不同的组件&#xff0c;从而实现单页面应用&#xff08;SPA&a…

JVM详解(曼波脑图版)

(✪ω✪)&#xff89; 好哒&#xff01;曼波会用最可爱的比喻给小白同学讲解JVM&#xff0c;准备好开启奇妙旅程了吗&#xff1f;(๑˃̵ᴗ˂̵)و &#x1f4cc; 思维导图 ━━━━━━━━━━━━━━━━━━━ &#x1f34e; JVM是什么&#xff1f;&#xff08;苹果式比…

进程(Process)和进程管理

李升伟 整理 进程和进程管理是操作系统的核心概念之一&#xff0c;涉及计算机资源的分配、调度和执行控制。以下是详细的解释&#xff1a; 1. 进程的定义 进程&#xff08;Process&#xff09;是正在执行的程序实例&#xff0c;是操作系统进行资源分配和调度的基本单位。它包…

更强的视觉 AI!更智能的多模态助手!Qwen2.5-VL-32B-Instruct-AWQ 来袭

Qwen2.5-VL-32B-Instruct 是阿里巴巴通义千问团队于 2025 年 3 月 24 日开源的多模态大模型&#xff0c;基于 Apache 2.0 协议发布。该模型在 Qwen2.5-VL 系列的基础上&#xff0c;通过强化学习技术优化&#xff0c;以 32B 参数规模实现了多模态能力的突破。 核心特性升级&…

每日算法-250417

每日算法 - 20250417 记录今天的算法学习过程&#xff0c;包含三道 LeetCode 题目。 1005. K 次取反后最大化的数组和 题目 思路 贪心 解题过程 想要获得最大的数组和&#xff0c;我们的目标是尽可能地增大数组元素的总和。一种有效的贪心策略是&#xff1a;每次选择数组中绝…

16.4B参数仅激活2.8B!Kimi-VL-A3B开源:长文本、多模态、低成本的AI全能选手

近日&#xff0c;月之暗面&#xff08;Moonshot AI&#xff09;开源了Kimi-VL系列模型&#xff0c;包含Kimi-VL-A3B-Instruct&#xff08;指令调优版&#xff09;和Kimi-VL-A3B-Thinking&#xff08;推理增强版&#xff09;。这两款模型以总参数16.4B、激活参数仅2.8B的轻量化设…

山东大学软件学院创新项目实训开发日志(17)之中医知识历史问答历史对话查看功能完善

本次完善了历史对话的查看功能&#xff0c;可以让其正常显示标题 后端&#xff1a;在conversationDTO功能构造方法添加title 前端&#xff1a;在历时会话按钮添加标题title即可 前端效果展示&#xff0c;成功(&#xff3e;&#xff0d;&#xff3e;)V&#xff1a;

ZKmall开源商城静态资源管理:Nginx 配置与优化

ZKmall开源商城作为电商平台&#xff0c;其商品图片、前端资源等静态内容的高效管理与分发直接影响用户体验和系统性能。基于Nginx的静态资源管理方案&#xff0c;结合动静分离、缓存优化、安全加固、性能调优四大核心策略&#xff0c;可显著提升平台响应速度与稳定性。以下是具…