别再被网站当机器人了!手把手教你编译一个‘隐身版’Chromedriver(绕过Selenium检测)
从源码到隐身深度定制Chromedriver绕过检测的工程实践当你的Selenium脚本突然被目标网站拦截熟悉的Access Denied页面赫然出现时那种挫败感每个爬虫开发者都深有体会。网站的反爬系统越来越智能常规的UserAgent轮换和IP代理已经难以应对基于浏览器指纹的高级检测。本文将带你深入Chromium源码层通过定制编译自己的隐身版Chromedriver从根本上解决被识别为机器人的问题。1. 为什么你的Selenium脚本总被识别现代网站采用的多维度检测机制远比大多数人想象的复杂。除了基础的UserAgent检测外它们还会检查浏览器环境中的数百个特征点。其中最关键的是WebDriver特有的属性注入。1.1 WebDriver的指纹特征在常规浏览器中执行以下JavaScript代码let regex /^([a-z]){3}_.*_(Array|Promise|Symbol|JSON|Object|Proxy)$/; let allProps Object.getOwnPropertyNames(window); let filteredProps allProps.filter(prop regex.test(prop)); console.log(filteredProps);正常浏览器会输出空数组[]而通过Chromedriver控制的浏览器则会显示类似这样的结果[ cdc_adoQpoasnfa76pfcZLmcfl_Array, cdc_adoQpoasnfa76pfcZLmcfl_Object, cdc_adoQpoasnfa76pfcZLmcfl_Promise, cdc_adoQpoasnfa76pfcZLmcfl_Proxy, cdc_adoQpoasnfa76pfcZLmcfl_Symbol, cdc_adoQpoasnfa76pfcZLmcfl_JSON ]这些特殊的全局变量正是Chromedriver留下的指纹也是大多数检测系统识别自动化工具的关键依据。1.2 检测技术的演进网站常用的检测手段包括但不限于WebDriver特征检测检查特定全局变量行为模式分析鼠标移动轨迹、点击间隔等CDP(Chrome DevTools Protocol)检测检查开发者工具协议的使用痕迹插件和API一致性验证检查navigator.plugins等属性提示虽然修改UserAgent和添加--disable-blink-featuresAutomationControlled参数能绕过部分基础检测但对于专业反爬系统效果有限。2. 编译环境准备从零搭建Chromium构建系统要修改Chromedriver的核心行为我们需要从源码编译。这个过程需要特定的工具链和环境配置。2.1 系统要求与工具安装组件版本要求备注操作系统Windows 10/11 64位建议使用纯净系统内存≥16GB8GB可能导致编译失败硬盘空间≥100GBSSD推荐Visual Studio2019或2022必须包含C组件Windows SDK10.0.20348.0最新版本可能不兼容depot_tools最新版Chromium专用构建工具安装步骤安装Visual Studio并勾选以下组件使用C的桌面开发Windows 10 SDK配置depot_toolsgit clone https://chromium.googlesource.com/chromium/tools/depot_tools.git set PATH%PATH%;path_to_depot_tools验证环境gclient2.2 获取Chromium源码创建一个干净的目录并获取完整代码mkdir chromium cd chromium fetch --no-history chromium这个过程会下载约30GB的数据耗时取决于网络状况。如果中断可以使用gclient sync继续。注意国内用户可能需要配置代理或使用镜像源但请确保遵守相关法律法规。3. 关键修改消除WebDriver指纹找到源码中的关键文件进行修改是整个过程的核心。3.1 定位关键代码在源码目录中导航至chrome/test/chromedriver/chrome/devtools_client_impl.cc找到以下代码段约在第70行std::string script (function () { window.cdc_adoQpoasnfa76pfcZLmcfl_Array window.Array; window.cdc_adoQpoasnfa76pfcZLmcfl_Object window.Object; window.cdc_adoQpoasnfa76pfcZLmcfl_Promise window.Promise; window.cdc_adoQpoasnfa76pfcZLmcfl_Proxy window.Proxy; window.cdc_adoQpoasnfa76pfcZLmcfl_Symbol window.Symbol; window.cdc_adoQpoasnfa76pfcZLmcfl_JSON window.JSON; }) ();; params.Set(source, script);3.2 实施修改将上述代码修改为std::string script (function () { // 注释掉所有属性注入 //window.cdc_adoQpoasnfa76pfcZLmcfl_Array window.Array; //window.cdc_adoQpoasnfa76pfcZLmcfl_Object window.Object; //window.cdc_adoQpoasnfa76pfcZLmcfl_Promise window.Promise; //window.cdc_adoQpoasnfa76pfcZLmcfl_Proxy window.Proxy; //window.cdc_adoQpoasnfa76pfcZLmcfl_Symbol window.Symbol; //window.cdc_adoQpoasnfa76pfcZLmcfl_JSON window.JSON; }) ();; params.Set(source, script);这个修改移除了Chromedriver注入到window对象的特殊属性使其在检测脚本面前表现得像普通浏览器。4. 编译与优化生成定制驱动完成代码修改后我们需要编译生成新的Chromedriver可执行文件。4.1 生成构建配置gn gen out/Default编辑生成的args.gn文件添加以下配置is_debug false symbol_level 0 enable_nacl false4.2 开始编译执行完整编译autoninja -C out/Default chromedriver编译过程可能需要2-6小时取决于硬件性能。成功完成后你会在out/Default目录下找到chromedriver.exe。4.3 常见编译问题解决错误类型解决方案内存不足关闭所有非必要程序增加虚拟内存文件锁定执行gclient sync --force依赖缺失运行gclient runhooks链接错误检查Visual Studio安装是否完整5. 实战验证与高级配置编译完成后需要验证修改是否真正有效。5.1 基础测试使用Python脚本测试新驱动的隐身效果from selenium import webdriver from selenium.webdriver.chrome.service import Service import time service Service(rpath\to\custom_chromedriver.exe) options webdriver.ChromeOptions() options.add_argument(--disable-blink-featuresAutomationControlled) driver webdriver.Chrome(serviceservice, optionsoptions) driver.get(https://bot.sannysoft.com) time.sleep(5) driver.save_screenshot(result.png) driver.quit()检查截图中的测试结果理想状态下所有自动化检测项都应显示为未检测到。5.2 增强隐身性的额外配置在options中添加以下参数可以进一步提高隐蔽性options.add_argument(--disable-infobars) options.add_argument(--disable-extensions) options.add_argument(--disable-gpu) options.add_argument(--disable-dev-shm-usage) options.add_argument(--no-sandbox) options.add_argument(--disable-web-security) options.add_argument(--allow-running-insecure-content) options.add_argument(--hide-scrollbars) options.add_argument(--mute-audio) options.add_experimental_option(excludeSwitches, [enable-automation]) options.add_experimental_option(useAutomationExtension, False)5.3 浏览器指纹混淆除了修改驱动外还可以通过CDP协议覆盖常见指纹属性driver.execute_cdp_cmd(Page.addScriptToEvaluateOnNewDocument, { source: Object.defineProperty(navigator, webdriver, { get: () undefined }); Object.defineProperty(navigator, plugins, { get: () [1, 2, 3] }); })6. 长期维护与版本管理Chromium更新频繁保持定制驱动的可用性需要建立维护流程。6.1 版本对应关系Chromedriver版本对应Chrome版本备注115.0.5790.170115.0.5790.170严格匹配114.0.5735.90114.0.5735.90小版本也要一致113.0.5672.63113.0.5672.63向下兼容有限6.2 补丁管理策略为每个定制版本创建git分支记录所有修改的代码位置使用diff工具比较版本变更建立自动化测试验证基础功能6.3 性能与稳定性考量经过修改的驱动在以下方面需要特别关注内存泄漏长时间运行后的资源占用异常处理网络波动时的恢复能力并发性能多实例运行的稳定性协议兼容性与新版本Chrome的配合在实际项目中建议将定制驱动与以下技术结合使用IP轮换系统防止基于IP的封禁浏览器池管理平衡资源使用行为模拟库模拟人类操作模式验证码处理方案应对更严格的检测通过源码级定制我们不仅解决了当前的问题更重要的是掌握了浏览器自动化的底层原理。这种深度技术掌控能力正是高级开发者与普通用户的本质区别。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2487958.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!