Selenium 3.141.0 + Chrome 109 爬取B站热门视频数据的避坑指南(附完整代码)
Selenium 3.141.0与Chrome 109爬取B站数据的实战避坑指南1. 环境配置的版本陷阱当使用Selenium进行网页数据采集时版本兼容性问题往往是第一个拦路虎。以Selenium 3.141.0和Chrome 109这对组合为例我们需要特别注意以下几个关键点1.1 驱动版本精确匹配ChromeDriver必须与Chrome浏览器版本严格对应。例如Chrome 109.0.5414.120对应的驱动版本是ChromeDriver 109.0.5414.74。版本不匹配会导致如下典型错误SessionNotCreatedException: Message: session not created: This version of ChromeDriver only supports Chrome version 114 Current browser version is 109.0.5414.120解决方案通过以下命令查看Chrome精确版本google-chrome --version到ChromeDriver官网下载对应版本将驱动文件放在系统PATH路径或项目目录下1.2 浏览器自动更新防御Chrome默认会自动更新这会导致驱动突然失效。禁用自动更新的方法如下Windows系统进入Chrome安装目录通常为C:\Program Files\Google\Chrome\Application修改Update文件夹权限为拒绝写入Mac系统# 禁用自动更新服务 sudo launchctl unload -w /Library/LaunchDaemons/com.google.keystone.daemon.plist2. 实战爬取B站热门数据2.1 爬取热门视频排行榜以下是获取B站全站热门TOP100视频数据的完整代码框架from selenium import webdriver from selenium.webdriver.common.by import By import pandas as pd import time def get_top100(): driver webdriver.Chrome() driver.get(https://www.bilibili.com/v/popular/rank/all) results [] for i in range(1, 101): item {} # 使用相对XPath提高稳定性 item[title] driver.find_element( By.XPATH, f//li[{i}]//div[classinfo]/a).text item[up] driver.find_element( By.XPATH, f//li[{i}]//div[classdetail]/a/span).text item[view] format_num( driver.find_element(By.XPATH, f//li[{i}]//div[classdetail]/span[1]).text) item[danmu] format_num( driver.find_element(By.XPATH, f//li[{i}]//div[classdetail]/span[2]).text) results.append(item) pd.DataFrame(results).to_csv(top100.csv, indexFalse) driver.quit() def format_num(s): 处理万单位数据 if 万 in s: return str(float(s.replace(万,))*10000) return s关键技巧使用//相对路径替代绝对路径提高XPath适应性对含万的数据进行标准化处理每次操作后添加适当延时避免触发反爬2.2 处理动态加载内容B站很多数据是通过AJAX动态加载的需要特殊处理from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC def get_comments(video_url): driver webdriver.Chrome() driver.get(video_url) # 等待评论区加载 WebDriverWait(driver, 10).until( EC.presence_of_element_located((By.CLASS_NAME, reply-item)) ) # 滚动加载更多评论 for _ in range(5): driver.execute_script(window.scrollTo(0, document.body.scrollHeight);) time.sleep(2) comments [e.text for e in driver.find_elements(By.CLASS_NAME, reply-content)] pd.DataFrame(comments, columns[comment]).to_csv(comments.csv)3. 常见问题解决方案3.1 元素定位失败处理错误类型解决方案代码示例NoSuchElementException增加显式等待WebDriverWait(driver,10).until()StaleElementReference重新定位元素element driver.find_element()ElementNotInteractable使用JS点击driver.execute_script(arguments[0].click(), element)3.2 反爬机制规避策略请求频率控制import random time.sleep(random.uniform(1, 3))User-Agent轮换from selenium.webdriver.chrome.options import Options options Options() options.add_argument(user-agentMozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36) driver webdriver.Chrome(optionsoptions)无头模式设置options.add_argument(--headless) options.add_argument(--disable-gpu)4. 数据可视化实战使用pyecharts创建专业级可视化图表4.1 热门视频数据对比from pyecharts.charts import Bar from pyecharts import options as opts def create_bar_chart(): df pd.read_csv(top100.csv) bar ( Bar() .add_xaxis(df[title].tolist()[:10]) .add_yaxis(播放量, df[view].astype(float).tolist()[:10]) .add_yaxis(弹幕数, df[danmu].astype(float).tolist()[:10]) .set_global_opts( title_optsopts.TitleOpts(titleB站热门视频TOP10), datazoom_opts[opts.DataZoomOpts()] ) ) bar.render(top10_bar.html)4.2 评论情感分析饼图from pyecharts.charts import Pie def create_pie_chart(): sentiment {正面: 65, 中性: 20, 负面: 15} pie ( Pie() .add(, list(sentiment.items())) .set_series_opts(label_optsopts.LabelOpts(formatter{b}: {c} ({d}%))) ) pie.render(sentiment_pie.html)5. 高级技巧与优化5.1 使用Page Object模式创建bilibili_page.py提高代码可维护性class BilibiliRankPage: def __init__(self, driver): self.driver driver self.url https://www.bilibili.com/v/popular/rank/all def open(self): self.driver.get(self.url) return self def get_video_info(self, index): return { title: self._get_text(f//li[{index}]//div[classinfo]/a), up: self._get_text(f//li[{index}]//div[classdetail]/a/span) } def _get_text(self, xpath): return self.driver.find_element(By.XPATH, xpath).text5.2 使用代理IP池PROXY 12.34.56.78:8080 options Options() options.add_argument(f--proxy-serverhttp://{PROXY}) driver webdriver.Chrome(optionsoptions)5.3 异常自动重试机制from retrying import retry retry(stop_max_attempt_number3, wait_fixed2000) def safe_click(element): try: element.click() except Exception as e: print(f点击失败: {str(e)}) raise e在实际项目中建议将配置信息如驱动路径、代理IP等提取到单独的配置文件中方便维护和修改。对于大规模采集任务可以考虑结合Scrapy等框架构建更健壮的爬虫系统。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2436679.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!