Python与爬虫
爬虫是一种Python编写的按照既定的规则抓取网站数据的脚本程序其优点在于语言简洁工作效率高适合重复性工作1.先导入模块首先打开wiindows命令行输入pip install requests下载requests这个模块打开trae用import request语句导入request模块把该模块下的Python代码拷贝到当前这个py文件当中。2.通过requests这个模块通过get的请求方式访问目标url3.将访问结果用utf-8的方式进行编码防止出现乱码4.从lxml库中导入etree模块把resp源码转换成dom树结构通过html进行节点查询找到目标节点转换成python容易执行的格式所有导入的模块文件都不用加py后缀5.利于for i in range语句进行循环i为盒子6.利用def做自定义函数函数功能用add定义 [def add a,b] return ab先设好形参再设实参最终print输出的结果以实参为准没有实参以形参的值为准7.json的格式内容要用花括号括起来8.将id后面设置占位符可以不断地去爬取网站上不同id用户的数据爬取过程当中useragent伪装成浏览器避免被识别成爬虫referer模拟访问来源伪造正常跳转路径cookie提供登录凭证获取访问权限三种东西最好一种都不能少不然网站会以为你不是真人是爬虫就会限制你访问9.max id代表id用户数的最大值但是实际上你的id取值范围最大值后面还要加个1但这个最大值id加1是不可取的然后要以get方式收取url响应try尝试执行代码块是操作主体except捕获异常当try块出错时执行此处pass忽略错误保证程序继续执行10.各种工具dirsearch可暴力破解网站目录和文件发现隐藏资源针对可能的有价值的网站目录进行探测并拿到信息sqlmap适合SQL注入要在授权的情况下去测试这款工具是根据python语言写的
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.coloradmin.cn/o/2518273.html
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈,一经查实,立即删除!