背景
想钻研一下项目组件,找找之后的学习方向。不能自以为是,所以借着网开源项目网站上公布的项目内容看一下,那些是我可以努力去学习的(入门的)。首先需要获取相关内容,于是爬取整理。
任务1:爬一个项目网站上的项目列表。
展示

过程:
-  开始是想着借助kimi chat去解析前端页面然后编写代码,但是发现生成的代码,总是跑不起来。 
  
-  去b站上学习了一下。gpt辅助爬虫 
  
- curl(包含所有信息,header啥的) 和 har(所有操作记录)
- 还了解到一个curl convert
  
- 看到评论区,选择直接 
  
  
- 复制粘贴完整的curl指令,
  
- 喂给kimi chat(不登录网站没有cookie的话,请求访问就是空。)
  
- 进一步的需求 
- 出现报错,给他说一下
  
- 爬取效果
  
任务2:补充项目详情
内容展示

过程
那这个和上面,过程大同(爬取请求)小异(从之前的csv文件中读取 项目ID,然后请求)
- 粘贴curl请求 
- 突然想到我这样的请求是不是要加个间隔,要不 算什么恶意访问。
import time
time.sleep(0.5)  # 休眠500毫秒
- 效果如下




















