发布网友 发布时间:2022-04-21 14:31
共1个回答
热心网友 时间:2022-04-19 01:31
最近开发做了个Python的新浪微博爬虫!
源码地址为GitHub - Kevinsss/weibo_spider
从数据库中拿出用户id列表,批量爬取一批用户id的微博数据,然后保存相应的内容到数据库中。可以动态爬取,每天开个定时启动任务,自动会爬取数据有无更新,有更新则更新数据库。
如需要爬取单个用户,注释掉那部分代码即可。
我没有用Scrapy框架,手写的,解析并不复杂,用的BS4,注意要手动登录,获取cookie。
微博反爬策略还是比较强的,用API的方式*真的太多了,完全做不到想要什么就爬什么。
PC端的数据比较难分析,它把数据放到script标签块中,用浏览器去渲染出来的,直接抓是拿不到的,要分析script标签块。
最好爬的一种就是移动端网页,数据格式简单,*也少。