如何用 Python 爬取社交网络

发布网友 发布时间:2022-04-21 14:31

我来回答

1个回答

热心网友 时间:2022-04-19 01:31

最近开发做了个Python的新浪微博爬虫!
源码地址为GitHub - Kevinsss/weibo_spider
从数据库中拿出用户id列表,批量爬取一批用户id的微博数据,然后保存相应的内容到数据库中。可以动态爬取,每天开个定时启动任务,自动会爬取数据有无更新,有更新则更新数据库。
如需要爬取单个用户,注释掉那部分代码即可。
我没有用Scrapy框架,手写的,解析并不复杂,用的BS4,注意要手动登录,获取cookie。
微博反爬策略还是比较强的,用API的方式*真的太多了,完全做不到想要什么就爬什么。
PC端的数据比较难分析,它把数据放到script标签块中,用浏览器去渲染出来的,直接抓是拿不到的,要分析script标签块。
最好爬的一种就是移动端网页,数据格式简单,*也少。

声明声明:本网页内容为用户发布,旨在传播知识,不代表本网认同其观点,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。E-MAIL:11247931@qq.com