挂在云端的爬虫突然就被封IP了,数据库也马上就要到期了,可能运作不下去了,但还是把代码分享下吧,
如果B站的同学看到了,我就想问一句,我每天就访问一次也能封IP?
直接上结构图:
步骤:
1、每天定时去拉取B站总榜单数据:标题和链接
2、进行关键词过滤
3、除去已经展现过的标题,
4、生成RSS源
之后就是用自己搭建的RSS阅读器抓取了,到页面上是这样的,
此时就能作为RSS阅读了,
代码的话你拿过去导入就能用,为了防止某些站点搬运,把代码扔到云端了,
需要的同学可以关注公众号:
后台回复:监控榜单
就能获取了,然后有什么问题也可以后台留言交流,