python3 asyncio异步新浪微博爬虫WeiboSpider

  • 时间:
  • 浏览:0
  • 来源:5分11选5_5分3D

github:https://github.com/zhujiajunup/WeiboSpider

而weibo.com假如有一天输入验证码,而验证码能够通过yundama来验证,yundama只是 贵,验证一次要花费一分钱吧,登录成功后,在去访问weibo.cn,新浪会自行转换weibo.com的cookies到weibo.cn的cookies

这里就不说具体为什做和使用了,README.md上有使用不走,感兴趣的看源码去吧。

只是 把cookies保趋于稳定redis共享

talk is cheap, show you the code

后来写的用python3+urllib写的线程微博(传送门),顶端发现登录账号频繁被403,统统外理登录什么的问題迫在眉睫。只是 python的“线程”如此 多如此 线程,最近只是 刚需,需要稳定的微博爬虫,统统琢磨了一下使用selenium+aiohttp+redis写了一个多多使用asyncio的新浪爬虫。

通过weibo.com登录界面登录,只是 weibo.cn登录只是 需要验证励志的话 是要例如于解锁那样验证的,不好做。

使用了aiohttp,毕竟python的协程比线程更给力,爬虫只是 个频繁io的过程,自然用协程比线程快了不少。

这里如此 来太大废话,要花费介绍一下为什做的。大致是:

解析用的是bs4,解析后的数据放入kafka上,想存哪存哪~