[微信公众号文章抓取.二]构建Anyproxy来获取数据

上回书说到,啊啊呸。上一篇文章已经确定了抓取的思路是通过微信app来访问公众号文章的历史页面。从中获得数据。那么这就需要一个网关来拦截并获取其中的数据,同时这个网关最好还是可以基于它进行二次开发的,这样我们就可以让它自动提取我们需要的数据用来进行下一步的处理。

python爬虫:提取页面时间

 

关于python中yield和协程的一点理解

yield一般应用于生成循环中的那个变量,一般这个变量是在代码编写时候就固定的或者是在生成器建立时候就传入的值 例如:

但是

使用正则表达式解析url