如何在神箭手上快速开发爬虫——第五课 如何设置自定义输入【58同城二手房采集】

  1. 本课完整的爬虫代码可以在神箭手示例代码中查看
  2. 如何在神箭手上运行代码,请查看文档
  3. 更详细的爬虫开发教程,请查看文档

 

大家好,我是神箭手的游牧老师~

今天继续给大家带来 如何在神箭手上快速开发爬虫 系列教程的第五课:如何设置爬虫的自定义输入。

从这一课开始,我们要进入进阶学习了,对于基础知识还不熟悉的童鞋,请先从第一课开始学起啊:第一课点这里

在交付爬虫使用的时候,我们通常需要能够让使用者按照自己的需求来爬取,比如只爬某些分类的文章或者只爬某个城市的数据等。那这种变量就不能直接在代码里写死了,而需要有一个界面可以让使用者设置,然后在代码中根据使用者设置的具体值来爬取某些网页。

对于这种使用场景,神箭手提供了简单灵活的解决方案:自定义输入。开发者只需要通过注释标注某些变量,使用的时候就可以通过神箭手的爬虫设置界面输入变量值,然后在代码中根据具体值来处理了。so easy~

神箭手云托管添加又拍云支持

神箭手云托管支持的云存储继七牛云,阿里云OSS之后,又迎来了一位重量级的小伙伴-又拍云

又拍云,即又拍云存储,又拍云存储是通用的大规模存储服务。开放高度可扩展的API,为互联网企业提供基础存储系统。

淘宝客淘宝联盟商品爬虫使用教程:如何设置商品采集入口页url

淘宝联盟商品采集爬虫获取地址http://www.shenjian.io/index.php?r=market/product&product_id=500180

 

第一步:打开淘宝联盟官网,然后搜索栏里面输入要采集的宝贝关键字,输入后点击搜索按钮:

 


 

第二步:搜索结果出来后,可以直接把浏览器里的当前url作为入口页url设置到爬虫设置中;

神箭手新增微信公众号发布接口

神箭手微信公众号发布接口正式上线,自媒体作者可以方便的接入公众号发布接口,一键将文章发布到公众号平台。

神箭手发布接口一直是神箭手中非常有特色也是很强大的功能之一,支持发布到几乎所有主流CMS,数据库和邮箱发布。今天发布接口家族又迎来一个重量级的选手-微信公众号发布接口:


通过微信公众号发布接口,可以方便的将网站的内容同步到微信公众号的素材中,帮助大家迅速累计公众号文章的素材,获取更好的内容,吸引更多的粉丝,更简单快捷的做公众号内容运营。

爬虫中的验证码识别-反爬与反反爬的奇技淫巧

上一课带大家聊了聊反爬与反反爬最基础的对抗-代理ip,别看这个简单,真正处理好了代理ip基本上解决大半的爬虫问题,包括本节的验证码。很多网站弹出验证码也是因为发现ip重复过多,比如搜狗微信搜索,如果在合理的时间切换ip,就可以完美的躲避掉搜狗微信中的验证码(注意只有搜狗微信中的验证码可以,微信中的是不可以的,其中区别可以通过浏览器中的域名来区分)。

上一篇文章写完之后,爬虫天坑的文章意外收获了不少赞,这里拜谢大家支持,同时如果天坑系列破百赞的话,我会继续更新那个系列。

爬虫被封IP了怎么办-反爬与反反爬的奇技淫巧

大家好,好久不见了,之前写了一篇爬虫天坑系列的文章,本想继续写下去,没想到可能篇幅太长,废话太多,导致很多朋友感觉帮助不大。因此组织上决定,从这篇文章开始,让我写一些更接地气的文章。

 

其实很多人都觉得爬虫没什么深奥的技术,但是又觉得想真正写好爬虫却似乎很难。原因就在于爬虫本身的功能简单,而真正难的都在反反爬技术当中。那从今天开始我们一起来聊一聊反爬和反反爬们使用的那些奇技淫巧。

如何在神箭手上快速开发爬虫——第四课 如何爬取分页数据【蘑菇街商品评论】

注:

1、本课完整的爬虫代码可以在神箭手示例代码中查看:http://www.shenjianshou.cn/index.php?r=demo/docs&demo_id=500006

2、如何在神箭手上运行代码,请查看文档:http://docs.shenjianshou.cn/overview/guide/develop/crawler.html

3、更详细的爬虫开发教程,请查看文档:http://docs.shenjianshou.cn/develop/summary/summary.html

 

 

大家好,我是神箭手的游牧老师~

今天继续给大家带来 如何在神箭手上快速开发爬虫 系列教程的第四课:如何爬取分页数据。

 

通过前三课的学习,相信大家爬爬文章、爬爬商品啥的已经很简单了(还不会的筒子面壁去( ̄▽ ̄)”)。那么今天呢,主要跟大家分享下爬取分页数据的方法。

分页数据指的是要爬取的数据在多个分页上,无法通过请求一个页面一次抽取出来。举个常见的栗子,就是电商商品的评论了:

 

如果要将每个商品的所有评论爬取为一个商品数据的一个字段,因为在商品的详情页内,评论是分页显示的,所以需要通过分别访问每页评论抽取。

如何在内容页中抽取分页数据,神箭手提供了两种方法:

如何在神箭手上快速开发爬虫——第三课 如何爬取列表页数据【87870 VR资讯文章】

注:
1、本课完整的爬虫代码可以在神箭手示例代码中查看:http://www.shenjianshou.cn/index.php?r=demo/docs&demo_id=500004
2、如何在神箭手上运行代码,请查看文档:http://docs.shenjianshou.cn/overview/guide/develop/crawler.html

3、更详细的爬虫开发教程,请查看文档:http://docs.shenjianshou.cn/develop/summary/summary.html