如何在神箭手上快速开发爬虫——第四课 如何爬取分页数据【蘑菇街商品评论】

注:

1、本课完整的爬虫代码可以在神箭手示例代码中查看:http://www.shenjianshou.cn/index.php?r=demo/docs&demo_id=500006

2、如何在神箭手上运行代码,请查看文档:http://docs.shenjianshou.cn/overview/guide/develop/crawler.html

3、更详细的爬虫开发教程,请查看文档:http://docs.shenjianshou.cn/develop/summary/summary.html

 

 

大家好,我是神箭手的游牧老师~

今天继续给大家带来 如何在神箭手上快速开发爬虫 系列教程的第四课:如何爬取分页数据。

 

通过前三课的学习,相信大家爬爬文章、爬爬商品啥的已经很简单了(还不会的筒子面壁去( ̄▽ ̄)”)。那么今天呢,主要跟大家分享下爬取分页数据的方法。

分页数据指的是要爬取的数据在多个分页上,无法通过请求一个页面一次抽取出来。举个常见的栗子,就是电商商品的评论了:

 

如果要将每个商品的所有评论爬取为一个商品数据的一个字段,因为在商品的详情页内,评论是分页显示的,所以需要通过分别访问每页评论抽取。

如何在内容页中抽取分页数据,神箭手提供了两种方法:

一键采集并同步知乎问答到自己的网站或数据库

知乎是一个真实的网络问答社区,社区氛围友好与理性。用户分享着彼此的专业知识、经验和见解,由此产生了大量高质量的信息。
 
神箭手云爬虫知乎采集爬虫-一站式云端通用爬虫开发平台 神箭手云爬虫多样化采集网页内容,快速产生大量而优质的内容。今天小喵就来教你如何get这项技能。
 
数据采集:
 
1.打开神箭手云爬虫官网(http://www.shenjian.io/
 



1