百度糯米电影信息采集爬虫开发教程

 

本文主要介绍“百度糯米电影信息采集爬虫”的开发教程,按三个不同类目爬取影片的基本信息,爬取字段包括电影ID、电影名称和上映时间等字段,文章结尾会附上完整的爬虫代码。

 

采集网站URLhttps://dianying.nuomi.com/movie/movielist

 

使用功能点:

· 自定义设置

· initCrawlafterDownloadPageonProcessContentPage 和 afterExtractPage回调函数

 

接下来,给你详细说明“百度糯米电影信息采集爬虫”的开发过程

 

步骤1  创建爬虫

注册并登录神箭手,进入神箭手控制台。

1

点击“新建应用”,选择“爬虫”,点击“下一步”。

2

输入爬虫名称“百度糯米电影信息采集爬虫”,选择“编辑模式”,点击“创建”,神箭手爬虫创建成功。

3

 

步骤2  分析网页&开发爬虫

本文使用Chrome浏览器分析京东商品网页,按“F12”打开浏览器“开发者工具”。

4

在浏览器“开发者工具”中勾选“Preserve log”,按“F5”刷新网页,电影列表数据便会重新加载进来。

5

在浏览器“开发者工具”中选择“AHR”,搜索“getmovielist”,便可找到存放电影列表信息的URL。

6

分析请求该URL返回的JSONP数据,结合“神箭手开发文档”,在神箭手爬虫编辑页开发爬虫代码。

7

 

步骤3  测试并运行爬虫

爬虫开发完成后,点击“测试”按钮看爬虫的爬取结果是否正确。

8

测试通过后,进入“爬虫设置”页,设置“代理IP”、“文件云托管”以及需要爬取的电影“分类”。

9

返回爬虫总览页,点击“启动爬虫”,稍等片刻,爬虫就会爬取到数据了。

10

 

步骤4  数据发布与导出

爬虫爬到数据后,可以选择将数据发布到网站或数据库中,点此查看神箭手数据发布详细教程。

11

此外,还可选择将数据“导出”,点此查看神箭手数据导出详细教程。

12

 

神箭手爬虫导出数据示例,如下图所示:

13

 

“百度糯米电影信息采集爬虫”完整示例代码,点此下载。

注意:代码文件是“UTF-8”编码格式。