如何在神箭手上快速开发爬虫——第七课 如何爬取登录才可见的数据【5sing歌曲信息采集】

  1. 1、本课完整的爬虫代码可以在神箭手示例代码中查看
  2. 2、如何在神箭手上运行代码,请查看文档
  3. 3、更详细的爬虫开发教程,请查看文档  


大家好,我是神箭手的游牧老师~

今天继续给大家带来 如何在神箭手上快速开发爬虫 系列教程的第七课:如何爬取登录才可见的数据。

对于基础知识还不熟悉的童鞋,请先从第一课开始学起啊:第一课点这里


今天我们来采集5sing网站的歌曲信息,打开网站:http://5sing.kugou.com/yc/3497845.html。点击”下载”,可以发现,如果要看到歌曲的下载地址,是需要先登录的:



那如何采集歌曲的下载地址数据呢?就需要在开始爬取的时候,先进行模拟登录。先分析登录请求的地址和发送的数据等,然后再在爬虫代码里发送登录请求。

神箭手会自动保存和使用所有请求的cookie,所以只要请求登录成功,就可以正常采集了!


第一步:分析并发送登录请求

使用浏览器的开发者工具,很容易查找到点击登录按钮后发送的请求:



看上去还是比较简单的post请求的,那么我们就很容易写出来登录请求的函数:

京东商品评价信息采集爬虫开发教程


本文主要介绍京东商品评价信息采集爬虫”的开发教程,爬取商品的第一页评价信息,爬取字段包括评价者、评价时间和评价内容,文章结尾会附上完整的爬虫代码

 

采集商品URLhttps://item.jd.com/2543188.html


使用功能点

· JsonPath内容抽取

· onProcessScanPageafterExtractField回调函数


接下来,给你详细说明“京东商品评价信息采集爬虫”的开发过程


步骤1 创建爬虫

注册并登录神箭手,进入神箭手控制台。

点击“新建应用”,选择“爬虫”,点击“下一步”。


输入爬虫名称京东商品评价信息采集爬虫”,选择“编辑模式”,点击“创建”,神箭手爬虫创建成功。


如何在神箭手上快速开发爬虫——第六课 如何爬取分类数据【春雨医生健康资讯文章采集】

1、本课完整的爬虫代码可以在神箭手示例代码中查看
2、如何在神箭手上运行代码,请查看文档
3、更详细的爬虫开发教程,请查看文档  


大家好,我是神箭手的游牧老师~

今天继续给大家带来 如何在神箭手上快速开发爬虫 系列教程的第六课:如何爬取分类数据。

对于基础知识还不熟悉的童鞋,请先从第一课开始学起啊:第一课点这里


神箭手为了简化爬虫代码,默认是全站爬虫,会自动从入口页链接中自动发现新的链接,全站爬取。但是在爬取文章或者商品数据的时候,我们可能需要精准采集,比如只爬取某些分类的文章或者某个店铺某个关键字的商品。对于这种情况,有两种处理办法:

1、优化列表页和内容页url正则表达式,使其只匹配需要的url;

2、关闭自动链接发现,手动添加需要的url到待爬队列中。

第一种办法没什么好说的,大家多熟悉熟悉正则表达式即可。本文主要讲解第二种办法。关闭自动链接发现和手动添加新的链接,都是在网页下载完成后的回调函数中处理的。


举个例子,按分类爬取春雨医生的健康资讯文章:



我们首先通过自定义输入(在本系列上一篇文章有具体讲解如何使用自定义输入),传入要爬取的分类的首页url,比如:https://www.chunyuyisheng.com/pc/health_news/?channel_id=21

// 输入要爬取的分类url,可以输入多个 
var channelUrls = ["https://www.chunyuyisheng.com/pc/health_news/?channel_id=21", "https://www.chunyuyisheng.com/pc/health_news/?channel_id=35"];//@input(channelUrls, 要爬取的资讯分类首页url)

然后在爬取前,将这些首页url添加到入口页url列表中:

如何查找微信公众号对应的微信号?

在使用微信相关的爬虫或者API的时候,经常需要输入微信号。比如http://www.shenjian.io/index.php?r=market/product&product_id=500099

但是很多人只知道公众号名,不知道微信号,下面我们以公众号 ”人民日报” 为例,教大家如何查找公众号对应的微信号。


1. 打开搜狗微信搜公众号

在浏览器中打开搜狗微信,输入公众号名”人民日报”,并点击”搜公众号”



2. 从搜索结果中找到微信号

在搜索结果中找到想要查找的公众号”人民日报”,即可看到该公众号对应的微信号”rmrbwx”


如何使用神箭手文件云托管服务?

本文给大家演示如何使用神箭手文件云托管服务,适用于需要下载图片或其他文件的情况,解决目标网站使用防盗链的问题。目的是让大家简单了解怎样给神箭手应用设置文件云托管


成功将文件托管到神箭手的示例,如下图所示:



本文使用神箭手大数据市场提供的微信文章爬虫[按公众号或关键字]”举例说明,因为搜狗微信文章的图片使用了防盗链,要想正常访问图片,就需要使用神箭手文件云托管服务


步骤1 注册并登录神箭手,打开神箭手大数据市场,找到“微信文章爬虫[按公众号或关键字]”,点击“获取爬虫”按钮,稍等片刻,页面会自动跳转到爬虫总览页。



步骤2 在爬虫总览页,点击“爬虫设置”,在“功能设置”找到“文件云托管”服务,选择托管服务器(这里我们选择“托管到神箭手”),并选择托管文件类型(默认选择“图片 / image”),点击“保存”即可。


注意:

1. 可以将文件托管到4种服务器上:七牛、阿里云、又拍云和神箭手

2. 使用神箭手云托管服务托管到不同服务器上需配置的信息是不同的,点此查看神箭手文件云托管详细教程。