好用的Discuz论坛采集爬虫,无需破解

本文主要介绍神箭手“通用Discuz论坛采集爬虫”(以下简称“通用DZ爬虫”)的使用教程及注意事项。

 

Discuz论坛作为CMS网站的重要一员,在互联网上扮演着至关重要的角色,许多知名论坛都可以看到Discuz的影子,但是如此众多的Discuz论坛,要采集起来并非易事,如何一口吃掉这么大一块肥肉呢?别急,神箭手已经给你提供了“通用DZ爬虫”~~

0

 

与互联网上的各类Discuz论坛采集插件相比,神箭手的优势明显,能全天候不间断地在云端采集数据,采集速度快,且支持弹性升降采集速度,支持自动接入和切换代理IP服务,支持通过webhooks服务实时发布数据,此外,还有文件云托管、GraphQL等服务供你使用。

 

通用DZ爬虫,支持采集全网90%以上的Discuz论坛,爬取的数据包括问题信息和问题回复信息等,爬取速率快,数据发布方便,直接使用网址发布插件即可,无需破解,极大降低你获取数据的成本。

 

接下来,教你如何使用神箭手“通用DZ爬虫”在云端采集和发布论坛数据到你的Discuz网站:

 

步骤一  注册登录

打开神箭手官网,注册并登录神箭手,进入神箭手控制台。

注意:神箭手已支持使用QQ和GitHub账号登陆。

1

 

步骤二  购买爬虫

进入神箭手云市场,找到“通用DZ爬虫”,点击“查看详情”按钮,在跳转后的爬虫详情页中点击“获取爬虫”按钮,便可成功获取爬虫了。

2

 

步骤三  设置爬虫

进入“通用DZ爬虫”总览页,点击爬虫“应用设置”,配置爬虫。你可以“调整爬虫名称和描述”、“选择文件云托管方式”以及“设置代理IP种类、配置要采集的Discuz论坛网址、选择要爬取的论坛版块和需要采集的帖子回复数量等”,最后别忘了点“保存”。

注意

1.为了尽可能提高爬虫的爬取速率,建议勾选“只打印关键日志”;

2.有些Discuz论坛会自带一些反爬措施,建议开启神箭手“自动切换代理IP服务”。

3-%e5%a4%8d%e5%88%b6

 

步骤四  爬取数据

进入“通用DZ爬虫”总览页,点击“启动爬虫”,配置爬虫运行期间所使用的节点数,并选择是否设置定时任务后,启动爬虫,爬虫便开始爬取数据,过一会儿,你就能在“爬取结果”页查看爬到的论坛数据了。

注意:节点数可根据爬虫的爬取情况灵活配置,节点越多,爬虫的爬取速率越快,爬取效果越好。

4-%e5%a4%8d%e5%88%b6

5-%e5%a4%8d%e5%88%b6

 

步骤五  数据发布与导出

当爬虫爬到数据后,你可以选择将数据“发布到数据库/网站/媒体”中,点此查看神箭手数据发布详细教程。

6

此外,你还可选择将数据“导出”,点此查看神箭手数据导出详细教程。

7

 

“通用DZ爬虫”论坛数据导出示例展示,如下图所示:

8

 

点此获取神箭手云市场“通用Discuz论坛采集爬虫”。

 

此外,神箭手云市场还提供了“知乎问答采集爬虫[按关键字]”、“头条问答[悟空问答]采集爬虫”、“百度贴吧帖子采集爬虫”和“线报屋最新线报文章采集爬虫”等海量爬虫、API和数据源应用等待你的使用。

分享至微信朋友圈 ×
打开微信,点击底部的“发现”,
使用“扫一扫”即可将网页分享至朋友圈。