神箭手常用应用介绍-爬虫、API、数据清洗

本文主要介绍神箭手上的常用应用,包括爬虫、API接口和数据清洗等应用。

 

对于刚接触神箭手的用户来说,可能只知道神箭手云平台能直接运行爬虫应用,其实,神箭手也能创建应用,你只需登录神箭手,进入“控制台”,点击“新建应用”,即可创建一个神箭手应用了。

一大波API上架神箭云市场,接好啦~

神箭云市场近期上架大量全面的API接口,涵盖生活服务、金融征信、娱乐休闲等不同领域。并且将会持续添加更多丰富的API接口,开发者还可以通过神箭手的SDK统一快速地进行API调用。

戳我查看有哪些API吧

其中包括了很多开发者常用的API,包括天气预报、历史上的今天、解梦、汇率查询、自然语言处理等接口,都是免费提供的,开发者可以免费调用。

如何在神箭手上快速开发爬虫——第八课 如何爬取手机瀑布流网页数据【手机网新闻】

1、本课完整的爬虫代码可以在神箭手示例代码中查看

2、如何在神箭手上运行代码,请查看文档

3、更详细的爬虫开发教程,请查看文档  

不会用rest接口?神箭手SDK来了

很多小伙伴给我们反馈说,神箭手功能很强大,接口也开放了很多。不过写程序对接restful接口的时候,总是会遇到这样那样的问题,调试起来也不太方便,有什么更好的办法吗?

为了方便大家更方便的集成神箭手线上爬虫,清洗的功能,神箭手推出了官方的集成调用的SDK,目前包含Java/Php/Python三种语言,现在封装了神箭手上所有restful接口的调用,将来还将加入GraphQL和API的调用。

SDK的安装方式分别提供了手动下载和对应的集成安装环境(Maven/Composer/pip),大家根据自己熟悉的语言,选择合适的SDK即可。

数据发布新增支持Tipask系统

神箭手上的数据(包括从市场购买的数据、爬虫爬取的数据、本地上传或连接远程数据库的数据、数据清洗输出的数据、机器学习的训练数据等)都可以通过数据发布功能一键发布到不同的CMS网站。这也是最受使用者欢迎的功能之一。

今日,官方的数据发布新增支持Tipask系统,使用者可以将数据一键自动发布到自己的Tipask网站上啦!

爬虫中的验证码识别-反爬与反反爬的奇技淫巧

上一课带大家聊了聊反爬与反反爬最基础的对抗-代理ip,别看这个简单,真正处理好了代理ip基本上解决大半的爬虫问题,包括本节的验证码。很多网站弹出验证码也是因为发现ip重复过多,比如搜狗微信搜索,如果在合理的时间切换ip,就可以完美的躲避掉搜狗微信中的验证码(注意只有搜狗微信中的验证码可以,微信中的是不可以的,其中区别可以通过浏览器中的域名来区分)。

上一篇文章写完之后,爬虫天坑的文章意外收获了不少赞,这里拜谢大家支持,同时如果天坑系列破百赞的话,我会继续更新那个系列。

爬虫被封IP了怎么办-反爬与反反爬的奇技淫巧

大家好,好久不见了,之前写了一篇爬虫天坑系列的文章,本想继续写下去,没想到可能篇幅太长,废话太多,导致很多朋友感觉帮助不大。因此组织上决定,从这篇文章开始,让我写一些更接地气的文章。

 

其实很多人都觉得爬虫没什么深奥的技术,但是又觉得想真正写好爬虫却似乎很难。原因就在于爬虫本身的功能简单,而真正难的都在反反爬技术当中。那从今天开始我们一起来聊一聊反爬和反反爬们使用的那些奇技淫巧。

12