Discuz验证码识别(准备篇)-写给程序员的TensorFlow教程

蛰伏了快两个月了,终于迎来了新系列的第一篇文章。斟酌来斟酌去,决定将系列名字定为-《写给程序员的TensorFlow教程》也算是给这个系统文章定个基调。

太多的TensorFlow入门教程上来就是列了一系列国外的文献,视频。或者直接扔一堆代码,实在难以称之为入门。我们希望针对想学习TensorFlow的程序员来写一系列教程,聊一聊如何在基本掌握python的情况下,能够快速的使用TensorFlow这个工具解决实际问题。

神箭手汽车之家车型实时报价查询API——如何查询汽车之家的车系和车型ID

在调用神箭手的 汽车之家车型实时报价查询API 的时候,需要传入要查询的汽车之家车型和车系ID,本文将具体讲解如何查询:

如何获取微信公众号二维码?

搜狗上搜公众号,可以看到二维码,不过查看链接可以知道,这是个临时链接,会过期,就算把图片保存下来,一段时间之后,这个二维码还是会过期。

之前直接把微信号拼接在一段url后面,就可以得到一个不过期的二维码:

http://open.weixin.qq.com/qr/code/?username=cctvnewscenter

不过最近微信改版之后,这个链接已经失效了。

那么现在还有什么办法呢?

一番研究之后,发现下面两种办法:

如何在神箭手上快速开发爬虫——第五课 如何设置自定义输入【58同城二手房采集】

  1. 本课完整的爬虫代码可以在神箭手示例代码中查看
  2. 如何在神箭手上运行代码,请查看文档
  3. 更详细的爬虫开发教程,请查看文档

 

大家好,我是神箭手的游牧老师~

今天继续给大家带来 如何在神箭手上快速开发爬虫 系列教程的第五课:如何设置爬虫的自定义输入。

从这一课开始,我们要进入进阶学习了,对于基础知识还不熟悉的童鞋,请先从第一课开始学起啊:第一课点这里

在交付爬虫使用的时候,我们通常需要能够让使用者按照自己的需求来爬取,比如只爬某些分类的文章或者只爬某个城市的数据等。那这种变量就不能直接在代码里写死了,而需要有一个界面可以让使用者设置,然后在代码中根据使用者设置的具体值来爬取某些网页。

对于这种使用场景,神箭手提供了简单灵活的解决方案:自定义输入。开发者只需要通过注释标注某些变量,使用的时候就可以通过神箭手的爬虫设置界面输入变量值,然后在代码中根据具体值来处理了。so easy~

神箭手云托管添加又拍云支持

神箭手云托管支持的云存储继七牛云,阿里云OSS之后,又迎来了一位重量级的小伙伴-又拍云

又拍云,即又拍云存储,又拍云存储是通用的大规模存储服务。开放高度可扩展的API,为互联网企业提供基础存储系统。

淘宝客淘宝联盟商品爬虫使用教程:如何设置商品采集入口页url

淘宝联盟商品采集爬虫获取地址http://www.shenjian.io/index.php?r=market/product&product_id=500180

 

第一步:打开淘宝联盟官网,然后搜索栏里面输入要采集的宝贝关键字,输入后点击搜索按钮:

 


 

第二步:搜索结果出来后,可以直接把浏览器里的当前url作为入口页url设置到爬虫设置中;

神箭手新增微信公众号发布接口

神箭手微信公众号发布接口正式上线,自媒体作者可以方便的接入公众号发布接口,一键将文章发布到公众号平台。

神箭手发布接口一直是神箭手中非常有特色也是很强大的功能之一,支持发布到几乎所有主流CMS,数据库和邮箱发布。今天发布接口家族又迎来一个重量级的选手-微信公众号发布接口:


通过微信公众号发布接口,可以方便的将网站的内容同步到微信公众号的素材中,帮助大家迅速累计公众号文章的素材,获取更好的内容,吸引更多的粉丝,更简单快捷的做公众号内容运营。

携程反爬中的Eleven参数-反爬与反反爬的奇技淫巧

大家好,先回顾下之前的文章:

 

爬虫被封IP了怎么办-反爬与反反爬的奇技淫巧

爬虫中的验证码识别-反爬与反反爬的奇技淫巧

爬虫中Cookie的伪造(非登录)-反爬与反反爬的奇技淫巧

爬虫与诡异的字体-反爬与反反爬的奇技淫巧

爬虫与汽车之家的Css:Content-反爬与反反爬的奇技淫巧

爬虫与CloudFlare邮箱加密(cfemail)-反爬与反反爬的奇技淫巧

 

今天我们要聊点什么呢,之前说要聊去哪儿的,不过暂且咱们再放一放,先聊一聊去哪儿的干爹携程吧,上次我记得看了携程工程师霸气回应说懂爬虫的来去哪儿,懂反爬的来携程。我觉得特别棒,这种开放的心态和自信,正是一个开放的互联网环境所需要的。

所以今天这节课虽然咱们以携程为例,但是我们还是以学习的目的为主,因此我不会把完整的代码放出来,大家掌握思路,拿到渔网比直接copy代码有用的多。

上篇文章用邮箱加密给大家演示了爬虫中简单的JS对抗,今天这节课咱们就用携程的Eleven参数来演示下复杂的JS对抗。

对了,这个题图,主要是因为携程给他们这个反爬的JS起了一个名字叫oceanball-海洋球,不明觉厉啊。

好了,言归正传。做过携程酒店爬虫的朋友,估计都研究过这个eleven参数,这个参数到底是哪里的呢,我们先看下页面请求:

就是这样一个页面,打开一个酒店页面会发现实际的酒店房型列表是一个ajax请求,如下:

http://hotels.ctrip.com/Domestic/tool/AjaxHote1RoomListForDetai1.aspx?psid=&MasterHotelID=441351&hotel=441351&EDM=F&roomId=&IncludeRoom=&city=2&showspothotel=T&supplier=&IsDecoupleSpotHotelAndGroup=F&contrast=0&brand=0&startDate=2017-08-28&depDate=2017-08-29&IsFlash=F&RequestTravelMoney=F&hsids=&IsJustConfirm=&contyped=0&priceInfo=-1&equip=&filter=&productcode=&couponList=&abForHuaZhu=&defaultLoad=T&TmFromList=F&eleven=c4350e460862b69d9d76724e1325a0a54ef23c2e0648636c855a329418018a85&callback=CASuBCgrghIfIUqemNE&_=1503884369495

前面咱说过,出于对反爬工程师工作的尊重,我们今天的文章不去完整介绍整个携程爬虫的做法,其实除了这eleven参数,携程还是在代码了下了不少毒的。

爬虫与CloudFlare邮箱加密(cfemail)-反爬与反反爬的奇技淫巧

大家好,今天我们终于要进入我们激动人心的反爬界最重量级选手–Javascript加密混淆,我们先来回顾之前叨逼叨了5篇文章的反爬经验:

爬虫被封IP了怎么办-反爬与反反爬的奇技淫巧

爬虫中的验证码识别-反爬与反反爬的奇技淫巧