新浪微博爬虫使用教程:如何获取用户ID或话题ID

新浪微博爬虫获取地址:http://www.shenjian.io/index.php?r=market/product&product_id=500032

一.如何获取用户ID

第一步:比如要获取萧山网的用户id,先从微博列表中找到萧山网发的一条微博,没有的话您需要先关注该用户,然后再从发布的微博中找到发布时间,点击发布时间。

写给程序员的TensorFlow教程-网站备案查询API及验证码识别

终于迎来了我们的《写给程序员的TensorFlow教程》的第二弹,离第一弹时间已经过去了好久好久好久好久…

等了这么久,是不是很多朋友已经晋升币圈大佬,再也不用看AI教程了。不过金钱如过眼云烟,还是有一技傍身才是真正的安全。

如何在神箭手上快速开发爬虫——第八课 如何爬取手机瀑布流网页数据【手机网新闻】

1、本课完整的爬虫代码可以在神箭手示例代码中查看

2、如何在神箭手上运行代码,请查看文档

3、更详细的爬虫开发教程,请查看文档  

如何在神箭手上快速开发爬虫——第五课 如何设置自定义输入【58同城二手房采集】

  1. 本课完整的爬虫代码可以在神箭手示例代码中查看
  2. 如何在神箭手上运行代码,请查看文档
  3. 更详细的爬虫开发教程,请查看文档


大家好,我是神箭手的游牧老师~

今天继续给大家带来 如何在神箭手上快速开发爬虫 系列教程的第五课:如何设置爬虫的自定义输入。

从这一课开始,我们要进入进阶学习了,对于基础知识还不熟悉的童鞋,请先从第一课开始学起啊:第一课点这里

在交付爬虫使用的时候,我们通常需要能够让使用者按照自己的需求来爬取,比如只爬某些分类的文章或者只爬某个城市的数据等。那这种变量就不能直接在代码里写死了,而需要有一个界面可以让使用者设置,然后在代码中根据使用者设置的具体值来爬取某些网页。

对于这种使用场景,神箭手提供了最简单灵活的解决方案:自定义输入。开发者只需要通过注释标注某些变量,使用的时候就可以通过神箭手的爬虫设置界面输入变量值,然后在代码中根据具体值来处理了。so easy~

爬虫与CloudFlare邮箱加密(cfemail)-反爬与反反爬的奇技淫巧

大家好,今天我们终于要进入我们激动人心的反爬界最重量级选手–Javascript加密混淆,我们先来回顾之前叨逼叨了5篇文章的反爬经验:

继续阅读...

爬虫与汽车之家的Css:Content-反爬与反反爬的奇技淫巧

大家好,我又要食言了,总盯着去哪儿挺没意思的,今天咱们先聊另外一个老朋友-汽车之家。

先上广告,土豪朋友不想写代码的,可以直接使用我们的汽车之家论坛爬虫:

爬虫中Cookie的伪造(非登录)-反爬与反反爬的奇技淫巧

两篇文章下肚,各位看官感觉如何。避免新同学不知道之前的文章:

爬虫被封IP了怎么办-反爬与反反爬的奇技淫巧

爬虫中的验证码识别-反爬与反反爬的奇技淫巧

上一课带大家聊了聊反爬与反反爬最基础的对抗-代理ip,别看这个简单,真正处理好了代理ip基本上解决大半的爬虫问题,包括本节的验证码。很多网站弹出验证码也是因为发现ip重复过多,比如搜狗微信搜索,如果在合理的时间切换ip,就可以完美的躲避掉搜狗微信中的验证码(注意只有搜狗微信中的验证码可以,微信中的是不可以的,其中区别可以通过浏览器中的域名来区分)。

上一篇文章写完之后,爬虫天坑的文章意外收获了不少赞,这里拜谢大家支持,同时如果天坑系列破百赞的话,我会继续更新那个系列。

爬虫被封IP了怎么办-反爬与反反爬的奇技淫巧

大家好,好久不见了,之前写了一篇爬虫天坑系列的文章,本想继续写下去,没想到可能篇幅太长,废话太多,导致很多朋友感觉帮助不大。因此组织上决定,从这篇文章开始,让我写一些更接地气的文章。


123