8个零代码数据爬取工具推荐 爬虫软件哪个好( 二 )


附注:如果网站有防屏蔽采集机制(如数据很多但只能采集一部分下来 , 或提示多久才能打开一次页面) , 则适当调小a值和调大b的值;
第8步:保存、勾选并开始任务(如果是同一分组的 , 可以在分组上批量选中)

8个零代码数据爬取工具推荐 爬虫软件哪个好

文章插图

Google Sheet
使用Google Sheet爬取数据前 , 要保证三点:使用Chrome浏览器、拥有Google账号、电脑已翻墙 。
步骤如下:
(1)打开Google Sheet网站:http://www.google.cn/sheets/about/

8个零代码数据爬取工具推荐 爬虫软件哪个好

文章插图

(2)在首页上点击“转到Google表格” , 然后登录自己的账号 , 可以看到如下界面 , 再点击“+”创建新的表格

8个零代码数据爬取工具推荐 爬虫软件哪个好

文章插图

(3)打开要爬取的目标网站 , 一个全国实时空气质量网站http://www.pm25.in/rank , 目标网站上的表格结构如下图所示

8个零代码数据爬取工具推荐 爬虫软件哪个好

文章插图

(4)回到Google sheet页面 , 使用函数=IMPORTHTML(网址, 查询, 索引) , “网址”就是要爬取数据的目标网站 , “查询”中输入“list”或“table” , 这个取决于数据的具体结构类型 , “索引”填阿拉伯数字 , 从1开始 , 对应着网站中定义的哪一份表格或列表
对于我们要爬取的网站 , 我们在Google sheet的A1单元格中输入函数=IMPORTHTML(“http://www.pm25.in/rank”,”table”,1) , 回车后就爬得数据啦

8个零代码数据爬取工具推荐 爬虫软件哪个好

文章插图


8个零代码数据爬取工具推荐 爬虫软件哪个好

文章插图

(5)将爬取好的表格存到本地

8个零代码数据爬取工具推荐 爬虫软件哪个好

文章插图

八爪鱼采集器
网站:https://www.bazhuayu.com/
八爪鱼采集器是用过最简单易用的采集器 , 很适合新手使用 。 采集原理类似火车头采集器 , 用户设定抓取规则 , 软件执行 。 八爪鱼的优点是提供了常见抓取网站的模板 , 如果不会写规则 , 就直接用套用模板就好了 。
它是基于浏览器内核实现可视化抓取数据 , 所以存在卡顿、采集数据慢的现象 。 不过整体来说还是不错的 , 毕竟能基本满足新手在短时间抓取数据的场景 , 比如翻页查询 , Ajax 动态加载数据等 。
操作步骤:
(1)登陆后找到主页面 , 选择主页左边的简易采集 , 如图:

8个零代码数据爬取工具推荐 爬虫软件哪个好

文章插图

(2)选择简易采集中淘宝图标 , 如图红框:

8个零代码数据爬取工具推荐 爬虫软件哪个好

文章插图

(3)进入到淘宝版块后可以进行具体规则模板的选择 , 根据楼主截图 , 应该手提包列表的数据信息采集 , 此时我们选择“淘宝网-商品列表页采集” , 如图:

8个零代码数据爬取工具推荐 爬虫软件哪个好

文章插图

(4)然后会进入到信息设置页面 , 根据个人需要设置相关关键词 , 例如此处我们输入的商品名称为“手提包” , 如图:

8个零代码数据爬取工具推荐 爬虫软件哪个好

文章插图

(5)点击保存并启动后就可以进行数据采集了 , 以下是本地采集效果示例 , 如图:

8个零代码数据爬取工具推荐 爬虫软件哪个好

特别声明:本站内容均来自网友提供或互联网,仅供参考,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。