数据收集的方法有哪些，数据收集的10个方法？( 二 )

3.2 聚焦网络爬虫聚焦网络爬虫（Focused Crawler），又称主题网络爬虫（Topical Crawler），是指选择性地爬行那些与预先定义好的主题相关页面的网络爬虫。和通用网络爬虫相比，聚焦爬虫只需要爬行与主题相关的页面，极大地节省了硬件和网络资源，保存的页面也由于数量少而更新快，还可以很好地满足一些特定人群对特定领域信息的需求。
3.3 增量式网络爬虫增量式网络爬虫（Incremental Web Crawler）是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫，它能够在一定程度上保证所爬行的页面是尽可能新的页面。和周期性爬行和刷新页面的网络爬虫相比，增量式爬虫只会在需要的时候爬行新产生或发生更新的页面，并不重新下载没有发生变化的页面，可有效减少数据下载量，及时更新已爬行的网页，减小时间和空间上的耗费，但是增加了爬行算法的复杂度和实现难度。增量式网络爬虫的体系结构[包含爬行模块、排序模块、更新模块、本地页面集、待爬行 URL 集以及本地页面URL 集。
3.4 Deep Web 爬虫Web 页面按存在方式可以分为表层网页（Surface Web）和深层网页（Deep Web，也称 Invisible Web Pages 或 Hidden Web）。表层网页是指传统搜索引擎可以索引的页面，以超链接可以到达的静态网页为主构成的 Web 页面。Deep Web 是那些大部分内容不能通过静态链接获取的、隐藏在搜索表单后的，只有用户提交一些关键词才能获得的 Web 页面。例如那些用户注册后内容才可见的网页就属于 Deep Web 。2000 年 Bright Planet 指出：Deep Web 中可访问信息容量是 Surface Web 的几百倍，是互联网上最大、发展最快的新型信息资源。
3.5 学习资料推荐其实我们只要打开一些网购平台，搜索爬虫，就会发现跳出来很多关于爬虫的书籍，基本上是清一色的python，而且毫不夸张的说，很多书的内容都会涉及到一个Python的网络爬虫——Scrapy 。
这里就不介绍对应的书籍了，网购平台的销量和热度已经告诉你该学习那些资料了，除此之外，这里还为一些没有编程基础的朋友提供一些傻瓜式爬虫，他们的功能非常强大，对于没有编程基础，又想体验和使用爬虫的朋友提供了很大的便利，参考链接如下：
不懂编程也可以使用的几款数据爬取工具！ – PurStar – 博客园
https://www.cnblogs.com/purstar/p/14137398.html
04 日志收集志收集也是一种较为常见的场景，收集的数据可以用监控硬件设备或者软件系统的运行状况，当发生问题时，这些数据可以提供给运维工程师一些警报和有助于故障修复的关键信息。
对于一些中大型企业，机房管理的设备比较多，可以采用相关的日志收集方案，以便于接下来的数据分析和问题解决。这里就不介绍更多的关于日志收集的概念了，向常见的几款日志收集工具，有Logstash、Filebeat、Flume、Fluentd、Logagent、rsyslog、syslog-ng 。
这里仅仅介绍三款，做一个对比：
4.1 FlumeFlume是一种分布式、高可靠和高可用的服务，用于高效地收集、聚合和移动大量日志数据。它有一个简单而灵活的基于流数据流的体系结构。它具有可调的可靠性机制、故障转移和恢复机制，具有强大的容错能力。它使用一个简单的可扩展数据模型，允许在线分析应用程序。
Flume的设计宗旨是向Hadoop集群批量导入基于事件的海量数据。系统中最核心的角色是agent，Flume采集系统就是由一个个agent所连接起来形成。每一个agent相当于一个数据传递员，内部有三个组件：
source: 采集源，用于跟数据源对接，以获取数据
sink：传送数据的目的地，用于往下一级agent或者最终存储系统传递数据

特别声明：本站内容均来自网友提供或互联网，仅供参考，请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系，我们将在24小时内删除。