解决方案 > 业务需求的敏捷分析 > 数据采集解决方案
  • 摘要
  • 资源

数据采集解决方案

随着大数据时代的来临,人们对大数据的认识也越来越多,数据分析也越来越重要,数据采集就会变得尤其的突出。这其中包括:

  • 数据源多种多样

  • 数据量大,变化快

  • 如何保证数据采集的可靠性的性能

  • 如何避免重复数据

  • 如何保证数据的质量

根据采集的方式不同,我们可以将数据采集分成三类:基于Agent代理模式、基于网络分流模式、基于审计采集系统

基于Agent代理模式

基于Agnet代理模式是在应用系统中安装采集Agent,Agent负责收集系统日志和业务日志,并按照一定的格式输出到大数据存储平台中。目前开源的主流采集平台以Apache Flume、Fluentd、Logstash为代表,商业采集平台以Splunk Forwarder为代表。

数据采集解决方案 1.png

当需要采集的数据无法按照已有代理采集时,可以采用自定义脚本的方式采集。

 基于网络分流模式

在大数据应用中,我们不仅仅需要采集系统和业务日志,常常是需要对多个维度的数据进行关联性分析。网络流量数据 也就成了大数据平台不可分割的一部分。针对网络流量数据,我们可以采用网络分流设备、网络端口映射以及现有网络设备的NetFlow技术来采集。根据业务规模和场景选择不同的技术。例如我们可以采用恒为的分流设备将流量汇聚到统一出口,再根据业务特点选择需要分析的业务流。这里使用的专业网络分流设备,在生产环境中有些网络设备也支持Flow导出技术,例如可以利用Netscaler APPFlow技术将流量导入到Splunk中进行分析。

数据采集解决方案 2.png

 基于审计采集系统

在生产环境中,我们为了解决某个点安全问题时,往往会部署一些数据库审计、堡垒机、IPS\IDS等安全设备。这些设备本身已经保存了大量的业务日志数据,我们同样可以将这些数据采集出来结合其它数据做多维度分析。

 数据采集解决方案 3.png