基于Hadoop和Spark构建可扩展的网络安全分析平台

下载 0

Oliver

发布于

2318

人观看

#信息技术

基于Hadoop与Spark构建安全数据分析检测平台 ... 高于Map-Reduce模型；; Spark-Streaming - 流数据实时／半实时处理; MLlib 机器学习模块; GraphX 图计算模块.

展开查看详情

1 .基于 Hadoop 和 Spark 构建可扩展的网络安全分析平台山东大学赵科军葛连升刘洋秦丰林 L/O/G/O

2 .挑战 • 网络安全检测数据量迅速增长 – 流量信息数据 – 系统日志 – 应用服务日志 –… • 机器学习技术广泛应用于安全分析检测 – 大量迭代计算 • 支持实时／半实时安全分析检测

3 .现状 • 单机处理受限 • 自建集群 – 并行计算开发难度大，开发量 – 工程质量 – 业务可扩展性 – 集群可扩展性

4 .现状 -Hadoop • Hadoop 集群 – Hadoop 是 Apache 基金会管理的一个分布式系统基础架构； – 用户在不了解分布式底层实现细节的情况下，可以充分利用廉价的硬件平台开发分布式程序； – Hadoop 拥有高可扩展性，高可用性，低廉应用成本等优点； – 缺点：计算模型 MapReduce 需要多次的读写磁盘，计算速度慢。 – 适合线下数据分析

5 .基于 Hadoop 与 Spark 构建安全数据分析检测平台 • Spark 是 UC Berkeley AMP lab 开源的并行计算框架； • 基于内存的计算，计算速度明显高于 Map- Reduce 模型； • Spark-Streaming - 流数据实时／半实时处理 • MLlib 机器学习模块 • GraphX 图计算模块

6 .平台结构基于 Hadoop 与 Spark 构建安全数据分析检测平台，整个系统的架构如图：

7 .分析检测流程 • 平台基于 HDFS 中的离线数据使用 Spark 训练模型，然后将训练好的模型交给 Spark Streaming 进行分析检测。

8 .分析检测流程 • 采用离线模型训练与在线分析检测结合的方法可以最大限度的利用大数据平台的高效计算能力，同时利用 Spark streaming 的特性保证数据检测的实时性。

9 .实验结果与分析 • 实验环境 – 6 台服务器： 2 颗 Xeon(R) E5-2407 V2 @2.4GHz CPU(4 核 ) ， 32GB 内存 – HDFS 本身提供了可靠的冗余备份机制，所有服务器均不使用 RAID 配置，硬盘采用直接挂载的方式，提高 I/O 吞吐能力； – 6 台服务器安装在同一个机架中，服务器使用单块千兆网卡通过一台千兆交换机互联。

10 .实验数据 • 采用山东大学济南六校区 DNS 查询日志作为本实验的测试数据。 • 使用 Flume 将 2016 年 6 月 20 日 -2016 年 6 月 26 日总共一周的 DNS 查询日志数据写入了安全平台的文件系统。该数据样本大小为 486GB ，总共包含 33 亿 (3,357,813,618) 条查询记录。 • 使用 DNS 查询频率特征提取作为主要的性能测试对象。

11 .采用一天的 DNS 查询样本数据（ 81GB ） , 包含 186 545 201 条查询数据。将集群计算节点的个数从 1 台逐渐累加到 6 台的规模，在不同的计算节点个数环境下计算样本中所有主机的查询频率。

12 .• 集群对不同样本数据量的运行时间比较。将样本数据量从 1 d 的数据量逐步增加到一周的数据量，产生 7 个样本数据。集群采用 6 个计算节点，通过计算样本数据中每台主机的查询频率考察集群的运行性能：

13 .总结 • 本文提出基于 Hadoop 和 Spark 计算框架构建一种低成本的可扩展性的大数据安全分析检测平台。 • 使用离线模型生成与在线检测相结合的方式对大规模网络数据进行分析，同时能够实现实时安全分析检测。 • 通过实验证明：基于 Hadoop 和 Spark 的大数据安全分析平台具有良好的可扩展性及高效处理能力，能够满足安全大数据的分析与检测要求。 • 下一阶段，将在该大数据安全分析平台基础上充分利用 DNS 日志和网络流量数据，在异构数据环境中开展实时僵尸网络检测分析的工作。

14 .谢谢！

1点赞

2收藏

0下载