基于组合分类器的DDoS攻击流量分布式检测模型

[6] 周志华. 机器学习[M]. 北京:清华大学出报社,2016. [7] 王爱平,万国伟,程志全, 等. 支持在线学习的增量式极端随机森林分类器[J]. 软件学报,2011, 9(22): ...
展开查看详情

1. 基于组合分类器的 DDoS 攻击流 量分布式检测模型 贾斌 jb_qd2010@bupt.edu.cn 北京邮电大学 网络技术研究院 信息网络中心 18年9月3日 1

2. 引言 DDoS 攻击分布式检测模型设计 基于组合分类器随机森林方法 检测方法基本思想与评价指标 实验及结果分析 18年9月3日 2

3. 引言 • 互联网大数据时代 趋势:大规模、高速化、复杂化; 特点:数据流量大、数据分组到达频率高; 挑战:高速、大规模互联网业务下异常流量的高效、准确检测 18年9月3日 3

4. 引言 (续) • DDoS(Distributed Denial of Service) 攻击 概念:采用分布式协作的大规模 DoS 攻击方式,通过联合或 控制网络上的若干僵尸主机同时发起攻击,以此产生大规模的 数据流量并进入被攻击目标; 目的:消耗计算机系统资源或者网络带宽,致使目标主机服 务请求极度拥塞从而无法提供正常的网络服务。 18年9月3日 4

5. 引言 (续) • DDoS 攻击流量检测 目标:高检测率、低误报率; 检测能力:分布式体系架构下对网络流量实时采集及分析处理 ; 本研究提出一种基于决策树中随机森林算法的用于 DDoS 攻 击流量分布式检测模型,实验结果表明:采用随机森林算法对 攻击流量进行的分布式检测,无论是在检测率、正确率、精 确 率 , 还 是 误 报 率 方 面 均 优 于 Adaboost 算 法 ( 参 考 文 献 [2] )。 18年9月3日 5

6. 引言 DDoS 攻击分布式检测模型设计 基于组合分类器随机森林方法 检测方法基本思想与评价指标 实验及结果分析 18年9月3日 6

7. DDoS 攻击分布式检测模型设 计 • 传统的集中式攻击流量检测框架 弊端:对攻击流量的分析效率低下,协同处理能力差,不适合 实时在线检测; 应对方法:分布式攻击流量检测模型(拓展性好,能够适应网 络环境异常监测的动态调整与部署)。 18年9月3日 7

8. DDoS 攻击分布式检测模型设计 (续) • DDoS 攻击分布式检测模型共分为:数据采集模块、数据 预处理模块、分布式分类检测模块和报警响应模块四部 分。 18年9月3日 8

9. 引言 DDoS 攻击分布式检测模型设计 基于组合分类器随机森林方法 检测方法基本思想与评价指标 实验及结果分析 18年9月3日 9

10. 基于组合分类器的随机森林方法 • 决策树 - 基分类器 概念:通过对某个训练数据集的学习,以生成能够有效的对测 试数据集进行分类的一棵树,它是一种由结点和有向边所组成 的层次结构,树中包含三种结点:根结点、内部结点和叶子 结点。它所采用的分类属性是自顶向下,直至叶子结点。因此 ,决策树的每一棵树在开始阶段生成时,数据都集中在根结点 上,然后再递归的进行数据分类。 缺点:单棵树,用于单结点或者集中式的攻击流量检测模型; 不适合分布式攻击流量检测。 18年9月3日 10

11. 基于组合分类器的随机森林方法 (续) • 随机森林—组合分类器 定义:随机森林是一个树形分类器的集合,每个基分类器是用 CART 算法构建的没有经过剪枝的一棵分类回归树,由多棵树 所构成的森林的输出策略采取的是针对分类的简单多数投票 法。其表示如下: TC: {C (x, α_i), i=1,2,……n} ,其中, x 是 输入向量, α_i 是独立同分布的随机向量,它决定单棵决策树 的生长过程。 18年9月3日 11

12. 基于组合分类器的随机森林方法 (续) • 随机森林—组合分类器 特点:( 1 )通过在每个结点处随机选择特征进行分支,使得 每棵决策分类树之间的相关性达到最小化,既提高了分类精度 ,又有效解决了过拟合问题;( 2 )能预估特征属性在分类中 的重要性,由于单棵决策树的生长速度快,所以总体的分类速 度快,能高效处理大样本数据,易于实现并行化;( 3 )对噪 声数据具有较强的健壮性。 18年9月3日 12

13. 引言 DDoS 攻击分布式检测模型设计 基于组合分类器随机森林方法 检测方法基本思想与评价指标 实验及结果分析 18年9月3日 13

14. 检测方法基本思想与评价指标 • 检测方法基本思想 随 机 森 林 分 布 式 检 测 ( Random Forest Distributed Detection, RFDD )方法:将随机森林中每一棵决策树,即将 k 个基分类器分别部署到分布式检测系统中的 k 个从结点上,从 而得到 k 种分类检测结果;在系统的主结点上建立一个集中分 析处理模块,该模块的主要功能是:根据每个基分类器所得到 的 k 种分类检测结果对每条记录进行投票表决,从而得到对网 络流量正常与否的最终分类检测结果。 18年9月3日 14

15. 检测方法基本思想与评价指标 (续) • 评价指标  精确率: 误报率: 检测率: 准确率: 其中: 1) TP(True Positive): 将攻击流量正确的预测为攻击的记录个数; 2) FP(False Positive): 将正常流量记录错误的预测为攻击的记录个数 ; 3) TN(True Negative): 将正常流量记录正确的预测为正常的个数; 18年9月3日 4) FN(False Negative): 将攻击流量错误的预测为正常的记录个数。 15

16. 引言 DDoS 攻击分布式检测模型设计 基于组合分类器随机森林方法 检测方法基本思想与评价指标 实验及结果分析 18年9月3日 16

17. 实验及结果分析 检测率 正确率 18年9月3日 17

18. 实验及结果分析 (续) 精确率 误报率 18年9月3日 18

19. 附:参考文献 [1] 夏靖波,任高明 . 大流识别方法综述 [J]. 控制与决策 , 2013, 28(6): 801-807. [2] Hu Weiming, Gao Jun, Wang Yanguo, et al. Online Adaboost-Based Parameterized Methods for Dynamic Distributed Network Intrusion Detection [J]. IEEE Transactions on Cybernetics, 2014, 44(1): 66-82. [3] 董师师,黄哲学 . 随机森林理论浅析 [J]. 集成技术, 2013, 2(1): 1-7. [4] 方匡南,吴见彬,朱建平,等 . 随机森林研究方法综述 [J]. 统计与信息论坛, 2011, 26(3): 32-38. [5] A. Verikas, A. Gelzinis, M. Bacauskiene. Mining data with random forests: A survey and results of new tests [J]. Pattern Recognition, 2011, 44(2): 330-349. [6] 周志华 . 机器学习 [M]. 北京:清华大学出报社, 2016. [7] 王爱平,万国伟,程志全,等 . 支持在线学习的增量式极端随机森林分类器 [J]. 软件 学报, 2011, 9(22): 2059-2074. [8] 郭春 . 基于数据挖掘的网络入侵检测关键技术研究 [D]. 北京:北京邮电大学计算机 学院, 2014. [9] Chun Guo, Yajian Zhou, Yuan Ping, et al. A distance sum-based hybrid method for intrusion detection [J]. Applied Intelligence, 2014, 40(1): 178-188. [10] 曹正凤 . 随机森林算法优化研究 [D]. 北京:首都经济贸易大学统计学院, 2014. 18年9月3日 19

20. 谢谢大家! Q&A 18年9月3日 20