# LearningAndDetection

**Repository Path**: yue123161/LearningAndDetection

## Basic Information

- **Project Name**: LearningAndDetection
- **Description**: 带外攻击检测
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2024-02-06
- **Last Updated**: 2024-02-06

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# LearningAndDetection
  定义了网络流量数据的分布外数据类型，其次介绍了两个检测方法使用到的知识或技术，并利用这些技术知识设计了基于两种检测方法的分布外异常检测系统。
  首先提出了基于计算似然比的分布外数据检测方法。通过对原始数据加入扰动，再使用扰动数据训练扰动模型。利用似然比数学模型计算原始数据训练出的原始模型和扰动模型结果的似然比判断分布外数据。该部分详细介绍了网络流量数据的收集以及处理，原始和扰动模型的训练分别采用四种不同的机器学习算法和两种深度学习算法。最后使用公开网络流量数据集Moore对该模型以及算法进行了测试，结果显示在四种机器学习算法中随机森林算法拥有最高的识别准确率和最低的假阳率，而两种深度学习算法的性能效果均好于机器学习算法。其中LSTM网络得到了最高的识别准确率，BP神经网络在训练中出现了轻微的过拟合。最终验证了该算法的可行性，但该方法存在超参数不易设定，易受到数据类型的影响等缺点。
  基于以上方法的缺点，进一步提出了基于计算马氏距离的分布外数据检测方法。为了避免让待测样本与已知类别数据中的每一个样本都计算马氏距离，首先使用高斯判别分析数学模型以及基于训练好的分类器的结果找出与待测样本最为相似的类别，再使用马氏距离计算待测样本与该类别的相似度，若大于设定的阈值则判断待测样本为分布外数据。另外，本文还详细说明了比较阈值的设定。最后通过两个实验分别找出最为合适的阈值以及通过一些指标与基于计算似然比的检测方法进行对比，结果显示虽然在识别准确率略微低于基于计算似然比的方法，但在运行时间和计算资源占用方面优于前者。
  最后基于提出的两种分布外数据检测算法以及增量学习设计了一个分布外异常检测系统。该系统能够识别出现在测试数据集中的未知类别数据并将其加入到原模型中，通过增量学习的方法提高原模型的鲁棒性。