网络保护与数据应用分析
1. 机器学习在网络保险中的应用
在评估公司网络风险可保性时,多种机器学习(ML)方法被分析。例如,树集成模型(如随机森林)在拟合时会提供特征重要性属性,可利用该属性对特征的相对重要性进行排名和绘图。研究结果显示,在人工分类任务中使用树森林评估特征重要性时,最重要的特征是信用卡/持卡人及个人识别信息(CC/PII)数据,其他特征重要性相当,而其他IT保险则不太重要。
在模型选择方面,分类算法和随机森林分类器表现最佳。为评估和比较训练集与测试集的合适选择,可根据所得结果进行排名,进而为网络保险数据集创建更优算法。具体操作可通过聚合每个分类器的预测结果,并以多数投票的方式预测类别,使用Scikit - Learn可进行多数(硬)投票来实现。通过软投票能获得更好的结果,训练集达到100%准确率后,随机森林和投票分类器在测试数据集上分别达到87%和88%的准确率。
随机森林和梯度提升这两种学习方法结果相似,随机森林稍具优势。它们都是集成方法,训练多个模型并获取结果,但聚合结果的方式不同。随机森林使用自助聚合(装袋),即简单选择一个子集;梯度提升则更进一步,增强某些数据点,使其对结果模型产生更大影响。当梯度提升中的数据点被错误分类时,后续运行会对该点赋予更高权重。不过,对于网络保险数据集的预测,随机森林效果稍好且所需计算机资源更少。
在众多ML算法中,线性回归、套索回归、岭回归、逻辑回归和线性核支持向量机分类器在现有网络保险数据下未取得有意义的结果,不再进一步考虑;而高斯径向基函数支持向量机、多项式支持向量机、K近邻算法取得了有意义的结果,后续研究将集中在这些算法的特征工程以及深度学习神经网络中的机器学习平台(MLP)可能的应用上。相关算法评估情