Raw Live Packets的NSL KDD功能?

时间:2014-03-19 08:51:48

标签: java data-mining pcap

我想使用pcap和wincap提取原始数据。由于我将针对使用NSLKDD数据集训练的神经网络对其进行测试,我想知道如何从原始数据中获取这41个属性?或者即使不可能,也可以获得src_bytes,dst host_same_srv_rate等功能,来自pcap的原始实时捕获数据包的diff_srv_rate,count,dst_host_serror_rate,wrong_fragment?

3 个答案:

答案 0 :(得分:1)

如果有人想尝试使用KDD '99功能,尽管数据集名声不好,我创建了一个名为kdd99extractor的工具,用于从实时流量或.pcap文件中提取KDD功能的子集。

此工具是作为一个大学项目的一部分创建的。我还没有找到KDD '99功能的详细文档,因此与原始KDD相比,结果值可能略有不同。 README中提到了一些使用的来源。实施也没有完成。例如,未实现处理有效载荷的内容特征。

我的github repository可以使用。

答案 1 :(得分:0)

1999年KDD杯数据存在缺陷,不应再使用了

即使这样"清理了#34;版本(NSL KDD)不是现实

此外,许多"清理&#34>他们确实不明智。实际数据具有重复项,此类记录的频率很重要。通过删除重复项,您可以偏向您的数据,以实现更罕见的观察。你不能盲目地这样做"只是因为",或者更糟糕的是:减少数据集的大小。

然而,最大的问题仍然存在:

KDD99不以任何方式逼真

即使在1999年也不现实,但从那时起互联网发生了很大的变化。

使用此数据集进行机器学习 是合理的。其中的攻击最好通过简单的数据包检测防火墙规则来检测。这些攻击很清楚,在现代路由器的许多情况下,应该可以使用适当的探测器 - 高效率,100%检测率和0%误报率。它们是无所不在的,自1998年以来,这些攻击几乎不再存在

如果您想要真正的攻击,请查找SQL注入等。但这些不会出现在pcap文件中,但KDDCupc 99功能的大部分未记录的方式都是从这个中提取的......

停止使用此数据集。

说真的,它是无用的数据。标记的,大的,经常使用,但无用

答案 2 :(得分:0)

我似乎迟到了回复。但是,正如其他人已经回答的那样,KDD99数据集已经过时了。

我不知道NSL-KDD数据集的用处。但是,有几件事情:

  • 从网络流量中获取信息时,您可以做的最好的事情是获取统计信息(基于内容的信息通常是加密的)。你可以做的是创建自己的数据集来描述你想要考虑的行为" normal"。然后,训练神经网络以检测与正常"正常"的偏差。行为。
  • 要小心,即使是"正常"的定义行为从网络变为网络,并不时发生变化。

您可以查看这项工作,我参与其中,除了采用原始KDD的统计功能外,还可以从真实的网络环境中获取其他功能。

该软件正在申请中,可免费用于学术目的!这里有两个出版物链接:

  1. http://link.springer.com/chapter/10.1007/978-94-007-6818-5_30
  2. http://www.iaeng.org/publication/WCECS2012/WCECS2012_pp30-35.pdf
  3. 谢谢!

相关问题