weka - 为weka datamining检索的缺失数据

首先，您需要考虑一些数据缺失的含义。它是否完全随机丢失，好像有人拿了一个完整的数据集并掷骰子来决定要删除哪些数据？或者数据丢失的事实可以为您提供有关该实例的一些信息吗？例如，如果您没有关于是否有人创建帐户的数据，也许这意味着他们拒绝共享此数据，该类别中的人实际上不太可能注册课程？

某些技术（例如常用的J48树分类器）可以处理丢失的数据。 J48实质上为一个实例处理一个缺失值，例如该值的聚合值，以及它没有丢失的所有属性。如果数据完全随机丢失，则应该给出有效的结果。

其他技术无法处理丢失的数据，如果您想使用其中一种技术，则必须从数据中删除属性或实例，直到没有剩余数据丢失，或者用某些内容替换缺失值允许使用这些属性和实例，或这些方法的某种组合。一种典型的方法是使用数字属性的非缺失值的平均值或标称属性的最常见非缺失值替换缺失值，但您也可以使用您选择的其他值替换缺失值 - 你甚至可以治疗＆＃39;失踪＆＃39;作为名义属性的新的单独值。

Weka在进行分类之前有过滤器可以为您执行这些操作，因此您不必自己进入并编辑.arff数据。

为weka datamining检索的缺失数据

1 个答案: