在检查信息增益后,仅使用重要属性,或使用完整的属性集来构建J48模型?

时间:2015-06-10 13:58:40

标签: tree weka c4.5 j48

Weka的J48允许我检查一整套属性的信息增益,我应该使用那些重要的属性来构建我的模型吗?或者我应该使用完整的属性集吗?

1 个答案:

答案 0 :(得分:1)

在数据挖掘中,您使用的功能数量,准确性和生成模型所需的时间之间存在多方面的权衡。理论上,您希望包含所有可能的功能以提高准确性;但是,以这种方式进行数据挖掘可以保证冗长的模型生成时间。此外,当树具有数千个节点时,生成像J48这样的文本决策树的模型并不有用。

根据您开始使用的功能数量,您可能希望删除无法提供足够大量信息增益的功能。如果您开始使用少量功能(例如少于20个),那么保留所有这些功能可能是有意义的。

如果您希望限制使用的功能数量,最好选择信息增益最高的功能。考虑主成分减少(可以通过WEKA完成)来帮助选择最佳特征也是值得的。