machine-learning - 为什么在weka中实施KNN会更快？

回答问题1

我的猜测是Weka实现使用某种数据结构来有效地执行（近似）最近邻居查询。

使用这样的数据结构，可以比以天真的方式执行查询更有效地执行查询。

此类数据结构的示例包括KD tree和SR Tree。

在训练阶段，必须创建数据结构，因此比分类需要更多的时间。

回答问题2

（我不确定您是否参考 预测性能 或性能，如加速由于两者都是相关的，我将在答案中解决它们。）

对较不相关的功能使用较高权重，较低相关功能使用较低权重可以提高 预测性能 。

提高 预测性能 的另一种方法是执行功能选择。使用Mutual Information或其他类型的单变量关联（如连续变量的Pearson correlation）是执行特征选择的最简单，最简单的方法。请注意，减少变量数量可以在 计算时间 方面提供显着的加速。

当然，您可以同时执行这两项操作，即首先执行功能选择，然后对其余功能使用权重。例如，您可以使用互信息来对剩余要素进行加权。在文本分类的情况下，您还可以使用TF-IDF来加权您的功能。