machine-learning - 计算此功能的优点以进行二进制分类

最终目标是创建一个binary classifier来输出＆＃34; YES＆＃34;大约10％的实例（基于培训数据）。分类器将使用binary, continuous and maybe some categorical features。

目前我正在提取范围[0;}中的a continuous feature 1]应描述产品的真实名称与其在文本字段中的潜在提及之间的相似性。我正在尝试different methods for extracting this feature（Levenshtein距离和其他一些算法）。

我不确定应该使用哪种feature metrics来选择（或至少近似）此功能的最佳提取方法;问题是：

应该使用哪种指标来推断特定功能的最佳提取方法，如果此功能

，该功能稍后将与不同的二进制分类算法一起使用

我会使用类似Pearson correlation的内容2）或Information gain是更好的指标吗？

度量标准不应该是特定于分类器的（我想在多个算法上使用提取的特征，例如决策树，逻辑回归，带有小调整的神经网络。）。