使用scikit-learn的自定义功能

时间:2014-03-24 12:37:06

标签: machine-learning classification scikit-learn

我正在开发一个对短文进行分类的项目。 我有一个要求是对短文本进行矢量化,我想添加其他功能,如文本长度,网址数等作为每个输入的功能。

是否支持scikit-learn? 链接到任何示例笔记本或视频非常有帮助。

谢谢, Romit。

2 个答案:

答案 0 :(得分:2)

您可以使用FeatureUnion类将不同变形体提取的特征(例如,提取词袋(BoW)特征的特征与提取其他统计特征的特征组合)组合。

这些特征的标准化以及关于不同BoW特征的数量的少量可能是有问题的。这是否有问题取决于下游培训模型的假设以及具体数据和目标任务。

答案 1 :(得分:-1)

我没有使用过FeatureUnion类。然而,我的方法更简单,更直接。从自定义管道中提取要素,并将其与您从scikit-learn管道中提取的内容附加。这只不过是在numpy / scipy中追加数组。

注意事项: a)您必须记住从自定义管道中提取的feature-id是什么。这将有助于您添加数组,而无需混合。 b)您必须对自定义管道功能进行标准化(根据需要)。

解决方案: 编写自定义功能提取器类。将特征提取,规范化等功能包含在其中。

相关问题